.-----------. | Kodowanie | `--.--------' | .: Kodowanie transportowe - sposób zapisu wiadomości tak, by mogła zostać | przesłana i odebrana bez zniekształcenia również przez bardzo stare | programy. | Kodowanie transportowe jest używane do przesyłania załączników lub znaków, | których nie akceptuje program komunikacyjny jednej ze stron obsługujących | przesyłkę. | Znane kodowania transportowe to: | - Quoted Printable - zachowuje maksymalną czytelność zakodowanego tekstu; | - Base64 - daje mały przyrost objętości zakodowanej wiadomości (stąd | używane do przesyłania binariów); | - uuencode - historyczny poprzednik Base64, używany np. do kodowania | załączników w treści wiadomości (inline); nadmiernie uproszczony | algorytm rozpoznawania takich załączników w OE pokazuje je nawet | wtedy, kiedy ich faktycznie nie ma (błąd begin"). | .: Zestaw znaków - uporządkowany wykaz znaków używanych do zapisywania | wiadomości w danym języku (rodzinie języków). Stosowany najczęściej | we współczesnych komputerach sposób zapisu znaków (jeden znak - jeden bajt) | nie pozwala na zapisanie znaków ze wszystkich języków, stąd pomysł | wprowadzenia zestawów znaków. Cechą charakterystyczną jest to, że każdy | zestaw zawiera: | - Podstawowy zbiór znaków wspólnych (z przyczyn historycznych jest to | zestaw us-ascii), które występują w każdym zestawie z tym samym numerem. | Dzięki takiemu rozwiązaniu zestaw znaków us-ascii może być przesyłany | bez używania kodowania transportowego czy deklarowania zestawu znaków, | jest więc zestawem domyślnym. | - Zbiór znaków charakterystycznych dla danego języka (rodziny języków). | Jednakowe numery w różnych zestawach mogą tu odpowiadać różnym znakom. | Dla niektórych języków z przyczyn historycznych zostało zdefiniowanych | kilka, a nawet kilkanaście różnych zestawów, jak to jest w przypadku | języka polskiego. Nie wszystkie z nich zostały dopuszczone do używania | w Internecie, i zazwyczaj tylko jeden z nich został przyjęty jako | standard dla danego języka. W przypadku języka polskiego jest to | zestaw znaków iso-8859-2 i tylko jego należy używać. | | Uwzględniając powyższe, oczywiste wydają się następujące rozwiązania: | - zestaw znaków MUSI być zadeklarowany w wiadomości, jeśli ma ona być | czytelna dla innych bez odgadywania, co autor miał na myśli czy próby | (najczęściej błędnej) automatycznego dopasowania zestawu. | - ponieważ deklaracja zestawu znaków następuje w jednym z nagłówków, więc | znaki z innych zestawów niż domyślny MUSZĄ być w nagłówkach zapisane z | użyciem kodowania transportowego. | Rozwiązania te będą sensowne również po zmianie domyślnego zestawu znaków, | jakim w niedalekiej przyszłości stanie się Unikod (patrz Unikod) | w kodowaniu (patrz kodowanie) utf-8. | .: Unikod - Unicode, zestaw w założeniu obejmujący znaki wszystkich | ziemskich języków i wszystkie znaki typograficzne. Rozwiązanie, które | ma zastąpić stosowanie oddzielnych zestawów znaków (są one podzbiorami | Unikodu) i usunąć wiele niedogodności wynikających ze stosowania zestawów, | np. kłopoty z przytaczaniem w wiadomościach tekstowych cytatów w różnych | językach. Stosowanie Unikodu w istotny sposób może również ograniczyć | powszechne dziś występowanie wiadomości z błędną lub pominiętą deklaracją | zestawu znaków czy cytowaniu takich wiadomości. | Przyjęcie kodowania utf-8 pozwala na zachowanie wysokiej czytelności | tekstu również w starych programach i równocześnie daje minimalny narzut | na wielkość zakodowanego tekstu. | | dla potrzeb pl.internet.pomoc spisał Andrzej P. Woźniak | .--^------------[ wróć na stronę główną ]------------------. | Najnowsza wersja tego dokumentu znajduje się pod adresem | | http://evil.pl/pip/ | `---------------[ wróć do słownika ]-----------------------'