Сетевая кодировка

Речь пойдёт не столько об стандартах и правилах, сколько об удобстве (в рамках стандартов). Иметь одну сетевую кодировку удобнее по многим причинам, к примеру, проще склонить производителей софта её поддержать. Сетевая кодировка как понятие не имеет никакого отношения к локальной кодировке, это форма представления информации в канале передачи данных. К примеру, пользователь кладёт свои странички в windows-1251, а провайдер выдаёт их в KOI8-R (конечно, кроме тех случаев, когда существенно используются неконвертируемые особенности windows-1251).

Если рассматривать WWW изолированно, то любая кодировка была бы возможной, в т.ч. и windows-1251, однако выбор сетевой кодировки определяется исходя из содержимого всей сети, а не только WWW, то есть ещё и FTP, News, Mail, Gopher, IRC. Возьмём объём документов в определённой кодировке по каждому сервису отдельно, а теперь скажите мне, какой процент сообщений в windows-1251 в конференциях по сравнению с KOI8-R? Такой подход не отрицание значимости WWW по сравнению с другими сервисами, а облегчение возможности интеграции всех сервисов в WWW.

Иногда в качестве аргумента за windows-1251 приводится наличие в ней дополнительных типографских символов, при этом забывают, что мы рассматриваем не отдельно взятую типографию под MS Windows, а сеть разнородных операционных систем и машин плюс множество разнородных сетевых сервисов, для такого случая надо выбрать и реализовать разумное подмножество всех символов языка, а не некий идеальный набор на все случаи, которым не является и windows-1251. В качестве такого подмножества вполне годится предлагаемая KOI8-R.

В качестве другого аргумента приводят также и мнение, что в windows-1251 русские буквы расположены в алфавитном порядке и это облегчает сортировку. Во-первых, в windows-1251 не все русские буквы расположены в алфавитном порядке, так что толку от этого никакого. Во вторых, для сортировки обычно используется описание порядка символов, аналогичное POSIX collate, сложность применения и скорость работы с ним будут одинаковы для обеих кодировок.

Подробности и обоснования смотрите в разделе по написанию русских HTML документов (англ.), можете ознакомиться с нашими впечатлениями по поводу текущего положения вещей в русскоязычной паутине и предварительным исследованием.