iconv ascii utf-8

26 октября 2011 года
Надеюсь, вам знакомы понятия битов и байтов; биты представляют состояние отдельной ячейки в ОЗУ системы, а байт равен восьми битам в логической последовательности, которая может быть составлена 256 разными способами.
Технические специалисты англоговорящего мира привыкли к тому, что один латинский символ — или, на типографском жаргоне, глиф — можно представить при помощи одного байта. Подобное правило распространялось и для других алфавитов.
Рассмотрим пример азбуки Морзе: его представление символов состоит из последовательностей точек (аналог нулевых битов) и тире (аналог единичных битов) разной длины. В этом случае назначение символу уникальной последовательности точек и тире зависит от средней частоты его появления в телеграфных сообщениях.
Что касается компьютерной области, то здесь применяются систематические правила. Термин «систематический» вызывает множество вопросов.
Должны ли буквы верхнего регистра быть помещены перед буквами нижнего регистра или после них?

Сигналы управления должны идти в начале или в конце последовательности символов?
Определяет ли кодирующая схема следующее: первый бит кода является нулем/единицей или значением из диапазона 0-255?
Какие ограничения системы могут повлиять на финальную схему кодировки?
Каким кодовым позициям лучше не присваивать значения ради будущих изменений, например ради введения новых символов валюты?
Какая логика присваивания должна применяться в случае с иероглифическими системами письменности вроде ханзи и кандзи, а также в случае сложных слоговых азбук вроде Хангул?
Будет ли конкретная кодировка удобна для применения всеми пользователями данного правописания?
Избыток различных кодировок, применяемых в наши дни, объясняется тем, что разные инженеры находили на эти вопросы разные ответы. В Сети многие этих кодировок должны поддерживаться обязательно. ASCII, ISO 8859-1, Unicode и UTF-8
В середине 1960-х годов несколько команд разработчиков объединили усилия для создания базовой 7-битной (128-позиционной) кодирующей схемы постоянной ширины для латинских символов, использующихся в американском английском языке, и назвали ее ASCII ( American Standard Code for Information Interchange — Американский стандартный код для обмена информацией). Основой для ASCII стали ранние схемы кодирования для телетайпов.

Несколько лет спустя вышло постановление о том, что все компьютеры, хранилища и конфигурации оборудования для передачи информации, заказываемые правительством США, должны поддерживать ASCII — и очень скоро ASCII стала использоваться во всем англоговорящем мире.
В 1980-х годах Международная организация по стандартизации ( International Standards Organization, ISO) опубликовала стандарт для кодирования нескольких европейских и ближневосточных алфавитов, многие из которых базировались на латинском алфавите. Все эти схемы кодирования — которые повсеместно используются и сегодня в виде кодовых страниц ISO 8859 — были наполовину составлены из ASCII.
Постепенно этот процесс дошел до Востока, и была проделана работа по приспособлению стандартных схем кодирования для систем письменности и в других странах, особенно в Японии. В начале 1990-х результаты работы вместе с поправками были отражены в стандарте Юникод, который с тех пор непрерывно расширялся и стремился к представлению всех известных систем письменности, включая и мертвые алфавиты, используемые в исторических записях.
Таблицы кода Юникод на данный момент содержат более 100000 символов. В Сети символы каждого документа обычно кодируются при помощи схемы UTF-8 ( 8-bit Unicode Transformation Format — 8-битный формат преобразования Юникод). Это схема с меняющейся шириной, которая кодирует все символы ASCII в один байт (из максимум четырех), тем самым обеспечивая обратную совместимость со всеми системами, опирающимися на ASCII, кроме самых ранних.
Идентификаторы: Интернет, Веб-интерфейс, Веб-элементы

ascii utf 16 table

ascii utf 8 converter

То есть, вместо UTF-символов мы имеем их запись в виде ASCII.  Чтобы в utf-8 получить, необходимо написать: native2ascii -reverse -encoding utf-8

Читать

ascii utf-8 characters

ASCII - не 256 символов, а 128 - нет такой вещи как "расширенный ASCII" - это  в Unicode: - UTF-16 - все символы, будь то русский/немецкий/японский - 16 бит значение.