Программирование на JAVA

Лекция 3. Лексика языка

Лекция посвящена описанию лексики языка Java.

Лексика описывает, из чего состоит текст программы, каким образом он записывается и на какие простейшие слова (лексемы) компилятор разбивает программу при анализе. Лексемы (или tokens в английском варианте) - это основные "кирпичики", из которых строится любая программа на языке Java.

Эта тема раскрывает многие детали внутреннего устройства языка, и невозможно написать ни одной строчки кода, не затронув ее. Именно поэтому курс начинается с основ лексического анализа.

Ключевые слова: ASCII, Unicode, carriage return, linefeed, пробел, javadoc, идентификаторы, underscore, литералы.

Кодировка

Технология Java, как платформа, изначально спроектированная для Глобальной сети Internet, должна быть многоязыковой, а значит, обычный набор символов ASCII (American Standard Code for Information Interchange, Американский стандартный код обмена информацией), включающий в себя лишь латинский алфавит, цифры и простейшие специальные знаки (скобки, знаки препинания, арифметические операции и т.д.), недостаточен. Поэтому для записи текста программы применяется более универсальная кодировка Unicode.

Как известно, Unicode представляет символы кодом из 2 байт, описывая, таким образом, 65535 символов. Это позволяет поддерживать практически все распространенные языки мира. Первые 128 символов совпадают с набором ASCII. Однако понятно, что требуется некоторое специальное обозначение, чтобы иметь возможность задавать в программе любой символ Unicode, ведь никакая клавиатура не позволяет вводить более 65 тысяч различных знаков. Эта конструкция представляет символ Unicode, используя только символы ASCII. Например, если в программу нужно вставить знак с кодом 6917, необходимо его представить в шест-надцатеричном формате (1В05) и записать:

\u1B05,

причем буква и должна быть прописной, а шестнадцатеричные циф-РЬ1 А, В, С, D, Е, F можно использовать произвольно, как заглавные, Так и строчные. Таким образом можно закодировать все символы

Unicode от \u0000 до \uFFFF. Буквы русского алфавита начинаются с \u0410 (только буква Ё имеет код \u0401) по \u044F (код буквы ё \u0451). В последних версиях JDK в состав демонстрационных приложений и апплетов входит небольшая программа SymbolTest, позволяющая просматривать весь набор символов Unicode

Программирование на JAVA

Меню :

Стартовая

Основы программирования

Программирование на JAVA

Программирование на C++

Программирование на Pascal

Задачи по программированию

Навигация

Лекция 3. Лексика языка