Электронные книги, с которыми сейчас могут иметь дело пользователи, бывают представлены в виде файлов самых различных типов. К числу наиболее популярных относятся следующие три.
DJVU – формат, созданный специально для размещения в сети Интернет отсканированных с хорошим разрешением изображений, содержащих текстово-графическую информацию. Изображение в этом формате, как правило, состоит из трёх слоёв: первый слой – “background”, содержит фон и малоконтрастные участки с плавными переходами оттенков, второй слой – “mask”, чёрно-белый трафарет-маска с высококонтрастными участками, такими как текст, схемы, графики, и третий слой – “foreground” с информацией о цвете для слоя маски. Слои “background” и “foreground” сжимаются вейвлет-алгоритмом IW44, а слой “mask” упаковывается методом JB2. В результате этого достигается очень высокая степень компрессии, благодаря чему DJVU очень удачно сочетает в себе относительно малые размеры выходного файла и довольно неплохое качество отсканированного изображения/текста, несмотря на то, что алгоритмы IW44 и JB2 являются методами сжатия с потерями. Формат сейчас усовершенствован – в него добавлен ещё и слой распознанного (OCR) текста. В целом, DJVU оказался особенно хорош для перевода в электронный вид старых книг, справочников и учебников, изданных в «докомпьютерную эру».
Перечень программ, позволяющих осуществлять просмотр файлов в таком формате, довольно обширен, я назову лишь “Djvu Solo” и “Djvu Viewer”, кроме того, есть ещё и плагин (plug-in) для Internet Explorer, позволяющий открывать djvu-файлы прямо в окне браузера [1, 2].
PDF – формат, основанный на языке программирования PostScript и облюбованный типографами за то, что позволяет подготавливать в электронном виде разнообразные публикации, обеспечивая при этом полное соответствие между напечатанной страницей и её отображением на экране компьютера. Формат использует для данных алгоритм сжатия без потерь, что позволяет получать относительно малого размера файлы многостраничных книг, содержащих большие объёмы текстовой информации и широко применяется для создания документации технического характера, а также электронных версий научных статей.
Язык PostScript предназначен для описания графических объектов, характеристики которых задаются при помощи математических уравнений, то есть он, прежде всего, нацелен на работу с векторной графикой (к ней относятся и изображения символов шрифтов типа True Type). В силу этого формат PDF тоже можно считать векторным, однако в него могут быть внедрены и растровые (фотографические) изображения. Благодаря этой особенности встречаются pdf-книги, которые представляют собой набор отсканированных страниц бумажного издания, и в этом плане они в чём-то подобны книгам формата DJVU.
Традиционно для просмотра pdf-файлов используется программа “Acrobat Reader” фирмы Adobe – создательницы этого формата. Сейчас появилось много альтернативных программ, также умеющих открывать файлы рассматриваемого типа, большой популярностью среди которых пользуется “Foxit Reader” [3].
CHM – изначально задумывался как формат файлов справки для операционных систем семейства Windows. Представляет из себя набор веб-страниц, сопутствующих им рисунков GIF, JPEG или PNG и других вспомогательных файлов (например, таблиц стилей), упакованных (скомпилированных) в один файл. Текстовая информация в нём подвергается сжатию, чем достигается сравнительно небольшой размер конечного файла. Формат стал сейчас достаточно популярным, поскольку позволяет создавать электронные книги с красивым оформлением и удобной навигацией, для чего с успехом используются достижения современного веб-дизайна. Кроме того, данный формат используется ещё и для создания офф-лайн версий интернет-сайтов.
Файлы в формате CHM хороши прежде всего тем, что для их просмотра в среде “Windows” (начиная с 98-го) не требуется установки дополнительного программного обеспечения – они по умолчанию открываются утилитой “hh.exe”, находящейся в папке с операционной системой. Скорее всего, по этой причине программисты не торопятся писать ещё какие-либо читалки файлов этого формата, но, тем не менее, программы сторонних разработчиков для просмотра содержимого chm-файла существуют, например, это “Ice Book Reader” [4, 5].
Кроме перечисленных типов файлов, электронные книги могут быть представлены также в форматах TXT, HTML, RTF или DOC. Постепенно набирает популярность и формат FB2. Для файлов этих пяти типов можно применять программу “Cool Reader”. Популярный файловый менеджер “Total Commander”, благодаря встроенному в него просмотровщику файлов (вызывается нажатием клавиши F3), вполне позволяет читать содержимое книг четырёх из указанных форматов (кроме DOC). Кратко о рассматриваемых форматах:
- TXT – формат «только текст», исторически самый старый. Данный формат – наиболее универсальный, информация из него может быть прочитана самыми разными приложениями, работающими в разных операционных системах. Главное достоинство – небольшой размер файлов, а недостаток – невозможность сохранить форматирование текста.
- HTML – формат веб-страниц и, соответственно, основная сфера его применения – сеть Интернет. Файлы этого формата достаточно компактны и при этом помимо самого текста содержат в себе информацию о его форматировании. Содержимое файла в таком формате можно просмотреть не только при помощи любого текстового редактора, но и посредством более специализированных программ – браузеров.
- RTF – аббревиатура, являющаяся одновременно и расширением файлов такого типа, расшифровывается как “Rich Text Format” – «Расширенный текстовый формат». В соответствии с таким названием, rtf-файл способен хранить в себе самое разнообразное форматирование содержащегося в нём текста. Основной недостаток, присущий файлам этого типа – сравнительно большой размер.
- DOC – собственный формат документов Microsoft (далее – MS) “Word” до пакета MS Office 2003 включительно. По причине огромной популярности этого текстового редактора де-факто стал ещё одним форматом для электронных книг. При отсутствии установленного на компьютере «родного» приложения из пакета MS Office doc-файлы в среде Windows можно открыть и просмотреть редактором “Writer” из пакета Open Office.org (далее – OO) или стандартной программой “WordPad”.
- FB2 – файлы формата “Fiction Book”, основанного на языке XML. Формат разработан специально для создания электронных книг с определённой структурой хранящейся в ней информации, что облегчает автоматическую обработку таких книг при размещении их в интернет-библиотеках.
Отзывы и комментарии
< Предыдущая | Следующая > |
---|