Как распознать текст в Djvu (Djv) файле

images

Формат Djvu приобрел большую популярность в Интернет ввиду заявленной его компактности, но мне, он не нравится из-за низкого качества сохраненного текста. Читать в нем довольно тяжело. Гораздо интереснее выглядит, на мой взгляд, формат MDI  виртуального принтера MS Office (как из него копировать текст смотри ниже)…

Чтобы иметь возможность править его в текстовом редакторе, надо исходный djv файл преобразовать в текст.

Для этого сначала его необходимо конвертировать в формат, который понимают распознаватели текста, например, в картинки tiff. Необходимым условием правильного распознавания должно быть хорошее качество исходного файла.


Поступаем следующим образом: открываем исходный файл в программе, работающей с djv файлами. Я для этого использовал DjV Editor. Для текстового файла не забудьте переключиться в черно- белый режим (на рисунке не включен). Что получилось, вы видите ниже.

Открываем меню "печать" и выбираем виртуальный принтер из MS Office. Он, обычно, установлен по умолчанию.

В окне "печать" (верхнее по рисунку) выбираем номера страниц, необходимые для преобразования, и нажимаем кнопку "свойства".

На вкладке "дополнительно" (нижнее окно) устанавливаем формат tiff с разрешением 300 dpi. Нажимаем кнопку OK и ещё раз ОК.

Виртуальный принтер сохраняет выбранные страницы в довольно компактный многостраничный tiff - файл (одна страничка занимает 35 Кбайт), который теперь поймут нужные нам программы.

С конвертированием закончено. Теперь можно открыть этот файл для распознавания и затем сохранить его как текст. Такой программой может быть встроенный в MS Ofice "Document Imaging" или "ABBYY Fine Reader". Как это сделать, видно из рисунка.

Нажимаем на полученном нашем файле правой кнопкой мыши и из контекстного меню выбираем "открыть с помощью"...MS Ofice Document Imaging или ABBYY Fine Reader  в зависимости от поставленной нами цели. Я открыл документ в MS Office. Получилась следующая картина:

Удобство этой программы заключается в том, что можно выделить необходимый фрагмент текста
и правой кнопкой выбрать "копировать как текст".

Программа распознает выделенную область и
копирует в буфер обмена. При распознавании текста она выглядит так:

Теперь у нас есть текст, который можно вставить в текстовый редактор. Открываем MS World и вставляем в него из буфера наш текст, который редактируем, добавляем ещё куски и т. д. и получаем следующую картину:

Качество распознавания текста вполне приемлемо, хотя ошибок много. С картинками могут быть проблемы. Поэтому для сложных страниц лучше использовать Fine Reader.

У кого нет программы для работы с DJVu можете взять здесь

Как распознать текст в Djvu (Djv) файле Как распознать текст в Djvu (Djv) файле Reviewed by Симонов И on 14:00 Rating: 5

Комментариев нет:

Дорогие читатели!
Мы уважаем ваше мнение, но оставляем за собой право на удаление комментариев в следующих случаях:

- комментарии, содержащие ненормативную лексику
- оскорбительные комментарии в адрес читателей
- ссылки на аналогичные проекту ресурсы или рекламу
- любые комментарии связанные с работой сайта

Технологии Blogger.