Оптическое распознавание символов в PDF-файлах

Если вы хоть раз сталкивались со сканированием документов, вы наверняка знаете, что обычное программное обеспечение для сканирования просто создает изображение вашего документа. Оно не создает редактируемый текст с возможностью поиска. Это хорошее решение, если все, что вы хотите сделать, это оцифровать файл. Однако, если вы хотите создавать интеллектуальные документы, с возможностью редактирования, повторно использовать, искать и делать их доступными для поиска в вашем архиве, вам понадобится нечто большее. Именно в этих случаях необходимо оптическое распознавание символов (OCR).

OCR преобразует отсканированные изображения в документы с возможностью редактирования и поиска, но необходимо учитывать некоторые сложности.

OCR превращает ваши отсканированные документы в редактируемые и доступные для поиска документы путем преобразования статических изображений слов в реальный текст с возможностью поиска.

Проблема в том, что несмотря на то, что современные механизмы распознавания довольно сложны и делают все возможное для распознавания символов в документе, распознавание никогда не бывает 100%. Часто на это влияет качество отсканированного документа, а также используемое программное обеспечение OCR и ряд других факторов. 

Технически, текст OCR также называется «скрытым текстом» в PDF, поскольку вы обычно видите изображение в редакторах PDF, а текст OCR в основном расположен за изображением.

Решение Foxit PhantomPDF предлагает удобную функцию, которая позволяет вам оставаться в редакторе PDF и видеть при этом текст OCR. Просто нажмите «Просмотр текста».

С Foxit Text Viewer вы можете работать со всеми документами PDF в режиме просмотра чистого текста. Это позволяет легко повторно использовать текст, разбросанный по изображениям и таблицам, а также действует как блокнот.

Чтобы войти в режим просмотра текста, выполните одно из следующих действий:

  • Выберите «Просмотр»> «Просмотр документов»> «Просмотр текста».
  • Нажмите сочетание клавиш Ctrl + 6.

Если вы хотите исправить ошибки распознавания или внести изменения, вы можете сделать это с помощью PhantomPDF.

Этот метод хорошо работает для разового сканирования, которое вы конвертируете в OCR. Однако, если вам требуется высокая степень распознавания для большого объема документов, Foxit может помочь вашей организации выполнить высококачественное распознавание текста. Для этого, вы можете ознакомиться с решением Foxit Server.

Источник Foxit

Foxit – лидирующий разработчик в области электронного издательства и документооборота. Использование программных продуктов Foxit повышает продуктивность работы за доступными ценами, при этом обеспечивая надежную защиту PDF документов.

По вопросам приобретения решений Foxit обращайтесь к нашим специалистам 0 800 75 01 34 или sales@softico.ua

Похожие новости