Tesseract

Материал из RSU WiKi
Перейти к: навигация, поиск
Pen.pngЭта статья находится в процессе написания.
Если вы считаете, что её стоило бы доработать как можно быстрее, пожалуйста, скажите об этом.

Tesseractсвободная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». Не так давно (в августе 2006 г) Google купил её и открыл исходные тексты под лицензией Apache 2.0 [1] для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0[2][3]) осуществляется с помощью дополнительных модулей[4].

Содержание

Графические оболочки (GUI)

GImageReader

Работа gimageReader

Кросплатформенный графический интерфейс (GUI) для консольного движка распознавания текста tesseract [4]. Для использования следует:

  1. Скачать и установить tesseract для windows из репозитория google http://code.google.com
  2. Скачать и установить графический интерфейс gImageReader из репзитория http://sourceforge.net/
  3. Опционально можно добавить в программу русский словарь из OpenOffice, скачав его по ссылке openoffice wiki http://wiki.services.openoffice.org и распаковав его в папку %Program Files%\gimagereader\share\myspell\dicts

Распознает нормально, но не чистит от мусора и не форматирует полученный текст.

Примечания

  1. Announcing Tesseract OCR
  2. Tesseract 3.00 Released
  3. Tesseract Download Page
  4. 4,0 4,1 Tesseract. Материал из Википедии — свободной энциклопедии

См. также

Личные инструменты
Пространства имён

Варианты
Действия
Навигация
Инструменты