dojiksi
📷

Распознать текст с фото

Загрузи скан или фото — получи текст. Работает с русским и английским языком. Прямо в браузере, без загрузки на сервер.

📁 Перетащи фото сюда

или нажми, чтобы выбрать. JPG, PNG, фото с телефона.

Что такое OCR

OCR (Optical Character Recognition — оптическое распознавание символов) — это технология, которая «читает» текст с изображения и превращает его в редактируемый формат. Используется везде: от приложений для сканирования паспортов до Google Translate и ABBYY FineReader.

Наш инструмент использует Tesseract.js — современный движок OCR с открытым исходным кодом, разработанный Google. Точность распознавания качественных сканов — 95-98%, для фотографий с телефона — обычно 80-95%.

Когда нужен OCR

  • Сфотографировал документ — нужен текст. Договор, справка, бумажный конспект — за секунды получаешь редактируемый текст.
  • Чтение книг и статей. Сфоткал страницу — распознал — отредактировал/перевёл.
  • Конспекты лекций. Сфотографировал доску — сразу в текст.
  • Извлечь номер из фотографии. Например, номер телефона или ИНН на визитке.
  • Подготовка текстов для учёбы. Старые учебники без электронной версии — переведи в текст.
  • Цитаты из книг. Не нужно перепечатывать вручную.

Как сделать чтоб распознавалось точнее

  1. Хорошее освещение. Снимай при дневном свете или ярком лампе. Тени и блики снижают точность на 20-30%.
  2. Контраст. Чёрный текст на белом фоне — идеально. Светло-серый текст на сером фоне — почти не читается.
  3. Без перспективы. Держи камеру строго перпендикулярно странице. Перекос → буквы кривые → ошибки.
  4. Без размытия. Фиксируй фокус — лучше всего автофокус по центру.
  5. Достаточное разрешение. Минимум 1500 пикселей по широкой стороне. На современных телефонах это получается автоматически.
  6. Сначала выпрями. Используй приложение «Заметки» (iPhone) или Google Drive «Сканировать» (Android) — они автоматически выровняют документ.

Безопасность

Распознавание происходит на твоём устройстве. Файлы никуда не отправляются — ни на наш сервер, ни в Google. Это значит:

  • 🔒 Можно безопасно распознавать паспорта, договоры, медкарты, выписки
  • 📶 Работает без интернета (после первой загрузки)
  • 🛡 Никто не сможет «прочитать» твои сканы — они есть только у тебя

Первая загрузка инструмента (модели языков) занимает ~30 МБ и работает 30-90 секунд. Дальше — мгновенно.

Языки и точность

  • Русский — 92-97% для качественных сканов, 75-90% для фото
  • Английский — 95-99% / 85-95%
  • Рукописный текст — не поддерживается (нужна нейронка)
  • Печатные шрифты любые — Times, Arial, Verdana и другие
  • Сильно стилизованные шрифты (рукописные имитации, готика) — низкая точность

Альтернативы и сравнение

  • FineReader Online — платный, очень точный, для серьёзной работы
  • Google Lens — бесплатный, точный, но всё уходит в Google
  • Adobe Acrobat OCR — платный, для PDF
  • Наш OCR — бесплатный, приватный, прямо в браузере, подходит для бытовых задач

Частые вопросы

Может ли распознать рукописный текст?

Tesseract на рукописный текст не рассчитан. Точность будет 30-50%, что обычно бесполезно. Для рукописного нужны нейросети — Google Lens или ABBYY ScanWriter.

Какой максимальный размер фото?

Технически — сколько хватит памяти браузера. На практике до 10 МБ. Очень большие фото лучше сначала сжать.

Как из PDF получить текст?

Открой PDF в браузере, сделай скриншот страницы и загрузи сюда. Или конвертируй PDF в JPG через любой бесплатный сервис.

Почему первый раз долго работает?

Скачивается модель распознавания языков — ~30 МБ. После — всё мгновенно.