Как сравнить два скана документа: OCR + AI в 2026
Подробный разбор сравнения отсканированных документов с помощью OCR и AI. Как распознавание текста работает в связке с искусственным интеллектом. Советы по качеству сканов.
Александр Гурин
Эксперт по внедрению Directum. Специализация - автоматизация документооборота, интеграция СЭД с учётными системами, цифровая трансформация бизнес-процессов.
Почему сравнить два скана сложнее, чем два Word-файла
Скан документа — это по сути фотография бумаги, сохранённая в формате PDF или JPG. В таком файле нет текста в привычном смысле: есть только пиксели, которые человек видит как буквы. Компьютер же видит просто картинку — и без специальной обработки не может понять, что на ней написано.
Именно поэтому встроенный Word Compare не умеет сравнивать сканы: он работает только с текстовыми документами. Для сравнения сканов нужна связка из двух технологий: OCR (распознавание текста на изображении) и AI (анализ полученного текста).
В этой статье разберём, как это работает, какие есть инструменты и на что обращать внимание при сравнении сканированных документов.
Что такое OCR и как он работает
OCR (Optical Character Recognition) — это технология распознавания печатного или рукописного текста на изображениях. Процесс работает так:
- Предобработка — изображение выравнивается, очищается от шумов, конвертируется в ч/б
- Сегментация — OCR находит области с текстом и разделяет их на строки и слова
- Распознавание символов — каждый символ сопоставляется с базой шрифтов
- Постобработка — применяется словарь, грамматика, контекст для исправления ошибок
Современные OCR-системы достигают точности 95-99% на качественных сканах печатного текста. На практике точность сильно зависит от качества исходного изображения.
Классические OCR vs Vision-LLM
Есть два подхода к распознаванию:
Классический OCR (ABBYY FineReader, Tesseract, Adobe Acrobat):
- Работает быстро
- Требует чистого изображения
- Хорошо распознаёт печатный текст
- Плохо справляется с нестандартным форматированием, рукописными пометками, повреждёнными документами
Vision-LLM (GPT-4 Vision, Claude Vision, MWS GPT Vision):
- Работает медленнее (до 5-10 секунд на страницу)
- Лучше понимает контекст документа
- Справляется с шумными сканами, наклоном, нестандартным форматированием
- Может отвечать на вопросы о документе, а не просто извлекать текст
- Стоит дороже, но результат качественнее
Наш сервис сравнения документов использует Vision-модель MWS GPT — это даёт лучшее качество для сложных случаев: стёртых штампов, плохих сканов, фотографий документов с телефона.
AI + OCR: как работает сравнение сканов
Когда вы загружаете два скана в сервис сравнения, происходит следующее:
Шаг 1. Извлечение текста
Сервис определяет формат каждого файла. Если это PDF с текстовым слоем — текст извлекается напрямую. Если это скан или JPG — запускается OCR через Vision-модель MWS GPT.
Шаг 2. Нормализация
Распознанный текст обрабатывается: убираются лишние пробелы и переносы, исправляются типичные ошибки OCR (например, «O» вместо «0»), нормализуется формат дат и чисел.
Шаг 3. Гибридное сравнение
Используется гибридный подход: классический diff (алгоритм difflib) находит все текстовые изменения, а LLM-модель анализирует их и классифицирует по смыслу. Это быстрее, чем прогонять всё через LLM, и точнее, чем использовать только классический diff.
Шаг 4. Классификация и оценка важности
Каждое найденное различие относится к одной из 7 категорий: реквизиты, условия, суммы, табличная часть, подписанты, структура, прочее. Каждому присваивается уровень важности: критическое, существенное, незначительное.
Шаг 5. Формирование отчёта
Результат выводится как структурированный отчёт с дашбордом, списком различий и рекомендациями. Всё можно скачать в виде юридически оформленной справки DOCX.
Пошаговая инструкция: как сравнить два скана
Шаг 1. Подготовьте сканы
Перед загрузкой убедитесь, что оба скана:
- Читаются глазом без затруднений
- Не перекошены больше чем на 5-10 градусов
- Не содержат крупных пятен, засветов или теней
- Имеют разрешение от 200 DPI (оптимально 300-400)
Если скан сделан на телефон — используйте приложения типа CamScanner, Microsoft Lens, Adobe Scan. Они автоматически выравнивают перспективу, повышают контрастность и сохраняют результат в виде PDF.
Шаг 2. Откройте сервис сравнения
Перейдите на alial.group/sravnenie-pdf. Сервис работает в браузере, без установки и регистрации.
Шаг 3. Загрузите первый скан
Перетащите файл (PDF, JPG, PNG, TIFF) в первое окно. Можно использовать скан или фотографию документа. Максимальный размер — 20 МБ.
Шаг 4. Загрузите второй скан
Второй файл может быть в любом формате — скан, фотография, PDF с текстовым слоем или даже DOCX. Форматы A и B могут различаться: например, можно сравнить скан договора с его электронной версией в Word.
Шаг 5. Нажмите «Сравнить документы»
Обработка сканов занимает чуть больше времени, чем текстовых файлов — обычно 30-60 секунд. Пока AI работает, вы видите прогресс: загрузка, распознавание текста (OCR), классификация, сравнение.
Шаг 6. Проверьте результат
После обработки появляется дашборд с процентом сходства, количеством различий и детальным списком изменений. Каждое изменение содержит:
- Категорию и тип
- Уровень важности
- Значения из документов A и B
- Пояснение от AI
Обратите внимание на пометку «ocr_used: true» в метаданных — она указывает, что был применён OCR, и стоит быть чуть более критичным к результатам распознавания (проверить важные цифры и реквизиты вручную).
Шаг 7. Скачайте справку DOCX
Для архива или отправки контрагенту скачайте аналитическую справку. В ней указаны все различия, рекомендации AI и информация о применении OCR.
Качество сканов: что влияет на результат
OCR не всемогущ — качество распознавания напрямую зависит от качества исходного изображения. Разберём основные факторы.
Разрешение
| DPI | Качество OCR | Применение |
|---|---|---|
| 100-150 | Плохо (80-85%) | Не рекомендуется для важных документов |
| 200 | Удовлетворительно (90%) | Минимум для сканов |
| 300 | Хорошо (95%) | Стандарт для архивирования |
| 400-600 | Отлично (98%+) | Для критичных документов с мелким текстом |
Контрастность
Тёмный текст на белом фоне — идеал. Серый, выцветший или бледный текст OCR распознаёт хуже. Если у вас старый документ с выцветшими чернилами, используйте режим «усиления контраста» в сканере или фотоприложении.
Шрифт и форматирование
Современные шрифты (Times New Roman, Arial, Calibri) распознаются идеально. Старые шрифты, декоративные, рукописные — хуже. Для официальных документов это обычно не проблема — там используются стандартные шрифты.
Наличие печатей и штампов
Печати и штампы могут перекрывать текст, и OCR не всегда корректно их обрабатывает. Vision-LLM справляется лучше классического OCR — она «понимает», что под печатью тоже есть текст, и может попытаться его восстановить по контексту.
Рукописные пометки
Рукописные правки, подписи и пометки маркером распознаются плохо. Если в документе есть важные рукописные заметки — проверяйте их вручную после AI-сравнения.
Типичные сценарии сравнения сканов
Скан vs Word
Один из самых частых сценариев: у вас есть оригинал договора в Word и сканированная подписанная версия от контрагента. Нужно убедиться, что текст совпадает. Загружаете DOCX в одно окно, скан — в другое. AI распознаёт скан, сопоставляет с Word-версией и показывает все расхождения.
Два скана разных редакций
Если вы работаете с бумажным документооборотом, часто приходится сравнивать два отсканированных варианта документа: действующий и новый. Оба обрабатываются через OCR, затем сравниваются.
Фото с телефона vs официальный скан
Бизнес-кейс: клиент прислал фото договора на WhatsApp, а у вас есть сканированная версия от юриста. AI обработает обе, несмотря на разное качество.
PDF с текстовым слоем vs скан
Современные PDF часто содержат текстовый слой, даже если выглядят как сканы. Для таких файлов OCR не нужен — сервис использует встроенный текст, что даёт 100% точность.
Ограничения и как с ними работать
AI + OCR — мощный инструмент, но не идеальный. Типичные ограничения:
1. Ошибки распознавания в мелких деталях
Даже при хорошем качестве скана OCR может перепутать похожие символы: «I» и «1», «O» и «0», «З» и «3». Для договоров с большими суммами это может быть критично.
Решение: после AI-сравнения всегда проверяйте суммы, номера счетов, ИНН вручную.
2. Сложности с таблицами
OCR хорошо распознаёт простые таблицы, но плохо — сложные с объединёнными ячейками, вложенными таблицами, многострочными ячейками.
Решение: для сложных табличных документов используйте PDF с текстовым слоем вместо сканов.
3. Проблемы с низкокачественными сканами
Скан 100 DPI, сделанный на старом копире, со следами сгибов и пятнами — это сложный случай даже для Vision-LLM.
Решение: повторно отсканируйте документ в лучшем качестве. Если это невозможно — используйте профессиональные программы предобработки (ABBYY FineReader позволяет улучшить скан).
4. Рукописные документы
Все ручные заполнения, подписи, пометки распознаются с низким качеством.
Решение: такие элементы проверяйте вручную. AI поможет с печатной частью — этого обычно достаточно.
Безопасность при работе со сканами конфиденциальных документов
Сканированные документы часто содержат чувствительную информацию: личные данные, финансовые показатели, коммерческую тайну. При использовании онлайн-сервисов обратите внимание на:
- Передача через HTTPS — никогда не используйте сервисы без шифрования
- Серверы в РФ — требование 152-ФЗ для обработки персональных данных
- Удаление после обработки — файлы не должны храниться
- Отсутствие обучения на ваших данных — важно для коммерческой тайны
- Возможность on-premise — для особо чувствительных данных
Наш сервис Алиал Групп работает на инфраструктуре MWS Cloud в российских ЦОД, все операции по HTTPS, файлы удаляются сразу после обработки.
Заключение
Сравнение сканов документов — задача, которая ещё недавно требовала ручной проверки или дорогих корпоративных систем. Сегодня связка OCR + AI доступна любому пользователю: вы загружаете два файла (даже если они отсканированы на плохом копире или сфотографированы на телефон), и за минуту получаете структурированный отчёт со всеми различиями.
Ключевое — правильно подготовить сканы (хорошее разрешение, без перекоса, чёткий текст) и критически проверять важные детали (суммы, реквизиты) после автоматического сравнения.
Попробуйте наш сервис сравнения PDF и сканов — он автоматически применяет OCR там, где это нужно, и работает с любыми форматами изображений.
Также рекомендуем:
Теги: