Когда в СЭД/ЕСМ только реквизиты

Трендом последних лет стало наведение порядка, но, следуя тенденциям, уже не в бумажных, а в электронных документах и данных. Причем причины подобных запросов различаются.

Кейс 1. СЭД была внедрена под задачи автоматизации канцелярии в рамках доступного на тот момент бюджета. Все доработки были записаны в планы развития и отложены до появления нужного финансирования. В итоге документы в течение нескольких лет регистрировались в системе только по стандартным реквизитам – номеру, дате, отправителю.

Результат: канцелярия автоматизирована, задачи бизнес-подразделений не выполнены. Любая попытка анализа/составления подборок документов среди накопленных 2,7 млн. страниц Jpeg и PDF упирается в ограничения поиска. Искать документы и составлять подборки можно только по реквизитам. 

Кейс 2. Другая группа задач возникает, когда появляются кросс-процессы, требующие подбора документов по субъекту или объекту из разных корпоративных систем. 

Например, в системе управления имуществом земельный участок учтен по кадастровому номеру, а в CRM в переписке с контрагентом фигурирует исключительно адрес, причем часто по-разному написанный. Для быстрого и качественного поиска необходимо научить системы связывать документы между собой по вторичным реквизитам и признакам.  

Как быть?

Можно пойти по пути развития полнотекстового, контекстного поиска. Но, учтите, что хороший поисковый «движок» и адаптация алгоритмов к вашим и отраслевым особенностям потребуют немалых вложений, а поиск все равно будет релевантным.

Вместо полного комплекта актуальных документов сотрудник будет получать списки результатов, как в Google или Яндекс. Если, скажем, наименование контрагента в Дополнительном соглашении написано с ошибкой, неверно распознано или отличается от принятого написания, то документ не попадет в поисковую выдачу или будет ближе к ее концу, и может быть банально пропущен. 

Проще и дешевле, оказывается, подготовить сами документы – дополнить их расширенными реквизитами, необходимыми для поиска и взаимосвязи между собой. Это, к тому же, не требует большой доработки информационных систем, нужно будет лишь добавить поля для недостающих данных. 

Чтобы уйти от дорогостоящих методов извлечения данных  – шаблонов OCR-программ с их ограничениями и ручным перепечатываем букв силами взвода операторов, – в ЭЛАР разработана и уже более семи лет применяется особая технология оцифровки. 

Технология универсальна, то есть подходит для обработки всех документов. Ее функцию даже можно даже назвать «топорной» – находить в тексте все смысловые сущности, которые определит пользователь: ФИО, наименования, адреса, суммы и т.д. Но за этой «топорностью» стоят очень серьезные интеллектуальные алгоритмы.

В результате мы смогли заменить многомесячный ручной труд операторов  несколькими часами работы программы. И, кстати, в отличие от оператора, программа не пропускает нужной информации в тексте. 

Не все так просто

Программа извлекает сведения именно такими, какими они написаны в документе. А для качественного поиска и установления взаимосвязи между документами данные должны быть приведены к единообразию написания. Именно по этой причине работа программных алгоритмов всегда сопровождается услугами проверки и нормирования извлеченных данных. 

В большинстве случаев вместе с нормированными данными сохраняются и изначально извлеченные, так как многие задачи (например, юридические вопросы) требуют работы именно с такими, аутентичными сведениями.

Здесь важную роль играют три обстоятельства:

1. Огромным подспорьем становятся имеющиеся в компании базы данных (тот же список контрагентов или физических лиц в ERP или CRM). Эти списки берутся за основу, и в 97% случаев программа самостоятельно устанавливает соответствие и приводит извлеченные данные к принятому в компании стандарту. Причем для гарантии качества, если позволяет политика безопасности, всегда сверяются 1-3 дополнительных реквизита – к примеру, ИНН и номер счета.

2. Отдельная группа задач – адресные данные. В документах, касающихся имущественных отношений, адрес вообще является главным реквизитом, связывающим в комплект документацию по объекту, в том числе в интерфейсе геоинформационных систем. 

Один и тот же адрес может быть записан более чем 20-ю разными способами. Поэтому приведение его к формату Федеральной адресной информационной системы (ФИАС), КЛАДР или корпоративному стандарту оказывается нетривиальной задачей. И снова мы решаем эту проблему с помощью программных алгоритмов, «раскладывающих  по полочкам» на основе морфологии и семантики группу сокращений и символов, с помощью которых адрес был записан. 

3. Но все же часть данных требует ручного ввода, нормирования и проверки. C`est la vie (с франц. - «такова жизнь»). Поэтому форматом услуг ЭЛАР всегда предусмотрена работа небольшой группы профессиональных операторов.

В итоге

  • Вы повышаете эффективность многих подразделений и процессов, просто доведя «до ума» уже имеющийся ресурс электронных документов. Никакого длительного сканирования, доработок систем и прочих ресурсоемких операций.
  • Вы делаете это с минимальными затратами и быстро, независимо от объема. Никакой дорогостоящей разработки шаблонов OCR-программ, которые к тому же не применимы для неструктурированных документов. Минимум ручного труда. 
  • Ну и еще один плюс – это возможность отдать на аутсорсинг обработку секретных документов или относящихся к коммерческой тайне. Наши операторы будут видеть только минимальные, не связанные между собой фрагменты информации.

Кейс 3. Технология может сопровождаться взаимосвязью документов посредством гиперссылок, в частности, в информационно-правовых системах.

Например, выходит новый Приказ, корректирующий 19 ранее подписанных актов. Программные алгоритмы анализируют текст документа и посредством гиперссылок связывают со всеми другими, которые в нем упомянуты. Гиперссылки проставляются на конкретные абзацы и места в текстах. 

Значительно упрощается работа по внесению и учету изменений, упрощается навигация. 

P.S. Вот так, коллеги, интеллектуальные технологии уже стали бытовыми. Прошу за дополнительной информацией заходить на сайт www.wescan.ru 


Возврат к списку