Неформализованные документы, что это?

Технологии перевода бумажных документов в электронные

В отличие от бумажных документов, электронные могут обрабатываться более эффективно (тиражироваться, рассылаться, храниться и т.п.). В настоящее время активно развиваются технологии перевода бумажных документов в электронную форму с целью реализации электронного документооборота. Остановимся подробнее на применяемых технологиях и используемой терминологии.

На первом этапе перевода документа в электронную форму производится его сканирование и создается электронная копия документа в виде изображения. Изображение, полученное в результате сканирования, также называют образом документа. Сканирование является начальным этапом любой системы автоматизированного ввода документов.

В процессе сканирования может выполняться программная обработка изображения, а также производится визуальный контроль качества (рис. 3.6).


Рис. 3.6. Схема перевода бумажного документа в электронный вид

Если речь идет о промышленном вводе документов, то сканеры обычно предоставляют ряд дополнительных функций, например возможность подачи разноформатных документов.

Обычно процесс сканирования — это промежуточная стадия получения электронного документа. Очевидно, что с электронным изображением документа гораздо удобнее работать, чем с бумажным (его можно копировать, отправлять по сети и т.д.).

Однако в большинстве случаев само по себе изображение (образ документа) дает мало преимуществ. Для того чтобы можно было редактировать документ, осуществлять поиск по нему или использовать его фрагменты при подготовке новых документов и т.д., необходимо перевести полученный образ в текстовый документ, понятный офисным программам. Поэтому следующая задача заключается в распознавании отсканированных документов.

Для этого необходим специальный инструмент, способный перевести изображение в текстовый редактируемый электронный документ. Такие инструменты существуют, их общее название — программы оптического распознавания символов (optical character recognition, OCR). C помощью OCR-программы компьютер сможет «прочесть» на отсканированной странице текст, отделив его от иллюстраций и прочих элементов оформления, найти таблицы и «разобраться» в их содержимом. А затем скомпоновать все это заново, воссоздав внешний вид страницы.

С точки зрения перевода документов в электронный вид (ввода документов в компьютер) их условно делят на формализованные, неформализованные и специальные (рис. 3.7).


Рис. 3.7. Классификация документов с точки зрения специфики перевода в электронный вид

Формализованные документы — это документы, в которых заранее определена форма: расположение обязательных полей, в которые заносятся данные. Например, бланки, накладные, анкеты, картотеки и т.д. Неформализованные документы — это документы произвольной формы: договоры, письма и т.д. К специализированным относятся такие документы как, например, карты и отпечатки пальцев.

Перевод каждого из перечисленных видов документов имеет свою специфику. Если вводятся фотографии, то достаточно электронного изображения, если документ содержит текст, его необходимо распознать, если это форматированный текст с рисунками, то нужно не только распознать текст, но и восстановить формат документа, а если это анкета, то, скорее всего, сам документ вообще не нужен, важна только содержащаяся в нем информация. Например, при обработке листов для голосования обычно не требуется изображения самого документа, достаточно информации о том, за кого отдан голос.

Ввод формализованных документов

Чтобы пояснить, какие задачи возникают при вводе формализованных документов, рассмотрим конкретный пример.

Предположим, в офисе отеля проводится анкетирование проживающих для оценки уровня обслуживания на разных этажах. Каждому жителю отеля в его номере оставляется анкета, которую он должен заполнить (рис. 3.8).


Рис. 3.8. Пример заполненной анкеты

Если за месяц накапливается несколько тысяч таких анкет, то их обработка представляет собой непростую задачу. Очевидно, что получение образов (электронных изображений) этих анкет хоть и облегчает задачу их хранения, однако не позволяет использовать компьютер для обработки информации.

Чаще всего задача ввода форм (в данном случае анкеты) состоит в превращении образа документа в строчку базы данных, содержащую соответствующую информацию. Когда все анкеты будут введены в базу данных, можно будет их обработать и, например, выяснить, на каком этаже обслуживание ведется лучше.

При заполнении анкеты требуется ответить на вопросы и внести информацию в определенные служебные поля, а задача программы при вводе форм — определять эти специальные поля, распознавать информацию в них и ввести ее в базу данных. При этом особенностью ввода форм в компьютер является необходимость распознавания текстов, заполненных от руки.

Обычно в том случае, если форма должна распознаваться компьютером, заполняющего просят ввести текст раздельными буквами, и такой текст называют рукопечатным. Технологии распознавания рукопечатных символов обозначаются термином ICR (Intelligent Character Recognition). Распознавание рукопечатных символов представляет собой более сложную задачу по сравнению с распознаванием печатных, поскольку требуется распознать символ, вписанный в форму от руки с учетом возможных его отклонений, обусловленных индивидуальными особенностями почерка.


Рис. 3.9. Схема перевода бумажной формы в запись базы данных

Задачи распознавания при вводе форм не обязательно связаны с распознаванием текста. При вводе форм может потребоваться распознавание различных меток и знаков, для которого тоже существует свой термин: OMR (Optical Mark Recognition). Например, в бюллетенях для голосования голосующего просят поставить крестик (или другой знак) напротив фамилии кандидата, и задача компьютера — распознать, есть в определенном поле какой-нибудь знак или нет.

Неформализованный документооборот

Неформализованный документооборот – это возможность передавать в ИФНС и ПФР письма произвольного формата.

Рекомендуется отправлять письма в наиболее распространенных форматах *.doc (файлы MSWord) и jpeg (сканированные документы) и размером не более 2 Мб. Не рекомендуется отправлять файлы *.odt (файлы OpenOffice), tiff (неконвертированные изображения).

Для отправки в ИФНС используется тип письма «Прочее», для отправки в УПФР — тип «Письмо ПФ».

Для создания письма перейдите в реестр «Исходящие» (рис.1).

Рис.1. Главное окно программы

Нажмите «Создать» или клавишу Insert на клавиатуре (рис.2).

Рис.2.Создание нового письма

В выборе меню находим «Прочее» или «Письмо ПФ» соответственно (рис.3).


Рис.3. Выбор типа письма

При выборе письма «Прочее» (неформализованный документооборот с ИФНС, РосСтат) появится окно «Отправленный файл». Проверьте налогоплательщика, измените, если необходимо, получателя письма. В качестве получателя в данном случае можно указать налоговую инспекцию или орган государственной статистики (рис.4).

Рис.4. Письмо «Прочее»

«Прочее» письмо в налоговую или орган государственной статистики позволяет указать тему, содержание письма, и вложить несколько файлов. Заполните реквизиты письма, вложите файлы. Нажмите «Подготовить к отправке» (рис.4). После этого сохраните документ (кнопка «Сохранить»). Окно «Отправленный файл» закроется. Для отправки письма в реестре исходящих нажмите «Подписать и отправить».

При выборе «Письмо ПФ» (неформализованный документооборот с УПФР) появится окно «Письмо ПФ» (рис.5).

Рис.5. «Письмо ПФ»

Проверьте налогоплательщика, измените, если необходимо, получателя письма. Заполните реквизиты письма, вложите файлы. Нажмите «Подготовить к отправке» (рис.5). После этого сохраните документ (кнопка «Сохранить»). Окно «Письмо ПФ» закроется. Для отправки письма в реестре исходящих нажмите «Подписать и отправить».

Все неформализованные письма проходят через сервер спецоператора связи. В ответ на письмо ИФНС, РосСтат (или УПФР) отправляет в сторону налогоплательщика (страхователя) квитанцию о получении письма. Отсылка квитанции происходит автоматически. Квитанция должна быть получена налогоплательщиком (страхователем) в течение суток с момента отправки неформализованной отчетности. Получение квитанции подтверждает получение отправленного неформализованного письма ИФНС, РосСтат (или УПФР). Для просмотра квитанции перейдите в реестр «Исходящие», откройте отправленное письмо, нажмите на кнопку «Посмотрите квитанцию» для писем в ИФНС, Росстат (рис.6) (или «Квитанция о получении» для УПФР (рис.7)).

Рис.6. Просмотр квитанции от ИФНС, Росстат

УДК 681.518

Ю.Ю. Липко

АЛГОРИТМ ФОРМАЛИЗАЦИИ ТРЕБОВАНИЙ ПРИ РАЗРАБОТКЕ ИНФОРМАЦИОННЫХ СИСТЕМ*

Одной из актуальных проблем на начальных этапах жизненного цикла разработки информационных систем является формирование требований к системе, корректно и точно отражающих цели и задачи заказчика. Для успешной реализации проекта разработки информационной системы, отвечающей целям и задачам заказчика, нужно выяснить требования заказчиков к системе и преобразовать их на язык формальных моделей так, чтобы обеспечить соответствие целям и задачам организации. Для этого необходимо использовать наиболее эффективные методы преобразования требований в формальные модели. Объектом исследования являются подходы и методы преобразования требований в формальную модель при разработке информационных систем. Предложен алгоритм преобразования требований на естественном языке в формальную модель в виде гибридной диаграммы деятельности. Предложенный алгоритм позволяет получать основные и предметные знания из текстов требований, описывать структуру и поведение системы, преобразовывать созданную формальную модель в ряд других моделей UML, также предложенное табличное представление текста можно рассматривать как базу знаний при проектировании информационной системы. Практическая ценность результатов исследований определена их применением для решения проблем формализации требований на первом этапе жизненного цикла разработки информационных систем.

Технологии разработки информационных систем; преобразование требований; формальная модель; методы преобразования требований.

Yu.Yu. Lipko

THE ALGORITHM OF FORMALIZATION OF REQUIREMENTS WHEN DEVELOPING INFORMATION SYSTEMS

* Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 14-07-00910.

Для успешной реализации проекта разработки информационной системы, отвечающей целям и задачам заказчика, нужно преобразовать требования на язык формальных моделей так, чтобы обеспечить соответствие разработанной информационной системы целям и задачам организации.

В результате проведенного анализа методов преобразования требований в формальные модели было выявлено, что трансформации, как от требований в промежуточную модель, так и из промежуточной модели в формальную модель, описаны лишь на концептуальном уровне, что не дает возможность проверить их в действии . Соответственно встает вопрос о детализации, структуризации и уточнении правил трансформации. В рамках данной работы был разработан алгоритм преобразования требований в формальную модель, концептуально основанных на методе .

Рассмотрим алгоритм преобразования требований в формальную модель.

На первом шаге преобразований требований необходимо применить правила для трансформации предложений на естественном языке в табличное представление, которое состоит из пяти колонок: словосочетание вначале предложения, подлежащее, сказуемое, дополнение и словосочетание в конце предложения. На втором шаге преобразований необходимо заполнить все пустые ячейки в полученном табличном представлении текста. Эти пустые ячейки образовались из-за того, что в требованиях содержаться предложения в страдательном залоге. Пассивной формой (страдательным залогом) называется такая конструкция предложения, при которой подлежащее не является действующим лицом (или предметом), а само подвергается действию со стороны дополнения (при этом дополнение может лишь подразумеваться, не будучи выражено в предложении). Для этих случаев необходимо преобразовать форму глагола из страдательного залога в действительный, и осуществить некоторые перестановки между колонками «Подлежащее» и «Дополнение» в табличном представлении, если это требуется. Как только заполнены все ячейки в табличном представлении, необходимо определить рабочие точки в системе — актеров. Актеры являются абстрактными компонентами системы, и они соответствуют подлежащему в предложениях. Необходимо рассматривать подлежащее лишь в тех предложениях, которые имеют глаголы, отличные от «быть». Алгоритм, представленный в третьем шаге, применяется к табличному представлению, в результате чего создается лист актеров. На следующем шаге необходимо вписать действия, выполняемые каждым из актеров, в их рабочие точки в том порядке, в котором они появились в тексте. Для этого необходимо для каждого актера последовательно пройти колонку «сказуемое» в табличном представлении и выписать действия, выполняемые одним «подлежащим». Наречия времени может изменить порядок действий, но сейчас они не являются объектом нашего исследования. На пятом шаге, используя таблицу элементов, необходимо спроектировать граф элементов и установить пути между последовательно выполняемыми действиями. Связи в данном графе устанавливаются с помощью элемента «соединительный путь». Следует отметить, что данный элемент отличается от термина «сообщение», используемого в иМЬ-диаграмме последовательности. «Сообщение» в иМЬ обозначает то, что один актер инициализирует действия другого. Инициализация выражается через глаголы, но для того чтобы отличать, какие глаголы являются сообщениями, а какие являются действиями, нам необходимы знания и интуиция. Автоматический анализ нуждается в интуиции человека эксперта, и для того, чтобы сделать работу проще, во внимание принимается следующая логика: все действия выполняются в рабочих точках. Путем соединения действий фактически представляется результат действий между рабочими точками .

Для апробации алгоритма преобразования требований в формальную модель будет использоваться пример требований, которые написаны для веб-ориентированной информационной системы интернет-магазина. Используя алгоритмы преобразования требований, осуществим преобразования небольшой части текстовых требований, которые были составлены для интернет-магазина в гибридную диаграмму деятельности.

Исходный текст требований имеет следующий вид: Покупатель заходит в интернет-магазин, чтобы сделать очередную покупку. Покупатель выбирает нужный товар. Товар добавляется в корзину и проверяется его наличие на складе. Если товар есть на складе, то оплата может происходить двумя способами: наложенным платежом и с помощью банковской карточки. Если оплата будет наложенным платежом, тогда покупатель оплачивает товар при его получении. Если оплата будет через банковскую карточку, то у покупателя запрашивается номер карты, срок действия, держателя карты. Покупатель вводит необходимые данные, чтобы инициировать передачу денежных средств со своего банковского счета. Если покупатель имеет недостаточно средств на счете для оплаты товара, тогда банк отклоняет запрос, и покупатель информируется об этом; иначе, если банк принял платеж, то генерируется электронный чек и посылается покупателю. Если товара нет на складе, покупателю предлагается выбрать другой товар.

Используя правила, описанные в первом шаге преобразований, необходимо записать предложенные требования в виде табличного представления (табл. 1)

Таблица 1

Шаг 1. Пример табличного представление текста

№ Словосочетание (в начале) Подлежащее Сказуемое Дополнение Словосочетание (в конце)

1 Покупатель заходит в интернет-магазин ,чтобы

сделать очередную покупку

2 Покупатель выбирает нужный товар

3 Товар добавляется в корзину и

проверяется его наличие на складе

На втором шаге необходимо заполнить пустые ячейки данного табличного представления (табл. 2) в соответствии с правилами, описанными во втором шаге.

Таблица 2

Шаг 2. Трансформация страдательного залога в действительный

№ Словосочетание (в начале) Подлежащее Сказуемое Дополнение Словосочетание (в конце)

1 Покупатель заходит в интернет-магазин ,чтобы

2 ПОКУПАТЕЛЬ делает очередную покупку

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3 Покупатель выбирает нужный товар

4 SYSTEM добавляет товар в корзину и

5 SYSTEM проверяет его наличие на складе

Далее, в соответствии с третьим шагом, необходимо определить лист актеров, т.е. действующих лиц. Как видно из табл. 2, он будет следующим:

ЛА = (Покупатель, SYSTEM, Банк).

Теперь необходимо записать действия для актеров:

На пятом шаге, используя таблицу элементов графа 1, необходимо произвести построение семантической сети (графа). Сематическая сеть представлена на рис. 1.

Рис. 1. Семантическая сеть

На последнем шаге метода, путем использования простых правил преобразования, получаем гибридную диаграмму деятельности (рис. 2).

Каждое предложение в табличном представлении фактически — это элемент работы системы. Табличное представление можно рассматривать как базу знаний. Предложения упорядочены в таблицу, которая имеет все преимущества для обработки. Графическое представление знаний является очень важным, поскольку по-

зволяет визуально, быстро и точно определяется цель знания . Также полученный граф может быть преобразован путем несложных изменений в гибридную диаграмму деятельности, из которой можно получить другие виды ЦМЬ-моделей. Алгоритм преобразования текстовых требований в гибридную диаграмму деятельности может быть автоматизирован, поскольку написан в виде псевдокода .

Покупатель

заходит

делает

выбирает

нет

может оплатить

предлагает выбрать другой то

добавля гт товар

товар е скл на ть де я «

овар

оплачивает при получении

наложенным

платежом

да

запрашив кар ает номер ты

вводит данные ■

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

имеет недостаточно средств

да

нет

Банк

-*1-

отклоняет запрос

принимает платеж

информирует

покупателя

генерирует чек

посылает чек покупателю

Рис. 2. Гибридная диаграмма деятельности

Разработанный алгоритм позволяет: извлекать основные и специфические предметные знания из текстов; получаемая формальная модель является полной, поскольку одновременно описывает как структуру и поведение системы, поскольку гибридная диаграмма деятельности также включает понятия актеров, бизнес -правил и сообщений; есть возможность преобразовать созданную формальную модель в ряд других моделей UML; табличное представление текста можно рассматривать как базу знаний, что может найти применение в проектах, использующих извлеченные знания из текста; графическое представление позволяет использовать принцип модульности при дальнейшем проектировании информационной системы.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

— 2QQ9. — № 1 (9Q). — С. 82-9Q.

3. Abbott R. Program design by informal English descriptions // Communications of the ACM.

— 2QQ6. — Vol. 2б/1 і. — P. 882-894.

— P. 75-99.

— С. 147-І52.

— С. 70-74.

Статью рекомендовал к опубликованию д.т.н., профессор В.Н. Иванченко.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Основное различие формализованных и неформализованных электронных документов заключается в том, что формализованные документы – это электронные документы, строго соответствующие требованиям ФНС, в то время, как неформализованные электронные документы могут быть в любых форматах. Причём юридическую силу имеют оба вида документов, если они были подписаны квалифицированной электронной подписью.
Такое разделение существует, потому что в ФНС используют специальное ПО для обработки, которое работает с электронными документами только определённых форматов. Поэтому, при сдаче отчётности нужно следовать рекомендациям ФНС, иначе электронные документы могут быть не приняты. На сегодняшний день, законодательно установлено, что электронные подлинники документов должны быть в формате .XML, а отсканированные копии – в форматах .JPG, .TIFF, .PDF или .PNG.
Это касается следующих видов документов:
• счета-фактуры
• Универсальный передаточный документ (УПД)
• корректировочные счета-фактуры и УПД
• акты приемки работ

При этом, электронный документооборот между двумя юридическими лицами может быть в такой форме, в какой им будет удобно. Неформализованный электронный документ может быть в любом формате: doc, xlsx, pdf, jpg и др. Самое главное, чтобы такие электронные документы подписывались квалифицированной или неквалифицированной электронной подписью, иначе они не будут иметь юридической силы. Но если юридические лица в своём электронном документообороте решили использовать неквалифицированные электронные подписи, то между ними должно быть заключено соглашение о правилах использования и признания электронных подписей.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *