Система класифікації текстових документів із використанням технологій Big Data

Ескіз

Дата

2023

Назва журналу

Номер ISSN

Назва тому

Видавець

Національний технічний університет «Дніпровська політехніка»

Анотація

У роботі було розглянуто модель системи класифікації документів з використанням технології Big Data. При використанні технології Big Data на сервері накопичується великий масив документів, які потрібно попередньо обробити та завантажити у базу даних. В документах потрібно визначити ключові слова за допомогою яких їх потрібно віднести до однієї або декількох тематичних розділів. Крім того розроблена система повинна працювати швидко та передбачати автоматичне навчання. Отже розробка моделей та методів класифікації текстових документів на дійсний час є актуальним завданням. Дуже інтенсивний розвиток цих методів спостерігається в останній час при стрімкому розвитку обчислювальної техніки, та при переході багатьох організацій на електронний документообіг. В результаті дослідження було розроблено метод та модель системи; запропоновано комбінацію підходів для навчання моделі; визначено найбільш продуктивну модель для навчання системи.
The paper considered a model of the document classification system using Big Data technology. When using Big Data technology, a large array of documents accumulates on the server which must be pre-processed and uploaded to the database. In the documents you need to define keywords with a help of which you need to assign them to one or more thematic sections. In addition, the developed system should operate fast and provide automatic learning. Therefore, the development of models and methods of classification of text documents for real time is an urgent task. A very intensive development of these methods has been observed recently with the rapid development of computer technology and with the transition of many organizations into electronic document management. As a result of the study, a method and a system model were developed; a combination of approaches for model training is proposed; the most productive model for system training is determined.

Опис

Ключові слова

Big Data, Hadoop, Map Reduce, Apache Spark, алгоритми машинного навчання, системи класифікації, байєсовський класифікатор, Machine Learning Algorithm, systems of classification, Bayes Classifier

Бібліографічний опис

Мороз Б., Кабак Л., Варех Н. В., Мороз Д. Система класифікації текстових документів із використанням технологій Big Data. Information Technology: Computer Science, Software Engineering and Cyber Security. 2023. № 2. С. 34–40. DOI: https://doi.org/10.32782/IT/2023-2-4.

item.page.endorsement

item.page.review

item.page.supplemented

item.page.referenced