Мороз, Б.Кабак, Л.Варех, Н. В.Мороз, Д.Varekh, N. V.Moroz, B.Kabak, L.Moroz, D.2024-11-182023Мороз Б., Кабак Л., Варех Н. В., Мороз Д. Система класифікації текстових документів із використанням технологій Big Data. Information Technology: Computer Science, Software Engineering and Cyber Security. 2023. № 2. С. 34–40. DOI: https://doi.org/10.32782/IT/2023-2-4.2786-5088https://doi.org/10.32782/IT/2023-2-4https://dspace.mipolytech.education/handle/mip/1273У роботі було розглянуто модель системи класифікації документів з використанням технології Big Data. При використанні технології Big Data на сервері накопичується великий масив документів, які потрібно попередньо обробити та завантажити у базу даних. В документах потрібно визначити ключові слова за допомогою яких їх потрібно віднести до однієї або декількох тематичних розділів. Крім того розроблена система повинна працювати швидко та передбачати автоматичне навчання. Отже розробка моделей та методів класифікації текстових документів на дійсний час є актуальним завданням. Дуже інтенсивний розвиток цих методів спостерігається в останній час при стрімкому розвитку обчислювальної техніки, та при переході багатьох організацій на електронний документообіг. В результаті дослідження було розроблено метод та модель системи; запропоновано комбінацію підходів для навчання моделі; визначено найбільш продуктивну модель для навчання системи.The paper considered a model of the document classification system using Big Data technology. When using Big Data technology, a large array of documents accumulates on the server which must be pre-processed and uploaded to the database. In the documents you need to define keywords with a help of which you need to assign them to one or more thematic sections. In addition, the developed system should operate fast and provide automatic learning. Therefore, the development of models and methods of classification of text documents for real time is an urgent task. A very intensive development of these methods has been observed recently with the rapid development of computer technology and with the transition of many organizations into electronic document management. As a result of the study, a method and a system model were developed; a combination of approaches for model training is proposed; the most productive model for system training is determined.ukBig DataHadoopMap ReduceApache Sparkалгоритми машинного навчаннясистеми класифікаціїбайєсовський класифікаторMachine Learning Algorithmsystems of classificationBayes ClassifierСистема класифікації текстових документів із використанням технологій Big DataSystema klasyfikatsii tekstovykh dokumentiv іz vykorystanniam tekhnolohii Big DataArticlehttps://orcid.org/0000-0002-2779-9225