
Modeling and Information System in Economics
ISSN 2708-9746
Прогнозування популярності інтернет-курсів методами машинного навчання
Predicting the popularity of internet courses by machine learning methods
DOI:
10.33111/mise.101.14
Анотація: Масові відкриті онлайн-курси (МВОК) — приклад розвитку руху відкритого навчання, яке привернуло велику увагу як академічної, так і громадської сфери. МВОК не є самостійним явищем, ізольованим від інших розробок в області відкритого і дистанційного навчання або освітніх технологій. Навпаки, МВОК тісно пов’язані з іншими розробками в цій галузі, мають потенціал для підтримки навчання протягом усього життя, усунення перешкод у процесі навчання, забезпечення рівності можливостей в освіті і, що найголовніше, забезпечення лібералізації знань. У роботі визначено теоретичні засади формування ринку інтернет-курсів; проаналізовано сучасний стан і тенденції ринку інтернет-курсів України та світу; проведена класифікація інтернет-курсів залежно від їх рейтингової оцінки; прогнозується значення рейтингової оцінки для визначення популярності онлайн-курсів. Вирішення проблеми прогнозування популярності курсів у даному дослідженні досягається завдяки методам машинного навчання, які класифікують онлайн курси на основі параметру рейтингової оцінки. А саме, курси, які отримують максимальний рейтинговий бал, вважаються популярними.
Розв’язування задач класифікації чи регресії засобами машинного навчання найчастіше досягається шляхом побудови ансамблевих моделей. В основу такого підходу покладено гіпотезу про об’єднання кількох моделей, яке може призвести до утворення потужнішої моделі. Спосіб об’єднання моделей має бути адаптованим до їхніх типів. Наразі існує кілька мета-алгоритмів, що застосовують для утворення об’єднаних моделей. В одному з них (метод беггінгу) однорідні початкові моделі навчаються паралельно та незалежно одна від одної, а потім об’єднуються згідно певного детермінованого правила усереднення. Одним з варіантів цього алгоритму є метод випадкового лісу. В іншому алгоритмі моделі навчаються послідовно в адаптивний спосіб. Найпопулярні з них — адаптивний і градієнтний бустинг. Перший оновлює вагу кожного з об’єктів навчального датасету, а другий — оновлює значення цих об’єктів. При цьому обидва методи намагаються розв’язати задачу оптимізації для пошуку найкращої моделі, представленої зваженою сумою початкових слабших моделей. У даній роботі для прогнозування популярності інтернет-курсів застосовано алгоритми градієнтного бустингу та випадкового лісу. Запропоновані моделі гарантують 65-ти відсоткову точність прогнозів. Серед факторів, що знижують точність прогнозування, можна назвати атрибути, які не дуже корелюють із прогнозним значенням, а також диспропорція та значні викиди, які спостерігаються у даних. Розглянуті методи машинного навчання піддаються модифікаціям та тюнингу, що дає можливість покращити моделювання класифікатора.
Abstract: Mass open online courses (MОOС) are an example of the development of the open learning movement, which has attracted a lot of attention from both the academic and public spheres. IOC is not an independent phenomenon isolated from other developments in the field of open and distance learning or educational technologies. On the contrary, IOCs are closely linked to other developments in this field, have the potential to support lifelong learning, remove barriers to learning, ensure equal opportunities in education and, most importantly, liberalize knowledge.
The theoretical bases of formation of the market of Internet courses are defined in the work; the current state and trends of the Internet courses market in Ukraine and the world are analyzed; the classification of Internet courses depending on their rating assessment is carried out; the rating value is predicted to determine the popularity of online courses. The solution to the problem of predicting the popularity of courses in this study is achieved through machine learning methods that classify online courses based on the rating parameter. Namely, the courses that receive the maximum rating score are considered popular. Solving problems of classification or regression by machine learning is most often achieved by building 171 ensemble models. This approach is based on the hypothesis of combining several models, which could lead to the formation of a more powerful model. The method of combining models should be adapted to their types. Currently, there are several meta-algorithms used to form integrated models. In one of them (the method of bugging) homogeneous initial models are studied in parallel and independently of each other, and then combined according to a certain deterministic averaging rule. Currently, there are several meta-algorithms used to form integrated models. In one of them (the method of bugging) homogeneous initial models are studied in parallel and independently of each other, and then combined according to a certain determined averaging rule. One variant of this algorithm is the random forest method. In another algorithm, models are trained sequentially in an adaptive manner. The most popular of these are adaptive and gradient boosting. The first updates the weight of each of the training dataset objects, and the second updates the values of these objects. In doing so, both methods attempt to solve the optimization problem to find the best model represented by the weighted sum of the initial weaker models. In this paper, gradient boosting and random forest algorithms are used to predict the popularity of online courses. The proposed models guarantee 65 percent accuracy of forecasts. Factors that reduce the accuracy of the forecast include attributes that do not correlate much with the forecast value, as well as the disparity and significant emissions observed in the data. The considered methods of machine learning are subject to modifications and tuning, which makes it possible to improve the modeling of the classifier
Ключові слова: інформаційні технології, інтернет-навчання, алгоритм градієнтного бустингу, алгоритм випадкового лісу
Key words: information technologies, e-leaming, gradient boosting algorithm, random forest algorithm
УДК: 519.868:339.92
UDC: 519.868:339.92
To cite paper
In APA style
Yunkova, O., & Volodko, T. (2021). Predicting the popularity of internet courses by machine learning methods. Modeling and Information System in Economics, 101, 169-181. http://doi.org/10.33111/mise.101.14
In MON style
Юнькова О.О., Володько Т. Прогнозування популярності інтернет-курсів методами машинного навчання. Моделювання та інформаційні системи в економіці. 2021. № 101. С. 169-181. http://doi.org/10.33111/mise.101.14 (дата звернення: 11.04.2025).
With transliteration
Yunkova, O., Volodko, T. (2021) Prohnozuvannia populiarnosti internet-kursiv metodamy mashynnoho navchannia [Predicting the popularity of internet courses by machine learning methods]. Modeling and Information System in Economics, no. 101. pp. 169-181. http://doi.org/10.33111/mise.101.14 [in Ukrainian] (accessed 11 Apr 2025).

Download Paper
84
Views
30
Downloads
0
Cited by
- Balabanov D. V., Kovtun A. V., Kravchenko Y. A. TWO-STAGE BOOSTING OF BINARY CLASSIFICATION BASED ON THE APPLICATION OF BIOINSPIRED ALGORITHMS. IZVESTIYA SFedU. ENGINEERING SCIENCES. 2020. No. 3. P. 133–146. URL: https:// doi.org/10.18522/2311-3103-2020-3-133-146
- Жебка В. В. Оптимізація роботи алгоритму градієнтного бустингу за допомогою перехресної перевірки [Електронний ресурс] / В. В. Жебка, В. І. Виноградов, А. П. Бондарчук, М. М. Степанов. АКТУАЛЬНІ ПРОБЛЕМИ ЕКОНОМІКИ. №12 (222). — 2019. — Режим доступу до ресурсу: https://ecoscience.net/archive/2019/APE-12-2019/12.19 topic_Zhebka %20VV, %20 Vynohradov %20VI, %20Bondarchuk %20A.P., %20Stepanov %20M.M..pdf.
- Маслій Р.В. Застосування випадкових лісів для класифікації даних / Р.В. Маслій, О.Ю. Філіпчук. Veda a technologie: krok do budoucnosti–2014. 2014. Praha. Dfl. 30. — C. 24-27.
- Massive open online courses (MOOCs) & Definitions — Educational Technology. Educational Technology. URL: https://educationaltechnology.net/massive-open-online-courses-moocs-definitions/
- eNUFTIR: Home. URL: http://dspace.nuft.edu.ua/jspui/bitstream/ 123456789/19800/1/55.pdf.
- Contributors to Wikimedia projects. Udemy — Wikipedia. Wikipedia, the free encyclopedia. URL: https://en.wikipedia.org/wiki/Udemy. 181
- Шарова, Т. М. та Шаров, С. В. Масові відкриті онлайн курси як можливість підвищення конкурентоспроможності фахівця. Молодий вчений. 9.1 (61.1). 2018. С. 137-140. URL: http://eprints.mdpu.org.ua/id/eprint/2425/
- Петренко С. В. Сутність та особливості українських платформ масових відкритих онлайн-курсів (МВОК). Інноватика у вихованні. 2020. Т. 2. № 11. С. 165–173. URL: https://doi.org/10.35619/iiu.v2i11.260
- Parr Chris (2013), MOOC Completion Rates ‘below 7 %’: Open online courses’ cohort much less massive at finish line, Retrieved from Times Higher Education on July 24th, 2015: https://www.timeshighereducation.co.uk/news/mooc-completion-rates-below-7/2003710.article
- Jordan K. Massive Open Online Course Completion Rates Revisited: Assessment, Length and Attrition. International Review of Research in Open and Distributed Learning. 2015. Vol. 16, no. 3. P. 341– 358. URL: https://files.eric.ed.gov/fulltext/EJ1067937.pdf
- Glybovets M., Zhyrkova A. Using machine learning in sound classification tasks. NaUKMA Research Papers. Computer Science. 2019. Vol. 2. P. 22–31. URL: https://doi.org/10.18523/2617-3808.2019.2.22-31
- 10 Predictions for the Online Course Industry in 2021. Persuasion Nation: Passive Income Strategies for Busy People. URL: https://www. persuasion-nation.com/blog/10-predictions-for-the-online-course-industry-in-2021
- Massive Open Online Course Market Witnessing Impressive Growth Owing to the Surge in Demand amidst the Pandemic: FMI. URL: https://www.futuremarketinsights.com/press-release/massive-open-onlinecourse-mooc-market
- Чистяков C. П. Случайные леса: обзор. Труды Карельского научного центра РАН. 2013. № 1.С. 117–136. URL: http://resources.krc.karelia.ru/transactions/doc/trudy2013/trudy_2013_1_117-136.pdf.
- Оценка классификатора (точность, полнота, F-мера). Суровая реальность. URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html.
- Labintcev E. Метрики в задачах машинного обучения. Все публикации подряд / Хабр. URL: https://habr.com/ru/company/ods/blog/328372/.
- sklearn.metrics.log_loss — scikit-learn 0.24.2 documentation. scikit-learn: machine learning in Python — scikit-learn 0.16.1 documentation. URL: https://scikit-learn.org/stable/modules/generated/sklearn. metrics.log_loss.html.
- Contributors to Wikimedia projects. Перекрёстная энтропия — Википедия. Википедия — свободная энциклопедия. URL: https://ru.wikipedia.org/wiki/Перекрёстная_энтропия.
- IT & Software Courses Udemy — 22k+ courses. Kaggle: Your Machine Learning and Data Science Community. URL: https://www.kaggle.com/jilkothari/it-software-courses-udemy-22k-courses
- By The Numbers: MOOCs in 2020 — Class Central. The Report by Class Central. URL: https://www.classcentral.com/report/mooc-stats-2020/.