
Modeling and Information System in Economics
ISSN 2708-9746
Використання стратифікованого семплінгу контрольної вибірки для покращення предикативності моделей бустінгових дерев рішень
Usage of stratified sampling of control subset for predicativity improvement of boosted decision tree models
DOI:
10.33111/mise.99.10
Анотація: У статті проведено дослідження щодо забезпечення стабільності результату класифікації кредитоспроможності позичальника фізичної особи банку за допомогою алгоритму бустінгових дерев рішень з використанням стратифікованого семплінгу. Описано загальний принцип роботи платформи для досліджень у сфері науки про дані Kaggle, в рамках якого фахівці зі статистики та добування даних конкурують у створенні найкращих моделей для прогнозування та опису даних, запропонованих компаніями або користувачами. Проаналізовано моделі та програмну реалізацію алгоритму бустінгових дерев рішень для вирішення задачі оцінки кредитоспроможності позичальника банку. Описано найефективніші програмні пакети, що використовуються для програмної реалізації бустінгових дерев рішень — XGBoost та LGBM Для підтвердження результатів застосовано інструментарій програмного пакету LGBM на даних банку Home Credit доступних у ході Home Credit Competition на платформі з дослідження даних Kaggle. Наведено деталі змагання Home Credit Competition: проведено опис наданих даних, підхід до створення характеристик для навчання моделі та програмний підхід що був запропонований у ході участі у змаганні. У ході дослідження запропоновано використання стратифікованого семплінгу контрольної вибірки за цільовою змінною та найбільш значущими характеристиками в ході навчання моделі задля збільшення стабільності результату класифікації і підвищення ефективності валідації модернізації архітектури моделі. Експериментальним шляхом доведено, що використання стратифікованого семплінгу контрольної вибірки у ході навчання моделей бустінгових дерев рішень дає можливість збільшити стабільність результату моделі, що підвищує ефективність валідації модернізації архітектури моделі
Abstract: In the article has been conducted a research aiming increase of classification result stability of commercial bank’s debtor creditworthiness with usage of boosted decision trees algorithm with application of stratified sampling. The general principle of the Kaggle data science research platform is described, in which statistics and data mining specialists compete to create the best models for forecasting and data modelling based on the data offered by companies or users. Has been conducted an analysis of models and program implementation of boosted decision trees algorithm for estimation of commercial bank’s debtor creditworthiness. The most effective program packages are described — XGBoost and LGBM, which are used for program implementation of boosted decision trees. For confirmation of the results, has been used a program package LGBM on data of Home Credit Bank, available in the scope of Home Credit Competition on data science platform Kaggle. The details of Home Credit Competition are shared: conducted a description of input data, a description of an approach for creation of characteristics for training a model and technical approach which was proposed during participation in the competition. During the research proposed to use stratified sampling of control dataset by target variable and the most significant characteristics during training of a model to increase a stability of the result of classification and enhance efficiency during a process of modernization of model’s architecture. Proved experimentally, that the use of stratified sampling of the control sample during the training of boosted decision tree models makes possible to increase the stability of the model result, which increases the efficiency of validation of modernization of the model architecture.
Ключові слова: дерева рішень; градієнтний бустінг; стратифікований семплінг; XGBoost; LGBM; Kaggle.
Key words: decision trees; gradient boosting; stratified sampling; XGBoost, LGBM; Kaggle.
УДК: 330.4
UDC: 330.4
To cite paper
In APA style
Pyrohov, V. (2020). Usage of stratified sampling of control subset for predicativity improvement of boosted decision tree models. Modeling and Information System in Economics, 99, 119-131. http://doi.org/10.33111/mise.99.10
In MON style
Пирогов В. Використання стратифікованого семплінгу контрольної вибірки для покращення предикативності моделей бустінгових дерев рішень. Моделювання та інформаційні системи в економіці. 2020. № 99. С. 119-131. http://doi.org/10.33111/mise.99.10 (дата звернення: 11.04.2025).
With transliteration
Pyrohov, V. (2020) Vykorystannia stratyfikovanoho semplinhu kontrolnoi vybirky dlia pokrashchennia predykatyvnosti modelei bustinhovykh derev rishen [Usage of stratified sampling of control subset for predicativity improvement of boosted decision tree models]. Modeling and Information System in Economics, no. 99. pp. 119-131. http://doi.org/10.33111/mise.99.10 [in Ukrainian] (accessed 11 Apr 2025).

Download Paper
74
Views
26
Downloads
0
Cited by
- Harris R. More data will be created in 2017 than the previous 5,000 years of humanity. App Developer Magazine. 2016. URL: https://appdevelopermagazine.com/more-data-will-be-created-in-2017-than-the-previous-5,000-years-of-humanity-/ (дата звернення 01.05.2020)
- Платформа для змагань з аналітики та передбачувального моделювання Kaggle: веб-сайт. URL: https://www.kaggle.com/ (дата звернення 01.05.2020)
- Kaggle. Вікіпедія : веб-сайт. URL: https://uk.wikipedia.org/ wiki/Kaggle (дата звернення 01.05.2020)
- Home Credit Default Risk. Kaggle: веб-сайт. URL: https://www.kaggle. com/c/home-credit-default-risk (дата звернення 01.05.2020)
- Home Credit Default Risk Competition Data Description. Kaggle: веб-сайт. URL: https://www.kaggle.com/c/home-credit-default-risk/data (дата звернення 01.05.2020)
- Friedman J.H. Greedy function approximation: A gradient boosting machine. The Annals of Statistics, Vol. 29, No. 5. P. 1189-1232. URL: https://projecteuclid.org/download/pdf_1/euclid.aos/1013203451 (дата звернення 01.05.2020)
- Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System. arXiv:1603.0275. URL: https://arxiv.org/abs/1603.02754 (дата звернення 01.05.2020) 131
- LightGBM source code. Github. URL: https://github.com/Microsoft/ LightGBM (дата звернення 01.05.2020)
- Chen T. Story and lessons behind the evolution of XGBoost. URL: https://homes.cs.washington.edu/~tqchen/2016/03/10/story-and-lessonsbehind-the-evolution-of-xgboost.html (дата звернення 01.05.2020)
- Neyman J. On the two different aspects of the representative method: the method of stratified sampling and the method of purposive selection. Journal of the Royal Statistical Society, 97(4). 1934. P. 558-625. URL: http://www.stat. cmu.edu/~brian/905-2008/papers/neyman-1934-jrss.pdf (дата звернення 01.05.2020)
- Krizhevsky A., Sutskever I., Hinton G. E. ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing. №25, MIT Press, Cambridge. URL: http://www.cs.toronto. edu/~hinton/absps/imagenet.pdf (дата звернення 01.05.2020)
- Salakhutdinov R.R., Mnih A., Hinton, G.E. Restricted Boltzmann Machines for Collaborative Filtering. International Conference on Machine Learning. Corvallis, Oregon. 2007. URL: http://www.cs.toronto. edu/~hinton/absps/netflix.pdf (дата звернення 01.05.2020)
- Russell S.J., Norvig P. Artificial Intelligence: A Modern Approach. 2nd edition. New Jersey: Prentice Hall, 2003.
- Goodfellow I., Bengio Y., Courville A. Deep Learning (Adaptive Computation and Machine Learning series). Cambridge: The MIT Press, 2016