МЕТОД НА ОСНОВІ ВИПАДКОВОГО ЛІСУ ДЛЯ ВИЯВЛЕННЯ ЗАЛЕЖНОСТЕЙ ОЗНАК: ПОРІВНЯННЯ З КОРЕЛЯЦІЄЮ ПІРСОНА, ВЗАЄМНОЮ ІНФОРМАЦІЄЮ ТА КОРЕЛЯЦІЄЮ ВІДСТАНЕЙ

Автор(и)

DOI:

https://doi.org/10.32782/tnv-tech.2025.1.8

Ключові слова:

машинне навчання, залежності між ознаками, випадковий ліс, навчання без учителя

Анотація

У цій роботі ми представляємо новий метод ідентифікації залежних ознак у наборах даних без цільової змінної, що є критичним завданням у навчанні без учителя. Розуміння залежностей між ознаками є важливим для багатьох застосувань машинного навчання, зокрема для зменшення розмірності, вибору ознак і передобробки даних, де необхідно враховувати як лінійні, так і нелінійні взаємозв’язки між ознаками. Традиційні методи виявлення залежностей, такі як коефіцієнт кореляції Пірсона, взаємна інформація та кореляція відстаней, широко використовуються, проте часто мають обмеження, особливо при роботі зі складними, багатовимірними даними або нелінійними залежностями.Наш підхід вирішує ці проблеми за допомогою генерації синтетичного набору даних.Зокрема, ми створюємо синтетичні ознаки, виконуючи вибірку з емпіричних розподілів вихідних ознак. Це гарантує, що синтетичні ознаки є статистично незалежними, водночас зберігаючи загальну структуру даних. Далі ми позначаємо об’єкти вихідного набору даних як 1, а синтетичного – як 0, формуючи задачу бінарної класифікації. Для розрізнення цих двох класів ми навчаємо класифікатор на основі випадкового лісу (Random Forest), а отримані показники важливості ознак дають змогу визначити, які ознаки є залежними.Ознаки, що суттєво впливають на класифікацію, вважаються залежними, тоді як ті, що мають низькі значення важливості, вважаються незалежними. Для оцінки ефективності нашого методу ми порівнюємо його з відомими техніками виявлення залежностей. Кореляція Пірсона переважно виявляє лінійні залежності, тоді як взаємна інформація та кореляція відстаней дозволяють враховувати більш складні взаємозв’язки. Наші експериментальні результати показують, що запропонований підхід перевершує традиційні методи, стабільно визначаючи правильний набір залежних ознак у різних тестових сценаріях. Крім того, наш метод демонструє вищу стійкість до шуму, що робить його надійним інструментом для виявлення залежностей між ознаками у задачах навчання без учителя.

Посилання

Breiman, L., Friedman, J., Olshen, R. A., & Stone, C. J. (1984). Classification and regression trees (1st ed.). Chapman and Hall/CRC. https://doi.org/ 10.1201/9781315139470

Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32. https://doi. org/10.1023/A:1010933404324

Louppe, G. (2015). Understanding random forests: From theory to practice. arXiv preprint arXiv:1407.7502.https://arxiv.org/abs/1407.7502

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., & Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12, 2825–2830.

Touw, W. G., Bayjanov, J. R., Overmars, L., Backus, L., Boekhorst, J., Wels, M., & van Hijum, S. A. F. T. (2013). Data mining in the life sciences with random forest: A walk in the park or lost in the jungle? Briefings in Bioinformatics, 14(3), 315–326. https:// doi.org/10.1093/bib/bbs034

Rodgers, J. L., & Nicewander, W. A. (1988). Thirteen ways to look at the correlation coefficient. The American Statistician, 42(1), 59–66. https://www.stat. berkeley.edu/~rabbee/correlation.pdf

Harris, C. R., Millman, K. J., van der Walt, S. J., Gommers, R., Virtanen, P., Cournapeau, D., Wieser, E., Taylor, J., Berg, S., Smith, N. J., Kern, R., Picus, M., Hoyer, S., van Kerkwijk, M. H., Brett, M., Haldane, A., Fernández del Río, J., Wiebe, M., Peterson, P., … Oliphant, T. E. (2020). Array programming with NumPy. Nature, 585(7825), 357–362. https://doi.org/10.1038/s41586-020-2649-2

Cover, T. M., & Thomas, J. A. (2005). Elements of information theory (pp. 13–55). John Wiley & Sons. https://www.cs.columbia.edu/~vh/courses/LexicalSemantics/ Association/Cover&Thomas-Ch2.pdf

Kraskov, A., Stögbauer, H., & Grassberger, P. (2004). Estimating mutual information. Physical Review E, 69, 066138. https://doi.org/10.1103/ PhysRevE.69.066138

Székely, G. J., Rizzo, M. L., & Bakirov, N. K. (2007). Measuring and testing dependence by correlation of distances. The Annals of Statistics, 35(6), 2769–2794. https://doi.org/10.1214/009053607000000505

Ramos-Carreño, C., & Torrecilla, J. L. (2023). dcor: Distance correlation and energy statistics in Python. SoftwareX, 22, 101326. https://doi.org/10.1016/j. softx.2023.101326

##submission.downloads##

Опубліковано

2025-03-27

Як цитувати

Литвин, А. А. (2025). МЕТОД НА ОСНОВІ ВИПАДКОВОГО ЛІСУ ДЛЯ ВИЯВЛЕННЯ ЗАЛЕЖНОСТЕЙ ОЗНАК: ПОРІВНЯННЯ З КОРЕЛЯЦІЄЮ ПІРСОНА, ВЗАЄМНОЮ ІНФОРМАЦІЄЮ ТА КОРЕЛЯЦІЄЮ ВІДСТАНЕЙ. Таврійський науковий вісник. Серія: Технічні науки, (1), 76-91. https://doi.org/10.32782/tnv-tech.2025.1.8

Номер

Розділ

КОМП’ЮТЕРНІ НАУКИ ТА ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ