СТИЛОМЕТРИЧНА КЛАСИФІКАЦІЯ ШТУЧНО ЗГЕНЕРОВАНИХ ТЕКСТІВ: ПОРІВНЯЛЬНЕ ОЦІНЮВАННЯ МОДЕЛЕЙ МАШИННОГО НАВЧАННЯ

Автор(и)

Ключові слова:

штучно згенерований текст, стилометрія, класифікація текстів, машинне навчання, великі мовні моделі

Анотація

Із поширенням великих мовних моделей, таких як ChatGPT і Deepseek, дедалі складніше визначити, хто є автором тексту – людина чи штучний інтелект. У цьому дослідженні оцінюється ефективність стилометричного аналізу як прозорого та інтерпретованого методу для виявлення синтетичного контенту. Було сформовано збалансований набір із 30 000 відповідей (по 10 000 для кожного класу: Human, ChatGPT, Deepseek). Відповіді для Human і ChatGPT взято з відкритого датасету, а для Deepseek створено окремо за єдиним шаблоном запитів з використанням моделі Deepseek 7B. Кожну відповідь перетворено на вектор із 12 стилометричних ознак, що характеризують лексику, синтаксис та читабельність. Дослідження охоплює п’ять моделей машинного навчання: Logistic Regression, SVM, Random Forest, Gradient Boosting та Decision Tree. Кожну з них навчено та протестовано для багатокласової та бінарної класифікації з подальшою оптимізацією гіперпараметрів. Найвищу ефективність показала модель Random Forest (F1 = 0.84/0.86), досягнувши точності понад 87 %. Gradient Boosting і SVM також продемонстрували хороші результати. Найінформативнішими ознаками виявились індекс Сімпсона, співвідношення типів і токенів та середня довжина речень. Результати підтверджують, що стилометричні ознаки, попри свою простоту, дозволяють ефективно розрізняти тексти людського та штучного походження. Запропонований підхід демонструє високу інтерпретованість і може бути ефективно використаний у поєднанні з іншими методами для верифікації авторства, забезпечення академічної доброчесності та виявлення згенерованого контенту. Крім того, генерація даних за допомогою відкритих локальних моделей у середовищі Ollama забезпечує масштабованість експериментів використання платних API, що особливо актуально на ранніх етапах досліджень та в академічному середовищі з обмеженими ресурсами.

Посилання

S. Gehrmann, H. Strobelt, and A. Rush, “GLTR: Statistical Detection and Visualization of Generated Text” in Proc. ACL: System Demonstrations, Florence, Italy, 2019, pp. 111–116. doi: 10.18653/v1/P19-3019

E. Mitchell, Y. Lee, A. Khazatsky, C. D. Manning, and C. Finn, “DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature” arXiv preprint arXiv:2301.11305, 2023.

A. Akram, “An empirical study of AI generated text detection tools” arXiv:2310.01423, 2023.

C. Opara, “StyloAI: Distinguishing AI-Generated Content with Stylometric Analysis” arXiv:2405.10129, 2024.

L. Mindner, T. Schlippe, and K. Schaaff, “Classification of Human- and AI-Generated Texts: Investigating Features for ChatGPT” in Proc. 4th Int. Conf. Artificial Intelligence in Education Technology (AIET), Nov. 2023, pp. 152–170.

A. Uchendu, T. Le, K. Shu, and D. Lee, “Authorship Attribution for Neural Text Generation” in Proc. EMNLP, Nov. 2020, pp. 8384–8395. doi: 10.18653/v1/2020. emnlp-main.673.

G. Huang, Y. Zhang, Z. Li, Y. You, M. Wang, and Z. Yang, “Are AI-Generated Text Detectors Robust to Adversarial Perturbations?” in Proc. 62nd Annu. Meet. Assoc. Comput. Linguistics (ACL), Aug. 2024, pp. 6005–6024

A. M. Sarvazyan et al., “Overview of AuTexTification at IberLEF 2023: Detection and attribution of machine-generated text in multiple domains” Proces. Leng. Nat., vol. 71, pp. 275–288, 2023.

G. Mikros, A. Koursaris, D. Bilianos, and G. Markopoulos, “AI-writing detection using an ensemble of transformers and stylometric features” in CEUR Workshop Proc., vol. 3496, pp. 142–153, 2023.

J. Zhang, H. Sun, K. Duan, X. Li, M. Zhang, Y. Liu, and M. Sun, “How Would GPT Behave? Towards Detecting AI-Generated Text via Phrase-Level Self-Diversity,” arXiv preprint arXiv:2301.07597, 2023.

##submission.downloads##

Опубліковано

2025-05-29

Як цитувати

Петришак, Т. В., & Рибчак, З. Л. (2025). СТИЛОМЕТРИЧНА КЛАСИФІКАЦІЯ ШТУЧНО ЗГЕНЕРОВАНИХ ТЕКСТІВ: ПОРІВНЯЛЬНЕ ОЦІНЮВАННЯ МОДЕЛЕЙ МАШИННОГО НАВЧАННЯ. Таврійський науковий вісник. Серія: Технічні науки, (2), 135-147. вилучено із https://www.journals.ksauniv.ks.ua/index.php/tech/article/view/879

Номер

Розділ

КОМП’ЮТЕРНІ НАУКИ ТА ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ