Перейти в головне навігаційне меню Перейти до головного Перейти на нижній колонтитул сайту

Філологія та журналістика

July 4, 2025; Zurich, Switzerland: VIII Міжнародна науково-практична конференція «GRUNDLAGEN DER MODERNEN WISSENSCHAFTLICHEN FORSCHUNG»


НОРМАЛІЗАЦІЯ АНГЛОМОВНИХ ТЕКСТІВ: РОЗШИРЕННЯ СКОРОЧЕНЬ ЗА ДОПОМОГОЮ РЕГУЛЯРНИХ ВИРАЗІВ У PYTHON


DOI
https://doi.org/10.36074/logos-04.07.2025.030
Опубліковано
04.07.2025

Анотація

У сучасному світі величезні обсяги текстової інформації генеруються та обробляються щоденно. Для ефективного аналізу цих даних, будь то для дослідницьких цілей у філології, для підготовки матеріалів у журналістиці, або для розробки систем штучного інтелекту, критично важливою є їхня нормалізація. Нормалізація тексту – це процес приведення текстових даних до стандартизованої, уніфікованої форми, що значно полегшує подальшу машинну обробку та аналіз [1]. Це може включати приведення до одного регістру, видалення пунктуації, виправлення орфографічних помилок, а також розширення скорочень.

Посилання

  1. Jurafsky, D., & Martin, J. H. (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (2nd ed.). Prentice Hall. (Це класичний підручник з NLP, який обов'язково варто включити).
  2. Manning, C. D., & Schütze, H. (1999). Foundations of Statistical Natural Language Processing. MIT Press.
  3. Сидорук, Г. І. (2016). Інтернет-скорочення як засіб мовної економії. Лінгвістика і поетика тексту. Серія «Філологічні студії», (14).
  4. Crystal, D. (1994). An encyclopaedic dictionary of languages. Blackwell.
  5. Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python. O'Reilly Media.
  6. Іванюк, П. (2024, травень 15). 10 NLP технік. Medium. https://petroivaniuk.medium.com/10-nlp-технік-c5d9f2970473