Zpracování přirozeného jazyka II

Zpracování přirozeného jazyka II

Lektor

Jiří Materna

Prerekvizity

  • Základní znalost programování v Pythonu
  • Středoškolská matematika
  • Znalosti strojového učení na úrovni kurzu Úvod do strojového učení
  • Znalosti na úrovni kurzu Zpracování přirozeného jazyka

Co si účastník odnese

V tomto kurzu navážeme na základní kurz Zpracování přirozeného jazyka pokročilejšími tématy. Zaměříme se především na předzpracování dat a nejnovější aplikace hlubokého učení ve zpracování textu. Bude se jednat především architektury neuronových sítí postavených na takzvaných Transformerech. S využitím metody transfer learningu ukážeme, jak lze využít velké předtrénované neuronové sítě pro nejrůznější praktické aplikace.

Osnova

  • Předzpracování textových dat
    • Kódování znaků a unicode normalizace
    • Tradiční tokenizace (jednoduché metody, Spacy, Moses)
    • Subword tokenizace (byte-pair kódování, wordpiece, sentencepiece)
    • Šištění dat (deduplikace, odstranění textového balastu)
  • Word embeddings
    • Obecné principy
    • Implementace skip-gram modelu
  • Strojový překlad s rekurentními sítěmi
    • Paměťové buňky LSTM a GRU
    • Implementace strojového překladu pomocí rekurentních sítí
  • Transformery
    • Attention is all you need
    • Architektura transformeru
    • GPT2
    • BERT
    • XLNET
  • Příklady transfer learningu pro zpracování přirozeného jazyka
    • Klasifikace textů
    • Rozpoznání jmenných entit
    • Question answering

Termíny

V případě zájmu o vypsání nového termínu kurzu nás kontaktujte na info@mlcollege.com.