Co nového v klubu Počítačová lingvistika?

6. 11. 2024 Korpusové lovení 

Kolik je miliarda slov? Jak se vytvoří paralelní korpusy v různých jazycích - někdo texty překládá? Které české slovo obsahu samohlásky a, e, i, o, u, y v tomto pořadí? Dá se z korpusu poznat, o čem kniha je, aniž bychom ji četli?

Zkoumali jsme jazykové korpusy Evropského parlamentu, ale i korpusy titulků k filmům. Dále korpusy pro učení jazyků (SketchEngine for Language Learning), které obsahují ukázky gramaticky korektních vět bez zraňujícího obsahu, vhodné pro učení jazyka, ukázky tezauru a častých slovních spojení. Pokračovali jsme vyhledáváním častých slov v korpusu románu 1984, která lze prohlížet vizualizovaná do přehledných grafů i wordcloudů. Pracovali jsme v Pythonu (Colab Jupyter Notebook): ukázka značkování, souhrnné statistiky korpusu (počet slov, počet unikátních slov a lemmat).

Prostě co setkání, to dobrodružství!

 

16. 10. 2024 Nářeční výzkum a korpusová sonda

Co to je forenzní lingvistika? Jak vzniklo slovo bastard? Co to je etymologie? Co nebo kdo je kudlibabka? Jak se dají vyhledat nářeční slova v jazykovém korpusu? Zahráli jsme si na forenzní lingvisty a z nahrávek nářečních projevů jsme se snažili zjistit, odkud mluvčí pochází ... a nářeční výzkum jsme provedli i sami na sobě. Naučili jsme se vyhledávat v korpusu a používat základní regulární výrazy. 

Otestujte slovní zásobu v rodné češtině a také sluch - při poslechu záznamů nářečí na https://www.jamap.cz/supermapa

  

2. 10. 2024 Jazykový výzkum

Na úvodním setkání jsme se věnovali různým úhlům pohledu při zkoumání jazyků. Nahlédli jsme do jazykových korpusů, vyzkoušeli různé počítačové nástroje, aplikace. Prozkoumali weby, které se jazykovými korpusy zabývají. Co nás baví na češtině? Třeba jak vznikají příjmení a názvy míst. Diskutovali jsme původ českých jmen osob a místních jmen. Zjistili jsme, že Češi nejspíš vždycky byli docela škodolibí. Diskutovali jsme nespisovné výrazy, např. jak řekne každý z nás nespisovně "policista"? Jak bývá toto slovo překládané ve filmech? Tipovali jsme kolik slov je v češtině? Jsou to slova nebo základní tvary? Ukázali jsme si kolik slov je v Internetové jazykové příručce a kolik v korpusu SYN2020. 

Zajímalo nás:

Proč není víc nahrávek v korpusu?

Proč nejsou v korpusu nová slova, která používají mladí lidé na sociálních sítích? 

 

 

Další setkání budou patřit nejenom bádání jazykovému, ale také programování:

20. 11. 2024 Vlastní jména, onomastika 

4. 12. 2024 Python, nebojte se hada! 

18. 12. 2024 Vizualizace dat 

8. 1. 2024 Hoďte na něj (neuronovou) síť 

22. 1. 2024 Tvorba posteru s výsledky výzkumu

 

A kdykoliv můžeš zkusit kvízovou rozcvičku.