Co nového v klubu Počítačová lingvistika?

18. 12. 2024 Vizualizace dat

Jak se dají převést faktické údaje do grafů a dalších možných zobrazení tak, aby nebyly zkreslující nebo dokonce lživé? Zkusili jsme sami zobrazit názorně výsledky vlastního kratičkého průzkumu třeba toho, kolika cizími jazyky se v naší skupině dorozumíme, nebo jaká je nejčastější barva v našem šatníku. Zkoumali jsme práci odborníků vizualizujících data, které informují veřejnost třeba o hospodaření s veřejnými financemi. Nejvíce zaujal doporučený web  https://informationisbeautiful.net/.

4. 12. 2024 Python, nebojte se hada! 

Jsou zkratky vlastními jmény? Pokračuje náš jazykový výzkum. Naše poselství: TBH  IDK, jaký je POV  SNS na FR věci, ale ASAP bych to AKA realita vyřešil!

Nerozumíte? Nápověda:

AKA – Also Known As (Také známý jako)

ASAP – As Soon As Possible (Co nejdříve)

FR – For Real (Opravdu, vážně)

IDK – I Don’t Know (Nevím)

POV – Point of View (Úhel pohledu)

SNS – Social Networking Services (Sociální sítě)

TBH – To Be Honest (Upřímně řečeno)

20. 11. 2024 Vlastní jména, onomastika

Co znamenají jednotlivá vlastní jména? Jak je to s exonymy a endonymy? Proč v seznamu jmen některá chybějí? Jaká je  frekvenční křivka výskytu mého křestního jména?

Lingvista a programátor se dívají na vlastní jména každý po svém a vidí to úplně jinak! :-)  Odpovědi na naše otázky jsme lovili v korpusu Onomos, který má označkovaná vlastní jména. Pomocí skriptu v Pythonu jsme si pracovali se seznamy vlastních jmen.

Vzrušující jsou i hodonyma, choronyma i chrématonyma! Zkuste zábavný kvíz na onomastiku

6. 11. 2024 Korpusové lovení 

Kolik je miliarda slov? Jak se vytvoří paralelní korpusy v různých jazycích - někdo texty překládá? Které české slovo obsahu samohlásky a, e, i, o, u, y v tomto pořadí? Dá se z korpusu poznat, o čem kniha je, aniž bychom ji četli?

Zkoumali jsme jazykové korpusy Evropského parlamentu, ale i korpusy titulků k filmům. Dále korpusy pro učení jazyků (SketchEngine for Language Learning), které obsahují ukázky gramaticky korektních vět bez zraňujícího obsahu, vhodné pro učení jazyka, ukázky tezauru a častých slovních spojení. Pokračovali jsme vyhledáváním častých slov v korpusu románu 1984, která lze prohlížet vizualizovaná do přehledných grafů i wordcloudů. Pracovali jsme v Pythonu (Colab Jupyter Notebook): ukázka značkování, souhrnné statistiky korpusu (počet slov, počet unikátních slov a lemmat).

Prostě co setkání, to dobrodružství!

 

16. 10. 2024 Nářeční výzkum a korpusová sonda

Co to je forenzní lingvistika? Jak vzniklo slovo bastard? Co to je etymologie? Co nebo kdo je kudlibabka? Jak se dají vyhledat nářeční slova v jazykovém korpusu? Zahráli jsme si na forenzní lingvisty a z nahrávek nářečních projevů jsme se snažili zjistit, odkud mluvčí pochází ... a nářeční výzkum jsme provedli i sami na sobě. Naučili jsme se vyhledávat v korpusu a používat základní regulární výrazy. 

Otestujte slovní zásobu v rodné češtině a také sluch - při poslechu záznamů nářečí na https://www.jamap.cz/supermapa

  

2. 10. 2024 Jazykový výzkum

Na úvodním setkání jsme se věnovali různým úhlům pohledu při zkoumání jazyků. Nahlédli jsme do jazykových korpusů, vyzkoušeli různé počítačové nástroje, aplikace. Prozkoumali weby, které se jazykovými korpusy zabývají. Co nás baví na češtině? Třeba jak vznikají příjmení a názvy míst. Diskutovali jsme původ českých jmen osob a místních jmen. Zjistili jsme, že Češi nejspíš vždycky byli docela škodolibí. Diskutovali jsme nespisovné výrazy, např. jak řekne každý z nás nespisovně "policista"? Jak bývá toto slovo překládané ve filmech? Tipovali jsme kolik slov je v češtině? Jsou to slova nebo základní tvary? Ukázali jsme si kolik slov je v Internetové jazykové příručce a kolik v korpusu SYN2020. 

Zajímalo nás:

Proč není víc nahrávek v korpusu?

Proč nejsou v korpusu nová slova, která používají mladí lidé na sociálních sítích? 

 

 

Další setkání budou patřit nejenom bádání jazykovému, ale také programování:

8. 1. 2024 Hoďte na něj (neuronovou) síť 

22. 1. 2024 Tvorba posteru s výsledky výzkumu

 

A kdykoliv můžeš zkusit kvízovou rozcvičku.