Naše další hodina Digital Humanities
se opět nesla v duchu Rka a wordcloudů. Tentokrát jsme se však
vrhli i na n-gramy, tedy na opakovaný sled několika po sobě
jdoucích slov. A to vše jsme aplikovali na projevy Václava Havla.
Postup byl v podstatě stejný jako při minulé hodině – nahrát
do Rka korpus a očistit ho od „stopwords“ a jiných
irelevantních znaků.
nejčastěji používaná spojení tří slov v projevu Václava Havla |
Jakmile na postup, jak to do Rka vše
zadat, jednou přijdete, je to poměrně snadné. Problém spočívá
v tom (alespoň mně to tak přijde), že Rko si občas postaví
hlavu a ten wordcloud prostě nevygeneruje.
Z této hodiny jsme pak dostali za úkol
vytvořit wordcloudy z oblíbených děl, čehož se mí
spolužáci rychle ujali a po celý týden se na Facebooku
nehromadilo nic jiného než další a další wordcloudy.
Já jsem si pro analýzu vybrala seriál
The Newsroom. Jako korpus mi posloužily české titulky, ze kterých
jsem odstranila časové údaje. A zde je wordcloud nejčastějších
spojení tří slov (neočištěný od „stopwords“):