úterý 3. prosince 2013

Wordcloudy všude, kam se podíváš

Naše další hodina Digital Humanities se opět nesla v duchu Rka a wordcloudů. Tentokrát jsme se však vrhli i na n-gramy, tedy na opakovaný sled několika po sobě jdoucích slov. A to vše jsme aplikovali na projevy Václava Havla. Postup byl v podstatě stejný jako při minulé hodině – nahrát do Rka korpus a očistit ho od „stopwords“ a jiných irelevantních znaků. 
nejčastěji používaná spojení tří slov v projevu Václava Havla

Jakmile na postup, jak to do Rka vše zadat, jednou přijdete, je to poměrně snadné. Problém spočívá v tom (alespoň mně to tak přijde), že Rko si občas postaví hlavu a ten wordcloud prostě nevygeneruje. 

Z této hodiny jsme pak dostali za úkol vytvořit wordcloudy z oblíbených děl, čehož se mí spolužáci rychle ujali a po celý týden se na Facebooku nehromadilo nic jiného než další a další wordcloudy.
Já jsem si pro analýzu vybrala seriál The Newsroom. Jako korpus mi posloužily české titulky, ze kterých jsem odstranila časové údaje. A zde je wordcloud nejčastějších spojení tří slov (neočištěný od „stopwords“):

Žádné komentáře:

Okomentovat