úterý 3. prosince 2013

Wordcloudy všude, kam se podíváš

Naše další hodina Digital Humanities se opět nesla v duchu Rka a wordcloudů. Tentokrát jsme se však vrhli i na n-gramy, tedy na opakovaný sled několika po sobě jdoucích slov. A to vše jsme aplikovali na projevy Václava Havla. Postup byl v podstatě stejný jako při minulé hodině – nahrát do Rka korpus a očistit ho od „stopwords“ a jiných irelevantních znaků. 
nejčastěji používaná spojení tří slov v projevu Václava Havla

Jakmile na postup, jak to do Rka vše zadat, jednou přijdete, je to poměrně snadné. Problém spočívá v tom (alespoň mně to tak přijde), že Rko si občas postaví hlavu a ten wordcloud prostě nevygeneruje. 

Z této hodiny jsme pak dostali za úkol vytvořit wordcloudy z oblíbených děl, čehož se mí spolužáci rychle ujali a po celý týden se na Facebooku nehromadilo nic jiného než další a další wordcloudy.
Já jsem si pro analýzu vybrala seriál The Newsroom. Jako korpus mi posloužily české titulky, ze kterých jsem odstranila časové údaje. A zde je wordcloud nejčastějších spojení tří slov (neočištěný od „stopwords“):

sobota 30. listopadu 2013

Svět očima Blesku

V další hodině Mediálních studií jsme se zabývali tím, o jakých zemích se v českém tisku píše nejvíce. A jelikož naše skupina měla stále analyzovat Blesk, můžete se podívat, co se o světě dozví čtenář Blesku.
Nejvíce zpráv bylo napsáno hlavně o USA. Jedná se především o zprávy ze světa celebrit typu oteklé nohy Pamely Anderson až po Justina Biebera ukrývajícího se pod dekou.
Následují zprávy o Velké Británii. Čtenář se dozví, že Velká Británie je „zaplavena zmutovanými krysami“ a že Češi mají možnost se v této zemi prosadit stejně jako „kluk z Podkrkonoší, který řídí plesy smetánky“.
Dále velké množství zpráv pochází ze Slovenska. Na jedné straně je vyzdviženo, že na Slovensku mají už proti „šmejdům“ zákon, na druhé straně se však můžete dočíst, že v Košicích žijí tisíce lidí ve vybydlených panelácích na hromadě odpadků.
Dále se čtenář nejvíce dozvídá o Německu, Číně a Rusku. V daných dvou týdnech se vyskytlo také větší množství zpráv o tajfunu na Filipínách.
země, o kterých se v Blesku psalo nejvíce
 

Jak si vybrat ty správné noviny?

U analýzy tištěných novin jsme zůstali i další týden, avšak tentokrát jsme k výzkumu zaujali spíše matematický postoj a použili pravítko. Zjišťovali jsme, kolik procent z celkové plochy novin tvoří reklamy a kolik procent zabírají původní zprávy. Vše stačilo jen sečíst a uspořádat, aby vznikla přehledná tabulka.
S nejlepším poměrem ceny, množstvím reklamy a původnosti zpráv skončil na prvním místě Blesk, v němž se přesto vyskytuje velké množství reklamy.
Pokud vás bulvární tisk nezajímá, můžete si připlatit o několik korun více a kupovat si Deník. U něj se však můžete setkat s problémem, že ho téměř nikde neseženete, neboť je distribuován ve velice malém množství. Navíc obsahuje největší množství reklamy. Na stejném místě se umístili Lidové noviny. V nich je sice nejméně reklamy, ale zato velké množství zpráv převzatých z ČTK.
Na další pozici se umístilo Právo opět s velkým množstvím zpráv převzatých z ČTK. Zbývá Mladá Fronta Dnes, která je jednou z tiskovin s nejmenším počtem zpráv z ČTK, a Hospodářské noviny, které však mohou někoho odradit svou vyšší cenou.

Mediální studia

V období několika prvních hodin Informační vědy a srovnávacích mediálních studií, ve kterých jsme se zabývali především zprávami v online prostředí, až do nedávna platil zákaz blogovat. (Výstup z nich však najdete zde http://www.slideshare.net/josefslerka/kdo-co-od-koho)

Zmíním se pouze o tom, jak jsme hlídali přebírané zprávy z ČTK. Já jsem měla na starosti jeden den (přesně 16.10.2013) hlídat zpravodajský portál iDNES.cz a to kolik domácích a zahraničních zpráv je převzato z ČTK a u kolika z nich není přiznán zdroj.
iDNES.cz oproti ostatním internetovým zpravodajským serverům dopadl velice dobře. Podíl ČTK zpráv v domácím zpravodajství je poměrně malý. Pouhé 3 zprávy z celkových 38. U zahraničních zpráv je však až přes 50% převzato z ČTK.
Zprávy převzaté z ČTK jsou vždy přiznané. Na konci článku se objevuje ČTK jako zdroj. Redaktoři iDNES.cz zpravidla zprávy převzaté z ČTK doplňují. Na následujícím příkladu však můžete vidět, o kolik je původní zpráva ČTK doplněna redaktorem iDNES.


originální zpráva ČTK

Na prvním obrázku je původní zpráva ČTK, na druhém zpráva iDNES. Na třetím jsem pak označila vše, co bylo redaktorem iDNES do článku připsáno oproti původní zprávě ČTK. První věta je ve srovnání s ČTK pouze řečena jinak. Třetí a čtvrtá věta je shrnutím toho, co se dále dozvíme v samotném článku. Věta uprostřed článku podává informaci o tom, od kdy do kdy trvala válka v Iráku.

zpráva na iDNES.cz
srovnání původní zprávy ČTK a zprávy na iDNES.cz

V dalších hodinách jsme se přesunuli z prostředí online zpravodajských serverů do světa tištěných novin.
Úkolem bylo kupovat si noviny celý týden a zjistit, jakým způsobem je v nich prezentována kauza Hašek a Sobotka a jak se píše o panu Babišovi.
Nevím, jestli to lze brát jako výhodu nebo nevýhodu, ale na naší skupinu připadl deník Blesk. Daná výhoda a zároveň i nevýhoda spočívala v tom, že se o kauze Hašek – Sobotka stejně tak jako o Babišovi Blesk zmínil pouze ve dvou článcích. Zatímco tedy naši spolužáci četli několikastránkové detailní popisy této kauzy, nám na to stačilo několik minut.
Jaký postoj Blesk zaujal k hlavním představitelům kauzy ČSSD bylo zcela jasné na první pohled díky titulku „Hašku, Tejci, Škromachu! Vaše lež má krátké nohy“ a malé karikatuře Haška, Tejce a Škromacha se zkrácenými nohami. V článku se pak vyskytovala slovní spojení jako „lháři ztrácejí sympatie“, „za pokus o povolební puč je odsoudilo“ a „pučisté“.
Přestože se jednalo o druhý povolební týden, o panu Babišovi se v Blesku zmínili také pouze v jednom článku. Článek s titulkem „Češi v zajetí miliardářů aneb Komu sypeme každý týden peníze do kapsy?“ se vůbec netýkal povolební situace. Babišovo jméno bylo zmíněno v kontextu dalších českých miliardářů a bylo řečeno, že jestliže si někdo kupuje vánočku, kuřecí stehno nebo párky, „sype“ peníze do kapsy Babišovi.

Rko + Facebook

Naše přehrabávání se v datech z Facebooku na hodinách Digital Humanities zdaleka nekončí. Tentokrát jsme k tomu použili Rko. Stačí si doinstalovat knihovnu Rfacebook, zadat Facebook token a analýza může začít.
Pomocí Rfacebooku lze prohledat celý Facebook a najít v něm například nějaké slovo vyskytující se v naposledy napsaných komentářích. To může být využito a zneužito k čemukoliv. Nakonec třeba i k zjišťování počasí ve světě. :-)
naposledy zveřejněné statusy na Facebooku obsahující slovo "snow"

Naším hlavním cílem však bylo vygenerovat wordcloud z příspěvků jakékoliv stránky Facebooku.
Příspěvky se však musí nejdříve očistit od takzvaných „stopwords“, které se vyskytují v každém příspěvku, ale nenesou žádnou informaci. Jsou to například předložky, spojky, zájmena a slovesa mít a být.
Já jsem si zvolila stránku Co je v Praze zadarmo. Nejčastěji používaná slova na této stránce můžete vidět sami.
nejčastěji používaná slova stránky Co je v Praze zadarmo

Vizualizace dat z Facebooku

Napadlo vás někdy, jak by vypadalo zvizualizované propojení vašich přátel na Facebooku? Jestliže si to chcete vyzkoušet, stačí k tomu použít Facebook, Netvizz a Gephi.
Pomocí Netvizzu (https://apps.facebook.com/netvizz/) z Facebooku stáhnete potřebné údaje a díky Gephi je zvizualizujete.
Za pomoci barevného odlišení lze jednoduše vidět skupiny navzájem propojených lidí. To jsou většinou skupiny přátel znající se ze školy, práce a jiných aktivit. V těchto skupinách se zpravidla téměř všichni navzájem znají. Avšak existují i vztahy jednotlivých skupin k ostatním skupinám. A může nás překvapit, jak velké množství takových vazeb existuje.

Podobným způsobem můžeme vizualizovat několik stránek Facebooku, které máme rádi. Zpracovala jsem mapu Dejvického divadla, Divadla Disk, Bia Oko, Kina Aero a Cinema Royal. A to propojení stránek, které tyto stránky „lajkujou“, a navíc, co tyto stránky, které jsou „lajkovány“ „lajkujou“ dále například Divadlu Disk se líbí Noc divadel a to dále „lajkuje“ Českou televizi. Zajímavé je, že tímto způsobem nejvíce „lajkovaných“ stránek, jsou stránky, o kterých jsem dosud neslyšela. Například reSITE festival a stránky pragueoffthemap a navecer.
propojení oblíbených stránek Dejvického divadla, Divadla Disk, Bia Oko, Kina Aero a Cinema Royal


Z toho vyplývá, že snadná cesta, jak se dozvědět o akcích a stránkách, které by se vám mohly líbit, je použití Facebooku, Netvizzu a Gephi.

Digital Humanities

Facebook a Twitter pro mě byly do nedávné doby pouze sociální sítě, na kterých lze s přáteli sdílet odkazy, statusy a fotky.
Z pohledu Digital Humanities jsou však Facebook a další sociální sítě nekonečně velkou databází informací. Data z nich po správném vytřídění a zanalyzování lze použít na téměř jakýkoliv průzkum.
A jelikož naše první hodiny Digital Humanities byly v období před volbami, nemohli jsme se věnovat ničemu jinému než předvolebnímu průzkumu.
K analýze předvolebních preferencí lze díky Facebooku použít například počet fanoušků politických stran, počet lidí, kteří „o tom mluví“, a seznam dalších oblíbených stránek fanoušků politických stran. A pak za pomoci multidimensional scaling může vzniknout například tento graf:
zdroj: databoutique.cz

Graf zobrazuje míru podobnosti politických stran. Zajímavější je však i to, jak lze interpretovat osu x a y. S největší pravděpodobností je osa x mírou vzdělání a osa y představuje věk fanoušků politických stran na Facebooku.
A dále z grafů, jako jsou tyto, si lze udělat větší přehled o tom, kdo jsou voliči jednotlivých politických stran: http://databoutique.cz/post/62896412654/kde-komentuji-lide-kteri-komentuji-na-strankach
 
A analýza fotek fanoušků politických stran na Facebooku? Postřeh číslo jedna je, že většina uživatelů Facebooku si svůj profil nedostatečně spravuje. Velké množství uživatelů jsou pak fanoušky několika politických stran zároveň. Jsou to často neodstraněné fanouškovské preference z předchozích volebních období. Z tohoto důvodu se řada lidí, kteří jsou fanoušky určité politické strany, ve své profilové fotce již hlásí k jiné straně. Z toho také vyplývá, že jakákoliv další analýza může být poměrně zavádějící.
Nejvíce disciplinovaní jsou v tomto ohledu fanoušci Strany zelených, ČSSD, KDU-ČSL a Zemanovců, u kterých se vyskytuje malé množství případů, kdy se na své profilové fotce hlásí k jiné politické straně.
Poměrně zajímavé zjištění dále je, že fanoušci ODS a KDU-ČSL předběhli fanoušky Strany zelených v počtu profilových fotek focených ve venkovním prostředí.