#DebateCNBB - Alguns dados


Ontem coletei dados do Twitter sobre o debate promovido pela CNBB e a TV Aparecida. A hashtag de coleta foi #DebateAparecida. Este mapa foi de uma coleta as 23:53, quase no encerramento do debate. Fiz várias coletas, mas só vou colocar aqui os dados da última coleta, os finais do debate. Foram 20 mil tweets totais, dos quais, 6066 nós e 12835 conexões únicas. Ele mostra citações e retweets e centrei a análise nos candidatos. Utilizei o NodeXL para a coleta e análise. É importante ressaltar que devido ao grande número de tweets, esses dados são provavelmente referentes aos tweets dos momentos finais do debate e não do debate como um todo.

Indegree (mais citados entre os 20)
@jornaloglobo - 618
@blogdosakamoto - 576
@lucianagenro - 537
@aecioneves - 536
@diimabr - 481
@eduardojorge43 - 316
@dilmabr - 311
@aecioblog - 228
@silva_marina - 129
@levyfidelix - 126

É interessante observar que é a primeira vez entre os dados dos debates que eu coletei (tenho coletado todos) em que Luciana Genro e o Eduardo Jorge aparecem com tantas citações. 

Betweenness (candidatos mais "pontes"- citados por grupos diferentes)
@blogdosakamoto
@diimabr
@jornaloglobo
@aecioneves
@lucianagenro
@dilmabr
@aecioblog
@eduardojorge43

Esses dados mostram que os candidatos que mais apareceram nos momentos finais foram Aécio, Luciana, Dilma e Eduardo Jorge. Marina aparece menos, bem como os demais candidatos (nesses dados).

O mapa a seguir mostra o papo nesse tempo final separado por clusters (grupos) por contas que tendem a ser citadas juntas (Clauset-Newman-Moore). É interessante observar os clusters por embates nesse final: De um lado, com o maior cluster de citações, Luciana Genro (PSOL) e Aécio Neves (PSDB). Em outro grupo, Eymael (PSDC) e Marina Silva (PSB). Em um grupo menor, abaixo, Dilma Rousseff (PT) e Levy Fidélix (PRTB). Separados, Eduardo Jorge (PV) com um grande cluster em verde e Pastor Everaldo (PSC) em verde claro. (Clique na imagem para ver em tamanho maior)

debatecnbb23532.png

Palavras mais citadas por cluster: 
G1 (azul, luciana e aécio ao centro): luciana genro, sujo, mal lavado, corrupção, Aécio, Dilma, aeroporto.
G2 (azul claro, com marina e eymael ao centro):luciana, debate, dilma, aécio, eduardo jorge, eymael, pergunta, tempo, aborto.
G3 (verde escuro, acima) viradadoaecio, aécio, dilma, luciana, marina, brasil, petrobras, pt.
G4 (verde claro, c/ eduardo jorge ao centro): eduardojorge, aborto, lei, machista, jornaloglobo, aécio, luciana, dilma, proibição, criminoso.
G5 (vermelho, no canto): reduzir, luciana, aécio, eduardo, pastor, chobatada, dízimo, excomunhão, aeroporto.
G6 (laranja, ao centro): diimabr, aécio, never, aeroporto, psdb, corrupção, cristã, católica, bilhões.
G7(amarelo, com dilma e levy ao centro): dilma, greenpeace, levyfidelix, luciana, aécio, debate, hidrelétrica, brasil, jornaoglobo.
G8 (verde claro, everaldo ao centro): dilma, marina, aécio, brasil, quatro, acorda, luciana, everaldo, jornaloglobo.

Tem outros dados dos debates anteriores de análises que fiz no blog do MIDIARS, grupo de pesquisa do qual participo.

A Espiral do Silêncio na Mídia Social


spiral.jpgUm estudo da Pew Internet, liderado pelo Keith Hampton, que foi divulgado na quinta passada apontou a existência, cada vez mais forte, da chamada "espiral do silêncio" na mídia social. A idéia é básica e conhecida: As pessoas tendem a fugir do conflito nas suas redes sociais (offline) e por isso, conversam sobre os assuntos que tendem a conseguir maior concordância da audiência (demais pessoas) e não sobre aqueles onde a disconrdância e o conflito podem aparecer (que são, portanto, silenciados, gerando uma inexistência da discordância). O estudo testou alguns casos polêmicos nos EUA (como o caso Snowden) e apontou que (1) as pessoas pareciam estar menos dispostas a discutir esses temas polêmicos na mídia social do que offline, (2) ao contrário do esperado a mídia social não foi apontada como uma plataforma para compartilhar opiniões de forma alternativa, (3) as pessoas tendiam a discutir os temas apenas se achavam que a audiência concordava com elas, (4) usuários de mídia social também tendem a compartilhar menos as suas opiniões no espaço offline, exceto em casos onde pensavam que a sua audiência nesses sites concordava consigo.

O estudo é bem relevante porque mostra os efeitos da mediação e do conflito na mídia social para o silenciamento dos discursos discordantes (por exemplo, aqueles minoritários numa determinada cultura) e é bastante semelhante aos que encontramos na nossa pesquisa sobre a violência na mídia social no Brasil. Vou comentar alguns pontos que eu acho relevantes:

 A mídia social torna as redes sociais mais heterogêneas. Isso basicamente quer dizer que mais gente que pensa diferente de você está mais conectado a você na mídia social (uma vez que as redes são mais complexas) do que no ofline. Ou seja, você tem mais acesso à opiniões discordantes e o conflito pode ser mais frequente com isso. Assim, ferramentas de filtragem, como as que o Facebook implementou ("silenciar", "unfollow" e etc.) são mais relevantes para as pessoas. 

Contraponto

Entretanto, acho que há uma série de diferenças aqui e hipóteses que acho que dá pra pensar. Diferenças  (1) entre Twitter e Facebook e (2) entre usuários brasileiros e americanos. Primeiro que me parece que nesse último caso, os usuários brasileiros ainda estão menos envolvidos nessa "espiral" que os americanos neste momento, o que não quer dizer que com a visibilidade dos casos de ódio isso não se reduza consideravelmente. Acho que a principal causa aqui é um pouco de falta de experiência. Segundo que enquanto o Facebook constroi uma rede mais "invisível" para os usuários - e portanto, levaria a um contato maior com discursos aliens - o Twitter constrói uma rede mais pública e visível e, portanto, poderia levar a uma maior construção da espiral do silêncio. Além disso, a "pressão dos pares" pode ser mais reduzida quando os próprios pares discordam (o que seria mais provável em redes sociais maiores, que seria o caso das redes sociais online), o que poderia reduzir essa pressão, uma vez que a rede social seria capaz de permitir a organização e a visibilidade de grupos sociais menores.Finalmente esse contato com discursos divergentes pode radicalizar o discurso da minoria ou plantar uma sementinha de dúvida e fazer silenciar ou mudar de opinião.

 Quais seriam os efeitos dessa espiral, caso seja amplificada? 

Primeiro, o maior fechamento dos grupos sociais - as pessoas tendem a usar mais ferramentas de moderação/separação/ invisibilidade, o que reduz o valor (social) de sites de rede social como o Facebook (que misturam diferentes redes) e aumenta o valor de espaços que permitem redes menores (como o Whatsapp). Segundo, um maior fechamento dos processos de difusão de informações, onde menos informações diferentes circulam nos clusters e mais informações iguais - e que buscam o acordo têm mais atenção. Temos observado, na pesquisa da violência, exatamente esses efeitos em grupos segmentados. Resta saber se são abrangentes e gerais ou não. Temas aí para bons e necessários estudos.

Debate da Band: Algumas Redes no Twitter


Estou ainda analisando e vendo o que se pode perceber nos dados do primeiro debate. Coletei uns 80 mil tweets com várias hashtags. Aqui vou mostrar dois mapas, do final do primeiro e do terceiro bloco, ambos com cerca de 20 mil tweets. Vemos, no grafo, os nós que citaram as contas oficiais dos candidatos. Colori os candidatos para que se veja melhor. Há muitas citações únicas, com vários grupos em torno dos candidatos (eu chamo de pedaços de brócolis- são contas que só citaram aquele candidato, mais relacionadas à militância). Ao centro, aqueles que citaram mais de um candidato. E na periferia, aqueles que falaram do debate usando a hashtag, mas não citaram as contas oficiais (a maioria),  Os grafos abaixo foram feitos a partir da hashtag #debatedaband e ao final dos blocos em questão. As conexões são citações, retweets e menções. Não vou mencionar os demais usuários que também foram citadas, exceto se relevantes p/ o comentário.

Primeiro bloco: (20 mil tweets, 8857 contas)

Nós mais citados (maior indegree): @dilmabr (1250), @jeanwyllys_real (446), @silva_marina (338), @diImabr (a bolada) (306), @aecioneves (144). 

Nós com maior centralidade betweenneess (mais citados por diferentes grupos - nessa medida estou tentando tirar a militância): @dilmabr, @jeanwyllys_real, @silva_marina (em quarto), @diImabr (a bolada), @aecioneves (em décimo).

A rede a seguir mostra a posição na rede dos candidatos pelas conversações no primeiro bloco do debate (não estamos, neste momento, avaliando a qualidade das citações, apenas sua existência). Essa rede marca também se quem falou do candidato A também falou do B, por exemplo. Quanto mais interconectada a rede de um candidato à dos demais, maior o número de pessoas que falou de ambos. É relevante observar que apenas um pequeno grupo (notadamente mídia e quem narrou o debate) faz esse trabalho, situando-se mais ao centro do grafo. (Clique na imagem para ver em tamanho maior)

bloco1debate2.png
É interessante, neste mapa, observar as militâncias muitas vezes como "torcidas" (há blocos de apoio - os brócolis) para cada candidato. Há maior coordenação da militância da Dilma e menor das dos demais candidatos em torno das citações. Além disso, a Dilma é a mais citada também pelos demais, até mesmo pelas falas no primeiro bloco. Curiosamente, o @jeanwyllys_real foi muito mais citado que a candidata do PSOL pela conta oficial. Marina desponta também com muitas citações (muitas críticas também). Luciana está mais ao centro do grafo, como Fidelix, porque são candidatos que foram mais citados por grupos diferentes.

Terceiro bloco: 19 mil tweets, 14373 nós

Mais citados: @diImabr (a bolada) (851), @silva_marina (668). Depois vários usuários e em 7o, @aecioneves (323) e em 9o, @queremosaecio (227).

Os mais citados por grupos diferentes (ou seja, nessa medida estou tentando tirar a militância): @diImabr (a bolada), @silva_marina, @aécioneves em quarto, @dilmabr em nono.

bloco2debate.png
O mapa da rede continua bastante semelhante. Vejam que a Luciana Genro vai mais para o meio do grafo, ou seja, começa a ser citada por mais grupos diferentes, bem como o Eduardo Jorge. Dilma, Marina e Aécio também apresentam grupos que falam apenas deles (como no primeiro bloco), mas com mais ênfase aqui, onde reduz a polaridade Dilma-Marina do primeiro grafo. Há várias contas de apoiadores sendo citadas junto com a do Aécio que começam a aparecer. E junto à Dilma, tem as citações da Dilma Bolada, que neste bloco foi a conta mais citada. Finalmente, as citações à Marina crescem bastante e, principalmente, dentro de diferentes grupos. Há um conjunto mais fluído de contas que citaram mais de um candidato (portanto, mais torcida), por isso há um maior afastamento do centro (menor clusterização) do grafo.

Depois vou ver se consigo olhar o resto dos dados. P/ essa análise, usei o NodeXL. :-)

A estreia de Peter Capaldi no #DoctorWho


De sexta a noite até hoje ao meio dia coletei dados (tweets) relacionados à estreia da nova temporada da série inglesa "Doctor Who" e do ator Peter Capaldi no papel de doctor. Eu ainda não vi o episódio (sem spoilers, por favor), mas pelos comentários gerais, fiquei bem entusiasmada. A seguir, o mapa dos discursos a partir da hashtag "#doctorwho" (que por algum motivo, é sempre a favorita dos whovians, deixando "#drwho", a escolha mais óbvia, em segundo lugar), com 68.586 tweets. Já que o Marco Toledo Bastos sempre reclama dos meus grafos de bolinhas, fiz um de tags.  Tamanho das tags indica frequência da palavra (ou conceito), força da conexão por espessura, proximidade por co-ocorrência, bem como conexão. Como sempre, cliquem nas imagens para ver em tamanho maior.

doctorwhopeq.png

Vejam que há muitos termos positivos associados à tag, o que me surpreendeu, dado que quando mapeei a escolha do Capaldi como novo doctor, tínhamos muita polêmica. Ao que parece, os fãs realmente gostaram muito do episódio. Vemos, logo a seguir, uma imagem do cluster marcado por centralidade betweenneess, ou seja, pelas palavras/conceitos que aparecem em mais tweets diferentes entre si (para retirar um pouco a questão dos retweets/spam de um pequeno grupo que podem alterar o resultado). Vejam que continuamos com posições altamente positivas. (Destaque para o "love" escondido embaixo do "doctor who". ) 

doctorwhocluster.png

Também graças a um script do Marco, tenho um mapa dos tweets por localização. É interessante para mostrar onde a série parece "ecoar" mais e onde se falou do novo episódio. Vejam que há um foco grande na Europa e no UK, como esperado, mas também uma grande popularização nos EUA.

doctorwho_tweets_geolocation.png

Fiz algumas buscas específicas por "Capaldi" também, para tentar capturar dados mais focados na atuação dele. A seguir, 49334 tweets com a palavra "Capaldi" e o que eu extraí desses tweets (nos mesmos parâmetros das redes anteriores). Vejam que também os termos são muito elogiosos. 

capaldinovo.png

A seguir, a rede marcada pela mesma medida de centralidade anterior, onde se pode perceber melhor os termos utilizados para qualificar o ator.

capaldiclusterbetwenneess.png
De novo, por geolocalização a seguir, vemos de onde saíram os tweets que comentaram a atuação. De novo, forte presença da Europa, EUA e, na América do Sul, do Brasil. 

Capaldi_tweets_geolocation.png
De posse desse spoiler, fiquei entusiasmadíssima para assistir o novo episódio. Agora vamos ver o que vou achar. :-)

#DilmanoJN


Ontem a presidenta Dilma esteve presente no Jornal Nacional, para uma entrevista de 15 minutos, conforme vem sendo feito com os candidatos a presidência da República. Coloquei o Aécio que foi semana passada no último post. Agora o grafo da discussão em torno da hashtag #DilmanoJN. Coletei cerca de 9 mil tweets uma hora após a entrevista. Uma vez retirados tweets repetidos (spam) e afins, ficamos com 6010 tweets e 3016 contas únicas. Como o grafo do Aécio, o de Dilma também é bastante polarizado. Na imagem a seguir, as conexões em vermelho representam grupos apoiadores, cujos conjuntos de palavras mais utilizadas remetem ao apoio à reeleição da presidenta. Em azul, os grupos contrários, seja por manifestações críticas ou a favor de outros candidatos. Em cinza ficaram os grupos "neutros", onde não foi possível determinar um posicionamento claro. (Clique na imagem para ver em tamanho maior.)

dilmanojn.png

Na tagcloud a seguir, temos os principais termos utilizados pelo principal grupo de apoio (o maior). Há uma clara militância nesse sentido, com a hashtag #dilma13denovo, que foi largamente utilizada pelos grupos de apoio em conjunto com a hashtag #dilmanojn (que eu excluí da tagcloud justamente porque foi o termo de coleta de dados, então obviamente seria o mais citado). Também é interessante observar os elementos positivos associados nesta tagcloud. (Clique na imagem para ver em tamanho maior.)

g1dilma.png
Na tagcloud a seguir, peguei o principal grupo crítico. Vejam que os termos utilizados mudam, e que os candidatos concorrentes são bastante citados. Também há palavras mais críticas, como "foradilma. É importante ressaltar que houve também uma militância contrária à Dilma, que foi marcada pela hashtag #EuVouDeAécio, que subiu nos trending topics meio que junto com a #dilma13denovo. A questão é que o grupo crítico não usou a hashtag #dilmanojn, o que fez com que seus tweets não aparecessem nessa busca. Assim, as palavras usadas pelos grupos críticos são mais difusas e menos direcionadas nestes dados do que as do grupo de apoio, que aparecem mais organizadas.

g3dilma.png
A seguir, o grafo total das palavras mais citadas. Vemos um conjunto total mais positivo (porque, como vimos no grafo, há um conjunto maior e mais articulado de militância no sentido de construir conceitos positivos). Os comentários negativos são mais difusos (embora também tenha aparecido militância contrária, conforme vimos), pois se articularam em torno de uma hashtag que não analisei aqui.
dilmatudo.png
É importante notar a presença das militâncias na mídia social. Elas demarcam uma guerra discursiva agressiva que tem começa a ganhar força online porque tem mais visibilidade. É interessante também que essa guerra apareça com mais força no grafo de hoje, em detrimento daquele do Aécio que fiz semana passada. Faz sentido, uma vez que Dilma está em primeiro lugar nas pesquisas, que exista uma concentração de militância anti-Dilma dos opositores, bem como uma maior militância positiva. A ver no que isso tudo vai resultar.

A coleta e análise dos dados apresentados aqui foi feita com o NodeXL, as tagclouds gerados com o Wordle e as análises com scripts desenvolvidos pelo MIDIARS.

#AecionoJN


Ontem a noite o candidato a presidência da república Aécio Neves deu entrevista ao Jornal Nacional. A hashtag #aecionojn apareceu nos trending topics do Twitter e ficou ali por um bom tempo. Fiz uma coleta rápida, de cerca de 18 mil tweets, dos quais 12304 usuários únicos. O grafo abaixo mostra as interações entre esses usuários. Usei o NodeXL. Os grupos estão separados por clusters (Clauset-Newman-Moore). Isso significa que as contas que mais se citaram entre si tendem a ficar agrupadas no mesmo conjunto, abarcando um pouco melhor as conversações de determinados grupos. 

É interessante que claramente temos dois grandes grupos: O azul, que parece conter uma posição mais favorável ao candidato e sua participação no programa e um vermelho, que parece conter um grupo mais crítico ao mesmo.  Também há dois outros grupos (em verde e azul claro), mas a posição dos tweets é mais difusa nesses dois. (Clique na imagem para ver em tamanho maior.)

aecionnojn.png
Para tentar entender melhor essas participações no Twitter, fiz tagclouds das palavras mais frequentes em cada um dos principais grupos e no grafo como um todo. A seguir, a tagcloud do grafo como um todo. Vemos aqui as palavras mais frequentes (por tamanho) utilizadas nos tweets. O tamanho das palavras se dá por sua frequência e selecionei apenas as 100 mais frequentes, retirada a hashtag, que obviamente se apresenta em todos os tweets. (Clique na imagem para ver em tamanho maior.)
tagcloudgrupo1.png

A seguir, a tagcloud das palavras mais frequentes usadas no grupo 1 (o Grupo azul). (Clique na imagem para ver em tamanho maior.)

aeciogrupo12.png
E finalmente, a tagcloud das palavras mais frequentes no grupo 2 (o vermelho). (Clique na imagem para ver em tamanho maior.)
tagcloudgrupo2.png
É interessante observar que há frequencias diferentes de palavras diferentes em cada grupo, embora o conjunto e a oposição entre Aécio e Dilma apareça em todos. Também é interessante observar que grupos diferentes parecem participar entre si, mas pouco conjuntamente (o que seria esperado, com exceção de pontos de união em flames - discussões - e citações a um candidato ou outro). 

Disciplina nova no PPGL: ANÁLISE DE REDES SOCIAIS E DISCURSO NA INTERNET


Já faz algum tempo que venho explorando a questão de como extrair sentido de conjuntos de dados de "falas" dos sites de rede social, focando especificamente o discurso e misturando métodos. Venho narrando algumas dessas experiências aqui e em alguns artigos que estão aguardando publicação. Então, este semestre, como forma de tentar multiplicar essas idéias, propus uma disciplina nova para o PPG, focando especificamente esses estudos e a proposta foi aceita. Então a partir da 2a semana de agosto, começamos a disciplina de TÓPICOS ESPECIAIS EM ANÁLISE DE REDES SOCIAIS E DISCURSO NA INTERNET.

O objetivo é discutir elementos da linguística, de forma particular, conceitos de discurso, formação discursiva, conversação e etc. a partir de um foco de análise de redes. Também quero misturar um pouco de Análise de Conteúdo, Análise Textual e, é claro, métricas de Análise de Redes Sociais(ARS)  e Análise de Redes para tentar compreender melhor esses dados. Na prática, vamos explorar mineração de dados, limpeza de datasets, plotagem de grafos e métricas de ARS, bem como softwares de análise e o que se pode extrair de tudo isso (limitações). De quebra ainda, quero abordar os problemas éticos desses dados e como podemos lidar com isso.

Essa primeira turma é um pouco experimental, porque não sei se vamos conseguir trabalhar com muitos dados e a maioria dos alunos são os meus orientandos. No final do semestre, há a proposta de fazer a mesma disciplina em caráter concentrado, por uma semana em dezembro ou em março. Aqueles que se interessarem, em breve aviso a respeito. É possível também que saiam alguns cursos menores, em outras universidades, com esse mesmo foco. Aviso, caso isso se concretize.

BRASNAM 2014


Semana passada tive a oportunidade de participar da BRASNAM deste ano, que é o Brazilian Workshop on Social Network Analysis and Mining (Workshop Brasileiro de Análise de Redes Sociais e Mineração). O evento é primariamente promovido pelo pessoal da Computação e acontece junto com o CSBC (Congresso Nacional da Sociedade Brasileira de Computação). Foi uma experiência muito legal. Primeiro porque o evento tem a ambição de congregar todos os trabalhos sobre análise de redes online e mineração de forma multidisciplinar (ou seja, há pessoas de várias áreas participando) e segundo, porque há um foco muito forte da computação, com o qual eu particularmente me alinho bastante.

Duas áreas de grande destaque nos trabalhos: análise de sentimento (ou seja, extrair sentimento dos dados de Twitter, Facebook e etc.), que parece crescer e que se alinha um pouco com a abordagem discursiva que tenho falado aqui no blog de ARS; e também análise e predição de opinião (adorei os trabalhos focados nas eleições). Formas de mineração, limitações, problemas com interdisciplinariedade, identificação de influenciadores e redes de colaboração também foram temáticas recorrentes. Para quem quiser conferir, os trabalhos estão publicados aqui

Enfim, mesmo com a parca avaliação desse tipo de evento pelas áreas de Humanas, Sociais e Letras, vale a pena ouvir e tentar colaborações com as demais áreas. A seguir, eu e os organizadores, Li Weigang (UnB) e Fabrício Benevenuto (UFMG).
IMG_7432.JPG