# Muestras de infoxicación en Twitter.
> Los medios nos estan infoxicando.

- toc: true 
- badges: true
- comments: true
- author: Victoregb
- categories: [opinión, análsis de datos, COVID]
- image: images/chart-preview.png

Como españoles residiendo en Alemania hay una cosa que nos ha llamado la atención: Lo descuidados que son aqui con las medidas de prevención frente al coronavirus. Cierto es, que el país no se vio tan afectado como España. Ni tampoco por igual en todas partes, en Bavaria (región muy golpeada por la pandemia), se puede ver con asombro como la gente lleva mascarilla por la calle, mientras que en Hamburgo y alrededores la gente apenas las usa y en las zonas donde es obligatoria, como en los transportes públicos, su uso es relativamente laxo.  

Nosotros, que vivimos en una zona poco afectada y que hemos vivido el impacto que ha tenido en España a través de nuestras familias y amigos, seguimos tomando precauciones, como mantener una cierta distancia de seguridad. No nos engañemos, la gente nos mira raro.  

Sabemos que hay muchas causas que ayudan a explicar las diferencias en el número de contagios. Sin embargo, hay algo que nos ha llamado la atención y sí puede haber una relación entre el papel de los medios de comunicación durante la pandemia y la actitud de la gente.  

Sabemos que twiter no es una muestra representativa de la sociedad, pero eso no se aplica necesariamente a las cuentas de los medios de comunicación. He decidido analizar los twits de 8 medios de comunicación de ambos países, tanto liberales como conservadores, así como nacionales y regionales.  

Hemos recopilado los twits entre el 01/01/2020 hasta el 31/08/2020 de _El Pais_, _El mundo_, _La Vanguardia_ y _El Norte de Castilla_ como medios en castellano y en Alemán _Die Welt_, _Frankfurter Allgemeine Zeitung_, _Süddeutsche Zeitung_ y el _Thüringer Allgemeine_.  

Uno de los retos a tener en cuenta a la hora de analizar el contenido de los twits es que en el idioma alemán hay una gran cantidad de palabras compuestas lo cual puede falsear las gráficas de dispersión, por lo que hay que tenerlo en cuenta a la hora interpretarlas. 
Así que aqui tenemos el reto, 6 medios de comunicación, 171.107 twits y 1.777.522 palabras. Más o menos. 

Dicho esto, vamos a poner un poco de contexto. Los datos de contagios y fallecidos los he sacado de la pagina web _Our World in Data_ por lo que puede diferir un poco de los datos oficiales dados por las autonomías. La base de datos luce así:

In [1]:
#collapse-hide
import pandas as pd
import altair as alt
from altair.expr import datum
alt.data_transformers.disable_max_rows()

lista_palabras = 'https://raw.githubusercontent.com/psiconomicon/blog/master/assets/lista_palabras.csv'
casos_decesos = 'https://raw.githubusercontent.com/psiconomicon/blog/master/assets/casos_decesos.csv'

df_palabras = pd.read_csv(lista_palabras, index_col=0)
df_casos = pd.read_csv(casos_decesos, index_col=0)

df_casos.head()

Unnamed: 0,date,new_cases_est_ESP,new_deaths_ESP,new_cases_ESP,new_cases_ALE,new_deaths_ALE
0,2019-12-31,0.0,-0.0,0.0,0.0,-0.0
1,2020-01-01,0.0,-0.0,0.0,0.0,-0.0
2,2020-01-02,0.0,-0.0,0.0,0.0,-0.0
3,2020-01-03,0.0,-0.0,0.0,0.0,-0.0
4,2020-01-04,0.0,-0.0,0.0,0.0,-0.0


Este grafico muestra los nuevos casos registrados diariamente y la sección en fondo rojo el confinamiento en España. Como podemos la  observar da la sensación de que la segunda ola es ahora tan grande como la primera.  Pero como mostraron datadista esto es un error. Vamos a hacer nuestra propia versión. Gracias al estudio de Seroprevalencia, ahora sabemos que durante la primera ola, sólo detectábamos un contagiado de cada 10. Por suerte, las técnicas han mejorado y estimamos que ahora detectamos a 7 de cada 10. Y eso en que se traduce:
Exacto, la nueva estimación es que ahora no estamos ni de lejos tan mal como durante la primera ola. Y si tomamos lo que indicaba Tomas Pueyo, el confinamiento fue el martillo para doblar la curva, y ahora estamos viviendo la danza.

In [2]:
#collapse-hide
confina_df = pd.DataFrame([{'x_min': '2020-03-15 00:00:00',
                            'x_max': '2020-06-20 00:00:00',
                            'y_min': -2000,
                            'y_max': 14000}])

confina_est_df = pd.DataFrame([{'x_min': '2020-03-15 00:00:00',
                                'x_max': '2020-06-20 00:00:00',
                                'y_min': -10000,
                                'y_max': 100000}])

confin_casos = alt.Chart(confina_df).mark_rect(color='firebrick', opacity=0.1).encode(
    x='x_min:T',
    x2='x_max:T',
    y='y_min:Q',
    y2='y_max:Q')

base1 = alt.Chart(df_casos)
casos = base1.mark_bar(opacity=0.1).encode(x=alt.X('date:T', title='Fecha'), 
                                           y=alt.Y('new_cases_ESP:Q', title="Casos"))
decesos = base1.mark_bar(color='orange',opacity=0.1).encode(x=alt.X('date:T', title='Fecha'), 
                                           y=alt.Y('new_deaths_ESP:Q'))


alt.layer(confin_casos + casos + decesos).interactive()

Es normal que los casos suban y bajen. Hay tener en cuenta que aunque los datos pareca que se repitan de nuevo, no es la misma historia. 
¿Y lo medios de comunicación entonces? Vamos a comparar el grafico de casos estimados con las noticias. La situación ha mejorado, pero sigue habiendo una gran cantidad de noticias sobre casos y el virus. Entiendo que sea un tema de actualidad, pero la omnipresencia en los medios afecta a nuestra percepción de la realidad. 