# Superbowl 2017


## tl;dr

Vamos a analizar una colección de tweets en inglés publicados durante un partido de fútbol.


## Contexto

El pasado 5 de febrero se celebró la [51ª edición de la Superbowl](https://en.wikipedia.org/wiki/Super_Bowl_LI), la gran final del campeonato de fútbol americano de la NFL. El partido enfrentó a los [New England Patriots](https://en.wikipedia.org/wiki/New_England_Patriots) (los favoritos, los de la costa este, con [Tom Brady](https://en.wikipedia.org/wiki/Tom_Brady) a la cabeza) contra los [Atlanta Falcons](https://en.wikipedia.org/wiki/Atlanta_Falcons) (los aspirantes, los del Sur, encabezados por [Matt Ryan](https://en.wikipedia.org/wiki/Matt_Ryan_(American_football))).

![](http://bandageek.com/wp-content/uploads/2017/02/patriots-vs-falcons.jpg)

Como cualquier final, el resultado *a priori* era impredecible y a un partido podía ganar cualquiera. Pero el del otro día fue un encuentro inolvidable porque comenzó con el equipo débil barriendo al favorito y con un Brady que no daba una. Al descanso, el marcador reflejaba un inesperado **3 - 28** y todo indicaba que los Falcons ganarían su primer anillo.

![](https://pbs.twimg.com/media/C38X-Z-VUAA-UAV.jpg)

Pero, en la segunda mitad, Brady resurgió... y su equipo comenzó a anotar una y otra vez... con los Falcons ko. Los Patriots consiguieron darle la vuelta al marcador y vencieron por **34 - 28** su quinta Superbowl. Brady fue elegido MVP del encuentro y aclamado como el mejor quaterback de la historia.

![](http://images.complex.com/complex/images/c_limit,w_680/f_auto,fl_lossy,pg_1,q_auto/d36dh2j3micwoszunssh/tom-brady-new-england-patriots-vince-lombardi-trophy-super-bowl-li)

Como os imaginaréis, tanto vaivén nos va a dar mucho juego a la hora de analizar un corpus de mensajes de Twitter. Durante la primera mitad, es previsible que encuentres mensajes a favor de Atlanta y burlas a New England y a sus jugadores, que no estaban muy finos. Pero al final del partido, con la remontada, las opiniones y las burlas cambiarán de sentido.

Como tanto Tom Brady como su entrenador, Bill Belichick, habían declarado públicamente sus preferencias por Donald Trump durante las elecciones a la presidencia, es muy probable que encuentres mensajes al respecto y menciones a demócratas y republicanos.

Por último, durante el *half time show* actuó Lady Gaga, que también levanta pasiones a su manera, así que es probable que haya menciones a otras *reinas* de la música y comparaciones con actuaciones pasadas.

![](http://www.billboard.com/files/styles/article_main_image/public/media/12-lady-gaga-super-bowl-feb-2017-billboard-1548.jpg)


## Los datos

El fichero `2017-superbowl-tweets.tsv` ubicado en el directorio `data/` contiene una muestra, ordenada cronológicamente, de mensajes escritos en inglés publicados antes, durante y después del partido. Todos los mensajes contienen el hashtag `#superbowl`. Hazte una copia de este fichero en el directorio `notebooks` de tu espacio personal.

El fichero es en realidad una tabla con cuatro columnas separadas por tabuladores, que contiene líneas (una por tweet) con el siguiente formato:

    id_del_tweet fecha_y_hora_de_publicación autor_del_tweet texto_del_mensaje


La siguiente celda te permite abrir el fichero para lectura y cargar los mensajes en la lista `tweets`. Modifica el código para que la ruta apunte a la copia local de tu fichero.

In [1]:
!gunzip /content/2017-twitter-messages.tsv.gz
!ls -l /content

total 1636
-rw-r--r-- 1 root root 1668705 Aug  9 09:56 2017-twitter-messages.tsv
drwxr-xr-x 1 root root    4096 Jul 30 16:30 sample_data


In [3]:
tweets = []
RUTA = '/content/2017-twitter-messages.tsv'
for line in open(RUTA).readlines():
    tweets.append(line.split("\t"))

In [6]:
# en Windows, asegúrate de que abres el fichero de texto forzando la codificación para que sea Unicode
import codecs

# se asegura el codec correcto
tweets = []
RUTA = '/content/2017-twitter-messages.tsv'

with codecs.open(RUTA, "r", "utf-8") as f:
    for line in f.readlines():
        tweets.append(line.split("\t"))

Fíjate en la estructura de la lista: se trata de una lista de tuplas con cuatro elementos. Puedes comprobar si el fichero se ha cargado como debe en la siguiente celda:

In [5]:
ultimo_tweet = tweets[-1]
print("id =>", ultimo_tweet[0])
print("fecha =>", ultimo_tweet[1])
print("autor =>", ultimo_tweet[2])
print("texto =>", ultimo_tweet[3])

id => 828498211253997568
fecha => 2017-02-06 06:59:00
autor => ceebrie
texto => Honestly WHAT a SuperBowl performance ✨



Abrirlo con pandas

In [10]:
import pandas as pd

df = pd.read_csv('/content/2017-twitter-messages.tsv', sep = '\t', header = None)
df.columns = ['id', 'date', 'userid', 'text']
df.head(10)

Unnamed: 0,id,date,userid,text
0,828319872929112064,2017-02-05 19:10:21,ashhar_1,RT @BBCWorld: Astronauts attempt an out-of-thi...
1,https://t.co/bHxzttGXUR #SuperBowl2017 https://…,,,
2,828319872245432320,2017-02-05 19:10:21,RNRMontana,RT @theoptionoracle: Retweet if you think the ...
3,#BoycottNFL #ladygaga #SuperBowl Halftime Show.,,,
4,@AppSame #MAGA…,,,
5,828319872060944384,2017-02-05 19:10:21,DerksFighter,RT @JODYHiGHROLLER: $100 FREE SUPERBOWL GiVE A...
6,$50 iN FREE DELiVERY OF ALL SNACKS &amp; ALCOH...,,,
7,$50 iN FREE LYFT RiDES…,,,
8,828319872010563588,2017-02-05 19:10:21,FamCat,RT @TheBaxterBean: TRUMP'S AMERIKKKA: Texas hi...
9,828319871784120321,2017-02-05 19:10:21,Sydney10005,@DaRealWillPower are you ready for the superbo...


## Al lío

A partir de aquí puedes hacer distintos tipos de análisis. Añade tantas celdas como necesites para intentar, por ejemplo:

- calcular distintas estadísticas de la colección: número de mensajes, longitud de los mensajes, presencia de hashtags y emojis, etc.
- número de menciones a usuarios, frecuencia de aparición de menciones, frecuencia de autores
- calcular estadísticas sobre usuarios: menciones, mensajes por usuario, etc.
- calcular estadísticas sobre las hashtags
- calcular estadísticas sobre las URLs presentes en los mensajes
- calcular estadísticas sobre los emojis y emoticonos de los mensajes
- extraer automáticamente las entidades nombradas que aparecen en los mensajes y su frecuencia
- procesar los mensajes para extraer y analizar opiniones: calcular la subjetividad y la polaridad de los mensajes
- extraer las entidades nombradas que levantan más pasiones, quiénes son los más queridos y los más odiados, atendiendo a la polaridad de los mensajes
- comprobar si la polaridad de alguna entidad varía radicalmente a medida que avanza el partido
- cualquier otra cosa que se te ocurra :-P



In [1]:
!pip install spacy
!python -m spacy download en_core_web_md
!pip install flair

# REINICIAR el entorno de ejecución para que se pueda cargar sin error en_core_web_md

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_md')
Collecting flair
  Using cached https://files.pythonhosted.org/packages/60/8f/51d1f2eb5f9b09beb1e6858b4c174a087bc3b05893438e2cd3ffbf9c6e8b/flair-0.5.1-py3-none-any.whl
Collecting mpld3==0.3
  Using cached https://files.pythonhosted.org/packages/91/95/a52d3a83d0a29ba0d6898f6727e9858fe7a43f6c2ce81a5fe7e05f0f4912/mpld3-0.3.tar.gz
Collecting pytest>=5.3.2
  Using cached https://files.pythonhosted.org/packages/98/db/712bee56f9ab20373508a5a1c662e1db49b407dacf03b5224c6171ed0a3d/pytest-6.0.1-py3-none-any.whl
Collecting sqlitedict>=1.6.0
  Using cached https://files.pythonhosted.org/packages/0f/1c/c757b93147a219cf1e25cef7e1ad9b595b7f802159493c45ce116521caff/sqlitedict-1.6.0.tar.gz
Collecting segtok>=1.5.7
  Using cached https://files.pythonhosted.org/packages/41/08/582dab5f4b1d5ca23bc6927b4bb977c8ff7f3a87a3b98844ef833e2f5623/segtok-1.5.10.tar.gz
Collecting sentencepiece!=0.1.92
[?25l

In [1]:
# escribe tu código aquí
import spacy

nlp = spacy.load('en_core_web_md')

In [31]:
from flair.data import Sentence
from flair.models import SequenceTagger
from flair.models import TextClassifier

# modelo en inglés: pos-fast
pos = SequenceTagger.load('pos-fast')

# modelo ner-fast
ner = SequenceTagger.load('ner-fast')

# modelo de sentimientos
sentiment = TextClassifier.load("en-sentiment")

2020-08-09 10:52:33,661 loading file /root/.flair/models/en-pos-ontonotes-fast-v0.5.pt
2020-08-09 10:52:33,842 loading file /root/.flair/models/en-ner-fast-conll03-v0.4.pt
2020-08-09 10:52:35,274 loading file /root/.flair/models/sentiment-en-mix-distillbert.pt


In [7]:
import codecs

# se asegura el codec correcto
tweets = []
RUTA = '/content/2017-twitter-messages.tsv'

with codecs.open(RUTA, "r", "utf-8") as f:
    for line in f.readlines():
        tweets.append(line.split("\t"))

In [17]:
# for sample in list(df['text'])[:100]
for sample in tweets[:100]:
  if len(sample) == 4: # Asegurarme que tengo cuatro columnas en la muestra
    text = sample[3]

    # analizamos entidades nombradas con spaCy
    doc =  nlp(text)
    print(f"{text}\n")
    spacy_entities = []
    for entity in doc.ents:
      spacy_entities.append(entity, entity.label_))
    print(f"{[(entity, entity.label_) for entity in doc.ents]}\n\n")

    # analizamos entidades nombradas con Flair
    s = Sentence(text)
    ner.predict(s)
    print(f"""flair: {[entity for entity in s.get_spans('ner')]}\n""")

RT @BBCWorld: Astronauts attempt an out-of-this-world record, inspired by the #SuperBowl 🏈


[(RT @BBCWorld:, 'PERSON')]


flair: [<ORG-span (1,2,3): "RT @BBCWorld: Astronauts">]

RT @theoptionoracle: Retweet if you think the @NFL is making a BIG mistake.


[(RT @theoptionoracle, 'PERSON'), (@NFL, 'ORG')]


flair: [<ORG-span (8): "@NFL">]

RT @JODYHiGHROLLER: $100 FREE SUPERBOWL GiVE AWAY !


[(RT @JODYHiGHROLLER, 'PERSON'), (100, 'MONEY')]


flair: []

RT @TheBaxterBean: TRUMP'S AMERIKKKA: Texas high school class photo gives Nazi salute, shouts 'Heil Hitler Heil Trump' #SB51 #SuperBowl htt…


[(TRUMP'S, 'ORG'), (AMERIKKKA, 'NORP'), (Texas, 'GPE'), (Nazi, 'NORP'), (Heil Hitler, 'PERSON'), (Heil Trump', 'PERSON')]


flair: [<LOC-span (5): "Texas">, <MISC-span (11): "Nazi">, <PER-span (14,15): "'Heil Hitler">]

@DaRealWillPower are you ready for the superbowl Pats are winning obviously https://t.co/R9N9RzOjR6


[(@DaRealWillPower, 'ORG')]


flair: [<ORG-span (8): "Pats">]

SUPERBOWL ! 51

In [34]:
# for sample in list(df['text'])[:100]
for sample in tweets[200:400]:
  if len(sample) == 4: # Asegurarme que tengo cuatro columnas en la muestra
    text = sample[3]

    #analizamos el sentimiento con flair
    s = Sentence(text) # método que modifica el objeto inplace, le añade la propiedad labels
    sentiment.predict(s)
    print(f"{text} -> {s.labels}")

    # analizamos entidades nombradas con spaCy
    doc =  nlp(text)
    print(f"{text}")
    spacy_entities = []
    for entity in doc.ents:
      spacy_entities.append((entity, entity.label_))
    #imprime la cadena spacy: + espacio + el valor de la variable de spaCy. Se llaman f strings
    print(f"spaCy: {spacy_entities}") 
    
    # analizamos entidades nombradas con Flair
    s = Sentence(text)
    ner.predict(s)
    print(f"""flair: {[entity for entity in s.get_spans("ner")]}\n""")

RT @ArashMarkazi: Happy #SuperBowl Sunday! https://t.co/CE3gTPg9yF
 -> [POSITIVE (0.9955)]
RT @ArashMarkazi: Happy #SuperBowl Sunday! https://t.co/CE3gTPg9yF

spaCy: [(Sunday, 'DATE'), (https://t.co/CE3gTPg9yF
, 'PERSON')]
flair: []

RT @FoxNews: 1.3 billion - that's how many chicken wings football fans will be chowing down on for this year's #SuperBowl. https://t.co/bLh…
 -> [POSITIVE (0.9531)]
RT @FoxNews: 1.3 billion - that's how many chicken wings football fans will be chowing down on for this year's #SuperBowl. https://t.co/bLh…

spaCy: [(1.3 billion, 'CARDINAL'), (year, 'DATE'), (SuperBowl, 'ORG')]
flair: [<MISC-span (1,2): "RT @FoxNews:">]

RT @garretw5: On behalf of Bills fans everywhere, #GoFalcons #SuperBowl #BradySitsWhenHePees #BillsMafia https://t.co/9bKdP65HWb
 -> [POSITIVE (0.9804)]
RT @garretw5: On behalf of Bills fans everywhere, #GoFalcons #SuperBowl #BradySitsWhenHePees #BillsMafia https://t.co/9bKdP65HWb

spaCy: [(Bills, 'ORG'), (#GoFalcons, 'MONEY'), (BillsMafia, '