# Superbowl 2017


## tl;dr

Vamos a analizar una colección de tweets en inglés publicados durante un partido de fútbol.


## Contexto

El pasado 5 de febrero se celebró la [51ª edición de la Superbowl](https://en.wikipedia.org/wiki/Super_Bowl_LI), la gran final del campeonato de fútbol americano de la NFL. El partido enfrentó a los [New England Patriots](https://en.wikipedia.org/wiki/New_England_Patriots) (los favoritos, los de la costa este, con [Tom Brady](https://en.wikipedia.org/wiki/Tom_Brady) a la cabeza) contra los [Atlanta Falcons](https://en.wikipedia.org/wiki/Atlanta_Falcons) (los aspirantes, los del Sur, encabezados por [Matt Ryan](https://en.wikipedia.org/wiki/Matt_Ryan_(American_football))).

![](http://bandageek.com/wp-content/uploads/2017/02/patriots-vs-falcons.jpg)

Como cualquier final, el resultado *a priori* era impredecible y a un partido podía ganar cualquiera. Pero el del otro día fue un encuentro inolvidable porque comenzó con el equipo débil barriendo al favorito y con un Brady que no daba una. Al descanso, el marcador reflejaba un inesperado **3 - 28** y todo indicaba que los Falcons ganarían su primer anillo.

![](https://pbs.twimg.com/media/C38X-Z-VUAA-UAV.jpg)

Pero, en la segunda mitad, Brady resurgió... y su equipo comenzó a anotar una y otra vez... con los Falcons ko. Los Patriots consiguieron darle la vuelta al marcador y vencieron por **34 - 28** su quinta Superbowl. Brady fue elegido MVP del encuentro y aclamado como el mejor quaterback de la historia.

![](http://images.complex.com/complex/images/c_limit,w_680/f_auto,fl_lossy,pg_1,q_auto/d36dh2j3micwoszunssh/tom-brady-new-england-patriots-vince-lombardi-trophy-super-bowl-li)

Como os imaginaréis, tanto vaivén nos va a dar mucho juego a la hora de analizar un corpus de mensajes de Twitter. Durante la primera mitad, es previsible que encuentres mensajes a favor de Atlanta y burlas a New England y a sus jugadores, que no estaban muy finos. Pero al final del partido, con la remontada, las opiniones y las burlas cambiarán de sentido.

Como tanto Tom Brady como su entrenador, Bill Belichick, habían declarado públicamente sus preferencias por Donald Trump durante las elecciones a la presidencia, es muy probable que encuentres mensajes al respecto y menciones a demócratas y republicanos.

Por último, durante el *half time show* actuó Lady Gaga, que también levanta pasiones a su manera, así que es probable que haya menciones a otras *reinas* de la música y comparaciones con actuaciones pasadas.

![](http://www.billboard.com/files/styles/article_main_image/public/media/12-lady-gaga-super-bowl-feb-2017-billboard-1548.jpg)


## Los datos

El fichero `2017-superbowl-tweets.tsv` ubicado en el directorio `data/` contiene una muestra, ordenada cronológicamente, de mensajes escritos en inglés publicados antes, durante y después del partido. Todos los mensajes contienen el hashtag `#superbowl`. Hazte una copia de este fichero en el directorio `notebooks` de tu espacio personal.

El fichero es en realidad una tabla con cuatro columnas separadas por tabuladores, que contiene líneas (una por tweet) con el siguiente formato:

    id_del_tweet fecha_y_hora_de_publicación autor_del_tweet texto_del_mensaje


La siguiente celda te permite abrir el fichero para lectura y cargar los mensajes en la lista `tweets`. Modifica el código para que la ruta apunte a la copia local de tu fichero.

In [6]:
!gunzip ../data/2017-twitter-messages.tsv.gz
!ls -l ../data

total 4656
-rwxrwxrwx 1 angelrps angelrps 1668705 Mar 19 13:37 2017-twitter-messages.tsv
-rwxrwxrwx 1 angelrps angelrps 1184237 Mar 19 13:37 2018-twitter-messages.tsv.gz
-rwxrwxrwx 1 angelrps angelrps   61872 Mar 19 13:37 alicia.txt.gz
-rwxrwxrwx 1 angelrps angelrps    3706 Mar 19 13:37 es-ancora.map
-rwxrwxrwx 1 angelrps angelrps  923456 Mar 19 13:37 fortunatayjacinta.txt.gz
-rwxrwxrwx 1 angelrps angelrps  748310 Mar 19 13:37 sherlockholmes.txt.gz


In [7]:
tweets = []
RUTA = "../data/2017-twitter-messages.tsv"
for line in open(RUTA).readlines():
    tweets.append(line.split("\t"))

In [8]:
# en Windows, asegúrate de que abres el fichero de texto forzando la codificación para que sea Unicode
import codecs

tweets = []
RUTA = "../data/2017-twitter-messages.tsv"

with codecs.open(RUTA, "r", "utf-8") as f:
    for line in f.readlines():
        tweets.append(line.split("\t"))

Fíjate en la estructura de la lista: se trata de una lista de tuplas con cuatro elementos. Puedes comprobar si el fichero se ha cargado como debe en la siguiente celda:

In [None]:
ultimo_tweet = tweets[-1]
print("id =>", ultimo_tweet[0])
print("fecha =>", ultimo_tweet[1])
print("autor =>", ultimo_tweet[2])
print("texto =>", ultimo_tweet[3])

## Al lío

A partir de aquí puedes hacer distintos tipos de análisis. Añade tantas celdas como necesites para intentar, por ejemplo:

- calcular distintas estadísticas de la colección: número de mensajes, longitud de los mensajes, presencia de hashtags y emojis, etc.
- número de menciones a usuarios, frecuencia de aparición de menciones, frecuencia de autores
- calcular estadísticas sobre usuarios: menciones, mensajes por usuario, etc.
- calcular estadísticas sobre las hashtags
- calcular estadísticas sobre las URLs presentes en los mensajes
- calcular estadísticas sobre los emojis y emoticonos de los mensajes
- extraer automáticamente las entidades nombradas que aparecen en los mensajes y su frecuencia
- procesar los mensajes para extraer y analizar opiniones: calcular la subjetividad y la polaridad de los mensajes
- extraer las entidades nombradas que levantan más pasiones, quiénes son los más queridos y los más odiados, atendiendo a la polaridad de los mensajes
- comprobar si la polaridad de alguna entidad varía radicalmente a medida que avanza el partido
- cualquier otra cosa que se te ocurra :-P



In [10]:
!pip install spacy
! python -m spacy download en_core_web_md
!pip install flair

Collecting spacy
[?25l  Downloading https://files.pythonhosted.org/packages/37/ff/2a7c89f2069173a1ecbccd95d2a23fc42f89045b33f8a71ef57b360a3de4/spacy-2.2.4-cp37-cp37m-manylinux1_x86_64.whl (10.6MB)
[K     |████████████████████████████████| 10.6MB 7.2MB/s eta 0:00:01
[?25hCollecting srsly<1.1.0,>=1.0.2 (from spacy)
[?25l  Downloading https://files.pythonhosted.org/packages/4c/27/0e1deb477dd422427a18d8283b7aacf48b5f77c668feeb2c4920ee6cc3a3/srsly-1.0.2-cp37-cp37m-manylinux1_x86_64.whl (185kB)
[K     |████████████████████████████████| 194kB 4.1MB/s eta 0:00:01
Collecting plac<1.2.0,>=0.9.6 (from spacy)
  Downloading https://files.pythonhosted.org/packages/86/85/40b8f66c2dd8f4fd9f09d59b22720cffecf1331e788b8a0cab5bafb353d1/plac-1.1.3-py2.py3-none-any.whl
Collecting tqdm<5.0.0,>=4.38.0 (from spacy)
[?25l  Downloading https://files.pythonhosted.org/packages/47/55/fd9170ba08a1a64a18a7f8a18f088037316f2a41be04d2fe6ece5a653e8f/tqdm-4.43.0-py2.py3-none-any.whl (59kB)
[K     |█████████████████

  Building wheel for en-core-web-md (setup.py) ... [?25ldone
[?25h  Created wheel for en-core-web-md: filename=en_core_web_md-2.2.5-cp37-none-any.whl size=98051305 sha256=c6547ab079c5e81a9af84fd6379088e509a813af9b69894d196fdb5046704696
  Stored in directory: /tmp/pip-ephem-wheel-cache-jlkaoysl/wheels/df/94/ad/f5cf59224cea6b5686ac4fd1ad19c8a07bc026e13c36502d81
Successfully built en-core-web-md
Installing collected packages: en-core-web-md
Successfully installed en-core-web-md-2.2.5
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_md')
Collecting flair
[?25l  Downloading https://files.pythonhosted.org/packages/03/29/81e3c9a829ec50857c23d82560941625f6b42ce76ee7c56ea9529e959d18/flair-0.4.5-py3-none-any.whl (136kB)
[K     |████████████████████████████████| 143kB 4.8MB/s eta 0:00:01
[?25hCollecting pytest>=5.3.2 (from flair)
[?25l  Downloading https://files.pythonhosted.org/packages/c7/e2/c19c667f42f72716a7d03e8dd4d6f63f47d39fea

Collecting sacremoses (from transformers>=2.3.0->flair)
[?25l  Downloading https://files.pythonhosted.org/packages/a6/b4/7a41d630547a4afd58143597d5a49e07bfd4c42914d8335b2a5657efc14b/sacremoses-0.0.38.tar.gz (860kB)
[K     |████████████████████████████████| 870kB 6.3MB/s eta 0:00:01
[?25hCollecting boto3 (from transformers>=2.3.0->flair)
[?25l  Downloading https://files.pythonhosted.org/packages/69/2b/d0c034aed3c250d8b57a1eb2ecbeaf803028913ea38e3c580e8840f0e999/boto3-1.12.26-py2.py3-none-any.whl (128kB)
[K     |████████████████████████████████| 133kB 7.2MB/s eta 0:00:01
[?25hCollecting tokenizers==0.5.2 (from transformers>=2.3.0->flair)
[?25l  Downloading https://files.pythonhosted.org/packages/d6/e3/5e49e9a83fb605aaa34a1c1173e607302fecae529428c28696fb18f1c2c9/tokenizers-0.5.2-cp37-cp37m-manylinux1_x86_64.whl (5.6MB)
[K     |████████████████████████████████| 5.6MB 317kB/s eta 0:00:01
Collecting google-cloud-storage (from smart-open>=1.8.1->gensim>=3.4.0->flair)
[?25l  Downloadi

  Building wheel for langdetect (setup.py) ... [?25ldone
[?25h  Created wheel for langdetect: filename=langdetect-1.0.8-cp37-none-any.whl size=993193 sha256=2bca5b8ca76ffc91f5ed7cf858eb6212a5115f65d67d59874e4a75846d71e249
  Stored in directory: /home/angelrps/.cache/pip/wheels/8d/b3/aa/6d99de9f3841d7d3d40a60ea06e6d669e8e5012e6c8b947a57
  Building wheel for segtok (setup.py) ... [?25ldone
[?25h  Created wheel for segtok: filename=segtok-1.5.7-cp37-none-any.whl size=23258 sha256=fc54f527d60e7ae451d8fd395627e4c47107200ea1c092059350724642669ea5
  Stored in directory: /home/angelrps/.cache/pip/wheels/15/ee/a8/6112173f1386d33eebedb3f73429cfa41a4c3084556bcee254
  Building wheel for smart-open (setup.py) ... [?25ldone
[?25h  Created wheel for smart-open: filename=smart_open-1.10.0-cp37-none-any.whl size=90634 sha256=ff9a25cf1d6abc51c23e29b8383d9de2ca135c5d20bf18e576a0bb5f786b1e1e
  Stored in directory: /home/angelrps/.cache/pip/wheels/f8/00/d4/a6b8b6aa241459103d19e757f96645549dd562d5b5de

In [None]:
#import pandas as pd
#df = pd.read_csv("", sep="\t", header=None)
#df.columns = 

In [11]:
# escribe tu código aquí
import spacy
nlp = spacy
nlp = spacy.load("en_core_web_md")

In [19]:
from flair.data import Sentence
from flair.models import SequenceTagger
from flair.models import TextClassifier

pos = SequenceTagger.load("pos-fast")
ner = SequenceTagger.load("ner-fast")
sentiment = TextClassifier.load("en-sentiment")

2020-03-21 13:34:38,756 loading file /home/angelrps/.flair/models/en-pos-ontonotes-fast-v0.4.pt
2020-03-21 13:34:39,003 loading file /home/angelrps/.flair/models/en-ner-fast-conll03-v0.4.pt
2020-03-21 13:34:41,165 https://s3.eu-central-1.amazonaws.com/alan-nlp/resources/models-v0.4/classy-imdb-en-rnn-cuda%3A0/imdb-v0.4.pt not found in cache, downloading to /tmp/tmpmtbhwetu


100%|██████████| 1501979561/1501979561 [03:04<00:00, 8161176.09B/s] 

2020-03-21 13:37:45,486 copying /tmp/tmpmtbhwetu to cache at /home/angelrps/.flair/models/imdb-v0.4.pt





2020-03-21 13:37:57,468 removing temp file /tmp/tmpmtbhwetu
2020-03-21 13:37:57,616 loading file /home/angelrps/.flair/models/imdb-v0.4.pt


In [21]:
# ANALISIS DE RECONOCIMIENTO DE ENTIDADES
# OJO nlp es el modelo de scaCy
# pos es el modelo de flair
# veremos que flair pilla menos cosas

for sample in tweets[200:400]:
    if len(sample) == 4: # esta comprobación es para evitar las muestras con info ausente
        text = sample[3]
        
        # analizamos el sentimiento con flair
        s = Sentence(text)
        sentiment.predict(s) # OJO!! este método modifica el objeto s
        # por eso ahora puedo sacar s.labels
        print(f"{text} -> {s.labels}")
        
        # analizamos entidades nombradas con spaCy
        doc = nlp(text) # nlp también modifica el objeto doc
        print(f"{text}\n")
        spacy_entities = []
        for entity in doc.ents:
            spacy_entities.append((entity, entity.label_))
            
        print(f"spaCy:{spacy_entities}\n")
        
        # analizamos entidades nombradas con spaCy
        ner.predict(s)
        print(f"""flair: {[entity for entity in s.get_spans("ner")]}\n""")

RT @ArashMarkazi: Happy #SuperBowl Sunday! https://t.co/CE3gTPg9yF
 -> [POSITIVE (0.9999747276306152)]
RT @ArashMarkazi: Happy #SuperBowl Sunday! https://t.co/CE3gTPg9yF


spaCy:[(Sunday, 'DATE'), (https://t.co/CE3gTPg9yF
, 'PERSON')]

flair: []

RT @FoxNews: 1.3 billion - that's how many chicken wings football fans will be chowing down on for this year's #SuperBowl. https://t.co/bLh…
 -> [NEGATIVE (0.999680757522583)]
RT @FoxNews: 1.3 billion - that's how many chicken wings football fans will be chowing down on for this year's #SuperBowl. https://t.co/bLh…


spaCy:[(1.3 billion, 'CARDINAL'), (year, 'DATE'), (SuperBowl, 'ORG')]

flair: [<MISC-span (1,2): "RT @FoxNews:">]

RT @garretw5: On behalf of Bills fans everywhere, #GoFalcons #SuperBowl #BradySitsWhenHePees #BillsMafia https://t.co/9bKdP65HWb
 -> [POSITIVE (0.9999322891235352)]
RT @garretw5: On behalf of Bills fans everywhere, #GoFalcons #SuperBowl #BradySitsWhenHePees #BillsMafia https://t.co/9bKdP65HWb


spaCy:[(Bills, 'ORG'), 

flair: [<MISC-span (8,9): "Dirty Birds">]

RT @NFLonFOX: It's not a #SuperBowl on FOX without this song. 
 -> [POSITIVE (0.5787818431854248)]
RT @NFLonFOX: It's not a #SuperBowl on FOX without this song. 


spaCy:[(SuperBowl, 'WORK_OF_ART'), (FOX, 'ORG')]

flair: []

RT @espn: Tom Brady's mom has been battling illness. His dad has only been to one game this year.
 -> [NEGATIVE (0.9833679795265198)]
RT @espn: Tom Brady's mom has been battling illness. His dad has only been to one game this year.


spaCy:[(Tom Brady's, 'PERSON'), (one, 'CARDINAL'), (this year, 'DATE')]

flair: [<PER-span (3,4): "Tom Brady's">]

RT @naejasme: so a white woman is performing at the superbowl https://t.co/PGqiSHWls9
 -> [POSITIVE (0.9898035526275635)]
RT @naejasme: so a white woman is performing at the superbowl https://t.co/PGqiSHWls9


spaCy:[(RT @naejasme, 'PERSON')]

flair: []

RT @6PAPl: young thug needa perform halftime at halftime at the superbowl today
 -> [NEGATIVE (0.8807587623596191)]
RT @6PAPl: y

flair: [<PER-span (3): "God">, <PER-span (12): "Satan">]

1.3 billion - that's how many chicken wings football fans will be chowing down on for this year's #SuperBowl. https://t.co/eiY80aI27a
 -> [NEGATIVE (0.9999213218688965)]
1.3 billion - that's how many chicken wings football fans will be chowing down on for this year's #SuperBowl. https://t.co/eiY80aI27a


spaCy:[(1.3 billion, 'CARDINAL'), (year, 'DATE'), (SuperBowl, 'ORG'), (https://t.co/eiY80aI27a
, 'PERSON')]

flair: []

RT @gracehelbig: Happy Superbowl Sunday! https://t.co/cOlwZy1epn
 -> [POSITIVE (0.9996181726455688)]
RT @gracehelbig: Happy Superbowl Sunday! https://t.co/cOlwZy1epn


spaCy:[(Sunday, 'DATE')]

flair: []

RT @OnlyInBOS: Tom Brady's daughter is ready...#SuperBowl https://t.co/HfkRjA2Et5
 -> [POSITIVE (0.9749739766120911)]
RT @OnlyInBOS: Tom Brady's daughter is ready...#SuperBowl https://t.co/HfkRjA2Et5


spaCy:[(RT @OnlyInBOS, 'PERSON'), (Tom Brady's, 'PERSON'), (https://t.co/HfkRjA2Et5
, 'PERSON')]

flair: [<PE

RT @ISPEvansville: Many🏈fans will be enjoying the #SuperBowl today. Remember 🏈fans don't let other 🏈fans 🚙drunk. Call a 🚕, @Uber or a frien…
 -> [POSITIVE (0.9984264373779297)]
RT @ISPEvansville: Many🏈fans will be enjoying the #SuperBowl today. Remember 🏈fans don't let other 🏈fans 🚙drunk. Call a 🚕, @Uber or a frien…


spaCy:[(RT @ISPEvansville, 'PERSON'), (the #SuperBowl, 'FAC'), (today, 'DATE'), (@Uber, 'ORG')]

flair: [<ORG-span (1,2,3): "RT @ISPEvansville: Many🏈fans">, <MISC-span (8): "#SuperBowl">]

RT @iah: If you're leaving #Houston tomorrow, check out these Travel Tips to make your experience as easy as possible: https://t.co/FEEquhA…
 -> [POSITIVE (0.9196755290031433)]
RT @iah: If you're leaving #Houston tomorrow, check out these Travel Tips to make your experience as easy as possible: https://t.co/FEEquhA…


spaCy:[(Houston, 'GPE'), (tomorrow, 'DATE')]

flair: [<MISC-span (11,12): "Travel Tips">]

Will I be having pizza 🍕 and beer 🍻 during today's big #superbowl game?! Nope. E

Do you know why some guys date Patriots fans?
 -> [NEGATIVE (0.6707019209861755)]
Do you know why some guys date Patriots fans?


spaCy:[(Patriots, 'ORG')]

flair: [<ORG-span (8): "Patriots">]

Going to @Walmart on a Sunday = never a good idea. Going to @Walmart on #SuperBowl Sunday = a horable no good idea!!
 -> [POSITIVE (0.5264837145805359)]
Going to @Walmart on a Sunday = never a good idea. Going to @Walmart on #SuperBowl Sunday = a horable no good idea!!


spaCy:[(@Walmart, 'ORG'), (Sunday, 'DATE'), (@Walmart, 'ORG'), (Sunday, 'DATE'), (horable, 'ORG')]

flair: []

Annual #SuperBowl night. Wings and beer await. Only 4 hours till the coverage starts. 🇺🇸🇺🇸🙌🙌 #Falcons
 -> [POSITIVE (0.73508620262146)]
Annual #SuperBowl night. Wings and beer await. Only 4 hours till the coverage starts. 🇺🇸🇺🇸🙌🙌 #Falcons


spaCy:[(Annual, 'DATE'), (night, 'TIME'), (Only 4 hours, 'TIME'), (🇸, 'PERSON')]

flair: []

RT @WAYFMJustin: I'm with the sign lady. Go @AtlantaFalcons! #RiseUp #Falcons #Patriots #S

flair: [<MISC-span (10,11,12): "Prince's 2007 #SuperBowl">, <ORG-span (16): "@MrMorrisHayes">]

RT @PurposeTour2016: Don't forget Justin's unlimited ad will be featured at tonight's #SuperBowl https://t.co/wmPwubNu4n
 -> [NEGATIVE (0.9998005032539368)]
RT @PurposeTour2016: Don't forget Justin's unlimited ad will be featured at tonight's #SuperBowl https://t.co/wmPwubNu4n


spaCy:[(Justin, 'ORG'), (tonight, 'TIME'), (#SuperBowl https://t.co/wmPwubNu4n, 'MONEY')]

flair: [<ORG-span (5): "Justin's">]

Yell Trump #Trump TRUMP durng #NFL #SuperBowl #HalfTimeShow drown out #LadyGaga #MAGA #PepsiHalftime #nflhonors… https://t.co/HJ7hlmbO9m
 -> [POSITIVE (0.9061134457588196)]
Yell Trump #Trump TRUMP durng #NFL #SuperBowl #HalfTimeShow drown out #LadyGaga #MAGA #PepsiHalftime #nflhonors… https://t.co/HJ7hlmbO9m


spaCy:[(LadyGaga, 'MONEY'), (https://t.co/HJ7hlmbO9m
, 'PERSON')]

flair: [<ORG-span (1,2): "Yell Trump">]

