# Superbowl 2017


## tl;dr

Vamos a analizar una colección de tweets en inglés publicados durante un partido de fútbol.


## Contexto

El pasado 5 de febrero se celebró la [51ª edición de la Superbowl](https://en.wikipedia.org/wiki/Super_Bowl_LI), la gran final del campeonato de fútbol americano de la NFL. El partido enfrentó a los [New England Patriots](https://en.wikipedia.org/wiki/New_England_Patriots) (los favoritos, los de la costa este, con [Tom Brady](https://en.wikipedia.org/wiki/Tom_Brady) a la cabeza) contra los [Atlanta Falcons](https://en.wikipedia.org/wiki/Atlanta_Falcons) (los aspirantes, los del Sur, encabezados por [Matt Ryan](https://en.wikipedia.org/wiki/Matt_Ryan_(American_football))).

![](http://bandageek.com/wp-content/uploads/2017/02/patriots-vs-falcons.jpg)

Como cualquier final, el resultado *a priori* era impredecible y a un partido podía ganar cualquiera. Pero el del otro día fue un encuentro inolvidable porque comenzó con el equipo débil barriendo al favorito y con un Brady que no daba una. Al descanso, el marcador reflejaba un inesperado **3 - 28** y todo indicaba que los Falcons ganarían su primer anillo.

![](https://pbs.twimg.com/media/C38X-Z-VUAA-UAV.jpg)

Pero, en la segunda mitad, Brady resurgió... y su equipo comenzó a anotar una y otra vez... con los Falcons ko. Los Patriots consiguieron darle la vuelta al marcador y vencieron por **34 - 28** su quinta Superbowl. Brady fue elegido MVP del encuentro y aclamado como el mejor quaterback de la historia.

![](http://images.complex.com/complex/images/c_limit,w_680/f_auto,fl_lossy,pg_1,q_auto/d36dh2j3micwoszunssh/tom-brady-new-england-patriots-vince-lombardi-trophy-super-bowl-li)

Como os imaginaréis, tanto vaivén nos va a dar mucho juego a la hora de analizar un corpus de mensajes de Twitter. Durante la primera mitad, es previsible que encuentres mensajes a favor de Atlanta y burlas a New England y a sus jugadores, que no estaban muy finos. Pero al final del partido, con la remontada, las opiniones y las burlas cambiarán de sentido.

Como tanto Tom Brady como su entrenador, Bill Belichick, habían declarado públicamente sus preferencias por Donald Trump durante las elecciones a la presidencia, es muy probable que encuentres mensajes al respecto y menciones a demócratas y republicanos.

Por último, durante el *half time show* actuó Lady Gaga, que también levanta pasiones a su manera, así que es probable que haya menciones a otras *reinas* de la música y comparaciones con actuaciones pasadas.

![](http://www.billboard.com/files/styles/article_main_image/public/media/12-lady-gaga-super-bowl-feb-2017-billboard-1548.jpg)


## Los datos

El fichero `2017-superbowl-tweets.tsv` ubicado en el directorio `data/` contiene una muestra, ordenada cronológicamente, de mensajes escritos en inglés publicados antes, durante y después del partido. Todos los mensajes contienen el hashtag `#superbowl`. Hazte una copia de este fichero en el directorio `notebooks` de tu espacio personal.

El fichero es en realidad una tabla con cuatro columnas separadas por tabuladores, que contiene líneas (una por tweet) con el siguiente formato:

    id_del_tweet fecha_y_hora_de_publicación autor_del_tweet texto_del_mensaje


La siguiente celda te permite abrir el fichero para lectura y cargar los mensajes en la lista `tweets`. Modifica el código para que la ruta apunte a la copia local de tu fichero.

In [1]:
#gunzip ../data/2017-twitter-messages.tsv.gz
!ls ../data

2017-twitter-messages.tsv     alicia.txt.gz  fortunatayjacinta.txt
2018-twitter-messages.tsv.gz  es-ancora.map  sherlockholmes.txt


In [2]:
tweets = []
RUTA = '../data/2017-twitter-messages.tsv'
for line in open(RUTA).readlines():
    tweets.append(line.split('\t'))

In [3]:
tweets[20]

['828319871448576000',
 '2017-02-05 19:10:21',
 'UnitedSouthgate',
 '#superbowl watch party today at 4.30pm! Pls bring a snack to share. We will attend evening church at 6 and then fin… https://t.co/jFJEYOq7q8\n']

Fíjate en la estructura de la lista: se trata de una lista de tuplas con cuatro elementos. Puedes comprobar si el fichero se ha cargado como debe en la siguiente celda:

In [4]:
ultimo_tweet = tweets[-1]
print('id =>', ultimo_tweet[0])
print('fecha =>', ultimo_tweet[1])
print('autor =>', ultimo_tweet[2])
print('texto =>', ultimo_tweet[3])

id => 828498211253997568
fecha => 2017-02-06 06:59:00
autor => ceebrie
texto => Honestly WHAT a SuperBowl performance ✨



## Al lío

A partir de aquí puedes hacer distintos tipos de análisis. Añade tantas celdas como necesites para intentar, por ejemplo:

- calcular distintas estadísticas de la colección: número de mensajes, longitud de los mensajes, presencia de hashtags y emojis, etc.
- número de menciones a usuarios, frecuencia de aparición de menciones, frecuencia de autores
- calcular estadísticas sobre usuarios: menciones, mensajes por usuario, etc.
- calcular estadísticas sobre las hashtags
- calcular estadísticas sobre las URLs presentes en los mensajes
- calcular estadísticas sobre los emojis y emoticonos de los mensajes
- extraer automáticamente las entidades nombradas que aparecen en los mensajes y su frecuencia
- procesar los mensajes para extraer y analizar opiniones: calcular la subjetividad y la polaridad de los mensajes
- extraer las entidades nombradas que levantan más pasiones, quiénes son los más queridos y los más odiados, atendiendo a la polaridad de los mensajes
- comprobar si la polaridad de alguna entidad varía radicalmente a medida que avanza el partido
- cualquier otra cosa que se te ocurra :-P



In [5]:
# se puede hacer con flair o con spacy
from flair.data import Sentence
from flair.models import SequenceTagger
from flair.models import TextClassifier

# cargamos el reconocedor de entidades ner-fast(CPU) ner(GPU)
tagger = SequenceTagger.load("ner")
classifier = TextClassifier.load("en-sentiment")

Better speed can be achieved with apex installed from https://www.github.com/nvidia/apex.
2019-04-13 13:28:12,460 https://s3.eu-central-1.amazonaws.com/alan-nlp/resources/models-v0.4/NER-conll03-english/en-ner-conll03-v0.4.pt not found in cache, downloading to /tmp/tmpduel6han


100%|██████████| 432197603/432197603 [00:53<00:00, 8110624.78B/s]

2019-04-13 13:29:06,182 copying /tmp/tmpduel6han to cache at /home/eduardo/.flair/models/en-ner-conll03-v0.4.pt





2019-04-13 13:29:07,394 removing temp file /tmp/tmpduel6han
2019-04-13 13:29:08,566 loading file /home/eduardo/.flair/models/en-ner-conll03-v0.4.pt
2019-04-13 13:29:14,701 loading file /home/eduardo/.flair/models/imdb.pt


  result = unpickler.load()


In [None]:
for tweet in tweets[:200]: # solo 200 tweets por tema memoria
    if len(tweet) == 4: # que tenga cuatro campos id fecha autor y texto 
        sentence = Sentence(tweet[3])
        tagger.predict(sentence)
    
    # iteramos por las entidades
        for entity in sentence.get_spans("ner"):
            if entity.tag == "PER":
                classifier.predict(sentence)
                print(entity, sentence.labels)
    

PER-span [14,15,16,17]: "'Heil Hitler Heil Trump'" [POSITIVE (0.11433443427085876)]
PER-span [10,11]: "Lady Gaga" [POSITIVE (1.0)]
PER-span [3,4]: "Lady Gaga" [POSITIVE (0.3729456961154938)]
PER-span [12,13]: "Matt Ryan" [POSITIVE (0.5355677604675293)]
PER-span [10,11]: "Lady Gaga" [NEGATIVE (0.23199735581874847)]
PER-span [3,4]: "Tom Brady's" [NEGATIVE (1.0)]
PER-span [7,8]: "Lady Gaga" [POSITIVE (1.0)]
PER-span [3,4]: "Lady Gaga" [POSITIVE (0.9983059167861938)]
PER-span [5,6]: "Lady Gaga" [POSITIVE (0.5956448316574097)]
PER-span [10,11]: "Tom Brady!" [POSITIVE (0.7690818309783936)]
PER-span [3,4]: "Donald Trump" [POSITIVE (0.5223501920700073)]
PER-span [8,9,10]: "Lady Gaga 'Joanne'" [POSITIVE (0.47713160514831543)]
PER-span [1,2]: "paul pierce" [POSITIVE (1.0)]
PER-span [8]: "I'm" [POSITIVE (0.4848818778991699)]
PER-span [1]: "Lexi" [POSITIVE (0.958802342414856)]
PER-span [4,5]: "RONALD REAGAN" [POSITIVE (0.3863832652568817)]
PER-span [7]: "I'll" [POSITIVE (1.0)]
PER-span [6,7]: "Ale