# Superbowl 2017


## tl;dr

Vamos a analizar una colección de tweets en inglés publicados durante un partido de fútbol.


## Contexto

El pasado 5 de febrero se celebró la [51ª edición de la Superbowl](https://en.wikipedia.org/wiki/Super_Bowl_LI), la gran final del campeonato de fútbol americano de la NFL. El partido enfrentó a los [New England Patriots](https://en.wikipedia.org/wiki/New_England_Patriots) (los favoritos, los de la costa este, con [Tom Brady](https://en.wikipedia.org/wiki/Tom_Brady) a la cabeza) contra los [Atlanta Falcons](https://en.wikipedia.org/wiki/Atlanta_Falcons) (los aspirantes, los del Sur, encabezados por [Matt Ryan](https://en.wikipedia.org/wiki/Matt_Ryan_(American_football))).

![](http://bandageek.com/wp-content/uploads/2017/02/patriots-vs-falcons.jpg)

Como cualquier final, el resultado *a priori* era impredecible y a un partido podía ganar cualquiera. Pero el del otro día fue un encuentro inolvidable porque comenzó con el equipo débil barriendo al favorito y con un Brady que no daba una. Al descanso, el marcador reflejaba un inesperado **3 - 28** y todo indicaba que los Falcons ganarían su primer anillo.

![](https://pbs.twimg.com/media/C38X-Z-VUAA-UAV.jpg)

Pero, en la segunda mitad, Brady resurgió... y su equipo comenzó a anotar una y otra vez... con los Falcons ko. Los Patriots consiguieron darle la vuelta al marcador y vencieron por **34 - 28** su quinta Superbowl. Brady fue elegido MVP del encuentro y aclamado como el mejor quaterback de la historia.

![](http://images.complex.com/complex/images/c_limit,w_680/f_auto,fl_lossy,pg_1,q_auto/d36dh2j3micwoszunssh/tom-brady-new-england-patriots-vince-lombardi-trophy-super-bowl-li)

Como os imaginaréis, tanto vaivén nos va a dar mucho juego a la hora de analizar un corpus de mensajes de Twitter. Durante la primera mitad, es previsible que encuentres mensajes a favor de Atlanta y burlas a New England y a sus jugadores, que no estaban muy finos. Pero al final del partido, con la remontada, las opiniones y las burlas cambiarán de sentido.

Como tanto Tom Brady como su entrenador, Bill Belichick, habían declarado públicamente sus preferencias por Donald Trump durante las elecciones a la presidencia, es muy probable que encuentres mensajes al respecto y menciones a demócratas y republicanos.

Por último, durante el *half time show* actuó Lady Gaga, que también levanta pasiones a su manera, así que es probable que haya menciones a otras *reinas* de la música y comparaciones con actuaciones pasadas.

![](http://www.billboard.com/files/styles/article_main_image/public/media/12-lady-gaga-super-bowl-feb-2017-billboard-1548.jpg)


## Los datos

El fichero `2017-superbowl-tweets.tsv` ubicado en el directorio `data/` contiene una muestra, ordenada cronológicamente, de mensajes escritos en inglés publicados antes, durante y después del partido. Todos los mensajes contienen el hashtag `#superbowl`. Hazte una copia de este fichero en el directorio `notebooks` de tu espacio personal.

El fichero es en realidad una tabla con cuatro columnas separadas por tabuladores, que contiene líneas (una por tweet) con el siguiente formato:

    id_del_tweet fecha_y_hora_de_publicación autor_del_tweet texto_del_mensaje


La siguiente celda te permite abrir el fichero para lectura y cargar los mensajes en la lista `tweets`. Modifica el código para que la ruta apunte a la copia local de tu fichero.

In [1]:
!gunzip ../data/2017-superbowl-tweets.tsv.gz
!ls ../data

gzip: ../data/2017-superbowl-tweets.tsv.gz: No such file or directory
2017-twitter-messages.tsv     alicia.txt	     sherlockholmes.txt
2018-twitter-messages.tsv.gz  fortunatayjacinta.txt  universal_tagset-ES.map


In [2]:
tweets = []
RUTA = '../data/2017-twitter-messages.tsv'
for line in open(RUTA).readlines():
    tweets.append(line.split('\t'))

Fíjate en la estructura de la lista: se trata de una lista de tuplas con cuatro elementos. Puedes comprobar si el fichero se ha cargado como debe en la siguiente celda:

In [3]:
ultimo_tweet = tweets[-1]
print('id =>', ultimo_tweet[0])
print('fecha =>', ultimo_tweet[1])
print('autor =>', ultimo_tweet[2])
print('texto =>', ultimo_tweet[3])

id => 828498211253997568
fecha => 2017-02-06 06:59:00
autor => ceebrie
texto => Honestly WHAT a SuperBowl performance ✨



## Al lío

A partir de aquí puedes hacer distintos tipos de análisis. Añade tantas celdas como necesites para intentar, por ejemplo:

- calcular distintas estadísticas de la colección: número de mensajes, longitud de los mensajes, presencia de hashtags y emojis, etc.
- número de menciones a usuarios, frecuencia de aparición de menciones, frecuencia de autores
- calcular estadísticas sobre usuarios: menciones, mensajes por usuario, etc.
- calcular estadísticas sobre las hashtags
- calcular estadísticas sobre las URLs presentes en los mensajes
- calcular estadísticas sobre los emojis y emoticonos de los mensajes
- extraer automáticamente las entidades nombradas que aparecen en los mensajes y su frecuencia
- procesar los mensajes para extraer y analizar opiniones: calcular la subjetividad y la polaridad de los mensajes
- extraer las entidades nombradas que levantan más pasiones, quiénes son los más queridos y los más odiados, atendiendo a la polaridad de los mensajes
- comprobar si la polaridad de alguna entidad varía radicalmente a medida que avanza el partido
- cualquier otra cosa que se te ocurra :-P



In [4]:
# escribe tu código aquí

# usando spaCy, vamos a identificar qué personas se mencionan en los tweets
import spacy
nlp = spacy.load('en')

for tweet in tweets[:250]:
    if len(tweet) == 4:
        m = nlp(tweet[3])
        for ent in m.ents:
            if ent.label_ == 'PERSON':
                print(ent)
                
# no funciona muy bien :-(
# los modelos están entrenados con datos de lengua escrita culta (normalmente, noticias)
# y no se adapta bien a la lengua de las redes sociales

Heil Hitler
RT @funder
Follow @TurkishAirlin
RT @jonnysun
SuperBowl LI
Round Top
RT @PopCrave:
Lady Gaga
Lady Gaga
Superbowl Halftime
Kim
Superbowl
Twitter
Spock
RT @fooImyseIf
Lady Gaga
SuperBowl QB
Matt Ryan
RT @therealcornett
https://t.co/TWfKBulMSO

RT @killer_kitsch:
SuperBowl LI
😊 https://t.co/KPI1mTyrVO
RT @BillRatchet
RT @steinekin
SuperBowl LI
😊 https://t.co/KPI1mTyrVO
RT
Lady Gaga
RT @funder
Tom Brady's
https://t.co/uv0UEVQHym

RT @Thom_astro
RT @TrumpSuperPAC:
Regis Philbin
Lady Gaga
Superbowl
Superbowl
@michaelstrahan
RT @jonnysun
RT @kneelB4boston
Superbowl Schnoodle
Superbowl

Superbowl Spread
RT @HausOfDylann
Lady Gaga
Cocaine
RT @galraphil
Lady Gaga
Superbowl https://t.co/L5PIqmT2rT
RT @Thom_astro
RT @PopsicleJokez
Boa
Tom Brady
RT @usweekly
Donald Trump
RT @chartsladygaga
Lady Gaga 'Joanne'
RT @chartsladygaga
RT @jonnysun
RT @ScottErnst0331
RT @PopsicleJokez
Wanna Live Forever
https://t…

Falcons
REAGAN
MAGA
SuperBowl https://t
Roger
Goodells
RT @AllenBSmith1
RT @arose

In [5]:
# usando textblob, vamos a analizar la polaridad de los mensajes
from textblob import TextBlob

for tweet in tweets[:250]:
    if len(tweet) == 4:
        m = TextBlob(tweet[3])
        if m.sentiment.polarity <= -0.5:
            print('malo: {}'.format(m))
        elif -0.5 < m.sentiment.polarity <= 0.5:
            print('ni fu ni da: {}'.format(m))
        elif m.sentiment.polarity > 0.5:
            print('bueno: {}'.format(m))

ni fu ni da: RT @BBCWorld: Astronauts attempt an out-of-this-world record, inspired by the #SuperBowl 🏈

ni fu ni da: RT @theoptionoracle: Retweet if you think the @NFL is making a BIG mistake.

ni fu ni da: RT @JODYHiGHROLLER: $100 FREE SUPERBOWL GiVE AWAY !

ni fu ni da: RT @TheBaxterBean: TRUMP'S AMERIKKKA: Texas high school class photo gives Nazi salute, shouts 'Heil Hitler Heil Trump' #SB51 #SuperBowl htt…

ni fu ni da: @DaRealWillPower are you ready for the superbowl Pats are winning obviously https://t.co/R9N9RzOjR6

ni fu ni da: SUPERBOWL ! 51 let's GO NEW ENGLAND PATRIOTS !!! #PatsNation

ni fu ni da: RT @funder: Trump Hosted Event for Putin Sr Advisor at Mar a Lago in 2010

bueno: RT @ClemsonFB: Once a Tiger, always a Tiger... good luck in the #SuperBowl today, @vicbeasley3!

ni fu ni da: #superbowl watch party today at 4.30pm! Pls bring a snack to share. We will attend evening church at 6 and then fin… https://t.co/jFJEYOq7q8

ni fu ni da: RT @TurkishAirlines: Hey #SuperBowl

ni fu ni da: RT @OnlyInBOS: Mood...#SuperBowl https://t.co/Q6hG5VV3Js

ni fu ni da: Its Superbowl Sunday! What are your favorite game day traditions?

bueno: RT @galraphil: since the superbowl is today never forget the best halftime show to exist in the history of football 😤👏 https://t.co/kw9rIoN…

ni fu ni da: RT @hausoframez: Video of Lady Gaga resting up before the big performance tonight. #Superbowl https://t.co/L5PIqmT2rT

ni fu ni da: #36 Follow these tips to keep your #SuperBowl party on the "offense" for #FoodSafety https://t.co/ae4EZGZAGH

ni fu ni da: RT @godneybjs: the most iconic #SuperBowl commercial of all time https://t.co/zsxVexAK8L

bueno: RT @Thom_astro: It’s the #SuperBowl today! May the best team win, but @AstroPeggy and @astro_kimbrough have chosen their respective sides!…

ni fu ni da: RT @natezempel: @TomFcknBrady LET'S GO!!! #Patriots #onemore #SuperBowl https://t.co/9GbVVFmOYl

ni fu ni da: @PTreasonReport @NFL @SuperBowl hope you know she's American, so she'll

ni fu ni da: RT @ed_hooley: HOUSTON SUPERBOWL ATTENDEES: PLEASE BOO "LADY GAGA" OFF THE STAGE! #NFL #MAGA #SuperBowl #Houston #Football #PepsiHalftime #…

ni fu ni da: i forgot the superbowl was today i

ni fu ni da: RT @newsbytesonline: Hey Bulldogs who's gonna take it at Superbowl 51

ni fu ni da: RT @jonnysun: superbowl 2015: haha left shark

bueno: RT @WSJ: The most experienced coach at the #SuperBowl doesn't coach the Falcons or the Patriots. He coaches Lady Gaga https://t.co/C34OOvKl…

malo: RT @SportsRecruits: RETWEET if you got the Dirty Birds today. #SuperBowl #Falcons

ni fu ni da: RT @NFLonFOX: It's not a #SuperBowl on FOX without this song. 

ni fu ni da: RT @espn: Tom Brady's mom has been battling illness. His dad has only been to one game this year.

ni fu ni da: RT @naejasme: so a white woman is performing at the superbowl https://t.co/PGqiSHWls9

ni fu ni da: RT @6PAPl: young thug needa perform halftime at halftime at the superbowl today

ni fu ni da: RT @JebSanford: Re