# 75.06/95.58 Organización de Datos
# Primer Cuatrimestre de 2020
# Trabajo Práctico 1: Enunciado

El trabajo práctico 1 de la materia se basa en el análisis de los tweets del set de datos de la competencia: https://www.kaggle.com/c/nlp-getting-started.  

- id - identificador unico para cada  tweet
- text - el texto del tweet
- location - ubicación desde donde fue enviado (podría no estar)
- keyword - un keyword para el tweet  (podría faltar)
- target - en train.csv, indica si se trata de un desastre real  (1) o no (0)

El objetivo del primer TP es realizar un análisis exploratorio del set de datos. Queremos ver qué cosas podemos descubrir sobre los datos que puedan resultar interesantes. Estas cosas pueden estar relacionadas al objetivo del TP2 (predecir si un cierto tweet es real o no) o no, ambas son de interés.

## Los requisitos de la primera entrega son los siguientes:

- El análisis debe estar hecho en Python Pandas o R.
- El análisis debe entregarse en formato pdf vía gradescope. En el informe no va código.
- Informar el link a un repositorio Github en donde pueda bajarse el código completo para generar el análisis.

## La evaluación del TP se realizará en base al siguiente criterio:

- Originalidad del análisis exploratorio. 
- Calidad del reporte. ¿Está bien escrito? ¿Es claro y preciso? 
- Calidad del análisis exploratorio: qué tipo de preguntas se hacen y de qué forma se responden, ¿es la respuesta clara y concisa con respecto a la pregunta formulada? 
- Calidad de las visualizaciones presentadas.
- ¿Tienen todos los ejes su rótulo?
- ¿Tiene cada visualización un título?
- ¿Es entendible la visualización sin tener que leer la explicación?
- ¿El tipo de plot elegido es adecuado para lo que se quiere visualizar?
- ¿Es una visualización interesante?
- ¿El uso del color es adecuado?
- ¿Hay un exceso o falta de elementos visuales en la visualización elegida?
- ¿La visualización es consistente con los datos?
- Conclusiones presentadas.
- ¿Presenta el grupo un listado de "insights" aprendidos sobre los datos en base al análisis realizado? ¿Es interesante? 


El grupo que realice el mejor análisis exploratorio obtendrá 10 puntos para cada uno de sus integrantes que podrán ser usados en el parcial además de ser publicado en el repositorio de la materia como ejemplo para los siguientes cuatrimestres. 



In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

plt.style.use('default')

sns.set(style="whitegrid")

pd.options.display.float_format = '{:20,.2f}'.format 

import warnings
warnings.filterwarnings('ignore')


In [34]:
tweets = pd.read_csv('train.csv',index_col=['id'],\
                    usecols=['id', 'text', 'target']
                    )
tweets.head()

Unnamed: 0_level_0,text,target
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Our Deeds are the Reason of this #earthquake M...,1
4,Forest fire near La Ronge Sask. Canada,1
5,All residents asked to 'shelter in place' are ...,1
6,"13,000 people receive #wildfires evacuation or...",1
7,Just got sent this photo from Ruby #Alaska as ...,1


Para una mejor visualizacion del target, en vez de tener numeros asociados a la veracidad de los mismos, pondremos strings de tal forma que sean mas descriptivos. Entonces al valor 1 le cambiamos por "Real" y al valor 0 lo cambiamos por "No Real". De esta forma esta columna ahora es mucho mas descriptiva que un valor numerico.

In [35]:
tweets['target'] = tweets['target'].replace({0: 'No Real', 1: 'Real'})
tweets.head()

Unnamed: 0_level_0,text,target
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Our Deeds are the Reason of this #earthquake M...,Real
4,Forest fire near La Ronge Sask. Canada,Real
5,All residents asked to 'shelter in place' are ...,Real
6,"13,000 people receive #wildfires evacuation or...",Real
7,Just got sent this photo from Ruby #Alaska as ...,Real


Agregamos la columna con la longitud de cada tweet.

In [36]:
tweets['len_tw'] = tweets['text'].str.len()
tweets.head()

Unnamed: 0_level_0,text,target,len_tw
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Our Deeds are the Reason of this #earthquake M...,Real,69
4,Forest fire near La Ronge Sask. Canada,Real,38
5,All residents asked to 'shelter in place' are ...,Real,133
6,"13,000 people receive #wildfires evacuation or...",Real,65
7,Just got sent this photo from Ruby #Alaska as ...,Real,88


Vemos la cantidad de tweets para cada caso de target.

In [37]:
tweets['target'].value_counts()

No Real    4342
Real       3271
Name: target, dtype: int64

Ahora agrupamos a los tweets por su target para hacerle algunos calculos estadisticos

In [91]:
grouped_by_target = tweets.groupby(['target']).agg({'len_tw': ['mean', 'count']})
grouped_by_target.head()

Unnamed: 0_level_0,len_tw,len_tw
Unnamed: 0_level_1,mean,count
target,Unnamed: 1_level_2,Unnamed: 2_level_2
No Real,95.83,4342
Real,108.24,3271


Juntamos ambos levels de indice, para que queden 2 columnas

In [92]:
level0 = grouped_by_target.columns.get_level_values(0)
level1 = grouped_by_target.columns.get_level_values(1)
grouped_by_target.columns = level0 + '_' + level1
grouped_by_target.head()

Unnamed: 0_level_0,len_tw_mean,len_tw_count
target,Unnamed: 1_level_1,Unnamed: 2_level_1
No Real,95.83,4342
Real,108.24,3271


In [97]:
grouped_by_target.reset_index(inplace=True)
grouped_by_target.head()

Unnamed: 0,index,target,len_tw_mean,len_tw_count
0,0,No Real,95.83,4342
1,1,Real,108.24,3271
