# Análisis general
A continuación se realizará un análisis general de las relaciones que existen entre las diferentes columnas del dataset.

In [18]:
import pandas as pd

In [23]:
# Replico la estructura de los tweets.
tweets = spotify_songs = pd.read_csv('Data/train.csv')
tweets['length'] = tweets['text'].str.len()
tweets['located'] = tweets['location'].notnull().astype(int)
tweets['location_length'] = tweets['location'].str.len()
tweets['location_length'].fillna(0, inplace=True)
tweets['has_keyword'] = tweets['keyword'].notnull().astype(int)
tweets['keyword_length'] = tweets['keyword'].str.len()
tweets['keyword_length'].fillna(0, inplace=True)
tweets['tweet_length'] = tweets['length'] + tweets['location_length'] + tweets['keyword_length']
tweets.tail()

Unnamed: 0,id,keyword,location,text,target,length,located,location_length,has_keyword,keyword_length,tweet_length
7608,10869,,,Two giant cranes holding a bridge collapse int...,1,83,0,0.0,0,0.0,83.0
7609,10870,,,@aria_ahrary @TheTawniest The out of control w...,1,125,0,0.0,0,0.0,125.0
7610,10871,,,M1.94 [01:04 UTC]?5km S of Volcano Hawaii. htt...,1,65,0,0.0,0,0.0,65.0
7611,10872,,,Police investigating after an e-bike collided ...,1,137,0,0.0,0,0.0,137.0
7612,10873,,,The Latest: More Homes Razed by Northern Calif...,1,94,0,0.0,0,0.0,94.0


## Describe
Se realiza un describe para realizar un rápido análisis de las nuevas columnas numéricas que se agregaron: cantidad, media, desvío estándar, mínimo, 25%, 50%, 75% y máximo.

In [20]:
tweets.describe()

Unnamed: 0,id,target,length,located,location_length,has_keyword,keyword_length,tweet_length
count,7613.0,7613.0,7613.0,7613.0,7613.0,7613.0,7613.0,7613.0
mean,5441.934848,0.42966,101.037436,0.66728,9.105477,0.991987,8.667148,109.704584
std,3137.11609,0.49506,33.781325,0.471218,8.644329,0.08916,3.534058,34.492177
min,1.0,0.0,7.0,0.0,0.0,0.0,0.0,8.0
25%,2734.0,0.0,78.0,0.0,0.0,1.0,6.0,86.0
50%,5408.0,0.0,107.0,1.0,8.0,1.0,8.0,116.0
75%,8146.0,1.0,133.0,1.0,15.0,1.0,10.0,142.0
max,10873.0,1.0,157.0,1.0,49.0,1.0,21.0,163.0


### id
Como sabemos id es un identificador único para cada tweet, no tiene sentido alguno analizar sus valores numéricos.

### Target
Es la única variable numérica que se analizó en la primera sección "Estructura del set de datos". De esa sección se sabe que los tweets que no refieren a un siniestro real (0) son mayores a los que si refieren a un siniestro real (1), aquí queda en evidencia en la media de la columna, ya que es más cercana a 0 que a 1.

### length
La longitud de caracteres máxima de los tweets es de 280 caracteres.\
La longitud media de los tweets del set de datos es de solo 101 caracteres mientras que su máximo es de 157 caracteres, valor que está realmente alejado de los 280 caracteres de longitud máxima permitida por Twitter pero, a su vez, es mayor que los 140 caracteres que Twitter permitía en sus primeras versiones.\
El tweet con menor longitud es de 7 caracteres, una longitud muy pequeña para referirse a algún siniestro. Por esto, analizaremos los tweets cuya longitud es menor o igual a 10:

In [21]:
tweets[tweets['length'] <= 10]

Unnamed: 0,id,keyword,location,text,target,length,located,location_length,has_keyword,keyword_length,tweet_length
24,36,,,LOOOOOOL,0,8,0,0.0,0,0.0,8.0
28,40,,,Cooool :),0,9,0,0.0,0,0.0,9.0
30,44,,,The end!,0,8,0,0.0,0,0.0,8.0
1882,2703,crushed,,Crushed,0,7,0,0.0,1,7.0,14.0
3667,5221,fatality,Nairobi,Fatality!,0,9,1,7.0,1,8.0,17.0
3670,5224,fatality,Rafael castillo,fatality,0,8,1,15.0,1,8.0,16.0
3749,5326,fire,,I See Fire,0,10,0,0.0,1,4.0,14.0
4890,6962,massacre,,Bad day,0,7,0,0.0,1,8.0,15.0
4971,7088,meltdown,,Meltdown,0,8,0,0.0,1,8.0,16.0
5115,7295,nuclear%20reactor,,Err:509,0,7,0,0.0,1,17.0,24.0


La mayoría de los tweets con longitudes pequeñas no son desastres reales a pesar de que varios de ellos tienen textos que se refieren a siniestros reales.

### located
La Columna located indica si el tweet tiene algún tipo de texto que describa su ubicación (1) o no (0).\
Su valor medio nos indica que existen más tweets localizados que aquellos que no tienen localización, ya que el valor medio se encuentra más cercano a 1 que a 0.

### location_length
Indica la longitud de la localización del tweet.\
Su valor medio es apróximadamente 9 caracteres si tenemos en cuenta todos los tweets, con y sin localización.\
Si se toma solo los tweets con localización, su valor medio aumenta a 13 caracteres:

In [26]:
tweets[tweets['located'] == 1]['location_length'].describe()

count    5080.000000
mean       13.645669
std         7.072825
min         1.000000
25%         8.000000
50%        13.000000
75%        18.000000
max        49.000000
Name: location_length, dtype: float64

Su valor mínimo es 0 si contamos los tweet sin localización y es 1 para aquellos tweets con localización.\
Su valor máximo es 49 caracteres.\
Tomamos el valor medio y el desvío estándar de los tweets localizados y analizamos los valores mayores a la suma de estas dos propiedades:

In [48]:
location = tweets[tweets['location_length'] > 20]['location'].value_counts().to_frame().reset_index()
location.columns = ['location', 'count']
location.count()

location    795
count       795
dtype: int64

In [49]:
location.head(60)

Unnamed: 0,location,count
0,"California, United States",6
1,Road to the Billionaires Club,6
2,"Paterson, New Jersey",6
3,Pedophile hunting ground,6
4,"Port Harcourt, Nigeria",4
5,"British Columbia, Canada",4
6,San Francisco Bay Area,4
7,Happily Married with 2 kids,4
8,Jakarta/Kuala Lumpur/S'pore,4
9,"Sydney, New South Wales",4


Existen 795 localizaciones cuya longitud es mayor a 20 caracteres. En su gran mayoría estas localizaciones pertenecen a ubicaciones reales aunque también hay algunas que no refieren a ningún lugar específico.\
Se realiza el mismo proceso pero restando al valor medio el valor estándar y se analizan los valores menores a la resta valor medio - desvío estándar:

In [51]:
location = tweets[tweets['location_length'] <= 6]['location'].value_counts().to_frame().reset_index()
location.columns = ['location', 'count']
location.count()

location    312
count       312
dtype: int64

In [55]:
location.head(60)

Unnamed: 0,location,count
0,USA,104
1,London,45
2,Canada,29
3,UK,27
4,India,24
5,Mumbai,22
6,Kenya,20
7,NYC,12
8,Earth,11
9,ss,10


Existen 312 palabras cuya longitud es menor o igual a 6.\
Varias de ellas se refieren a lugares, otras refieren son simples caracteres sin sentido o números.

### has_keyword
Es una variable numérica pero del tipo booleana (sólo toma valores 0 y 1) que indica si el tweet tiene palabra clave (1) o no (0).\
Su media indica que un gran porcentajes de tweet tienen una palabra clave (99,2%).

### Keyword_length
Indica la longitud de la palabra clave de cada tweet.\
Su valor medio ronda los 8/9 caracteres teniendo en cuenta los tweets que no tienen keyword, entonces el valor medio de la longitud de las palabras claves solo para los tweets que contengan una debe ser superior:

In [58]:
tweets[tweets['has_keyword'] == 1]['keyword_length'].describe()

count    7552.000000
mean        8.737156
std         3.461028
min         4.000000
25%         6.000000
50%         8.000000
75%        10.000000
max        21.000000
Name: keyword_length, dtype: float64

El valor medio de la longitud de las palabras claves aumentó si filtramos aquellos tweets que no poseen palabra clave.\
El valor mínimo es de 0 caracteres que son aquellos tweets sin palabra clave mientras que el máximo es 21 caracteres.\
Se analizan las keywords de longitud mayor o igual a 12 (valor medio + desviación estándar):

In [62]:
tweets[tweets['keyword_length'] > 12]['keyword'].value_counts()

burning%20buildings      37
nuclear%20reactor        36
structural%20failure     35
airplane%20accident      35
buildings%20burning      35
bridge%20collapse        35
suicide%20bomb           35
emergency%20plan         35
natural%20disaster       34
nuclear%20disaster       34
buildings%20on%20fire    33
violent%20storm          33
mass%20murder            33
body%20bagging           33
chemical%20emergency     33
suicide%20bombing        33
emergency%20services     33
forest%20fires           32
mass%20murderer          32
suicide%20bomber         31
first%20responders       29
forest%20fire            19
radiation%20emergency     9
Name: keyword, dtype: int64

Las keywords de más de 12 caracteres de longitud no son palabras sino una oración, por eso se explica su longitud.\
A su vez, el valor mínimo de la longitud de los keyword es de 4 caracteres.\
Se analizan las keywords cuya longitud es menor o igual a 5 (valor medio - desviación estándar):

In [63]:
tweets[tweets['keyword_length'] < 6]['keyword'].value_counts()

harm     41
fear     40
siren    40
sunk     39
fire     38
blaze    38
fatal    38
wreck    37
panic    37
crush    37
ruin     37
death    36
razed    35
storm    35
hail     35
flood    35
blood    35
bomb     34
smoke    34
army     34
riot     34
lava     34
crash    33
drown    32
arson    32
dead     30
Name: keyword, dtype: int64

Las keywords de poca longitud de caracteres describen desastres en su mayoría.

### Tweet_length
Esta columna indica la longitud total de los textos del tweet: longitud del tweet más la longitud de la palabra clave del tweet.\
Su valor medio es la suma de los valores medios de la longitud del tweet más la longitud de la palabra clave del tweet.\
Su valor mínimo es 8 y su valor máximo es 168.\
Se analiza el caso en donde la longitud total es menor o igual a 15:

In [64]:
tweets[tweets['tweet_length'] <= 15]

Unnamed: 0,id,keyword,location,text,target,length,located,has_keyword,keyword_length,tweet_length
15,23,,,What's up man?,0,14,0,0,0.0,14.0
16,24,,,I love fruits,0,13,0,0,0.0,13.0
22,33,,,Love skiing,0,11,0,0,0.0,11.0
24,36,,,LOOOOOOL,0,8,0,0,0.0,8.0
28,40,,,Cooool :),0,9,0,0,0.0,9.0
30,44,,,The end!,0,8,0,0,0.0,8.0
1882,2703,crushed,,Crushed,0,7,0,1,7.0,14.0
3749,5326,fire,,I See Fire,0,10,0,1,4.0,14.0
4735,6734,lava,Venezuela,I LAVA YOU.,0,11,1,1,4.0,15.0
4890,6962,massacre,,Bad day,0,7,0,1,8.0,15.0


La mayoría de los tweets con longitud total menor o igual a 15 no son tweets sobre desastres reales.