# Tweet localizados
En el siguiente apartado se analizará principalmente los tweet que contienen localización: similitudes y diferencias con aquellos que no la tienen, distribución, etc.

In [8]:
import pandas as pd

## Preparación del dataframe
Se lee el dataframe y se procesa con el fin de crear la estructura necesaria para trabajar con él.

In [9]:
tweets = spotify_songs = pd.read_csv('Data/train.csv')
tweets.head(10)

Unnamed: 0,id,keyword,location,text,target
0,1,,,Our Deeds are the Reason of this #earthquake M...,1
1,4,,,Forest fire near La Ronge Sask. Canada,1
2,5,,,All residents asked to 'shelter in place' are ...,1
3,6,,,"13,000 people receive #wildfires evacuation or...",1
4,7,,,Just got sent this photo from Ruby #Alaska as ...,1
5,8,,,#RockyFire Update => California Hwy. 20 closed...,1
6,10,,,#flood #disaster Heavy rain causes flash flood...,1
7,13,,,I'm on top of the hill and I can see a fire in...,1
8,14,,,There's an emergency evacuation happening now ...,1
9,15,,,I'm afraid that the tornado is coming to our a...,1


Se crea una columna booleana que indique si tiene localización o no y también una columna del tipo integer para tener la longitud de los tweets.

In [10]:
tweets['located'] = tweets['location'].notnull().astype(int)
tweets['lenght'] = tweets['text'].str.len()
tweets.tail()

Unnamed: 0,id,keyword,location,text,target,located,lenght
7608,10869,,,Two giant cranes holding a bridge collapse int...,1,0,83
7609,10870,,,@aria_ahrary @TheTawniest The out of control w...,1,0,125
7610,10871,,,M1.94 [01:04 UTC]?5km S of Volcano Hawaii. htt...,1,0,65
7611,10872,,,Police investigating after an e-bike collided ...,1,0,137
7612,10873,,,The Latest: More Homes Razed by Northern Calif...,1,0,94


## Análisis rápido de la información
Se chequea que los located + not_located sean igual a la cantidad de filas que tiene el dataset = 7613.

In [11]:
tweets_located = tweets['located'].sum()
tweets_not_located = tweets['location'].isnull().sum()
print(tweets_located)
print(tweets_not_located)
print(tweets_located + tweets_not_located)

5080
2533
7613


Los tweets quen contienen localización casi duplican a aquellos que no la contienen.\
A su vez, la suma de tweets localizados mas los no localizados es la cantidad de filas, algo que es lo esperado y nos da indicios que la transformación se llevó a cabo correctamente.

Se sabe que la columna 'location' es de tipo object y contiene un string que describe la localización desde donde se realizó el tweet. Se realiza un value_counts() sobre la columna para mira rápidamente qué tipos de valores puede tomar.

In [12]:
tweets['location'].value_counts()

USA                             104
New York                         71
United States                    50
London                           45
Canada                           29
Nigeria                          28
UK                               27
Los Angeles, CA                  26
India                            24
Mumbai                           22
Washington, DC                   21
Kenya                            20
Worldwide                        19
Chicago, IL                      18
Australia                        18
California                       17
New York, NY                     15
Everywhere                       15
California, USA                  15
San Francisco                    14
Florida                          14
United Kingdom                   14
Washington, D.C.                 13
Los Angeles                      13
Indonesia                        13
NYC                              12
Ireland                          12
Toronto                     

Se ve que los valores que toma la columna en algunos casos pueden llegar a ser valores que no son correctos, por ejemplo: 'I'm a Citizen of the World' no es un valor correcto para una localización. Por ello, cuando se trabaje con esta columna se deberá prestar especial atención a estos outliers.\
Los valores con mayor cantidad de repeticiones en la columnas parecen ser valores correctos como lo son 'USA', 'New York', 'London' y 'Canadá' que son todas ciudades o países de habla anglosajona.

## Localizados vs target
A continuación se analizarán las relaciones que existen entre los tweets localizados y su veracidad definida en la columna 'target'.

In [30]:
located_and_true = tweets[(tweets.located == 1) & (tweets.target == 1)]
located_and_true

Unnamed: 0,id,keyword,location,text,target,located,lenght
31,48,ablaze,Birmingham,@bbcmtd Wholesale Markets ablaze http://t.co/l...,1,1,55
33,50,ablaze,AFRICA,#AFRICANBAZE: Breaking news:Nigeria flag set a...,1,1,82
37,55,ablaze,World Wide!!,INEC Office in Abia Set Ablaze - http://t.co/3...,1,1,55
46,66,ablaze,"GREENSBORO,NORTH CAROLINA",How the West was burned: Thousands of wildfire...,1,1,97
50,73,ablaze,"Sheffield Township, Ohio",Deputies: Man shot before Brighton home set ab...,1,1,73
51,74,ablaze,India,Man wife get six years jail for setting ablaze...,1,1,75
53,77,ablaze,Anaheim,Police: Arsonist Deliberately Set Black Church...,1,1,95
55,79,ablaze,USA,#Kurds trampling on Turkmen flag later set it ...,1,1,135
56,80,ablaze,South Africa,TRUCK ABLAZE : R21. VOORTREKKER AVE. OUTSIDE O...,1,1,97
59,83,ablaze,"Edmonton, Alberta - Treaty 6",How the West was burned: Thousands of wildfire...,1,1,138


In [29]:
located_and_false = tweets[(tweets.located == 1) & (tweets.target == 0)]
located_and_false.shape[0]

2884