In [1]:
import pandas as pd
import numpy as np
import requests
from matplotlib import pyplot as plt
import seaborn as sns
from sklearn.metrics import accuracy_score
from pandas_profiling import ProfileReport

In [2]:
df_1 = pd.read_csv(
    'https://docs.google.com/spreadsheets/d/1gvZ03uAL6THwd04Y98GtIj6SeAHiKyQY5UisuuyFSUs/export?format=csv', low_memory=False
)
df_2 = pd.read_csv(
    'https://docs.google.com/spreadsheets/d/1wduqo5WyYmCpaGnE81sLNGU0VSodIekMfpmEwU0fGqs/export?format=csv', low_memory=False
)
pd.options.display.max_columns = None

df_mergeado = df_2.merge(df_1, left_on = 'id', right_on = 'id')
df_mergeado.sort_values(by=['id'], inplace=True, ascending=True)
df_mergeado.head()

Unnamed: 0,barrio,dia,direccion_viento_tarde,direccion_viento_temprano,horas_de_sol,humedad_tarde,humedad_temprano,id,llovieron_hamburguesas_hoy,mm_evaporados_agua,mm_lluvia_dia,nubosidad_tarde,nubosidad_temprano,presion_atmosferica_tarde,presion_atmosferica_temprano,rafaga_viento_max_direccion,rafaga_viento_max_velocidad,temp_max,temp_min,temperatura_tarde,temperatura_temprano,velocidad_viendo_tarde,velocidad_viendo_temprano,llovieron_hamburguesas_al_dia_siguiente
43694,Agronomía,2008-12-01,Oestenoroeste,Oeste,,22.0,71.0,0,no,,0.6,,8.0,1007.1,1007.7,Oeste,44.0,22.9,13.4,21.8,16.9,24.0,20.0,no
1607,Agronomía,2008-12-02,Oestesuroeste,Nornoreste,,25.0,44.0,1,no,,0.0,,,1007.8,1010.6,Oestenoroeste,44.0,25.1,7.4,24.3,17.2,22.0,4.0,no
100483,Agronomía,2008-12-03,Oestesuroeste,Oeste,,30.0,38.0,2,no,,0.0,2.0,,1008.7,1007.6,Oestesuroeste,46.0,25.7,12.9,23.2,21.0,26.0,19.0,no
29574,Agronomía,2008-12-04,Este,Sureste,,16.0,45.0,3,no,,0.0,,,1012.8,1017.6,Noreste,24.0,28.0,9.2,26.5,18.1,9.0,11.0,no
42669,Agronomía,2008-12-05,Noroeste,Estenoreste,,33.0,82.0,4,no,,1.0,8.0,7.0,1006.0,1010.8,Oeste,41.0,32.3,17.5,29.7,17.8,20.0,7.0,no


# Feature engineering
### Buscamos filas duplicadas
### Consideramos a una fila duplicada unicamente cuando se repite el dia y el barrio

In [4]:
display(df_mergeado[df_mergeado.duplicated(subset=['barrio','dia'],keep=False)])

Unnamed: 0,barrio,dia,direccion_viento_tarde,direccion_viento_temprano,horas_de_sol,humedad_tarde,humedad_temprano,id,llovieron_hamburguesas_hoy,mm_evaporados_agua,mm_lluvia_dia,nubosidad_tarde,nubosidad_temprano,presion_atmosferica_tarde,presion_atmosferica_temprano,rafaga_viento_max_direccion,rafaga_viento_max_velocidad,temp_max,temp_min,temperatura_tarde,temperatura_temprano,velocidad_viendo_tarde,velocidad_viendo_temprano,llovieron_hamburguesas_al_dia_siguiente


## Variables __categoricas__
1. Barrio 
2. direccion_viento_tarde
3. direccion_viento_temprano
4. rafaga_viento_max_direccion

### Comenzamos por reemplazar los valores nulos en direcciones de viento y ráfagas por una nueva opcion que puede tomar la feature : "Otra direccion"

In [5]:
df_mergeado['direccion_viento_tarde'].replace(np.nan, 'Otra direccion', inplace=True)
df_mergeado['direccion_viento_temprano'].replace(np.nan, 'Otra direccion', inplace=True)
df_mergeado['rafaga_viento_max_direccion'].replace(np.nan, 'Otra direccion',inplace=True)

### Ademas reemplazamos el valor del barrio palermo que vino como 'Palermo cheto' a palermo, ya que seria poco profesional operar con el dato escrito de esta manera

In [6]:
df_mergeado['barrio'].replace('Palermo cheto', 'palermo', inplace=True)

### Luego verificamos que ninguna feature categorica tenga valores repetidos o sin sentido por errores de tipado 

In [7]:
df_mergeado.barrio.value_counts().to_frame()

Unnamed: 0,barrio
Liniers,2737
Constitución,2657
Villa Soldati,2611
Retiro,2580
Villa Luro,2578
Villa Real,2561
Parque Avellaneda,2526
San Telmo,2518
San Nicolás,2482
Saavedra,2464


In [8]:
df_mergeado.direccion_viento_temprano.value_counts().to_frame()

Unnamed: 0,direccion_viento_temprano
Nornoreste,12784
Norte,9453
Otra direccion,8403
Sureste,7437
Este,7391
Sursureste,7244
Noroeste,7003
Sur,6948
suroeste,6785
Oeste,6742


In [9]:
df_mergeado.direccion_viento_tarde.value_counts().to_frame()

Unnamed: 0,direccion_viento_tarde
Nornoreste,11546
Sureste,8657
Oeste,8053
Sur,7930
Oestesuroeste,7627
Sursureste,7480
suroeste,7477
Norte,7180
Oestenoroeste,7096
Noroeste,6893


In [10]:
df_mergeado.llovieron_hamburguesas_hoy.value_counts().to_frame()

Unnamed: 0,llovieron_hamburguesas_hoy
no,88359
si,25394


In [11]:
df_mergeado.rafaga_viento_max_direccion.value_counts().to_frame()

Unnamed: 0,rafaga_viento_max_direccion
Nornoreste,10512
Otra direccion,8269
Oeste,7952
Sureste,7502
Norte,7432
Este,7428
Sursureste,7365
Sur,7314
Oestesuroeste,7227
suroeste,7161


#### Vemos que todos los valores son unicos, no hay necesidad de alterar las features y podemos seguir con la conversion a valores numericos

## ...












## ....









## Variables __numéricas__
1.

### Comenzamos por buscar cuáles columnas tienen missings

In [27]:
df_mergeado.fillna(np.nan, inplace = True)
df_nulos = df_mergeado.isnull().sum().to_frame(name="NaN_Count")
df_nulos['NaN_%'] = df_nulos['NaN_Count'] / df_mergeado.count()
df_nulos.sort_values(by=['NaN_%']) #este % por alguna razón muestra mal a partir de nubosidad_temprano

Unnamed: 0,NaN_Count,NaN_%
barrio,0,0.0
dia,0,0.0
direccion_viento_tarde,0,0.0
direccion_viento_temprano,0,0.0
id,0,0.0
rafaga_viento_max_direccion,0,0.0
temp_max,1003,0.008694
temp_min,1187,0.010306
temperatura_temprano,1410,0.012265
velocidad_viendo_temprano,1413,0.012292


Vemos que algunos de los features tienen menos de un 1.5% de NaNs, por lo cual usar la media para rellenarlos no implicaría una disonancia significativa en la información, sinó más bien un suavizado de esos casos vacíos.

In [None]:
df_2 = df_mergeado.copy()
df_2['temp_max'].replace(np.nan, df_2['temp_max'].mean(), inplace = True)
df_2['temp_min'].replace(np.nan, df_2['temp_min'].mean(), inplace = True)
df_2['temperatura_temprano'].replace(np.nan, df_2['temperatura_temprano'].mean(), inplace = True)
df_2['velocidad_viendo_temprano'].replace(np.nan, df_2['velocidad_viendo_temprano'].mean(), inplace = True)

df_nulos = df_2.isnull().sum().to_frame(name="NaN_Count")
df_nulos['NaN_%'] = df_nulos['NaN_Count'] / df_2.count()
df_nulos.sort_values(by=['NaN_%']) #este % por alguna razón muestra mal a partir de nubosidad_temprano

# Formulación de Preguntas y Visualización
## Primero nos hacemos una serie de preguntas para comprender y analizar mejor nuestros datos:  

1. ¿Suponiendo desconocimiento de todas las features excepto el target, que tan probable es que lluevan hamburguesas al dia siguiente?
 2. ¿De qué manera se relaciona el barrio con que lluevan hamburguesas al dia siguiente?
 3. ¿De qué manera se relaciona el barrio con que lluevan hamburguesas al dia siguiente, en ese mismo barrio?
 4. ¿Si llovieron hamburguesas hoy, qué tan probable es que lluevan hamburguesas mañana?
 5. ¿Features con gran numero de missings como horas_de_sol, mm_evaporados_agua, y las nubosidades para la mañana y la tarde, tienen correlación con el target?
 6. ¿Cómo afecta la feature mm_lluvia_dia al target?
 7. ¿Si hubo una correlación en (6.), qué features afectan a mm_lluvia_dia?
 8. ¿Acaso influye la religión?
 
Buscamos entender cada uno de los datos, cómo se relacionan entre sí y ver que conclusiones podemos obtener. A partir de ellos vamos a determinar los factores que determinan si alguien tiene altos o bajos ingresos.