In [1]:
import numpy as np
import pandas as pd
import matplotlib 
from matplotlib import pyplot as plt
import seaborn as sns
from sklearn import preprocessing, tree
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import accuracy_score, roc_auc_score, precision_score, recall_score
from sklearn.dummy import DummyClassifier

#from preprocessing import preprocess
plt.rcParams["figure.dpi"] = 150

In [2]:
# from collections import Counter
# import requests

# with requests.get(
#     "https://docs.google.com/spreadsheets/d/1wduqo5WyYmCpaGnE81sLNGU0VSodIekMfpmEwU0fGqs/export?format=csv") as r, open("features.csv", "wb") as f:
#     for chunk in r.iter_content():
#         f.write(chunk)

# with requests.get(
#     "https://docs.google.com/spreadsheets/d/1gvZ03uAL6THwd04Y98GtIj6SeAHiKyQY5UisuuyFSUs/export?format=csv") as r, open("target.csv", "wb") as f:
#     for chunk in r.iter_content():
#         f.write(chunk)

In [3]:
df_features = pd.read_csv("features.csv")
df_target = pd.read_csv("target.csv")
df = df_features.merge(df_target, left_on='id', right_on='id')

  exec(code_obj, self.user_global_ns, self.user_ns)


In [4]:
df.drop(columns=['id', 'dia', 'barrio'])[df.duplicated(keep=False)]

Unnamed: 0,direccion_viento_tarde,direccion_viento_temprano,horas_de_sol,humedad_tarde,humedad_temprano,llovieron_hamburguesas_hoy,mm_evaporados_agua,mm_lluvia_dia,nubosidad_tarde,nubosidad_temprano,...,presion_atmosferica_temprano,rafaga_viento_max_direccion,rafaga_viento_max_velocidad,temp_max,temp_min,temperatura_tarde,temperatura_temprano,velocidad_viendo_tarde,velocidad_viendo_temprano,llovieron_hamburguesas_al_dia_siguiente


In [5]:
#Convertimos la presion a un tipo numérico, establecimos los valores inválidos como NaN.
df['presion_atmosferica_tarde'] = pd.to_numeric(df['presion_atmosferica_tarde'],errors='coerce')    
#Convertimos las fechas al tipo datetime.
df['dia'] = pd.to_datetime(df['dia'])

#Eliminamos todas las filas del dataframe donde haya valores faltantes
df = df.dropna(subset=['llovieron_hamburguesas_al_dia_siguiente']) 
df = df.dropna(subset=['llovieron_hamburguesas_hoy']) 


#Eliminamos las dos columnas con mayor porcentaje de missings
df = df.drop(columns = ['horas_de_sol', 'mm_evaporados_agua']) 
#df = df.drop(columns = ['nubosidad_tarde', 'nubosidad_temprano']) 

df = df.drop(columns = ['id'])

#Llenamos las columnas con grandes porcentajes de missings con la mean
#df['horas_de_sol'] = df['horas_de_sol'].fillna(df['horas_de_sol'].mean())
#df['mm_evaporados_agua'] = df['mm_evaporados_agua'].fillna(df['mm_evaporados_agua'].mean())

df['nubosidad_tarde'] = df['nubosidad_tarde'].fillna(df['nubosidad_tarde'].mean())
df['nubosidad_temprano'] = df['nubosidad_temprano'].fillna(df['nubosidad_temprano'].mean())
df['presion_atmosferica_temprano'] = df['presion_atmosferica_temprano'].fillna(df['presion_atmosferica_temprano'].mean())
df['presion_atmosferica_tarde'] = df['presion_atmosferica_tarde'].fillna(df['presion_atmosferica_tarde'].mean())
df['rafaga_viento_max_velocidad'] = df['rafaga_viento_max_velocidad'].fillna(df['rafaga_viento_max_velocidad'].mean())
df['humedad_tarde'] = df['humedad_tarde'].fillna(df['humedad_tarde'].mean())
df['temperatura_tarde'] = df['temperatura_tarde'].fillna(df['temperatura_tarde'].mean())
df['mm_lluvia_dia'] = df['mm_lluvia_dia'].fillna(df['mm_lluvia_dia'].mean())
df['velocidad_viendo_tarde'] = df['velocidad_viendo_tarde'].fillna(df['velocidad_viendo_tarde'].mean())
df['humedad_temprano'] = df['humedad_temprano'].fillna(df['humedad_temprano'].mean())
df['velocidad_viendo_tarde'] = df['velocidad_viendo_tarde'].fillna(df['velocidad_viendo_tarde'].mean())
df['velocidad_viendo_temprano'] = df['velocidad_viendo_temprano'].fillna(df['velocidad_viendo_temprano'].mean())
df['temperatura_temprano'] = df['temperatura_temprano'].fillna(df['temperatura_temprano'].mean())
df['temp_min'] = df['temp_min'].fillna(df['temp_min'].mean())
df['temp_max'] = df['temp_max'].fillna(df['temp_max'].mean())

In [6]:
df = df.drop(columns = ['direccion_viento_temprano', 'rafaga_viento_max_direccion', 'direccion_viento_tarde']) 

In [7]:
df = df.drop(columns = ['dia', 'barrio'])

In [8]:
def feature_engineering(df):
    """Hace las transformaciones de datos necesarias."""
    #df = pd.get_dummies(df, drop_first=True, columns=['direccion_viento_temprano', 'rafaga_viento_max_direccion', 'direccion_viento_tarde'])

    label_encoder = preprocessing.LabelEncoder()
    label_encoder.fit(df['llovieron_hamburguesas_al_dia_siguiente'])
    label_encoder.fit(df['llovieron_hamburguesas_hoy'])
    df['llovieron_hamburguesas_hoy'] = label_encoder.transform(df['llovieron_hamburguesas_hoy'])
    X = df.drop(columns=['llovieron_hamburguesas_al_dia_siguiente'])
    y = label_encoder.transform(df['llovieron_hamburguesas_al_dia_siguiente'])

    return X, y, df, label_encoder


X, y, df, y_encoder = feature_engineering(df)

In [9]:
clf = tree.DecisionTreeClassifier(
        max_depth=9, min_samples_leaf=20
    )
clf.fit(X, y)

DecisionTreeClassifier(max_depth=9, min_samples_leaf=20)

In [10]:
sorted(list(zip(X.columns, clf.feature_importances_)), key=lambda x: -x[1])

[('humedad_tarde', 0.6506873559068188),
 ('rafaga_viento_max_velocidad', 0.10921563732111203),
 ('presion_atmosferica_tarde', 0.07364458711896953),
 ('mm_lluvia_dia', 0.05588932280310155),
 ('nubosidad_tarde', 0.032984209107390215),
 ('temperatura_temprano', 0.014911893261966194),
 ('humedad_temprano', 0.012349775710600542),
 ('temp_max', 0.01054103839746618),
 ('velocidad_viendo_tarde', 0.008181822424434377),
 ('temperatura_tarde', 0.00814258964253319),
 ('temp_min', 0.008029431796261947),
 ('presion_atmosferica_temprano', 0.007081653530292175),
 ('velocidad_viendo_temprano', 0.004973492779120138),
 ('nubosidad_temprano', 0.003367190199933043),
 ('llovieron_hamburguesas_hoy', 0.0)]

In [11]:
pred = clf.predict(X)

In [12]:
accuracy_score(y, pred)

0.8545699975134098

In [13]:
roc_auc_score(y, pred)

0.7327130816640154

In [14]:
precision_score(y, pred)

0.7494293239683933

In [15]:
recall_score(y, pred)

0.5142375195790996