## Librerías a utilizar
* pandas 
* seaborn 
* matplotlib
* numpy
* scipy 

In [37]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
from scipy import stats as statsCorr

# Limpieza DE CSV

## Creación del DataFrame
Utilizamos pandas para crear un DataFrame a partir del csv.

In [61]:
df = pd.read_csv("Train.csv")

## Revisión del tipo de datos
Realizamos esta revisión porque pandas asigna un tipo de dato que él considera adecuado y a veces el tipo de dato es erróneo.

In [62]:
print(df.dtypes)

date_time               object
is_holiday              object
air_pollution_index      int64
humidity                 int64
wind_speed               int64
wind_direction           int64
visibility_in_miles      int64
dew_point                int64
temperature            float64
rain_p_h               float64
snow_p_h               float64
clouds_all               int64
weather_type            object
weather_description     object
traffic_volume           int64
dtype: object


## Conclusión del paso anterior
Nos damos cuenta de que están mal asignadas las categóricas y el date_time no está en formato datetime64.

In [63]:
df["date_time"] = df["date_time"].astype("datetime64[ns]")
df["weather_type"] = df["weather_type"].astype("category")
df["weather_description"] = df["weather_description"].astype("category")

## Limpieza de columnas duplicadas
Revisamos el número de datos de cada categoría de weather_description y nos damos cuenta de que hay un duplicado sky is clear y Sky is clear

In [64]:
print(df['weather_description'].value_counts())

weather_description
sky is clear                           7524
mist                                   4047
overcast clouds                        3972
broken clouds                          3379
light rain                             2442
scattered clouds                       2294
Sky is Clear                           1709
few clouds                             1568
light snow                             1280
moderate rain                          1105
haze                                    902
light intensity drizzle                 703
heavy snow                              587
fog                                     567
drizzle                                 460
proximity thunderstorm                  345
heavy intensity rain                    311
snow                                    190
thunderstorm                             66
proximity shower rain                    54
thunderstorm with heavy rain             42
heavy intensity drizzle                  40
thunderstorm

In [65]:
df["weather_description"] = (df["weather_description"].str.lower()).str.strip()
df["weather_description"] = df["weather_description"].astype("category")
print(df['weather_description'].value_counts())

weather_description
sky is clear                           9233
mist                                   4047
overcast clouds                        3972
broken clouds                          3379
light rain                             2442
scattered clouds                       2294
few clouds                             1568
light snow                             1280
moderate rain                          1105
haze                                    902
light intensity drizzle                 703
heavy snow                              587
fog                                     567
drizzle                                 460
proximity thunderstorm                  345
heavy intensity rain                    311
snow                                    190
thunderstorm                             66
proximity shower rain                    54
thunderstorm with heavy rain             42
heavy intensity drizzle                  40
thunderstorm with light rain             35
proximity th

## Trabajo de limpieza con la variable temperatura
Explicación y poner diagramas de caja

In [66]:
#Codigo

## Dividimos los datos en 80/20 para hacerTrain y Test 

Esto lo realizamos para comparar los resultados de nuestro modelo con los medidos y registrados en la tabla y ver cuanta exactitud tiene.


In [67]:
df = df.sample(frac=1, random_state=42)#Barajeamos las filas
cut = int(len(df) * 0.8)
df_train = df.iloc[:cut].copy() #80%
df_test  = df.iloc[cut:].copy() #20%

## Unir weather_type y  weather_description
Unimos ambos porque están directamente relacionados y porque para simplificar la dimensión de la tabla

In [68]:
# Solo mantener combinaciones que realmente aparecen en los datos y tienen traffic volume
df_test_sub = df[["weather_type","weather_description", "traffic_volume"]]
df_grp = df_test_sub.groupby(["weather_type", "weather_description"], as_index=False, observed=True).mean()
df_count = df_test_sub.groupby(["weather_type", "weather_description"], as_index=False, observed=True).size()
print(df_count)

    weather_type                  weather_description  size
0          Clear                         sky is clear  9233
1         Clouds                        broken clouds  3379
2         Clouds                           few clouds  1568
3         Clouds                      overcast clouds  3972
4         Clouds                     scattered clouds  2294
5        Drizzle                              drizzle   460
6        Drizzle              heavy intensity drizzle    40
7        Drizzle              light intensity drizzle   703
8        Drizzle                       shower drizzle     1
9            Fog                                  fog   567
10          Haze                                 haze   902
11          Mist                                 mist  4047
12          Rain                        freezing rain     2
13          Rain                 heavy intensity rain   311
14          Rain          light intensity shower rain     8
15          Rain                        

## Conclusión del paso anterior
Vemos que no podemos realizar One-Hot como método para pasar de variable categórica a numérica porque tenemos muchos valores en ciertas filas y en otros tenemos muy pocos.
Además, recurrimos al método Target Encoding modificado porque el normal puede producir goteo.

## Target Encoding 

Explication

#Codigo

In [69]:
#Por libreria

## Matriz de correlación

Explicación y decir cuáles elegimos con base en 

In [70]:
#Codigo 

## Matriz de correlación de Weather type y Weather Description
Explicar que la nieve tiene más

In [71]:
#Codigo