In [None]:
# !/usr/bin/env python
# coding: utf-8

import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns
import pickle
from EDA_functions import *
seed = 5000

# 0. CARGA DE DATOS.

In [None]:
weatherAUS = pd.read_csv('../data/weatherAUS.csv') # , index_col=[0]

# 1. TAMAÑO DE DATA - PRIMEROS VISTAZOS GENERALES.

Veamos cuál es el tamaño de data.

In [None]:
weatherAUS.shape

In [None]:
weatherAUS.head(2)

In [None]:
weatherAUS.tail(2)

Veamos qué variables posean valores perdidos y los porcentajes de missing.

In [None]:
count_missing = get_count_missing(data=weatherAUS, feature_names=list(weatherAUS.columns))
count_missing

Debido a la presencia de missing en la variable objetivo `RainTomorrow`, eliminamos las filas que no cuenten información de esta variable.

In [None]:
wA_NOT_MISS_IN_OBJECTIVE = weatherAUS.dropna(subset=['RainTomorrow'])
wA_NOT_MISS_IN_OBJECTIVE.shape

Debido a que hay algunas variables con un porcentaje importante de valores perdidos, establecemos un umbral de filtrado de variables. Las variables arriba del 11 % de valores perdidos, no serán consideradas.

Siendo así, se procede a eliminar las siguientes variables.

In [None]:
high_missing_names = [ 'Sunshine', 'Evaporation', 'Cloud3pm', 'Cloud9am']
wA_NOT_HIGH_MISSING = wA_NOT_MISS_IN_OBJECTIVE.drop(high_missing_names, axis=1)

Se exhiben los nuevos porcentajes de missing.

In [None]:
get_count_missing(data=wA_NOT_HIGH_MISSING,
                  feature_names=list(set(weatherAUS.columns)-set(high_missing_names)))

A continuación, se exhiben los tipos de variables que conforman el dataset para conocer su naturaleza.

In [None]:
wA_NOT_HIGH_MISSING.info()

El dataset está conformado por variables de tipo numérico y categórico. Sin embargo, para las fechas, transformemos la variable `Date`a variable tipo `datetime`.

In [None]:
wA_NOT_HIGH_MISSING['Date'] = pd.to_datetime(wA_NOT_HIGH_MISSING['Date'])

In [None]:
wA_NOT_HIGH_MISSING['Date'].head(5)

# 2. TRATAMIENTO DE VARIABLES NUMÉRICAS.

## 2.1 Visualización y Control de outliers

Se identifican las variables numéricas.

In [None]:
num_names = list(wA_NOT_HIGH_MISSING.select_dtypes('float64').columns)
num_names

Al contar con un número no tan grande de variables numéricas, es posible una exploración individual de la distribuciones usando histogramas y box-plots.

In [None]:
for name in num_names:
    print(f'################################## VARIABLE: {name} ################################################')
    print(f'sesgo: {wA_NOT_HIGH_MISSING[name].skew()}')
    print(f'desviación estandar without_outliers: {wA_NOT_HIGH_MISSING[name].std()}')
    fig = px.histogram(wA_NOT_HIGH_MISSING, x=name, nbins=50, marginal='box')
    fig.show()

Podemos observar lo siguiente:
* Algunas variables tiene cierto grado de concentración en el centro y otras están sesgadas.
* Variables sesgadas como `Rainfall` y  `WindSpeed9am` cuentan con claros outliers, es decir, puntos que se alejan no solo de la concentración de la información, sino de la cola natural de la distribución. Estos valores son extremos (valores positivos muy grandes).
* Algunas variables tienen valores negativos, la mayoría de ellas se refieren a la temperatura. Debido a que no se tiene mayor contexto de ellas, no se tomará ninguna acción al respecto.

Para ejercer cierto control de outliers en variables sesgadas a la izquierda, se impondrán cotas superiores a estas variables, más precisamente a `Rainfall` y  `WindSpeed9am`.

In [None]:
wA_SKEW_UPPER_OUTLIERS = wA_NOT_HIGH_MISSING[(wA_NOT_HIGH_MISSING['Rainfall'] <= 300) | (wA_NOT_HIGH_MISSING['Rainfall'].isna())]
wA_SKEW_UPPER_OUTLIERS = wA_SKEW_UPPER_OUTLIERS[(wA_SKEW_UPPER_OUTLIERS['WindSpeed9am'] <= 100) | (wA_SKEW_UPPER_OUTLIERS['WindSpeed9am'].isna())]

Se compara las distribuciones de las variables implicadas antes y después de outliers.

In [None]:
skew_num_names = ['Rainfall', 'WindSpeed9am']
for name in skew_num_names:
    print(f'################################## VARIABLE: {name} ################################################')
    print(f'Antes de outliers.')
    fig = px.histogram(wA_NOT_HIGH_MISSING, x=name, nbins=50, marginal='box')
    fig.show()
    print(f'Después de outliers.')
    fig2 = px.histogram(wA_SKEW_UPPER_OUTLIERS, x=name, nbins=50, marginal='box' )
    fig2.show()

Se comparan los tamaños de data antes y después de outliers. Se puede ver que el porcentaje de data eliminada es ínfimo. Si esto no fuera así, se tendría que pensar en otras estrategias para contros de outliers y sesgos extremos, como por ejemplo las tranformaciones __yeo-johnson__ o __box-cox__.

In [None]:
print('Porcentaje remanente de la data después de eliminar outliers:', (wA_SKEW_UPPER_OUTLIERS.shape[0]/wA_NOT_HIGH_MISSING.shape[0])*100, '%')

## 2.2 Tratamiento de la correlación.

Analicemos la correlación entre  las variables numéricas. Se utilizará la correlación no paramétrica de Spearman.

In [None]:
plt.figure(figsize=(12, 10))
sns.heatmap(wA_SKEW_UPPER_OUTLIERS[num_names].corr(method='spearman').abs(), square=True, annot=True, cmap='RdBu',  vmin=-1, vmax=1)
plt.show()

Existen correlaciones altas entre parejas de variables, por ejemplo:
* `MaxTemp`-`Temp3pm`, 0.98
* `Pressure9am`-`Pressure3pm`, 0.96
* `MinTemp`-`Temp9am`, 0.9
* `MaxTemp`-`Temp9am`, 0.89
* `Temp9pm`-`Temp3pm`, 0.86
* `MinTemp`-`MaxTemp`, 0.74
* `MinTemp`-`Temp3pm`, 0.71

Se visualizan las correlaciones de las primeras dos parejas, y las de las últimas dos parejas, del pasado listado.

In [None]:
fig = px.scatter(wA_SKEW_UPPER_OUTLIERS, x='MaxTemp', y='Temp3pm', color="RainTomorrow" )
fig.show()

In [None]:
# fig = px.scatter(wA_SKEW_UPPER_OUTLIERS, x='Pressure9am', y='Pressure3pm', color="RainTomorrow" )
# fig.show()

In [None]:
# fig = px.scatter(wA_SKEW_UPPER_OUTLIERS, x='MinTemp', y='MaxTemp', color="RainTomorrow" )
# fig.show()

In [None]:
# fig = px.scatter(wA_SKEW_UPPER_OUTLIERS, x='MinTemp', y='Temp3pm', color="RainTomorrow" )
# fig.show()

Se toma la decisión de eliminar algunas variables que tengan correlación con alguna otra, esto arriba del 0.7. Lo anterior se hace para evitar la redundancia en la información.

In [None]:
drop_names_by_corr = get_features_names_drop_by_corr(data=wA_SKEW_UPPER_OUTLIERS,
                                                     list_feature_names=num_names,
                                                     threshold=0.7)

In [None]:
wA_CORR = wA_SKEW_UPPER_OUTLIERS.drop(drop_names_by_corr, axis=1)

Reindexemos la data.

In [None]:
wA_CORR.reset_index(drop=True, inplace=True)

In [None]:
wA_CORR

# 3. TRATAMIENTO DE VARIABLES CATEGÓRICA.

## 3.1 Tratamiento de valores perdidos.

Veamos qué variables son categóricas.

In [None]:
cat_names = list(wA_CORR.select_dtypes('object').columns)

In [None]:
cat_names

Se toma la decisión de incluir una categoría que represente a los valores perdidos en variables categóricas. Esta categoría llevara el nombre de "Unidentified".

In [None]:
wA_FILLNA_CATEGORIC = fillna_categoric_data(data=wA_CORR,
                                            list_names=cat_names)

A continuación se dará un vistazo a los tamaños de cada categoría en cada variable, así como a su porcentaje de representación.

In [None]:
for name in cat_names:
    print(f'################# VARIABLE: {name} #########################################' )
    print(wA_FILLNA_CATEGORIC[name].value_counts())
    print(round((wA_FILLNA_CATEGORIC[name].value_counts(normalize=True))*100), 2)

Observamos que ningún nombre de categoría cae por debajo del 1%, por ende, NO se toma ninguna decisión acerca de fusionar categorías de alguna variable con el fin de evitar categorías demasiado pequeñas.

## 3.2 Información sobre la variable objetivo.

In [None]:
count_objected = wA_FILLNA_CATEGORIC['RainTomorrow'].value_counts().to_frame().reset_index()
count_objected.columns = ['RainTomorrow', 'count']
fig = px.pie(count_objected, values='count', names='RainTomorrow', title='¿Llovió al día siguiente?')
fig.show()

El gráfico de pastel anterior da cuenta que hay un problema de desbalanceo en la variable objetivo `RainTomorrow`. Es decir, la clase mayoritaría (No llovió) es considerablemente más grande que la clase minoritaria (Sí llovió). 

Se lidiará con este evento más tarde, en el entrenamiento y optimización.

# 4. PEQUEÑA INGENIERÍA DE CARACTERÍSTICAS

Dado quer estamos ante una data con indexación en el tiempo, podemos rescatar información tal como:
* el mes del año
* la semana del año en la que se ubica el día (del total de 52).

Tales variables pueden ayudar a capturar patrones como el ciclo de lluvia inherentes a través del año en los lugares involucrados.

In [None]:
wA_FILLNA_CATEGORIC['month'] = wA_FILLNA_CATEGORIC['Date'].dt.month
wA_FILLNA_CATEGORIC['week_of_year'] = wA_FILLNA_CATEGORIC['Date'].dt.isocalendar().week

Cambiemos a tipo categórico las variables recien creadas.

In [None]:
wA_FILLNA_CATEGORIC['month'] = wA_FILLNA_CATEGORIC['month'].astype('object')
wA_FILLNA_CATEGORIC['week_of_year'] = wA_FILLNA_CATEGORIC['week_of_year'].astype('object')

Cambiemos a tipo binario la naturaleza de la variable objetivo `RainTomorrow`.

In [None]:
wA_FILLNA_CATEGORIC['RainTomorrow'] = wA_FILLNA_CATEGORIC['RainTomorrow'].map({'Yes': 1, 'No': 0})

# 5. PEQUEÑA SELECCIÓN DE VARIABLES.

## 5.1 Selección de variables categóricas.

Se hará una pequeña selección de varibles numéricas, ANTES DE ENTRENAMIENTO, usando la __información mutua__. Este es un valor no negativo que mide la dependencia entre variables aleatorias. Valores más altos significan una dependencia más alta. 

Entonces, se calculará este valor entre las variables numéricas y la variable objetivo binaria `RainTomorrow`.

In [None]:
num_names = list(wA_FILLNA_CATEGORIC.select_dtypes('float64').columns)

Se necesita que no haya valores perdidos en variables numéricas. Por ende, se trabajará con una versión de la data sin presencia de valores perdidos en las variables numéricas.

In [None]:
wA_FILLNA_CATEGORIC_TEMPORARY = wA_FILLNA_CATEGORIC[num_names + ['RainTomorrow']].dropna()
wA_FILLNA_CATEGORIC_TEMPORARY.reset_index(drop=True, inplace=True)

A continuación se muestra el porcentaje de la data que ha quedado.

In [None]:
print('Porcentaje de data después de eliminación de filas con misssing: ', round((wA_FILLNA_CATEGORIC_TEMPORARY.shape[0] / wA_FILLNA_CATEGORIC.shape[0]) * 100, 2), '%')

A continuación se exhibe la configuación de la variable objetivo `RainTomorrow` después de missing.

In [None]:
wA_FILLNA_CATEGORIC_TEMPORARY[['RainTomorrow']].value_counts(normalize=True)

De los dos resultados anteriores, observamos que aún conservamos un porcentaje importante de la data. Además, se observa que la configuración de la variable objetivo, antes y después de missing, es muy similar. Siendo así, vamos a asumir que conservamos representatividad suficiente para tener acceso a las conclusiones en cuanto a la información mutua, usando la data sin missing.

__NOTA:__ El tratamiento definitivo de missing en las variables numéricas, se tendrá en cuenta en el entrenamiento de modelo. Este se puede hacer añadiendo alguna técnica de imputación, tal vez no paramétrica como `KNNImputer`, en el pipeline  de entrenamiento. O bien, puede ser que el modelo ya contemple la presencia de missing en el entrenamiento (por ejemplo `xboost` o `HistGradientBoostingClassifier`.

Calculemos entonces la información mutua.

In [None]:
mutual_information_score(data=wA_FILLNA_CATEGORIC_TEMPORARY,
                         feature_names=num_names,
                         y_label_name='RainTomorrow',
                         list_bool_True=None,
                         seed=5000)

Observamos que la variable que ofrece una mayor influencia en el objetivo `RainTomorrow` es `Humidity3pm`. Las que ejercen menor influiencia, es la que tiene que ver con la temperatura (`MinTemp`) o bien con la rapidez del viento a las 9 am y a las 3pm (`WindSpeed9am`, `WindSpeed3pm`).

Decidimos eliminar la variable de menor influencia, es decir, `WindSpeed9am`.

In [None]:
mut_info_names = ['WindSpeed9am']
wA_MUTUAL_INFO = wA_FILLNA_CATEGORIC.drop(mut_info_names, axis=1)

## 5.2 Sobre las variables categóricas.

Para este ejercicio, se usarán todas las variables categóricas. 

La importancia de ellas, y también de las numéricas, pueden estudiarse  DESPUÉS DE ENTRENAMIENTO, usando las __feature_importances__ ofrecidas por los estimadores de la librería `scikit-learn`. O  bien, si éstas no se dan, las importancias pueden calcularse usando las __shape_feature_importances__ ofrecicidas por librerías como `shap`, y que se construyen considerando las __shap-values__. Una vez conocidas estas importancias, se puede hacer una selección de variables y reiniciar el entrenamiento.

Por supuesto, la selección de variables, tanto de variables categóricas como numéricas, puede llegar a ser un proceso dinámico y que se puede hacer de manera conjunta en una combinación de técnicas, esto antes y después de entrenamiento.

En cuanto a esta prueba. Sólo se hará selección de variables numéricas antes de entrenamiento.

# 6. MANEJO DE LA CRONOLOGÍA y DIVISIÓN DE LA DATA

Consigamos la información que se obtiene en cada año y hagamos el conteo correspondiente.

In [None]:
wA_MUTUAL_INFO['year'] = wA_MUTUAL_INFO['Date'].dt.year

In [None]:
count_years = wA_MUTUAL_INFO['year'].value_counts().to_frame().reset_index()
count_years.columns = ['year', 'count']

In [None]:
fig = px.bar(count_years, x='year', y='count')
fig.show()

Para poder contemplar de alguna manera la naturaleza temporal de la data, la división entre los conjuntos de __Entrenamiento__, __Validación__ y __Prueba__ no podrá ser aleatoria, sino que tendrá que contemplar una estructura de *pasado* y *futuro*.

Por ende, se establece la división de la data teniendo en cuenta al año 2015 como umbral de separación.

In [None]:
wA_train = wA_MUTUAL_INFO[wA_MUTUAL_INFO['year'] <= 2015]
wA_test = wA_MUTUAL_INFO[wA_MUTUAL_INFO['year'] > 2015]

Por ende, se obtienen los siguientes tamaños.

In [None]:
wA_train

In [None]:
wA_test

Así quedan los porcentajes de representación con respecto a la data total.

In [None]:
print('Representación del CONJUNTO DE ENTRENAMIENTO con respecto al total:', round((wA_train.shape[0]/wA_FILLNA_CATEGORIC.shape[0])*100, 2), '%')

In [None]:
print('Representación del CONJUNTO DE PRUEBA con respecto al total:', round((wA_test.shape[0]/wA_FILLNA_CATEGORIC.shape[0])*100, 2), '%')

Los siguientes diagramas de pastel dan cuenta de que la configuración binaria original de la variable objetivo `RainTomorrow`, que se tiene en la data total, ha logrado heredarse a las contrapartes de __Entrenamiento__ y __Prueba__ (es decir, son muy similares entre ellas). El primer pastel se refiera a la data total, el segundo al __Entrenamiento__ y el tercero al de __Prueba__.

In [None]:
for data in [wA_MUTUAL_INFO, wA_train, wA_test]:
    count_objected = data['RainTomorrow'].value_counts().to_frame().reset_index()
    count_objected.columns = ['RainTomorrow', 'count']
    fig = px.pie(count_objected, values='count', names='RainTomorrow', title='¿Llovió al día siguiente?')
    fig.show()

No se contempla un tercer conjunto de __Validación__, porque se considera que la cantidad de data es de tal tamaño que bastará con monitoriar las medidas de cross-validación en el conjunto de __Entrenamiento__.

# 7. LISTA FINAL DE FEATURES

Se exihiben qué variables conformarán el conjunto definitivo de features. Están serán puestas en un archivo de confifguración *config.yaml* para un manejo más flexible en los scripts de entrenamiento y optimización.

In [None]:
wA_MUTUAL_INFO.columns

In [None]:
objective_name = 'RainTomorrow'

In [None]:
feratures_names = ['Location', 'MinTemp', 'Rainfall', 'WindGustDir',
                   'WindGustSpeed', 'WindDir9am', 'WindDir3pm', 'WindSpeed3pm',
                   'Humidity9am', 'Humidity3pm', 'Pressure9am',
                   'RainToday',  'month', 'week_of_year'],

# 8. GUARDADO DE LA DATA

Los conjuntos de datos de __Entrenamiento__ y __Prueba__ (más bien los dataframes) se guardarán en archivos binarios.

In [None]:
pickle.dump(wA_train, open('../outputs/wA_train.sav', 'wb'))
pickle.dump(wA_test, open('../outputs/wA_test.sav', 'wb'))