<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/innovaciones/blob/main/prop/unidad_didac/0_intro_python/dia_15/dia_15.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marco-canas/innovaciones/blob/main/prop/unidad_didac/0_intro_python/dia_15/dia_15.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table>

# Día 15 

### Objetivo: 
Construir un modelo de regresión para predecir el monto de una reclamación de un seguro. 

## [Video de soporte](https://www.youtube.com/watch?v=gzRMj0qQHGM&ab_channel=MARCOJULIOCA%C3%91ASCAMPILLO)

# Cuaderno para el envío de la tarea del día 15

Como parte de la guía de introducción, realizará un envío con [este cuaderno](https://www.kaggle.com/alexisbcook/getting-started-with-30-days-of-ml-competition).

[Data](https://www.kaggle.com/c/30-days-of-ml/data?select=train.csv) 

## Sobre los datos

* El conjunto de datos que utilizaremos para esta actividad es artificial, 
* pero se basa en un conjunto de datos real.

El conjunto de datos original trata de predecir el monto de una reclamación de seguro.

Aunque las características son anónimas, tienen propiedades relacionadas con características del mundo real.

## Descripción de datos

Para esta competencia, estará prediciendo un objetivo continuo basado en una serie de columnas de características que se proporcionan en los datos.

* Todas las columnas de características, cat0 - cat9 son categóricas, y   
* las columnas de características cont0 - cont13 son numéricas continuas.

### Archivos

* `train.csv`: los datos de entrenamiento con la columna objetivo.  
* `test.csv` - el conjunto de prueba; estará prediciendo el objetivo para cada fila en este archivo. 
* `sample_submission.csv`: un archivo de envío de muestra el formato correcto. 

## Importando las librerías iniciales necesarias

In [None]:
import pandas as pd 

## Leer los datos de entrenamiento

In [None]:
import pandas as pd 
url = "https://raw.githubusercontent.com/marco-canas/innovaciones/main/prop/unidad_didac/0_intro_python/dia_15/train.csv"
X_train_full = pd.read_csv(url) 
X_train_full.head(3)  

Vemos que cada dato tiene una identificación o `id`, por tanto, podemos declarar a la columna de índices del dataframe con la columna `id`

In [None]:
X_train_full.index = X_train_full['id']
X_train_full = X_train_full.drop(['id'], axis = 1) 
X_train_full.head(3) 

In [None]:
url_test_seguros = ""
X_test_full = pd.read_csv('test.csv', index_col = 'id') 
X_test_full.head(3) 

In [None]:
X_train_full.info() 

No hay datos nulos, sin embargo incluiremos la limpieza de las filas que les corresponden etiquetas nulas

## Tratamiento de datos nulos 

In [None]:
X_train_full.dropna(axis = 0, subset = ['target'], inplace = True) # borrar filas nulas
y = X_train_full.target                                            # definir la variable objetivo
X_train_full.drop(['target'], axis = 1, inplace= True)      # definir el Dataframe de features

## Dividir los datos en entrenamiento y validación. 

Ojo, los de testeo son intocables. 

In [None]:
from sklearn.model_selection import train_test_split 
X_train_full,X_val_full,y_train,y_val = train_test_split(X_train_full,y, random_state = 0)

# Hacer copia de los datos de entrenamiento, validación y testeo 

In [None]:
X_train = X_train_full.copy()
X_val = X_val_full.copy()
X_test = X_test_full.copy()

## Codifiquemos los datos categóricos   

In [None]:
X_train = pd.get_dummies(X_train) 
X_val = pd.get_dummies(X_val) 
X_test = pd.get_dummies(X_test) 

In [None]:
X_train.head() 

## Construcción del modelo 

In [None]:
from sklearn.metrics import mean_absolute_error
from xgboost import XGBRegressor 
def get_mae(n_estimators, X_train, X_val, y_train, y_val): 
    model = XGBRegressor(n_estimators, random_state = 0)
    model.fit(X_train, y_train) 
    preds_val = model.predict(X_val) 
    mae = mean_absolute_error(y_val, preds_val)
    return mae

In [None]:
for n_estimators in [10, 50, 100,500, 1000, 5000]:
    my_mae = get_mae(n_estimators, X_train, X_val, y_train, y_val)
    print("n_estimators {}  \t\t Mean Absolute Error:  {}".format(n_estimators, my_mae))

In [None]:
predictions_concurso = my_model_1.predict(X_test) 

output = pd.DataFrame({'PassengerId': pd.read_csv('test.csv').id, 
                       'Monto_a_pagar': predictions_concurso})
output.to_csv('my_submission_marco_canas.csv', index=False)


# [Introducción a la competencia de 30 días de AA](https://www.kaggle.com/alexisbcook/getting-started-with-30-days-of-ml-competition)

## Objetivo:  

aprender realizar su primer envío de un modelo de Machine Learning.

## Paso 1: Importa bibliotecas útiles

In [1]:
# Familiar imports
import numpy as np
import pandas as pd

## Para codificación ordinal de variables categóricas, dividir datos

In [2]:
from sklearn.preprocessing import OrdinalEncoder
from sklearn.model_selection import train_test_split

La clase OrdinalEncoder Codifica las variables categóricas como una matriz de números enteros.

La entrada a este transformador debe ser una matriz de enteros o cadenas, que denota los valores tomados por características categóricas (discretas). 

Las entidades se convierten en números enteros ordinales. 

Esto da como resultado una sola columna de números enteros (0 a $n$_categorías - 1) por característica.

In [3]:
# For training random forest model
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

## Paso 2: Cargue los datos

Cargaremos los datos de entrenamiento y prueba.

Establecemos `index_col = 0` en la celda de código a continuación para usar la columna `id` para indexar el DataFrame.

(Si no está seguro de cómo funciona esto, intente eliminar temporalmente `index_col = 0` y vea cómo cambia el resultado).

In [4]:
# Load the training data
train = pd.read_csv("train.csv", index_col=0)
test = pd.read_csv("test.csv", index_col=0)

# Preview the data
train.head()

Unnamed: 0_level_0,cat0,cat1,cat2,cat3,cat4,cat5,cat6,cat7,cat8,cat9,...,cont5,cont6,cont7,cont8,cont9,cont10,cont11,cont12,cont13,target
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,B,B,B,C,B,B,A,E,C,N,...,0.400361,0.160266,0.310921,0.38947,0.267559,0.237281,0.377873,0.322401,0.86985,8.113634
2,B,B,A,A,B,D,A,F,A,O,...,0.533087,0.558922,0.516294,0.594928,0.341439,0.906013,0.921701,0.261975,0.465083,8.481233
3,A,A,A,C,B,D,A,D,A,F,...,0.650609,0.375348,0.902567,0.555205,0.843531,0.748809,0.620126,0.541474,0.763846,8.364351
4,B,B,A,C,B,D,A,E,C,K,...,0.66898,0.239061,0.732948,0.679618,0.574844,0.34601,0.71461,0.54015,0.280682,8.049253
6,A,A,A,C,B,D,A,E,A,N,...,0.686964,0.420667,0.648182,0.684501,0.956692,1.000773,0.776742,0.625849,0.250823,7.97226


La siguiente celda de código separa el objetivo (que asignamos a $y$) de las características de entrenamiento (que asignamos a `features` (características)).

In [6]:
# Separate target from features
y = train['target']
X = train.drop(['target'], axis = 1)

# Preview features
y.head()

id
1    8.113634
2    8.481233
3    8.364351
4    8.049253
6    7.972260
Name: target, dtype: float64

## Paso 3: Prepare los datos

A continuación, necesitaremos manejar las columnas categóricas `(cat0, cat1, ... cat9)`.

En este cuaderno, usaremos codificación ordinal y guardaremos nuestras características codificadas como nuevas variables `X` y` X_test`.

In [7]:
# List of categorical columns
object_cols = [col for col in X.columns if 'cat' in col]
object_cols 

['cat0',
 'cat1',
 'cat2',
 'cat3',
 'cat4',
 'cat5',
 'cat6',
 'cat7',
 'cat8',
 'cat9']

In [11]:
# ordinal-encode categorical columns
X = X.copy()
X_test = test.copy()
ordinal_encoder = OrdinalEncoder()
X[object_cols] = ordinal_encoder.fit_transform(X[object_cols])
X_test[object_cols] = ordinal_encoder.fit_transform(test[object_cols])

# Preview the ordinal-encoded features
X_test.head()

Unnamed: 0_level_0,cat0,cat1,cat2,cat3,cat4,cat5,cat6,cat7,cat8,cat9,...,cont4,cont5,cont6,cont7,cont8,cont9,cont10,cont11,cont12,cont13
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,1.0,1.0,1.0,2.0,1.0,1.0,0.0,4.0,4.0,8.0,...,0.476739,0.37635,0.337884,0.321832,0.445212,0.290258,0.244476,0.087914,0.301831,0.845702
5,0.0,1.0,0.0,2.0,1.0,2.0,0.0,4.0,2.0,7.0,...,0.285509,0.860046,0.798712,0.835961,0.391657,0.288276,0.549568,0.905097,0.850684,0.69394
15,1.0,0.0,0.0,0.0,1.0,1.0,0.0,4.0,3.0,10.0,...,0.697272,0.6836,0.404089,0.879379,0.275549,0.427871,0.491667,0.384315,0.376689,0.508099
16,1.0,1.0,0.0,2.0,1.0,3.0,0.0,4.0,0.0,13.0,...,0.719306,0.77789,0.730954,0.644315,1.024017,0.39109,0.98834,0.411828,0.393585,0.461372
17,1.0,1.0,0.0,2.0,1.0,2.0,0.0,4.0,2.0,5.0,...,0.313032,0.431007,0.390992,0.408874,0.447887,0.390253,0.648932,0.385935,0.370401,0.900412


A continuación, separamos un conjunto de validación de los datos de entrenamiento.

In [12]:
X_train, X_valid, y_train, y_valid = train_test_split(X, y, random_state=0)

## Paso 4: entrenar un modelo

Ahora que los datos están preparados, el siguiente paso es entrenar un modelo.

En la celda de código a continuación, ajustamos un modelo de bosque aleatorio a los datos.

In [13]:
# Define the model 
model = RandomForestRegressor(random_state = 1) # define el modelo

# Train the model (will take about 10 minutes to run)
model.fit(X_train, y_train)          # ajuste del modelo 
preds_valid = model.predict(X_valid) # predicción 
print(mean_squared_error(y_valid, preds_valid, squared=False)) # evaluación del modelo 

0.7376990607916164


En la celda de código anterior, establecemos `squared = False` para obtener el error cuadrático medio (RMSE) en los datos de validación.

## Paso 5: presentarse a la competencia

Comenzaremos usando el modelo entrenado para generar predicciones, que guardaremos en un archivo CSV.

In [None]:
# Use the model to generate predictions
predictions = model.predict(X_test)

# Save the predictions to a CSV file
output = pd.DataFrame({'Id': X_test.index,
                       'target': predictions})
output.to_csv('submission.csv', index=False)

Una vez que haya ejecutado la celda de código anterior, siga las instrucciones a continuación para enviarlo a la competencia:

Comience haciendo clic en el botón Guardar versión en la esquina superior derecha de la ventana. Esto generará una ventana emergente.

Asegúrese de que la opción `Save and Run` (Guardar y ejecutar todo) esté seleccionada y luego haga clic en el botón Guardar.

Esto genera una ventana en la esquina inferior izquierda del cuaderno.

Una vez que haya terminado de ejecutarse, haga clic en el número a la derecha del botón Guardar versión.

Esto abre una lista de versiones a la derecha de la pantalla.

Haga clic en los puntos suspensivos (...) a la derecha de la versión más reciente y seleccione Abrir en el visor.

Esto le lleva al modo de visualización de la misma página. 

Deberá desplazarse hacia abajo para volver a estas instrucciones.

Haga clic en la pestaña `Output` (Salida) a la derecha de la pantalla.

Luego, haga clic en el archivo que desea enviar y haga clic en el botón Enviar para enviar sus resultados a la tabla de clasificación.

¡Ahora se ha presentado con éxito al concurso!

Si desea seguir trabajando para mejorar su rendimiento, seleccione el botón Editar en la parte superior derecha de la pantalla.

Luego puedes cambiar tu código y repetir el proceso.

Hay mucho espacio para mejorar y subirás en la tabla de clasificación a medida que trabajes.

## Paso 6: ¡Sigue aprendiendo!

Si no está seguro de qué hacer a continuación, puede comenzar probando más tipos de modelos.

Si tomó el [curso de aprendizaje automático intermedio](https://www.kaggle.com/learn/intermediate-machine-learning), entonces aprendió sobre XGBoost.

Intente entrenar un modelo con XGBoost para mejorar el rendimiento que obtuvo aquí.

Take the time to learn about Light GBM (LGBM), which is similar to XGBoost, since they both use gradient boosting to iteratively add decision trees to an ensemble. 

In case you're not sure how to get started, here's a notebook that trains a model on a similar dataset.

# [Intermediate Machine Learning](https://www.kaggle.com/learn/intermediate-machine-learning)