# Día 12: Introduction

[Introduction](https://www.kaggle.com/alexisbcook/introduction?utm_medium=email&utm_source=gamma&utm_campaign=thirty-days-of-ml&utm_content=day-12) 

¡Bienvenido al micro-curso de aprendizaje automático intermedio de Kaggle Learn!

Si tiene experiencia en aprendizaje automático y le gustaría aprender cómo mejorar rápidamente la calidad de sus modelos, ¡está en el lugar correcto!

En este micro-curso, acelerará su experiencia en aprendizaje automático al aprender a:

* abordar los tipos de datos que se encuentran a menudo en conjuntos de datos del mundo real (valores perdidos, variables categóricas),  
* diseñar canalizaciones para mejorar la calidad de su código de aprendizaje automático,
* utilizar técnicas avanzadas para la validación del modelo (validación cruzada),  
* crear modelos de última generación que se utilizan ampliamente para ganar competencias de Kaggle (XGBoost), y
* evitar errores comunes e importantes de la ciencia de datos (fugas).

A lo largo del camino, consolidará sus conocimientos al completar un ejercicio práctico con datos del mundo real para cada tema nuevo.

Los ejercicios prácticos utilizan datos del Concurso de precios de vivienda para usuarios de Kaggle Learn, donde utilizará 79 variables explicativas diferentes (como el tipo de techo, la cantidad de dormitorios y la cantidad de baños) para predecir los precios de la vivienda.

¡Medirás tu progreso enviando predicciones a esta competencia y viendo cómo tu posición aumenta en la tabla de clasificación!

<img src = 'https://i.imgur.com/6hNMveQ.png'>

## Prerequisites

Está listo para este micro-curso si ya ha creado un modelo de aprendizaje automático y está familiarizado con temas como la validación del modelo, el "desajuste" y el "sobreajuste" y los bosques aleatorios.

Si es completamente nuevo en el aprendizaje automático, consulte nuestro micro-curso introductorio, que cubre todo lo que necesita para prepararse para este micro-curso intermedio.

## Tu turno

Continúe con el [primer ejercicio](https://www.kaggle.com/marcocanas/exercise-introduction/edit) para aprender cómo enviar predicciones a una competencia de Kaggle y determinar qué es posible que deba revisar antes de comenzar.

# Exercise: Introduction

Como preparación, revisará algunos fundamentos del aprendizaje automático y enviará sus resultados iniciales a una competencia de Kaggle.

## Configuración

Las preguntas a continuación le darán comentarios sobre su trabajo.

Ejecute la siguiente celda para configurar el sistema de retroalimentación.

Trabajará con datos del [Concurso de precios de vivienda para usuarios de Kaggle Learn](https://www.kaggle.com/c/home-data-for-ml-course) para predecir los precios de las viviendas en Iowa utilizando 79 variables explicativas que describen (casi) todos los aspectos de las casas.

<img src = 'https://i.imgur.com/lTJVG4e.png'>

Ejecute la siguiente celda de código sin cambios para cargar las funciones de entrenamiento y validación en `X_train` y `X_valid`, junto con los objetivos de predicción en `y_train` e `y_valid`.

The test features are loaded in `X_test`. 

(If you need to review features and prediction targets, please check out this short tutorial. 

To read about model validation, look here. 

Alternatively, if you'd prefer to look through a full course to review all of these topics, start here.)

In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [11]:
# Read the data
X_full = pd.read_csv('train.csv', index_col='Id')
X_test_full = pd.read_csv('test.csv', index_col='Id')

In [12]:
# Obtain target and predictors
y = X_full.SalePrice
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = X_full[features].copy()
X_test = X_test_full[features].copy()

### Separar el conjunto de validación de los datos de entrenamiento

In [13]:
X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2,
                                                      random_state=0)

Utilice la siguiente celda para imprimir las primeras filas de los datos.

Es una buena forma de obtener una descripción general de los datos que utilizará en su modelo de predicción de precios.

In [14]:
X_train.head()

Unnamed: 0_level_0,LotArea,YearBuilt,1stFlrSF,2ndFlrSF,FullBath,BedroomAbvGr,TotRmsAbvGrd
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
619,11694,2007,1828,0,2,3,9
871,6600,1962,894,0,1,2,5
93,13360,1921,964,0,1,2,5
818,13265,2002,1689,0,2,3,7
303,13704,2001,1541,0,2,3,6


La siguiente celda de código define cinco modelos de bosque aleatorios diferentes.

Ejecute esta celda de código sin cambios. (Para revisar los bosques aleatorios, mire [aquí](https://www.kaggle.com/dansbecker/random-forests).)

In [15]:
from sklearn.ensemble import RandomForestRegressor

# Define the models
model_1 = RandomForestRegressor(n_estimators=50, random_state=0)
model_2 = RandomForestRegressor(n_estimators=100, random_state=0)
model_3 = RandomForestRegressor(n_estimators=100, criterion='mae', random_state=0)
model_4 = RandomForestRegressor(n_estimators=200, min_samples_split=20, random_state=0)
model_5 = RandomForestRegressor(n_estimators=100, max_depth=7, random_state=0)

models = [model_1, model_2, model_3, model_4, model_5]

Para seleccionar el mejor modelo de los cinco, definimos una función `score_model()` a continuación.

Esta función devuelve el error absoluto medio (MAE) del conjunto de validación.

Recuerde que el mejor modelo obtendrá el MAE más bajo.

(Para revisar el error absoluto medio, mire [aquí](https://www.kaggle.com/dansbecker/model-validation).)

Ejecute la celda de código sin cambios.

In [None]:
from sklearn.metrics import mean_absolute_error

# Function for comparing different models
def score_model(model, X_t=X_train, X_v=X_valid, y_t=y_train, y_v=y_valid):
    model.fit(X_t, y_t)
    preds = model.predict(X_v)
    return mean_absolute_error(y_v, preds)

for i in range(0, len(models)):
    mae = score_model(models[i])
    print("Model %d MAE: %d" % (i+1, mae))

Model 1 MAE: 24015
Model 2 MAE: 23740


## Step 1: Evaluate several models

Utilice los resultados anteriores para completar la línea a continuación.

¿Qué modelo es el mejor modelo?

Su respuesta debe ser una de `model_1, model_2, model_3, model_4` o `model_5`.

In [None]:
# Fill in the best model
best_model = model_3

# Check your answer
# step_1.check()

## Step 2: Generate test predictions

Great. You know how to evaluate what makes an accurate model. 

Now it's time to go through the modeling process and make predictions. 

In the line below, create a `Random Forest model` with the variable name `my_model`.