<br/>
<img src="images/cd-logo-blue-600x600.png" alt="" width="130px" align="left"/>
<img src="images/cd-logo-blue-600x600.png" alt="" width="130px" align="right"/>
<div align="center">
<h2>Bootcamp Data Science - Módulo 2</h2><br/>
<h1>Introducción a Machine Learning</h1>
<br/><br/>
    <b>Instructor Principal:</b> Patricio Olivares polivares@codingdojo.la <br/>
    <b>Instructor Asistente:</b> Víctor Trigo vtrigo@codingdojo.la<br/><br/>
    <b>Coding Dojo</b>
</div>
<br>
Fuente: "Hands-on Machine Learning with Scikit-Learn, Keras & TensorFlow"

# ¿Qué es Machine Learning?

- Machine Learning (de ahora en adelante, **ML**), se define como el conjunto de técnicas a través de los cuales un computador puede aprender de los datos.

<img src="images/diagrama.png" alt="" width="800px" align="center"/>

# ¿Por qué utilizar Machine Learning?

### Ej. Creación de un filtro de spam para correos electrónicos

- Aproximación tradicional

<img src="images/withoutML.png" alt="" width="500px" align="center"/>

# ¿Por qué utilizar Machine Learning?

### Ej. Creación de un filtro de spam para correos electrónicos

- Aproximación de ML

<img src="images/withML.png" alt="" width="500px" align="center"/>

# Tipos de algoritmos de ML

Existen distintas clasificaciones

- Algoritmos entrenados con o sin supervisión humana:
    * Supervisados
    * No supervisados
    * Semi supervisados
    * Por refuerzo
- Algoritmos de aprendizaje incremental:
    * Online
    * Offline/por lote (batch)
- Algoritmos de detección de patrones o de comparación:
    * Basados en instancia
    * Basados en modelo

# Bibliotecas para ML python

<img src="images/bibliotecas.png" alt="" width="800px" align="center"/>

# Scikit-Learn

<img src="images/ml-libraries/scikit-learn-logo-notext.png" alt="" width="200px" align="center"/>

- Biblioteca para ML de código libre
- Biblioteca para Python
- Soporta múltiples algoritmos tanto supervisados como no supervisados
-  Si está trabajando en su entorno local, previo a su importación debe ser **instalada** 
    - ```pip install scikit-learn``` si usa ```pip```
    - ```conda install scikit-learn``` si usa ```conda```

# Scikit-Learn: Utilización

Todo los objetos Scikit-Learn son **consistentes** entre sí
* **Estimadores:** 
    - Método encargado de la **estimación** de los parámetros asociados al algoritmo. 
    - Objetos Scikit-Learn incluyen el método *fit()*, cuya entrada es el set de datos utilizados para el cálculo de los parámetros.
* **Transformadores:** 
    - Método encargado de la **transformación** de datos en base a los parámetros calculados por método *fit()*. 
    - Objetos Scikit-Learn incluyen el método *transform()*, que recibe con los datos a transformar.
    - Método *fit_transform()* permite realizar ambos pasos con un solo método.
* **Predictores:** 
    - Método encargado de hacer **predicciones** en base a datos de entrada.
    - Objetos Scikit-Learn incluyen el método *predict()*, para realizar predicciones en base a parámetros de entrada.
        
Cuáles de estos métodos están presentes, dependerá del tipo algoritmo a utilizar.
    

# Tipos de características

- Cada set de datos puede poseer una múltiples características representadas por sus columnas
- Cada característica puede ser de tipo:
    * Numérica: Característica cuantitativa
    * Nominales: Característica conformada por clases no ordenadas
    * Ordinales: Característica conformada por clases ordenadas

# Transformación de características

- Normalmente los modelos de Machine Learning tienen problemas para trabajar con características no numéricas.
- Este tipo de características deben ser transformadas:
    * Ordinales: Reemplazar clases por números ordenados
    * Nominales: One Hot Encoder

# Transformación de características: ordinal

In [None]:
# Transformación ordinal
import pandas as pd
import numpy as np
from sklearn.preprocessing import OrdinalEncoder

# Dataset de prueba: cargamos los datos
df = pd.DataFrame(['bad', 'good', 'good', 'average','bad','average', 'good'])
# Creamos un objeto OrdinalEncoder
ordinal_encoder = OrdinalEncoder(categories=[['bad','average', 'good' ]])
ordinal_encoder.fit(df) # Estimamos los parámetros internos con fit()
# En este punto, ordinal_encoder ya aprendió como debe reemplazar los elementos
# de esta categoría
serie_encoded = ordinal_encoder.transform(df) # Transformamos los datos de df a números
print("Datos originales", df)
print("Serie codificada", serie_encoded)
print("Categorías", ordinal_encoder.categories_)

In [None]:
# El reemplazo ordinal no siempre es la mejor opción
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder
import numpy as np

df = pd.DataFrame(['red', 'blue', 'blue', 'green','red','green', 'red'])
ordinal_encoder = OrdinalEncoder()
ordinal_encoder.fit(df)
serie_encoded = ordinal_encoder.transform(df)
print("Datos originales", df)
print("Serie codificada", serie_encoded)
print("Categorías", ordinal_encoder.categories_)
# ¿Tiene sentido que el azul sea menor que el verde?

# Transformación de características: One Hot Encoder

- One Hot Encoder codifica las categorías de una columna de datos, como una nueva columna por cada categoría.
- Cuando un dato posee una cierta categorías, se marca su respectiva columna con un 1 y el resto de columnas con cero.
- Esto asegura que todos las categorías tengan **la misma distancia entre sí**

In [None]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# Creamos dataframe de datos no ordinales
df = pd.DataFrame(['red', 'blue', 'blue', 'green','red','green', 'red'])
one_hot_encoder = OneHotEncoder()
one_hot_encoder.fit(df) # Aprendemos la codificación one hot a partir de nuestros datos
serie_encoded = one_hot_encoder.transform(df) # Transformamos los datos según lo aprendido
print("Datos originales", df)
print("Serie codificada", serie_encoded.toarray())
print("Categorías", one_hot_encoder.categories_)

In [None]:
# Transformando a dataframe
df_encoded = pd.DataFrame(serie_encoded.toarray(), columns=one_hot_encoder.categories_)
df_encoded

# Escalamiento

- Modificación del rango de valores de una característica numérica
- Tipos comunes de escalamiento:
    * Escalamiento min-max (normalización): Rango entre 0 (mínimo) y 1 (máximo)
    * Estandarización: Escalamiento a media cero y varianza unitaria
    

# Estandarización con Scikit-Learn

In [None]:
import pandas as pd
df = pd.read_csv('data/housing.csv')
df.head()

# Estandarización con Scikit-Learn

In [None]:
# Esta biblioteca se encarga de el escalamiento por estandarización
# Es decir, bajo el supuesto que los datos se comportan como una 
# distribución normal
from sklearn.preprocessing import StandardScaler 
scaler = StandardScaler() # Creación de objeto StandardScaler
scaler.fit(df[['median_house_value']]) # Cálculo de parámetros de escalamiento
print('Media de los datos', scaler.mean_)
print('Varianza de los datos', scaler.var_)
price_scaled = scaler.transform(df[['median_house_value']]) # Transformación de los datos
import matplotlib.pyplot as plt
plt.hist(price_scaled, bins=20)

# Estandarización con Scikit-Learn

In [None]:
import matplotlib.pyplot as plt

fig = plt.figure()

ax1 = fig.add_subplot(1,2,1)
ax1.hist(df['median_house_value'], bins=20)
ax1.set_title('Precios reales')

ax2 = fig.add_subplot(1,2,2)
ax2.hist(price_scaled, bins=20)
ax2.set_title('Precios escalados')

plt.show()

# Column Transform

- Podemos paralelizar el proceso de transformación de múltiples columnas de datos de distintos tipos utilizando Column Transformers

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import make_column_selector, make_column_transformer

df = pd.read_csv('data/housing.csv')[['median_income', 'median_house_value', 'ocean_proximity']]
df.info()
df

In [None]:
# Selectores de columnas por tipos. También es posible utilizar patrones de expresiones
# regulares para selección de columnas
# https://scikit-learn.org/stable/modules/generated/sklearn.compose.make_column_selector.html
cat_selector = make_column_selector(dtype_include='object') # Este selector se enfocará en columnas nominales
num_selector = make_column_selector(dtype_include='number') # Este selector se enfocará en columnas numéricas

# Transformadores
one_hot_encoder = OneHotEncoder() # Variable encargada de las transformaciones one hot
standard_scaler = StandardScaler() # Variable encargada de las transformaciones de estandarización

# Transformación
col_transformer = make_column_transformer((standard_scaler, num_selector),
                                          (one_hot_encoder, cat_selector), 
                        remainder = 'passthrough') # Si existe alguna columna que no caiga en las categorías, pasa tal cual

# col_transformer es la variable que se encargará de realizar todas las operaciones sobre cada subconjunto de columnas escogido
# según cada column selector.

# Recuerden que col_transformer.fit_transform(df) es una forma abreviada de escribir
# col_transformer.fit(df) # Aquí estimamos los parámetros para todas las transformaciones
# col_transformer.transform(df) # Aquí aplicamos dichas transformaciones sobre el dataframe
df_encoded = pd.DataFrame(col_transformer.fit_transform(df))
df_encoded
# También es posible utilizar la clase ColumnTransform la cual es mucho más versátil
# que la función make_column_transformer

# Imputer

- SimpleImputer es una clase de Scikit-Learn que permite el manejo sencillo de columnas de características con valores nulos

In [None]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer

df = pd.read_csv('data/housing.csv')
print(df)
df_num = df.drop("ocean_proximity", axis=1) # borrando columna no numérica
df_num.info()
# Valores nulos en columna total_bedrooms

In [None]:
imputer = SimpleImputer(strategy="median")
imputer.fit(df_num)
print(imputer.statistics_) # valores de mediana por cada columna numérica
df_tr = pd.DataFrame(imputer.transform(df_num), columns=df_num.columns, index=df_num.index)
df_tr.info() # Valores nulos reemplazados

In [None]:
df_num.head()

In [None]:
df.loc[530:550]

In [None]:
df_tr.loc[530:550]

# Pipelines

- A diferencia de los ColumnTransformers, los Pipeline pueden realizar múltiples operaciones sobre un dataset **en secuencia**.
- Los pipelines **pueden incluir modelos** como operaciones compatibles y otros elementos de Scikit-Learn siempre y cuando ellos cuenten con los métodos *fit* y *transform*

In [None]:
import pandas as pd
import numpy as np
from sklearn.pipeline import make_pipeline
# Crearemos una tubería que incluya dos operaciones: Imputación y Escalamiento
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
# Ojo, las siguientes dos líneas son opcionales
# Permiten ver visualmente el pipeline creado
from sklearn import set_config
set_config(display='diagram') # Para mostrar como diagrama

# Datos estadísticos sobre diferentes países
df = pd.read_csv('data/life_expectancy.csv', index_col='CountryYear')
df.info()
df

In [None]:
imputer = SimpleImputer(strategy="median")
scaler = StandardScaler()
# Creación de pipeline a partir de sus componentes. En
# este ejemplo, el imputer y el scaler
preprocessing_pipeline = make_pipeline(imputer, scaler)
preprocessing_pipeline

In [None]:
df_processed = pd.DataFrame(preprocessing_pipeline.fit_transform(df),
                            columns=df.columns, index=df.index)
df_processed

In [None]:
df_processed.info()

# División en set de training y test

- Los modelos de Machine Learning intentan aprender patrones en los datos que le permitan hacer predicciones.
- Al momento de evaluar un modelo, se desea estimar qué tan bien es capaz de **generalizar** a partir de los datos usados en el proceso de aprendizaje. (¿Puedo hacer predicciones sobre nuevos datos a partir de lo ya aprendido?)
- Para ello, siempre es necesario dividir nuestro data set en dos grupos:
    * **Training set**: Es el subconjunto de datos que será utilizado para entrenar nuestro modelo.
    * **Test set**: Es el subconjunto de datos que será utilizado para evaluar la generalización de nuestro modelo.

In [None]:
# Ejemplo de división de datos de entrenamiento y de prueba
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# Datos estadísticos sobre diferentes países
df = pd.read_csv('data/life_expectancy.csv', index_col='CountryYear')
X = df.drop(["Life expectancy"], axis=1) # Features
y = df["Life expectancy"] # Target
X.info()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(X_train.info()) # Set de características de datos de training
print(X_test.info()) # Set de características de datos de test

# Actividad 3

- Utilice como base el dataset [housingprice.csv](data/housingprice.csv). Este dataset incluye información variada de distintas casas junto con sus valores de venta (columna de interés). 
- Realice sobre dicho dataset las transformaciones que considere pertitentes, incluyendo:
    * Tratamiento de valores nulos
    * Estandarización de valores numéricos
    * Transformación de categorías ordinales y nominales
    * División en datos de entrenamiento y prueba.
- Puede encontrar información adicional sobre cada columna [aquí](data/data_description_housing_price.txt) e información adicional sobre el set de datos [aquí](https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/overview)