# ¿Qué es el Machine Learning?

- **Aprendizaje Automático:** Conjunto de técnicas de inteligencia artificial orientadas a crear programas de computador que puedan aprender de la experiencia (Conjunto de datos).

- **Inteligencia Artificial:** Disciplina científica que se ocupa de crear programas informáticos que ejecutan operaciones comparables a las que realiza la mente humana, como el aprendizaje o el razonamiento lógico.

# Aprendizaje supervisado vs no supervisado

- **Aprendizaje Supervisado:** el aprendizaje se realiza sobre datos etiquetados.
- **Aprendizaje no Supervisado:** el aprendizaje se realiza observando los datos sin sus etiquetas.

# Herramientas para Machine Learning

- Python y sus librerias como Scikit-Learn, Pandas, Numpy, Matplotlib.

![imagen](https://scikit-learn.org/stable/_static/ml_map.png)

# Datalore
**Datalore** e una plataforma de ciencia de datos colaborativa que está disponible en línea, que nos permite realizar "Scripts" de Python, R, Kotlin y ejecutar celdas de SQL.

# ¿Cómo funciona un algoritmo de Machine Learning?

A diferencia del enfoque clásico de la Estadística o de la Econometría, donde:
$$Y = f(X) + u$$
- Nuesto objeto de interés es la función <font color = red> $f(.)$ </font>. Pues esta función puede guardar relaciones causales, bajo ciertas condiciones, de $X$ sobre $Y$.
- Por lo que nos preocupa entender la forma funcional del modelo, para ello podemos basarnos en la teoría o los experimentos.
- Las probabilidades juegan un rol importante, puesto que nos permite obtener estimaciones puntuales, intervalos de confianza y test de hipótesis.
- La evaluación sobre el modelo viene *ex ante*, debido a que en Estadística clásica se discute sobre la herramienta de estimación de inferencia, es decir bajo que condiciones la herramienta teórica es buena, a raiz de eso nos preocupa conceptos como la insesgadez, varianza mínima, consistencia. De esta manera se argumenta que las herramientas que uno utiliza son los correctos (*ex ante*), y no que los resultados sean los correctos.

En cambio en el Machine Learning seguimos con el mismo modelo:
$$Y = f(X) + u$$
- Pero nuestro objeto de interés cambia a <font color = red> $Y$ </font>. Ya que el objetivo que nos preocupa es predecir, clasificar y medir; y para esto puede que simples correlaciones sean suficientes.
- La actitud con respecto al modelo es construirlo a partir de los datos, de forma iterativa, de prueba y error. Eso no quiere decir que la teoría o el experimento deje de informar sobre la forma del modelo, sino que también informa el proceso de construcción del modelo.
- Por lo tanto, nos preocupa las predicciones puntuales y, resulta difícil realizar inferencia sobre este tipo de modelos.
- Y en este enfoque, las evaluaciones del modelo vienen fuera de la muestra, puesto que, como nuestro interés es la predicción, nos interesa que tan bien nuestro modelo se adapta a datos no provistos en la fase de entrenamiento.

# Procesamiento de Datos
- Para que un algoritmo de ML pueda funcionar, necesita que los datos proporcionados esten en un formato correcto.
- Por lo general, los algoritmos de NL, se basan en operaciones matemáticas sobre las operaciones de entrada.
- Por lo tanto, los datos deben ser **NÚMEROS**
- A las transformaciones de un conjunto de datos en otros que puedan ser usados por el algorimo de ML se lo conoce como ***preprocesamiento de datos***.

# Conjunto de datos
- Tendremos un conjunto de datos. Donde la matriz $X$, de tamaño $m \times n$, seran las características (features) y; $Y$, de tamaño $m \times 1$ será la variable objetivo o etiqueta (label).

# Preprocesamiento de Datos

Es necesario transformar las columnas $(X_i)$ en función del tipo de datos que contengan, para ello contamos con distintos transformadores de la libreria <span style="background-color: #D3D3D3; padding: 2px;">sklearn</span>
- Datos numéricos: <span style="background-color: #D3D3D3; padding: 2px;">StandardScaler</span>, <span style="background-color: #D3D3D3; padding: 2px;">MinMaxScaler</span> o <span style="background-color: #D3D3D3; padding: 2px;">RobustScaler</span>
- Datos discretos: <span style="background-color: #D3D3D3; padding: 2px;">OneHotEncoding</span> u <span style="background-color: #D3D3D3; padding: 2px;">OrdinalEncoder</span>
- Texto libre: <span style="background-color: #D3D3D3; padding: 2px;">CountVectorizer</span>
- Imagenes: Necesitamos codificar la imagen de forma correcta

¿La variable objetivo $Y$ se debe transformar? Depende, lo normal es que no.

# Preprocesamiento con sklearn

-Con <span style="background-color: #D3D3D3; padding: 2px;">sklearn</span> todas las transformaciones se encuentran en el módulo <span style="background-color: #D3D3D3; padding: 2px;">sklearn.preprocessing</span>.

-Su interfez es homogénea, con los siguientes métodos.
- <span style="background-color: #D3D3D3; padding: 2px;">fit()</span> para aprender los parámetros de la transformación.
- <span style="background-color: #D3D3D3; padding: 2px;">transform()</span> para transformar.
- <span style="background-color: #D3D3D3; padding: 2px;">fit_transform()</span> para aprender y transformar en un solo paso.
- <span style="background-color: #D3D3D3; padding: 2px;">inverse_transform()</span> para devolver los datos en su forma original.

# Feature Engineering
- En algunos casos, los datos a pre-procesar no son estándar.
- Cuando esto esto sucede recurrimos a hacer *Feature Engineering*.
- *Feature Engineering* engloba todas las técnicas no triviales para transformar datos.
- Son soluciones hechas *ad-hoc* para procesar datos en un problema específico.
- Es importante resaltar que la forma en la que evaluamos si un preprocesamiento es correcto es mediante la evaluación de las predicciones finales.

# Ejemplo

Lo primero que haremos es importar el módulo <span style="background-color: #D3D3D3; padding: 2px;">compose</span> de <span style="background-color: #D3D3D3; padding: 2px;">sklearn</span>:

In [1]:
import sklearn.compose
import pandas as pd

In [2]:
data = {'id': [1,2,3,4],
        'nombre': ['Juan', 'Antonio', 'Maria', 'Felipe'],
        'altura': [160, 200, 185, 165],
        'peso': [59,70,60,58],
        'sexo':['hombre', 'hombre', 'mujer', 'hombre']}

df = pd.DataFrame(data)
df

Unnamed: 0,id,nombre,altura,peso,sexo
0,1,Juan,160,59,hombre
1,2,Antonio,200,70,hombre
2,3,Maria,185,60,mujer
3,4,Felipe,165,58,hombre


In [3]:
#Definimos la transformacion
#sklearn.compose.ColumnTransformer(transforms=[(nombre, drop o passthough o transformador, columna efectada )])

transform_of_columns = sklearn.compose.ColumnTransformer(transformers=[
    ('drop', 'drop', ['id']), # elimina la primera col
    ('passthrough', 'passthrough', ['nombre']), #pasa la segunda col
    ('scale', sklearn.preprocessing.StandardScaler(), ['altura']), #altura transf a SS
    ('minmax', sklearn.preprocessing.MinMaxScaler(), ['peso']), # peso transf a MMS
    ('one-hot', sklearn.preprocessing.OneHotEncoder(), ['sexo']) #sexo transf a OHE
])

In [4]:
transform_of_columns.fit_transform(df)

array([['Juan', -1.0932163332202425, 0.08333333333333304, 1.0, 0.0],
       ['Antonio', 1.4055638569974547, 1.0, 1.0, 0.0],
       ['Maria', 0.4685212856658182, 0.16666666666666696, 0.0, 1.0],
       ['Felipe', -0.7808688094430304, 0.0, 1.0, 0.0]], dtype=object)