# Introducción al Aprendizaje Supervisado - Clasificación (Parte III)

* Enfoques prácticos para problemas comunes en AS.
* Ejemplo de sub-área clásica de IA: Natural Language Processing (NLP)
* Conclusiones del aprendizaje supervisado.

5to año - Ingeniería en Sistemas de Información

Facultad Regional Villa María

### Enfoques prácticos para problemas comunes en Aprendizaje Supervisado

#### Outliers

* Un _outlier_ es un punto que presenta una anomalía con respecto a nuestros demás datos. En la regresión, se considera también como outliers a aquellos puntos muy específicos para los cuales nuestra predicción $\hat{y}_i$ se encuentra muy lejos del valor real $y_i$.

![](images/outlier.jpg)

Fuente: https://statsland.wordpress.com/2012/09/24/outliers-are-they-good-or-bad/

* Tales puntos suelen ser particularmente molestos, ya que no podemos explicar por qué la predicción está tan lejos, y al ser muy baja su cantidad no afectan demasiado el error global, por lo que plantean la duda sobre qué hacer con ellos.

* Un enfoque común (pero muchas veces incorrecto) es asumir que fueron producto de un error en la toma de datos o como un caso extremadamente poco probable y que no representa en absoluto a los demás datos. A partir de esa asunción se suele proceder a ignorarlo o eliminarlo (si afecta el error global o alguna métrica de forma considerable, y consideramos que no representa un caso que nuestros datos estén modelando).

* De alguna forma los outliers tienen que ser considerados y en lo posible investigados (y como mínimo tener el registro de que ocurrieron); pues a menudo suelen indicar que existe un aspecto en los datos que nuestro modelo del problema no está considerando, por ejemplo, la falta un feature que considere algún punto de vista de los datos no tenido en cuenta previamente.

#### Predicción multi-label

* Para algunos datasets, las observaciones están etiquetadas con más de una salida, las cuáles no son excluyentes entre sí.

* Un enfoque común para estos casos es utilizar un predictor (regresor o clasificador) por cada uno de los labels. En el caso de la clasificación, este enfoque consiste en utilizar un clasificador binario OneVsRest para cada una de las clases.

#### Dataset con información faltante

* Existen casos donde los datasets no contienen información para todos sus features. Para estos casos suelen tomarse dos enfoques. Uno es eliminar las observaciones afectadas del dataset. 

* Otro enfoque consiste en utilizar un predictor (ej Random Forest) para estimar, en base a las demás observaciones que contienen valor en el feature, cuál es el valor que podría tener ese feature.

#### Curse of Dimensionality

* _The Curse of Dimensionality_ (Bellman, 1957) se refiere al problema donde, a medida que crece linealmente la cantidad de dimensiones de nuestros datos, la complejidad inherente de procesarlas crece a la vez en un orden exponencial.

* En ML, esto tiene dos consecuencias principales. La primera es que a medida que aumentan los features (es decir la *dimensión* $d$ del dataset, se necesitan cada vez más datos para tener una muestra representativa de los mismos que abarque una parte significativa de las combinaciones de todos los features.

* La segunda consecuencia es que, al existir tantas combinaciones de los features, pasa a haber una enorme cantidad de regiones distintas en la función que intentamos aproximar, por lo que muchos métodos no pueden capturar la forma de una función tan compleja.

* Una forma de mitigarlo es mediante **_Principal Components Analysis_** (PCA), que nos ayuda a reducir la dimensionalidad de nuestro dataset.

#### No free lunch theorem

    "All models are wrong, but some models are useful."

                         — George Box (Box and Draper 1987, p424)
                         
*No free lunch theorem* (Wolpert, 1996) establece que no existe un modelo universalmente mejor a todos los demás, sino que cada modelo, al partir de diversas asunciones, tiene sus ventajas y desventajas. Esto puede hacer que un modelo desempeñarse muy bien en un cierto dominio y muy pobremente en otros.

#### Occam's Razor

    “When presented with competing hypothetical answers to a problem, one should select the one that makes the fewest assumptions”

En ML puede interpretarse de varias formas, una de las cuáles establece que, ante distintos modelos igualmente competitivos para un determinado problema, debemos optar por el más simple.

#### Persistencia de un modelo en scikit-learn

Para guardar los resultados del entrenamiento de un modelo predictivo y no tener que realizar todo el entrenamiento cada vez que se desee usar el modelo en el futuro, scikit-learn provee la librería *joblib*, que es una extensión de la librería nativa *pickle* adaptada a un guardado más eficiente de objetos que contengan *ndarrays*. y que permite persistir el entrenamiento de un modelo en disco y cargarlo nuevamente más tarde.

    # persistimos un modelo creado con sklearn (ejemplo: clasificador_svm = svm.SVC())
    from sklearn.externals import joblib
    joblib.dump(clasificador_svm, 'clasificador.pkl')

    # cargamos el modelo persistido en memoria
    clf = joblib.load('clasificador.pkl')

Más información aquí: http://scikit-learn.org/stable/modules/model_persistence.html

---

Hasta recién hemos visto dominios de datos **estructurados**, es decir dominios en donde los datos siguen una estructura definida, típicamente porque los mismos han sido recolectados de acuerdo a un modelo que sigue esa misma estructura.

No obstante, muchos de los datos generados por sistemas de información no están estructurados de acuerdo a un modelo. Estos datos se conocen como datos **no estructurados** y, como tales, entrenar un modelo sobre ellos no suele ser directo, sino que, por ejemplo, se debe hacer un pre-procesamiento particular de los datos de acuerdo al dominio del problema. A continuación vamos a mostrar brevemente una de las sub-áreas de IA que trabaja con una gran parte de los datos no estructurados: Procesamiento del Lenguaje Natural.

## Ejemplo de sub-área clásica de IA: Natural Language Processing (NLP)


El procesamiento de lenguaje natural es una de las sub-áreas clásicas de la IA, junto con el procesamiento de imágenes/video, procesamiento de voz o la robótica.

Como cada sub-área concreta que lleva años siendo estudiada, tiene consideraciones y técnicas particulares que suelen ser aplicables sólo en la misma.

En particular, NLP apunta toma un texto como entrada y genera una salida relevante como ser el texto traducido, la identificación de la categoría a la que pertenece, análisis de sentimientos, entre otros.

Al trabajar con datos no estructurados en forma de texto de longitud variable con sus posibles ambigüedades, errores y demás, no suele ser posible entrenar directamente un modelo de predicción sobre ellos (por ejemplo, porque los features directamente no están definidos). A continuación podemos ver una vista general de la construcción de un sistema de clasificación de texto.

![](images/building_text_classification_system.png)

Fuente: Figura 4.2 de Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from Your Data (D. Sarkar, 2016). Buen libro para aquellos que quieran profundizar en NLP.

Tutorial recomendado para iniciarse en NLP: [Working with Text Data](http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html)

Otra librería recomendadada para NLP: [Natural Language Toolkit (NLTK)](http://www.nltk.org/)

Curso recomendado para aquellos que desean profundizar en NLP: Procesamiento de Lenguaje Natural, dictado en la Facultad de Matemática, Astronomía y Física, UNC.

### Conclusiones de la Introducción al Aprendizaje Supervisado

* El aprendizaje supervisado permite predecir salidas de una función desconocida $f(X)$ al tomarla como una caja negra para entradas $X$ no observadas, dado un entrenamiento previo con $(X, f(X))$ conocidos.

* Sus técnicas permiten obtener un gran tasa de aciertos con métodos de variada complejidad para un rango muy importante de problemas, en campos diversos como el reconocimiento de imágenes, robótica, procesamiento de texto, entre otros.

* En las clases hasta aquí se mostró una introducción al aprendizaje supervisado, mostrando cuáles son sus principales características, modelos y cómo evaluarlos.

* Debido a que el campo es muy amplio, muchos modelos han quedado fuera del alcance de estas clases; no obstante confiamos que al conocer las bases y al haber implementado varios, el aprendizaje de nuevas técnicas no será dificultoso puesto que la gran mayoría se como una extensión de lo visto en estas clases.

* El aprendizaje supervisado es, dentro de machine learning, el área con más aplicaciones y avances científicos. No obstante, al igual que como sucede en todo el campo de ML, es en este momento "más un arte que una ciencia", debido a que las soluciones dependen mucho de la experiencia previa con la que uno cuente, sumado a la necesidad de conocer a fondo el dataset con el que se trabaja, lo que hace que no exista una metodología estándar para encarar o evaluar muchos problemas.

![](images/machine_learning_system.png)

### Bonus: 

1. [Debate reciente muy interesante sobre la "objetividad" y los sesgos peligrosos en modelos de ML](https://old.reddit.com/r/MachineLearning/comments/bhm0si/d_everyone_building_machine_learning_products_has/)


Algunos frameworks poderosos que usan *gradient boosting* en árboles:

1. https://github.com/dmlc/xgboost
2. https://catboost.ai/
3. https://github.com/Microsoft/LightGBM

Para tener en cuenta en la resolución del TP:

1. [Notebook con un resumen rápido de algunos modelos de clasificación](https://github.com/inteligenciafrvm/inteligenciafrvm/blob/master/Material%20Extra/Clasificaci%C3%B3n%20-%20Vista%20general%20de%20algunos%20modelos/Clasificaci%C3%B3n%20-%20Vista%20general%20de%20algunos%20modelos.ipynb).
2. Algunos usos básicos de pandas

In [1]:
import pandas as pd
import numpy as np
np.random.seed(40)
df = pd.DataFrame(np.random.rand(4,4), columns = list('abcd'))
print(df)

          a         b         c         d
0  0.407687  0.055366  0.788535  0.287305
1  0.450351  0.303912  0.526400  0.623812
2  0.776775  0.686242  0.980939  0.600816
3  0.813969  0.708645  0.027535  0.904267


In [2]:
# seleccionar columna 'a'
print(df['a'])

0    0.407687
1    0.450351
2    0.776775
3    0.813969
Name: a, dtype: float64


In [3]:
# seleccionar fila 2, todas las columnas
df.loc[2, :]

a    0.776775
b    0.686242
c    0.980939
d    0.600816
Name: 2, dtype: float64

In [4]:
# seleccionar fila 2, solo columna c
df.loc[2, 'c']

0.9809388631878051

In [5]:
# sumarle el valor 3 a las filas 2 y 3 de la columna d
df.loc[1:2, 'd'] += 3
print(df)

          a         b         c         d
0  0.407687  0.055366  0.788535  0.287305
1  0.450351  0.303912  0.526400  3.623812
2  0.776775  0.686242  0.980939  3.600816
3  0.813969  0.708645  0.027535  0.904267


In [6]:
# crear una mascara para aplicar en valores que cumplan una 
# cierta condicion, por ejemplo a aquellos valores mayores 
# a 1 de todas las columnas (se podria filtrar tambien por
# cada columna)

mask = df > 1
print(mask)

       a      b      c      d
0  False  False  False  False
1  False  False  False   True
2  False  False  False   True
3  False  False  False  False


In [7]:
# con esta mascara, vamos a aplicar una una operación solamente a 
# aquellos datos que cumplen con su condicion

df[mask] = df[mask] + 1
print(df)

          a         b         c         d
0  0.407687  0.055366  0.788535  0.287305
1  0.450351  0.303912  0.526400  4.623812
2  0.776775  0.686242  0.980939  4.600816
3  0.813969  0.708645  0.027535  0.904267


In [8]:
# si quisieramos hacer una máscara para más de una condicion...

# aplicamos la mascara a los datos mayores a 1 o menores a 0.3
mask = (df > 1) | (df < 0.3)
print(mask)

       a      b      c      d
0  False   True  False   True
1  False  False  False   True
2  False  False  False   True
3  False  False   True  False


In [9]:
# crear una nueva columna con todos sus valores en 0
df['e'] = pd.Series(np.zeros(4))
print(df)

          a         b         c         d    e
0  0.407687  0.055366  0.788535  0.287305  0.0
1  0.450351  0.303912  0.526400  4.623812  0.0
2  0.776775  0.686242  0.980939  4.600816  0.0
3  0.813969  0.708645  0.027535  0.904267  0.0


In [10]:
# eliminar una columna
df = df.drop(columns=['c'])
print(df)

          a         b         d    e
0  0.407687  0.055366  0.287305  0.0
1  0.450351  0.303912  4.623812  0.0
2  0.776775  0.686242  4.600816  0.0
3  0.813969  0.708645  0.904267  0.0


In [11]:
# crear una nueva columna producto de multiplicar columnas b y d
df['f'] = df['b'] * df['d']
print(df)

          a         b         d    e         f
0  0.407687  0.055366  0.287305  0.0  0.015907
1  0.450351  0.303912  4.623812  0.0  1.405233
2  0.776775  0.686242  4.600816  0.0  3.157272
3  0.813969  0.708645  0.904267  0.0  0.640805


In [12]:
# alguien perdio un dato en la columna a!
df.loc[1, 'a'] = np.nan
print(df)

          a         b         d    e         f
0  0.407687  0.055366  0.287305  0.0  0.015907
1       NaN  0.303912  4.623812  0.0  1.405233
2  0.776775  0.686242  4.600816  0.0  3.157272
3  0.813969  0.708645  0.904267  0.0  0.640805


In [13]:
# podemos completar este dato con el promedio de la columna
df = df.fillna(df['a'].mean())
print(df)

          a         b         d    e         f
0  0.407687  0.055366  0.287305  0.0  0.015907
1  0.666144  0.303912  4.623812  0.0  1.405233
2  0.776775  0.686242  4.600816  0.0  3.157272
3  0.813969  0.708645  0.904267  0.0  0.640805


In [14]:
# para valores categóricos podemos completar los datos faltantes usando la moda...
df['g'] = ['rojo', 'rojo', np.nan, 'verde']
print(df)

          a         b         d    e         f      g
0  0.407687  0.055366  0.287305  0.0  0.015907   rojo
1  0.666144  0.303912  4.623812  0.0  1.405233   rojo
2  0.776775  0.686242  4.600816  0.0  3.157272    NaN
3  0.813969  0.708645  0.904267  0.0  0.640805  verde


In [15]:
df = df.fillna(df['g'].mode()[0])  
# notar que se usa el subindice 0 porque el objeto resultante es de tipo Series con un elemento
print(df)

          a         b         d    e         f      g
0  0.407687  0.055366  0.287305  0.0  0.015907   rojo
1  0.666144  0.303912  4.623812  0.0  1.405233   rojo
2  0.776775  0.686242  4.600816  0.0  3.157272   rojo
3  0.813969  0.708645  0.904267  0.0  0.640805  verde


In [16]:
print(type(df['g'].mode()))

<class 'pandas.core.series.Series'>
