<a href="https://www.inove.com.ar"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/PA%20Banner.png" width="1000" align="center"></a>


# Ingeniería de feature

Programa creado para mostrar ejemplos prácticos de los visto durante la clase<br>
v1.1

##Objetivos:
* Estudiar las relaciones entre las columnas del DataFrame para aumentar datos.
* Comprender la importancia de los label encoder y onehotEncoder.
* Distinguir los métodos de estandarización y normalización.
* Implementar la librería Scikitlearn para separar datos para entrenar y evaluar.
* Diferencias las métricas de Scikitlearn para calcular el error. 

# Primeros pasos en la ingeniería de características y scikit-learn

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Creando el DataFrame df
# cuyas columnas son los nombres de las claves
# los registros por columna, son los valores de las listas.
df = pd.DataFrame({
      "Name": ["Inove", "Python", "Max",
                "Mirta", "Max", "SQL", "SQLite"],
      "Age": [12, 29, 35, 93, 40, 13, 20],
      "Nationality": ["Argentina", "Holanda", "Estados Unidos",
                      "Argentina", "Estados Unidos",
                      "Inglaterra", "Estados Unidos"]}
      )
df

## 1 - Ingeniería de features - Data augmentation

### Ejemplo: 
* Crear una nueva columna llamada "mayor_edad".
* Los datos de esta columna serán booleanos.
* Cada valor booleano será producto de la aumentación de datos.
* Para ello, se relacionará las columnas Age y Nationality.

**¿Cuál es el objetivo?**
Identificar como True todos aquellos que sean mayor de edad de acuerdo a la nacionalidad.

In [None]:
# Hacer una copia de DataFrame inicial, así se añade la nueva columna a la copia, y DataFrame original se conserva.
df2 = df.copy()

# Crear una nueva columna "mayor de edad" como resultado de analizar la edad y la nacionalidad
# df2 DataFrame con la información.
# df2['mayor_edad'], de esta manera se crea una nueva columna en el DataFrame.
# Los datos se completarán con el resultado de la aplicación de la función lambda.
# df2.apply(), se aplica a todo el DataFrame porque relacionará dos columnas.
# Los condicionales toman en cuenta aquellos países donde ser mayor es a partir de los 18 y en otros a los 21.
# lambda x: estos significa que se aplicará a todos los registros del DataFrame donde x será cada fila a evaluar.
# Primer condicional: True if x['Age'] >= 21
# Segundo condicional: True if (x['Age'] >= 18 and x['Nationality'] == 'Argentina')
# False
# axis= 1, para cada fila del DataFrame

df2['mayor_edad'] = df2.apply(lambda x: True if x['Age'] >= 21 else True if (x['Age'] >= 18 and x['Nationality'] == 'Argentina') else False, axis=1)
df2

## 3 - Encoding: Codificación 

#### Label Encoding (Codificación de etiquetas): Codifica las etiquetas de destino con un valor entre 0 y n_classes-1.

Fuente: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

In [None]:
# Hacer una copia de DataFrame inicial
df3 = df2.copy()

In [None]:
# Se importa la herramienta de la librería sklearn.preprocessing
from sklearn.preprocessing import LabelEncoder

# Se crea el Label Encoding
le = LabelEncoder()

# Entrenar al encoder:
# 1) fit --> busca la cantidad de clases posibles
# 2) transform --> le asigna un número
label_encoding = le.fit_transform(df3['Nationality'])

print(label_encoding)
print(df3['Nationality'])

In [None]:
# Crear una nueva columna con el resultado del encoding
df3['Nationality_LE'] = label_encoding

# Imprimir la cantidad de clases detectadas
print(le.classes_)
df3

#### OneHotEncoding
Codifica características categóricas como una matriz numérica única.

Fuente: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

In [None]:
# Se crea una copia
df4 = df3.copy()

# SE importa la herramienta OneHotEncoder de sklearn.preprocessing
from sklearn.preprocessing import OneHotEncoder

# Se crea el OneHotEncoding
# sparse=False, devolverá una matriz dispersa si se establece en True; de ​​lo contrario, devolverá una matriz.
onehot_encoder = OneHotEncoder(sparse=False)

In [None]:
# IMPORTANTE: Para poder utilizar OneHotEncoding debe haber realizado
# previamente el label_encoding a números

# Entrenar al encoder:
# onehot_encoder, variable que se utilizó para crear el OneHotEncoding.
# fit_transform, método que ajusta los datos y luego los transfórma.
# label_encoding, es la variable que almacena la información de la columna Nationality transformada en números.
# .reshape(-1, 1)  permite ajustar la matriz para que cada registro de cada fila se conforme una matriz.
one_hot_encoding = onehot_encoder.fit_transform(label_encoding.reshape(-1, 1))
one_hot_encoding

In [None]:
# pd.DataFrame: Crea un DataFrame con las matrices generadas en OneHotEncoder
# Tiene como parámetros:
# La variable "one_hot_encoding" que contiene las matrices generadas en OneHotEncoder de la columna Nationality
# columns=le.classes_, especifica los nombres de las columnas del DataFrame
# dtype=int, especifica el tipo de dato que va almacenar la columna.
one_hot_encoding_df = pd.DataFrame(one_hot_encoding, columns=le.classes_, dtype=int)
one_hot_encoding_df

In [None]:
# Si quisieramos agregarle algun prefijo:
one_hot_encoding__prefix_df = one_hot_encoding_df.add_prefix('Nationality_')
one_hot_encoding__prefix_df


In [None]:
# Resultado final: Se unen ambos DataFrame con el método join() 
# A df4 se le suma "one_hot_encoding_df"
df4 = df4.join(one_hot_encoding_df)
df4

#### Codificar un nuevo valor para nationality

In [None]:
# Nuevo valor
label = 'Holanda'

# Transformación a label encoding
l_encoding = le.transform([label])
print('LabelEncoder:\n', l_encoding)

# Transformación a one hot encoding
oh_encoding = onehot_encoder.transform(l_encoding.reshape(-1, 1))
print('OneHoteEncoding:\n', oh_encoding)


## 5 - Métricas

In [None]:
df6 = df.copy()

# Se crea una columna llamada y_hat
df6['y_hat'] = [15, 29, 34, 85, 37, 12, 20]
df6

#### Métricas para valores continuos (Se expresan con números reales): 



*   MAE
*   MSE 



Comparación entre las columna Age | y_hat, a través de las métricas.

In [None]:
df6

In [None]:
# Se almacena en la variable y los valores de la columna Age
y = df6['Age']
print(y)

# Se almacena en la variable y_hat los valores de la columna y_hat
y_hat = df6['y_hat']
print(y_hat)

In [None]:
# Calcular el error absoluto medio (MAE), para valores continuos.
# MAE, es el promedio de la diferencia absoluta entre el valor observado y los valores predichos.
# Esta métrica no es sensitiva hacia los outliers.
# Para usar las métricas se importan de sklearn.metrics
# En este caso, mean_absolute_error

from sklearn.metrics import mean_absolute_error

# Necesita dos variables que contengan los valores a comparar
mean_absolute_error(y, y_hat)

# El resultado se interpreta como la diferencia entre los valores observados es de ...

In [None]:
# Calcular el error cuadrático medio (MSE), para valores continuos.
# MSE, hace un promedio de todos los errores elevados a cuadrado
# El MSE es de más utilidad cuando se trata de grades errores que cuando se trata de pequeños errores.
from sklearn.metrics import mean_squared_error

# Necesita dos variables que contengan los valores a comparar
mean_squared_error(y, y_hat)

#### Métricas para clasificación:




*   accuracy_score
*   f1_score



In [None]:
df7 = df.copy()

# Deseamos clasificar si la nacionalidad de la persona es Argentina (1) o no(0)
df7['Argentina'] = df6['Nationality'].apply(lambda x: 1 if x == 'Argentina' else 0)

# Inventamos los resultados de un clasificador para evaluar
df7['y_hat'] = [1, 0, 0, 0, 0, 1, 1]

y = df7['Argentina']
y_hat = df7['y_hat']
df7

In [None]:
# Matriz de Confusion
# Se utliza la matriz de confusión para evaluar la precisión de una clasificación.


from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# Necesita dos variables que contengan los valores a comparar
cm = confusion_matrix(y, y_hat)
cm

In [None]:
# Código para realizar la representación gráfica con los resultados
# Se crea la varible cmd, que almacena visualization de la Confusion Matrix 
# Necesita la variable cm que contiene los resultados de la comparación entre los valores reales y predicción
# display_labels, se especifica las etiquetas de las categorias que se evalúan.
cmd = ConfusionMatrixDisplay(cm, display_labels=['NO_ARG','ARG'])

# Con cmd.plot se especifica el mapa de colores reconocido por matplotlib.
cmd.plot(cmap=plt.cm.Reds)

# Para mostrar la figura
plt.show()

In [None]:
# Calcular la exactitud (accuracy)
# Calcula la precisión de un conjunto de valores categóricos pronosticados frente a las verdaderas.
# El resultado esta entre 0 y 1
from sklearn.metrics import accuracy_score

# Necesita dos variables que contengan los valores a comparar
# normalize: si este valor es True, se devuelve la fracción de predicciones correctas.
accuracy_score(y, y_hat, normalize=True)

In [None]:
# Calcular el f1_score
# El resultado esta entre 0 y 1
# F1 alcanza su mejor valor en 1 y su peor puntuación en 0.
# Se importa

from sklearn.metrics import f1_score

# Necesita dos variables que contengan los valores a comparar
f1_score(y, y_hat)