# Laboratorio
El objetivo del siguiente laboratorio es investigar los diferentes algoritmos vistos durante la clase.
Probar qué sucede cuando tratamos a las variables con atributos faltantes como una clase propia.

# El dataset
El dataset está relacionado a una campaña de márketing de un banco portugués. La campaña consistió en llamadas telefónicas. A menudo, se requería de múltiples llamadas para determinar si el cliente se suscribiría a un depósito a plazo en el banco (la variable objetivo)
Cada línea representa un cliente. Adicionalmente a la información de cada cliente, se cuenta con indicadores sociales y económicos al momento del último contacto con el cliente antes de la decisión de contratar o no el depósito.

Para descargarlo ingresar al siguiente [link](https://archive.ics.uci.edu/ml/datasets/Bank+Marketing) y descargar el dataset bank-additional.csv

*se puede usar el bank-additional-full.csv despues de haber completado el laboratorio si se quiere probar con mas puntos de data

# Lectura de Data
El dataset se encuentra en un archivo csv donde los separadores son “;”. Se puede importar usando la librería pandas y el método ```read_csv```.
[referencia](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

# Analisis de la data
Antes de preprocesar la data, es necesario determinar con qué información contamos. En el archivo ```bank-additional-names.txt``` se cuenta con la descripción de cada una de las variables de entrada. Si no se contara con esta informacion, es necesario verificar los rangos de los datos numericos, registros unicos para los datos categoricos y determinar que consideraremos como registros nulos.

Para ello podemos usar las funciones de pandas [```describe```](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html) para los datos numericos y [```unique```](https://pandas.pydata.org/docs/reference/api/pandas.unique.html) para los datos categoricos. 

# Preprocesamiento
Para empezar separamos las variables de entradas de nuestra variable de salida. Obtenemos nuestras variables `X` e `Y`. La `Y` en este caso será la columna `‘y’` la cual nos indica si se contrató el depósito o no.

`Y = data[‘y’] #seleccionamos solo la columna ‘y’ de la data cargada`

`X = data.drop(columns=[‘y’]) #eliminamos la columna ‘y’ de la data y nos quedamos con todo el resto de columnas.`



Antes de ejecutar cualquier algoritmo de preprocesamiento, debemos dividir nuestra data en train y test. Esto lo realizamos para no introducir ningun tipo de cesgo en la data que usaremos para evaluar la performance del modelo.

Debemos tomar nota del preprocesamiento que haremos a la data de entrenamiento para replicarlo en la data de evaluacion, ya que los modelos de ML estaran entrenados con la data preprocesada. Lo mismo ocurrira cuando querramos predecir. Cada nueva informacion que pasemos a los modelos de ML debemos preprocesarlas de la misma forma que la data de entrenamiento

Para ello podemos usar [`train_test_split`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) de sklearn.

Ahora si podemos empezar con el preprocesamiento.
Primero verificamos que no falten valores. En una primera version consideremos los "unknown" como clases validas. En una siguiente iteracion usaremos tecnicas de imputacion.

A continuacion, recordemos que si son variables numericas, generalmente las estandarizamos ([`StandardScaler`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html))
Si son variables categoricas, evaluamos si son nominal u ordinales.
* Si son nominal, normalmente usamos el One-Hot encoding [`OneHotEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html), o [`pandas.get_dummies()`](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html)
* Si son ordinales, el ordinal encoding. ([`OrdinalEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html))

Para cada uno de los metodos debemos hacer fit sobre la data de entrenamiento y transform tanto a la data de entrenamiento como a la de evaluacion.

# Modelos de ML

Procedemos a configurar los multiples de modelos de ML que usaremos. Simplemente compararemos varias versiones.
Por ejemplo:

```
models = [
          ('LogReg', LogisticRegression()), 
          ('RF', RandomForestClassifier()),
          ('KNN', KNeighborsClassifier()),
          ('Tree', DecisionTreeClassifier()
          ('Bagg', BaggingClassifier()
          ('Ada', AdaBoostClassifier())

```

Para ello usamos un `for` y dentro llamamos el metodo `fit` de cada modelo. Tambien llamamos el `score` usando la data de evaluacion para obtener metricas.

No nos limitemos a los modelos aqui presentados, pueden agregar los suyos por su cuenta y obviamente cambiar los hiperparametros de cada uno de ellos.

In [None]:
#Insertar entrenamiento de los modelos

Evaluamos los modelos y podemos realizar una tabla comparativa con el accuracy. En caso se quiera un mayor detalle podemos usar la matriz de confusion. Obtenemos las predicciones usando el metodo `predict` de los modelos obtenidos y usando [`confusion_matrix`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html) obtenemos la matriz



In [None]:
#Evaluando el Modelo

# Experimentos

# Imputacion de valores
Ahora, en lugar de considerar los valores "unknown" como validos, los consideraremos nulos y los imputaremos.
Para ello podemos usar el [`SimpleImputer`](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html) o el [`KNNImputer`](https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html). 

In [None]:
#Imputacion de Valores y Comparacion


# PCA

Evaluar usando [PCA](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html) los componentes principales y evaluar cuantos componentes son necesarios y probar haciendo las predicciones usando menos componentes.


In [None]:
#PCA y Comparacion