# Taller modelos de aprendizaje

Partiendo de los problemas del taller modelos de SVM, implemente un modelo de aprendizaje de maquina que considere los espacios de hipótesis revisados en clase. El modelo debe garantizar:

1. Generalización por medio de una estrategia de adecuada de validación cruzada.
2. Ajuste de hiperparametros (con una selección adecuada de hiperparametros para cada modelo)



# Detección de ocupación

1. Se trata de un problema de clasificación binaria, es decir, queremos predecir con ayuda de un modelo de aprendizaje de máquina si una habitación está ocupada o no. Para ello, tenemos datos de sensores que miden la temperatura, luminosidad y niveles de $CO_2$.

2. El conjunto de datos tiene 7 atributos :
  * **Fecha y hora:** Momento en el que se tomó la medición.
  * **Temperatura(°C):**  
  * **Humedad relativa(%):** Se refiere a la proporción entre la  cantidad de vapor de agua en el aire y la cantidad máxima de vapor que soporta el aire en la temperatura actual.
  * **Nivel de iluminación(Lux):** Cantidad de luz visible que llega a un area determinada.
  * **Nivel de $CO_2$ (ppm):** Concentración de $CO_2$ en el aire.
  * **Ratio de humedad** Razon entre la cantidad  vapor de agua y la cantidad de aire seco.

Los datos están etiquetados con 1 o 0 si la habitación está ocupada o no.


In [None]:
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/00357/occupancy_data.zip
from zipfile import ZipFile
import pandas as pd


path='occupancy_data.zip'
files = ZipFile(path,'r').extractall('.')                           #Descomprimimos el archivo zip

data_test = pd.read_csv('datatest.txt', sep = ',', header=0)
data_test2 = pd.read_csv('datatest2.txt', sep = ',', header=0)
data_training = pd.read_csv('datatraining.txt', sep = ',', header=0)

data_test.columns

In [None]:
#form = lambda x: x.groupby('Occupancy').apply(lambda x: np.delete(np.array(x),-1, axis=1)).to_dict()
form = lambda x: (np.array(x.loc[:, x.columns!="Occupancy"]),np.array(x["Occupancy"]))

X_testOcc, y_testOcc = form(data_test)
X_test2Occ, y_test2Occ = form(data_test2)
X_trainOcc, y_trainOcc = form(data_training)


# Detección de billetes falsos

1. Al igual que el problema anterior se trata de clasificación binaria, en este caso se busca decidir si un billete es falso o no a travéz de caracteristicas de imagenes en escala de grises con un tamaño de 400x400 pixeles.

2. El conjunto de datos cuenta con 5 atributos, que :
* **Varianza de la imagen transformada por Wavelet:** Distancia media de los pixeles al promedio de pixeles
* **Asimetría de la imagen transformada por Wavelet:** Valor que indica la asimetría en el histograma de la distribución de probabilidad de los pixeles
* **Curtosis de la imagen transformada por Wavelet:** Medida estadistica que indica la concentración del valor de los pixeles alrededor de la media.
* **Entropía de la imagen :** Cantidad de información de la imagen, se calcula hallando la incertidumbre de la distribución de probabilidad de los pixeles

La mayoría de las caracteristicas del conjunto de datos involucran a la imagen transformada por Wavelet, esta transformación suele ser usada en procesamiento de imagenes para descomponer la información de la imagen en señales de alta frecuencia (detalles pequeños) y señales de baja frecuencia (fronteras marcadas). Podemos ver un ejemplo de la transformada a continuación.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pywt
from skimage import data

image = data.camera()
wavelet = 'haar'
coeffs = pywt.dwt2(image, wavelet)

# Extraer los coeficientes aproximados y detallados
cA, (cH, cV, cD) = coeffs

fig, axes = plt.subplots(2, 2, figsize=(8, 8))
ax = axes.ravel()

ax[0].imshow(cA, cmap=plt.cm.gray)
ax[0].set_title('Aproximación')

ax[1].imshow(cH, cmap=plt.cm.gray)
ax[1].set_title('Horizontal')

ax[2].imshow(cV, cmap=plt.cm.gray)
ax[2].set_title('Vertical')

ax[3].imshow(cD, cmap=plt.cm.gray)
ax[3].set_title('Diagonal')

for a in ax:
    a.set_axis_off()

plt.tight_layout()
plt.show()

3. 

In [None]:
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/00267/data_banknote_authentication.txt', sep = ',', header=None)

In [None]:
data.columns = ["variance", "skewness", "curtosis", "entropy", "class"]
data

In [None]:
data["class"]=data["class"].replace(0,-1)
data

In [None]:
from sklearn.model_selection import train_test_split

X = data.drop('class', axis=1)  
y = data['class']             

X_trainBank, X_testBank, y_trainBank, y_testBank = map(np.array,train_test_split(X, y, test_size=0.2, random_state=42))