# Tema 6 Tecnologías del Habla


### Rebeca Goya Esteban y Óscar Barquero Pérez

update: 18 de octubre de 2018

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Licencia de Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />Este obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional</a>. 

## 6.2 Clasificadores Máquina

En este notebook vamos a aplicar tres técnicas de aprendizaje máquina para resolver un problema de clasificación.

**Descripción de los datos**: The iris data sets consists of 3 different types of irises’ (Setosa, Versicolour, and Virginica) petal and sepal length, stored in a 150x4 numpy.ndarray
The rows being the samples and the columns being: Sepal Length, Sepal Width, Petal Length and Petal Width.


En la siguiente celda se cargan los datos y se realiza una división de los mismos en un conjunto de entrenamiento y un conjunto de test. En *X_train* y *X_test* corresponden a carcterı́sticas de tres clases de flores, en total hay 150
ejemplos. En *y_train* y *y_test* se encuentra la información de a qué clase
pertenece cada una de las 150 flores (tres posibles clases).

**¿Cuántas características se están utilizando para representar/describir a cada una de las flores?**


In [4]:
%matplotlib inline
#imports
from sklearn import datasets
from sklearn.model_selection import train_test_split
import numpy as np

#load datasets and split into test and train

iris = datasets.load_iris()
#X Características
#Y Resultado / Tipo de flor
X = iris.data  
y = iris.target
print(X)


#Ver las dimensiones de las caracteristicas 4 veces 150 es decir
#4 Caracteristicas 
print(X.shape)
print(y.shape)

#ver lo que hay dentro de y
#print(y[50:70])

#30% de test

#split train test, se encarga de mezclar tambien
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

print(X_train.shape)
print(X_test.shape)

print(y_train.shape)
print(y_test.shape)

#Comprobar que esten mezclados
print(y_train[0:20])


(150, 4)
(150,)
(105, 4)
(45, 4)
(105,)
(45,)
[0 0 1 2 1 2 2 0 0 0 2 2 1 2 1 0 0 1 0 2]


## 6.2.1 Naive Bayes



Vamos a utilizar el Método de Clasificación de [Naïve Bayes GaussianNB](http://scikit-learn.org/stable/modules/naive_bayes.html#gaussian-naive-bayes), donde hay dos asunciones básicas:

* Asunción *naïve* de independencia condicional entre las características para una clase de la variable respuesta dada:

$$P(x_1,\ldots,x_d\mid y_i) = \prod_{k = 1}^{d}P(x_k\mid y_i)$$

* La verosimilitud de cada una de las características se asume Gaussiana:

$$P(x_i \mid y) = \frac{1}{\sqrt{2\pi\sigma^2_y}} \exp\left(-\frac{(x_i - \mu_y)^2}{2\sigma^2_y}\right)$$

## Entrenamiento

A continuación entrenamos el algoritmo, lo que implica calcular los parámetros $\mu_y$ y $\sigma_y$.

* Utilice los datos de entrenamiento (*x_train_iris* y *y_train_iris*) y la función *GaussianNB.fit()* para estimar los parámetros de la pdf gaussiana de cada una de las 3 clases de flores.

In [5]:
from sklearn.naive_bayes import GaussianNB

# Creamos el modelo de NB

model_NB = GaussianNB()

#entrenamos

model_NB.fit(X_train,y_train)

GaussianNB(priors=None)

In [6]:
# Media y desviación estándar para las características de cada clase:

print("Media de la gaussiana para cada clase:\n Columnas = Características \n Filas = Clases\n")
#Accedemos al atributo mediante .____ atributo
print(model_NB.theta_)

Media de la gaussiana para cada clase:
 Columnas = Características 
 Filas = Clases

[[5.04864865 3.47027027 1.47297297 0.24324324]
 [5.946875   2.76875    4.23125    1.3125    ]
 [6.46944444 2.92777778 5.43611111 1.98333333]]


In [7]:
print("Desviación estándar de la gaussiana para cada clase:\n Columnas = Características \n Filas = Clases\n")
print(model_NB.sigma_)

Desviación estándar de la gaussiana para cada clase:
 Columnas = Características 
 Filas = Clases

[[0.11006574 0.12857561 0.02575603 0.00948138]
 [0.24499024 0.11214844 0.17714844 0.03734375]
 [0.37989969 0.10756173 0.28619599 0.07416667]]


## Test
* Clasifique cada ejemplo (flor) de los datos de test (x test iris y y test iris) de acuerdo al esquema de clasificación Naive Bayes. Para ello, utilice *model_NB.predict(X_test)*
* Calcule el error de clasificación.

In [9]:
# Predecimos las muestras de test, utilizando los valores de la función estimados anteriorment en train

y_hat_NB = model_NB.predict(X_test)

#Utilizaremos y_test para comparar la estimacion con lo que realmente sabemos que hay

#Calculamos el accuracy
temp = y_hat_NB == y_test
print(temp[0:20])

acc = np.mean(y_hat_NB == y_test)
print(acc)

[ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True False  True  True  True]
0.9555555555555556


## 6.2.2 Ejemplo KNN con sklearn

Vamos a utilizar el método de clasificación KNN https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

**Pruebe diferentes valores para el parámetro K**

In [13]:
from sklearn.neighbors import KNeighborsClassifier

#K = 3 Numero de vecinos
model_KNN = KNeighborsClassifier(n_neighbors=3)

#train the model 
model_KNN.fit(X_train,y_train)


#predict outputs
y_hat_KNN = model_KNN.predict(X_test)

#accuracy

acc = np.mean(y_hat_KNN == y_test)

print(acc)

0.9333333333333333


## 6.2.3 redes neuronales

Vamos a utilizar el método de clasificación redes neuronales https://scikit-learn.org/stable/modules/neural_networks_supervised.html

https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier

**Pruebe diferentes configuraciones de capas y neuronas ocultas**

**Pruebe o modificar otros parámetros de la red neuronal**


In [22]:
from sklearn.neural_network import MLPClassifier

#hidden_layer_sizes uno es el numero de capas y otro el numero de neuronas en cada capa

model_RN = MLPClassifier(solver='lbfgs',alpha=1e-5,
                         hidden_layer_sizes=(3, 3), random_state =1)

#train the model 
model_RN.fit(X_train, y_train)

#predict outputs
y_hat_RN = model_RN.predict(X_test)

#accuracy
acc = np.mean(y_hat_RN == y_test)

print(acc)

0.9555555555555556
