# Reducción de dimensionalidad para clasificación

In [1]:
import urllib
import pandas as pd
train_data_url = "http://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/vowel.train"
test_data_url = "http://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/vowel.test"
train_data_f = urllib.urlretrieve(train_data_url, "train_data.csv")
test_data_f = urllib.urlretrieve(test_data_url, "test_data.csv")
train_df = pd.DataFrame.from_csv('train_data.csv',header=0,index_col=0)
test_df = pd.DataFrame.from_csv('test_data.csv',header=0,index_col=0)
train_df.head()
test_df.tail()
test_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 462 entries, 1 to 462
Data columns (total 11 columns):
y       462 non-null int64
x.1     462 non-null float64
x.2     462 non-null float64
x.3     462 non-null float64
x.4     462 non-null float64
x.5     462 non-null float64
x.6     462 non-null float64
x.7     462 non-null float64
x.8     462 non-null float64
x.9     462 non-null float64
x.10    462 non-null float64
dtypes: float64(10), int64(1)
memory usage: 43.3 KB


In [4]:
from sklearn.preprocessing import StandardScaler
X = train_df.ix[:,'x.1':'x.10'].values
y = train_df.ix[:,'y'].values
X_std = StandardScaler().fit_transform(X)


# 1.a 1.b

En esta sección de la tarea se trabajó con un set de datos que representa una colección de sonidos fonéticos. A cada uno de los sonidos se le asocia una vocal del idioma Ingles, lo cual nos da un total de 11 clases posibles. Los autores entregan aproximación en ascii de cada vocal, junto con la palabra en la que se pronunció. Esto se ilustra en la siguiente tabla: 

<table>
  <tr>
    <th>Vocal</th>
    <th>Palabra</th>
    <th>Vocal</th>
    <th>Palabra</th>
  </tr>
  <tr>
    <td>i</td>
    <td>heed</td>
    <td>o</td>
    <td>hod</td>
  </tr>
  <tr>
    <td>I</td>
    <td>hid</td>
    <td>C:</td>
    <td>hoard</td>
  </tr>
  <tr>
    <td>E</td>
    <td>head</td>
    <td>U</td>
    <td>hood</td>
  </tr>
  <tr>
    <td>A</td>
    <td>had</td>
    <td>u:</td>
    <td>who'd</td>
  </tr>
  <tr>
    <td>a:</td>
    <td>hard</td>
    <td>3:</td>
    <td>heard</td>
  </tr>
  <tr>
    <td>Y</td>
    <td>hud</td>
    <td></td>
    <td></td>
  </tr>
</table>

Mediante la participación de 15 personas que pronunciaban las palabras se orginaron dos sets de datos. El training set consta de 528 ejemplos, mientras que el testing set consta de 462. Cada ejemplo consta de 11 atributos, siendo uno de ellos a la clase a la cual pertenece dicho ejemplo, mientras que los otros 10 son generados siguiendo la propuesta de Rabiner y Schaffer para el procesamiento del habla.

Por escribir: importancia de la normalización del dataset



# 1.c Reducción de dimensionalidad via PCA

In [5]:
from sklearn.decomposition import PCA
from matplotlib import pyplot as plt
import seaborn as sns
import numpy as np
sklearn_pca = PCA(n_components=2)
Xred_pca = sklearn_pca.fit_transform(X_std)
cmap = plt.cm.get_cmap('RdYlGn')
mclasses=(1,2,3,4,5,6,7,8,9,10,11)
mcolors = [cmap(i) for i in np.linspace(0,1,11)]
plt.figure(figsize=(12, 8))
for lab, col in zip(mclasses,mcolors):
    plt.scatter(Xred_pca[y==lab, 0],Xred_pca[y==lab, 1],label=lab,c=col)
plt.title('PCA reduction vowel training set')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
leg = plt.legend(loc='upper right', fancybox=True)
plt.show()

Al utilizar PCA para reducir dimensiones se proyecta la data en la dirección de máxima varianza del dataset. En general cada reducción busca, en el mejor de los casos disminuir el ruido del modelo y además, eliminar datos que puedan ser redundantes dentro del problema estudiado. Es importante destacar PCA por definición no utiliza informacion de las etiquetas de los ejemplos para realizar la reducción de dimensionalidad. Por lo que no siempre se obtienen los resultados buscados con este método.