## Ejercicio de codificación #0404

### 1. Reducción de dimensionalidad con PCA:

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.decomposition import PCA, NMF
import os
%matplotlib inline

#### 1.1. Leer los datos y explorar:

In [None]:
# Ir al directorio dónde se encuentra el fichero. 
# os.chdir(r'~~')                # Reemplazar por la ruta adecuada.   

In [None]:
df = pd.read_csv('data_number_nine.csv', header='infer')

In [None]:
df.shape

In [None]:
df.head(5)

#### 1.2. Visualizar los datos:

In [None]:
# Definir una función de visualización adecuada basada en imshow().
# Visualiza todo el conjunto de datos a la vez como una imagen de píxeles.
def ShowMe(X):
    Y= 1.0 - X
    plt.imshow(Y, cmap='gray')
    plt.show()

In [None]:
X = np.array(df)
ShowMe(X)

#### 1.3. Visualizar la entrada dimensional reducida por PCA:

In [None]:
# Defina una función que devuelva una entrada dimensional reducida.
def reducedInputPCA(X,nPC):
    pca = PCA(n_components = nPC)                           # Definir un objeto PCA para un número determinado de PC de destino. 
    X_pca = pca.fit_transform(X)                            # Obtén las puntuaciones transformadas.
    return pca.inverse_transform(X_pca)                     # Devuelva las puntuaciones transformadas al sistema de coordenadas original.

In [None]:
# Visualice la entrada dimensional reducida para diferentes casos.
# A medida que reducimos la dimensión, la imagen se vuelve menos clara.
for nPC in [23, 10, 5, 3, 1]:
    Z = reducedInputPCA(X,nPC)
    print( "N# of PCs = " + str(nPC))
    ShowMe(Z)

#### 1.4. Análisis del ratio de varianza acumulada (CVR):

In [None]:
pca = PCA(n_components = 23)                          # Definir un objeto PCA.
pca.fit(X)                                            # Entrenar con los datos.

In [None]:
# Visualize the CVRs as a Barplot.
CVRs = np.cumsum(pca.explained_variance_ratio_)        # Calcular los CVRs.
nPCs = np.arange(23)+1                                 # Define una matriz que corresponda a la cantidad de PC.
plt.bar(nPCs,CVRs,color = 'green', alpha=0.7)  
plt.title('Cumulative Variance Ratio')
plt.show()

### 2. Reducción dimensional con NMF:

NMF (Factorización de matriz no negativa) se aplica a la matriz de datos que contiene solo valores no negativos. <br>
De forma similar a la PCA, podemos hacer una reducción dimensional y obtener una entrada dimensional reducida usando NMF. <br>
Notamos que obtenemos imágenes un poco menos "ruidosas" en comparación con el resultado de PCA. <br>
Mas información en [Wikipedia](https://en.wikipedia.org/wiki/Non-negative_matrix_factorization).

#### 2.1. Visualice la entrada dimensional reducida por NMF:

In [None]:
# Defina una función que devuelve una entrada dimensional reducida.
def reducedInputNMF(X,n):
    nmf = NMF(n_components=n, init='random', random_state=0)      # Defina un objeto NMF para un número determinado de componentes de destino.
    X_nmf = nmf.fit_transform(X)                                  # Obtiene las puntuaciones transformadas.       
    return nmf.inverse_transform(X_nmf)                           # Devuelve las puntuaciones transformadas al sistema de coordenadas original.

In [None]:
# Visualice la entrada dimensional reducida para diferentes casos.
# A medida que reducimos la dimensión, la imagen se vuelve menos clara.
for n in [23, 10, 5, 3, 1]:
    Z = reducedInputNMF(X,n)
    print( "N# of Components = " + str(n))
    ShowMe(Z)

### 3. Visualización optimizada de alta dimensión con PCA:

#### 3.1.Datos simulados:

In [None]:
# 3 grupos en un espacio de 8 dimensiones.
# ¡Difícil de visualizar!
X, label = make_blobs(n_samples=150, n_features=8, centers=3, cluster_std = 5, random_state=123)
X.shape

In [None]:
# Define una paleta de colores personalizada.
myColors = {0:'red',1:'green',2:'blue'}  
labelColors = pd.Series(label).apply(lambda x: myColors[x])

In [None]:
# Visualiza en el plano X1 vs X2. X1 ==> columna 0, X2 ==> columna 1. 
# ¡Difícilmente podemos distinguir los grupos!
# Los grupos se superponen en gran medida.
plt.scatter(X[:,0],X[:,1],marker="o",alpha=0.7, s=10, c=labelColors)
plt.xlabel("X1")
plt.ylabel("X2")
plt.show()

In [None]:
# Visualiza en el plano X1 vs X2. X1 ==> columna 0, X5 ==> columna 4. 
# ¡Difícilmente podemos distinguir los grupos!
# Los grupos se superponen en gran medida.
plt.scatter(X[:,0],X[:,4],marker="o",alpha=0.7, s=10, c=labelColors)
plt.xlabel("X1")
plt.ylabel("X5")
plt.show()

In [None]:
# Visualiza en el plano X1 vs X2. X1 ==> columna 0, X8 ==> columna 7. 
# ¡Difícilmente podemos distinguir los grupos!
# Los grupos se superponen en gran medida.
plt.scatter(X[:,4],X[:,7],marker="o",alpha=0.7, s=10, c=labelColors)
plt.xlabel("X5")
plt.ylabel("X8")
plt.show()

#### 3.2. Visualizacion en el plano definido por PC1 y PC2:

In [None]:
# Solo se necesitan 2 primeras PC. 
pca = PCA(n_components = 2)
X_pca = pca.fit_transform(X)

In [None]:
# Visualice en el plano PC1 vs PC2.
# ¡Los grupos se superponen menos!
plt.scatter(X_pca[:,0],X_pca[:,1],marker="o",alpha=0.7, s=10, c=labelColors)
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.show()