## Dimensionalidad de los Datos

### PCA

1. Realizamos las importaciones necesarias

In [1]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import plotly.express as px
import pandas as pd
import numpy as np

2. Mostramos el contenido del dataset

In [3]:
df = px.data.iris()
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_id
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,3
146,6.3,2.5,5.0,1.9,virginica,3
147,6.5,3.0,5.2,2.0,virginica,3
148,6.2,3.4,5.4,2.3,virginica,3


3. Aplicamos PCA sobre el dataset, y graficamos el resultado.

In [6]:
features = df.loc[:, :'petal_width']

pca = PCA(n_components=2, random_state=0)
projections = pca.fit_transform(features)

fig = px.scatter(
    projections, x=0, y=1,
    color=df.species, labels={'color': 'species'}
)
fig.show()

## t-SNE

1. Realizamos las importaciones necesarias

In [5]:
from sklearn.manifold import TSNE

2. Mostramos el contenido del dataset

In [6]:
df = px.data.iris()
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_id
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,3
146,6.3,2.5,5.0,1.9,virginica,3
147,6.5,3.0,5.2,2.0,virginica,3
148,6.2,3.4,5.4,2.3,virginica,3


3. Aplicamos t-SNE sobre el dataset, y graficamos el resultado.

In [7]:
features = df.loc[:, :'petal_width']

tsne = TSNE(n_components=2, random_state=0)
projections = tsne.fit_transform(features)

fig = px.scatter(
    projections, x=0, y=1,
    color=df.species, labels={'color': 'species'}
)
fig.show()

## UMAP

1. Realizamos las importaciones necesarias

In [8]:
from umap import UMAP

2. Mostramos el contenido del dataset

In [9]:
df = px.data.iris()
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_id
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,3
146,6.3,2.5,5.0,1.9,virginica,3
147,6.5,3.0,5.2,2.0,virginica,3
148,6.2,3.4,5.4,2.3,virginica,3


3. Aplicamos UMAP sobre el dataset, y graficamos el resultado.

In [10]:
features = df.loc[:, :'petal_width']

umap_2d = UMAP(n_components=2, init='random', random_state=0)

proj_2d = umap_2d.fit_transform(features)

fig_2d = px.scatter(
    proj_2d, x=0, y=1,
    color=df.species, labels={'color': 'species'}
)

fig_2d.show()


The TBB threading layer requires TBB version 2019.5 or later i.e., TBB_INTERFACE_VERSION >= 11005. Found TBB_INTERFACE_VERSION = 9107. The TBB threading layer is disabled.



Forma Manual de hacer PCA (no es parte de la entrega)

In [7]:
# Se divide la matriz del dataset en dos partes

# la submatriz "x" contiene los valores de las primeras 4 columnas del dataframe y todas las filas
X = df.iloc[:,0:4].values

# El vector "y" contiene los valores de la cuarta columna (especie) para todas las filas
y = df.iloc[:,4].values

# Aplicamos una transformación de los datos para poder aplicar las propiedades de la distribución normal
x_std = StandardScaler().fit_transform(X)

# Calculamos la matriz de covarianza
cov_mat = np.cov(x_std.T)

# Calculamos los autovalores y autovectores de la matriz y los mostramos
eig_vals, eig_vecs = np.linalg.eig(cov_mat)

#  Hacemos una lista de parejas (autovector, autovalor) 
eig_pairs = [(np.abs(eig_vals[i]), eig_vecs[:,i]) for i in range(len(eig_vals))]

# Ordenamos estas parejas en orden descendiente con la función sort
eig_pairs.sort(key=lambda x: x[0], reverse=True)

#Generamos la matríz a partir de los pares autovalor-autovector
matrix_w = np.hstack((eig_pairs[0][1].reshape(4,1),
                      eig_pairs[1][1].reshape(4,1)))

Y = x_std.dot(matrix_w)

features = df.loc[:, :'petal_width']

fig = px.scatter(
    Y, x=0, y=1,
    color=df.species, labels={'color': 'species'}
)

fig.show()