In [4]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

from mpl_toolkits import mplot3d
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from plotly.offline import init_notebook_mode, iplot, plot
import plotly as py
init_notebook_mode(connected=True)
import plotly.graph_objs as go

def pca_visualization(df):

    """Escala los datos del dataframe original y aplica un PCA para reducir el numero de columnas original a 3 columnas.
    Teniendo 3 columnas / componentes principales, los datos pueden ser representados en un grafico de dispersión 3D.

    Args:
        df (DataFrame): Base de datos original sin la columna target

    Returns:
        3D Scatter Plot: Gráfico de dispersión 3D tras aplicar el PCA
        Varianza explicada acumulada para 3 componentes principales: Devuelve la suma de la varianza 
        explicada para 3 componentes principales. Esto informa de cuánta información se está perdiendo con el PCA.
    """
    
    scal = StandardScaler() 
    X_scal = scal.fit_transform(df)

    pca = PCA(n_components=3)
    X_pca = pca.fit_transform(X_scal)

    principalDf = pd.DataFrame(data = X_pca, columns= ['P1', 'P2', 'P3'])

    xdata = principalDf['P1']
    ydata = principalDf['P2']
    zdata = principalDf['P3']

    trace1 = go.Scatter3d(x = xdata,
                        y = ydata,
                        z = zdata,
                        mode = 'markers',
                        marker = dict(size = 5, color = 'rgb(255,0,0)'))

    data = [trace1]
    layout = go.Layout(margin = dict(l=0,
                                    r=0,
                                    b=0,
                                    t=0))

    fig = go.Figure(data=data, layout=layout)

    expl = pca.explained_variance_ratio_
    print('Cumulative explained variance with 3 principal components:', round(np.sum(expl[0:3]),2))
    iplot(fig)

In [None]:
def my_pca(n_components, df):
    
    """Escala los datos del DataFrame original y aplica un PCA con el numero de componentes principales deseado.
    
        Args:
            df (DataFrame): Base de datos original sin la columna target
            
        Returns:
            Varianza explicada acumulada : Devuelve la suma de la varianza explicada para los componentes principales deseados. 
    """

    scal = StandardScaler() 
    X_scal = scal.fit_transform(df)

    pca = PCA(n_components = n_components)
    X_pca = pca.fit_transform(X_scal)

    expl = pca.explained_variance_ratio_
    print('Varianza acumulada', np.cumsum(expl))

    plt.plot(np.cumsum(pca.explained_variance_ratio_))
    plt.xlabel('Number of components')
    plt.ylabel('Cumulative explained variance')    
    plt.xticks(np.arange(0, n_components, step=1))

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score


def my_kmeans(n_clusters, df):
    
    """Escala los datos del DataFrame original y aplica un KMeans con el numero de clusters deseado.
    
        Args:
            df (DataFrame): Base de datos original sin la columna target

        Returns:
            Inercias para cada modelo de KMeans y un grafico para visualizar los resultados
            Silhouette scores para cada modelo de Kmeans y un grafico para visualizar los resultados
         
    """
    
    scal = StandardScaler() 
    X_scal = scal.fit_transform(df)

    kmeans_per_k = [KMeans(n_clusters=k,random_state=42).fit(X_scal) for k in range(2, n_clusters+1)]
    inertias = [model.inertia_ for model in kmeans_per_k]   

    plt.figure(figsize=(8, 3.5))

    plt.plot(range(2, n_clusters+1), inertias, "bo-")
    plt.xlabel("$k$", fontsize=14)
    plt.ylabel("Inertia", fontsize=14)
    plt.show()

    silhouette_scores = [silhouette_score(X_scal, model.labels_) for model in kmeans_per_k]
    plt.figure(figsize=(8, 3))
    plt.plot(range(2, n_clusters+1), silhouette_scores, "bo-")
    plt.xlabel("$k$", fontsize=14)
    plt.ylabel("Silhouette score", fontsize=14)

    return inertias, silhouette_scores

In [6]:
help(pca_visualization)

Help on function pca_visualization in module __main__:

pca_visualization(df)
    Escala los datos del dataframe original y aplica un PCA para reducir el numero de columnas original a 3 columnas.
    Teniendo 3 columnas / componentes principales, los datos pueden ser representados en un grafico de dispersión 3D.
    
    Args:
        df (DataFrame): Base de datos original sin la columna target
    
    Returns:
        3D Scatter Plot: Gráfico de dispersión 3D tras aplicar el PCA
        Varianza explicada acumulada para 3 componentes principales: Devuelve la suma de la varianza 
        explicada para 3 componentes principales. 
            Esto informa de cuánta información se está perdiendo con el PCA.

