# Sesión 05: Escalamiento multidimensional

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

El escalamiento multidimensional (EMD) es un conjunto de procedimientos para hacer una representación espacial de la similitud o disimilitud de datos. En esta técnica se toma una matriz de distancias (o disimilitudes) entre un conjunto de objetos y los coloca en un espacio de menor dimensión. Para este ejemplo utilizaremos una matriz de correlaciones.

In [None]:
from sklearn.manifold import MDS

In [None]:
df = pd.read_excel('../datasets/enigh2020.xlsx')
#df = pd.read_excel('https://github.com/adan-rs/AnalisisDatos/raw/main/datasets/enigh2020.xlsx')

In [None]:
variables = ["ing_cor", "gasto_mon", "edad_jefe", "tot_integ"]

In [None]:
def realizar_mds(df, variables):
    '''
    Realiza escalamiento multidimensional con base en correlaciones
    '''
    # Validar variables
    for var in variables:
       if var not in df.columns:
           raise ValueError(f"Variable {var} no encontrada en el DataFrame")
       if not np.issubdtype(df[var].dtype, np.number):
           raise ValueError(f"Variable {var} debe ser numérica")    
    
    # Calcular matriz de correlaciones y distancias
    matriz_corr = df[variables].corr()
    distancias = 1-np.abs(matriz_corr)
    
    # Aplicar modelo
    mds = MDS(n_components=2, dissimilarity='precomputed', normalized_stress='auto')
    mds_resultados = mds.fit_transform(distancias)

    # Convertir resultados a dataframe
    mds_df = pd.DataFrame(mds_resultados, columns=['Dimension 1', 'Dimension 2'])
    mds_df['Etiqueta']=variables

    #Visualización
    plt.figure(figsize=(8,6))
    sns.scatterplot(data=mds_df, x='Dimension 1', y='Dimension 2')
    for i in range(len(mds_df)):
        plt.text(mds_df['Dimension 1'][i], mds_df['Dimension 2'][i], 
             mds_df['Etiqueta'][i])
    plt.show()
    
    return mds_df

In [None]:
resultado = realizar_mds(df, variables)