In [3]:
# 1. SETUP
import numpy as np
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# 2. CARGA DE DATOS
df = pd.read_csv('dataset_inquilinos.csv', index_col = 'id_inquilino')

df.columns = [
'horario', 'bioritmo', 'nivel_educativo', 'leer', 'animacion', 
'cine', 'mascotas', 'cocinar', 'deporte', 'dieta', 'fumador',
'visitas', 'orden', 'musica_tipo', 'musica_alta', 'plan_perfecto', 'instrumento'
]

df

Unnamed: 0_level_0,horario,bioritmo,nivel_educativo,leer,animacion,cine,mascotas,cocinar,deporte,dieta,fumador,visitas,orden,musica_tipo,musica_alta,plan_perfecto,instrumento
id_inquilino,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
1,noche,nocturno,secundaria,si,no,no,con mascotas,pedir comida,si,si,si,si,relajada,reggaeton,no,casa,si
2,noche,nocturno,secundaria,no,no,no,con mascotas,pedir comida,no,no,si,si,relajada,reggaeton,si,casa,si
3,noche,madrugador,universitaria,no,no,si,con mascotas,pedir comida,no,no,si,no,ordenada,pop,no,casa,no
4,noche,nocturno,universitaria,no,si,no,con mascotas,pedir comida,si,no,no,si,relajada,rock,si,casa,si
5,mañana,nocturno,universitaria,si,no,no,sin mascotas,cocinar,no,no,no,no,relajada,pop,no,casa,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11996,noche,nocturno,secundaria,no,si,si,sin mascotas,pedir comida,no,si,si,si,ordenada,reggaeton,si,salir,si
11997,noche,nocturno,primaria,no,si,no,con mascotas,pedir comida,si,si,si,si,relajada,reggaeton,si,casa,si
11998,noche,madrugador,secundaria,no,si,no,con mascotas,pedir comida,si,no,si,no,relajada,reggaeton,si,salir,si
11999,noche,madrugador,universitaria,si,no,si,sin mascotas,cocinar,no,no,no,no,ordenada,pop,no,casa,no


In [5]:
# 3. ONE HOT ENCODING
# Realizar el one-hot encoding
encoder = OneHotEncoder(sparse_output=False)
df_encoded = encoder.fit_transform(df)

# Obtener los nombres de las variables codificadas después de realizar el one-hot encoding
encoded_feature_names = encoder.get_feature_names_out()
encoded_feature_names

array(['horario_mañana', 'horario_noche', 'bioritmo_madrugador',
       'bioritmo_nocturno', 'nivel_educativo_primaria',
       'nivel_educativo_secundaria', 'nivel_educativo_universitaria',
       'leer_no', 'leer_si', 'animacion_no', 'animacion_si', 'cine_no',
       'cine_si', 'mascotas_con mascotas', 'mascotas_sin mascotas',
       'cocinar_cocinar', 'cocinar_pedir comida', 'deporte_no',
       'deporte_si', 'dieta_no', 'dieta_si', 'fumador_no', 'fumador_si',
       'visitas_no', 'visitas_si', 'orden_ordenada', 'orden_relajada',
       'musica_tipo_clasica', 'musica_tipo_pop', 'musica_tipo_reggaeton',
       'musica_tipo_rock', 'musica_alta_no', 'musica_alta_si',
       'plan_perfecto_casa', 'plan_perfecto_salir', 'instrumento_no',
       'instrumento_si'], dtype=object)

In [6]:
# 4. MATRIZ DE SIMILIARIDAD
# Calcular la matriz de similaridad utilizando el punto producto
matriz_s = np.dot(df_encoded, df_encoded.T)
matriz_s


array([[17., 13.,  7., ..., 10.,  5.,  8.],
       [13., 17.,  9., ..., 12.,  5., 10.],
       [ 7.,  9., 17., ...,  8., 13.,  8.],
       ...,
       [10., 12.,  8., ..., 17.,  4., 11.],
       [ 5.,  5., 13., ...,  4., 17.,  4.],
       [ 8., 10.,  8., ..., 11.,  4., 17.]])

In [9]:
# Define el rango de destino
rango_min = -100
rango_max = 100

# Encontrar el mínimo y máximo valor en matriz_s
min_original = np.min(matriz_s)
max_original = np.max(matriz_s)

# Reescalar la matriz
matriz_s_reescalada = ((matriz_s - min_original) / (max_original - min_original)) * (rango_max - rango_min) + rango_min

matriz_s_reescalada[0].shape

(12000,)

In [14]:
# Pasar a Pandas
df_similaridad = pd.DataFrame(matriz_s_reescalada,
        index = df.index,
        columns = df.index)

df_similaridad.shape
# (12000, 12000)
df_similaridad

id_inquilino,1,2,3,4,5,6,7,8,9,10,...,11991,11992,11993,11994,11995,11996,11997,11998,11999,12000
id_inquilino,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,100.000000,52.941176,-17.647059,17.647059,-17.647059,17.647059,-29.411765,-29.411765,5.882353,5.882353,...,29.411765,-41.176471,52.941176,29.411765,-5.882353,5.882353,52.941176,17.647059,-41.176471,-5.882353
2,52.941176,100.000000,5.882353,41.176471,-17.647059,17.647059,-29.411765,-52.941176,5.882353,5.882353,...,29.411765,-41.176471,29.411765,29.411765,-5.882353,29.411765,52.941176,41.176471,-41.176471,17.647059
3,-17.647059,5.882353,100.000000,-17.647059,5.882353,-41.176471,41.176471,-17.647059,-29.411765,5.882353,...,-41.176471,17.647059,-64.705882,-29.411765,29.411765,-17.647059,-29.411765,-5.882353,52.941176,-5.882353
4,17.647059,41.176471,-17.647059,100.000000,-17.647059,17.647059,-29.411765,5.882353,29.411765,29.411765,...,41.176471,-52.941176,17.647059,52.941176,-29.411765,-5.882353,52.941176,29.411765,-41.176471,17.647059
5,-17.647059,-17.647059,5.882353,-17.647059,100.000000,-64.705882,64.705882,29.411765,-5.882353,-64.705882,...,-64.705882,17.647059,-41.176471,-52.941176,5.882353,-64.705882,-52.941176,-52.941176,52.941176,-52.941176
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11996,5.882353,29.411765,-17.647059,-5.882353,-64.705882,17.647059,-76.470588,-52.941176,-17.647059,29.411765,...,52.941176,-17.647059,29.411765,29.411765,-29.411765,100.000000,29.411765,17.647059,-41.176471,41.176471
11997,52.941176,52.941176,-29.411765,52.941176,-52.941176,41.176471,-64.705882,-41.176471,41.176471,41.176471,...,52.941176,-41.176471,52.941176,64.705882,-52.941176,29.411765,100.000000,41.176471,-76.470588,41.176471
11998,17.647059,41.176471,-5.882353,29.411765,-52.941176,52.941176,-41.176471,-41.176471,17.647059,41.176471,...,41.176471,-52.941176,41.176471,41.176471,-41.176471,17.647059,41.176471,100.000000,-52.941176,29.411765
11999,-41.176471,-41.176471,52.941176,-41.176471,52.941176,-64.705882,64.705882,29.411765,-52.941176,-41.176471,...,-64.705882,64.705882,-88.235294,-76.470588,52.941176,-41.176471,-76.470588,-52.941176,100.000000,-52.941176


In [None]:
# 5. BÚSQUEDA DE INQUILINOS COMPATIBLES
'''
Input:
* id_inquilinos: el o los inquilinos actuales DEBE SER UNA LISTA aunque sea solo un dato
* topn: el número de inquilinos compatibles a buscar

Output:
Lista con 2 elementos.
Elemento 0: las características de los inquilinos compatibles
Elemento 1: el dato de similaridad
'''

def inquilinos_compatibles(id_inquilinos, topn):
    # Verificar si todos los ID de inquilinos existen en la matriz de similaridad
    for id_inquilino in id_inquilinos:
        if id_inquilino not in df_similaridad.index:
            return 'Al menos uno de los inquilinos no encontrado'

    # Obtener las filas correspondientes a los inquilinos dados
    filas_inquilinos = df_similaridad.loc[id_inquilinos]

    # Calcular la similitud promedio entre los inquilinos
    similitud_promedio = filas_inquilinos.mean(axis=0)

    # Ordenar los inquilinos en función de su similitud promedio
    inquilinos_similares = similitud_promedio.sort_values(ascending=False)

    # Excluir los inquilinos de referencia (los que están en la lista)
    inquilinos_similares = inquilinos_similares.drop(id_inquilinos)

    # Tomar los topn inquilinos más similares
    topn_inquilinos = inquilinos_similares.head(topn)

    # Obtener los registros de los inquilinos similares
    registros_similares = df.loc[topn_inquilinos.index]

    # Obtener los registros de los inquilinos buscados
    registros_buscados = df.loc[id_inquilinos]

    # Concatenar los registros buscados con los registros similares en las columnas
    resultado = pd.concat([registros_buscados.T, registros_similares.T], axis=1)

    # Crear un objeto Series con la similitud de los inquilinos similares encontrados
    similitud_series = pd.Series(data=topn_inquilinos.values, index=topn_inquilinos.index, name='Similitud')

    # Devolver el resultado y el objeto Series
    return(resultado, similitud_series)