# Sistema de Recomendación 

El objetivo de este script es desarrollar un sistema de recomendación por filtrado colaborativo basado en usuario que tenga como input un usuario y  como salida una serie de cursos de formación profesional relacionados con la familia profesional de interés del mismo. 

### Carga de módulos necesarios

In [None]:
import pandas as pd
import math
import numpy as np

### Lectura del dataset

In [None]:
df_original = pd.read_csv('datos_sintéticos_final.csv', index_col =0)

In [None]:
df = df_original.copy()

Muestra del conjunto de datos

In [None]:
df.head()

Unnamed: 0,Fecha de Inscripción,Género,Distrito,Tramos de Edad,Nacionalidad,Objetivo Profesional 1,Familia profesional,Códigos formación
0,sep-21,Mujer,Ciudad Lineal,Entre 46 y 55 años,Extracomunitaria,Técnicos superiores en documentación sanitaria,Sanidad,"['18/5724', '18/6141']"
1,feb-21,Mujer,Carabanchel,Menor de 25 años,Extracomunitaria,Asistentes de dirección y administrativos,Administración y gestión,['18/8074']
2,jul-21,Mujer,Puente De Vallecas,Entre 46 y 55 años,Española,"Peones agrícolas en huertas, invernaderos, viv...",Agraria,"['18/5456', '18/4737']"
3,may-21,Mujer,Ciudad Lineal,Entre 36 y 45 años,Extracomunitaria,Vendedores en tiendas y almacenes,Comercio y marketing,['18/1830']
4,may-21,Hombre,Ciudad Lineal,Entre 26 y 35 años,Española,"Peones agrícolas en huertas, invernaderos, viv...",Agraria,['18/1821']


### Transformaciones realizadas

In [None]:
# Se crea un diccionario que contiene los códigos de formación 
lista_listas =df['Códigos formación'].unique()
dicc_codigos ={}
for lista in lista_listas:
  lista2 = lista[1:-1].split(', ')
  for codigo in lista2:
    if codigo[1:-1] not in dicc_codigos.keys():
      dicc_codigos[codigo[1:-1]] = []

In [None]:
dicc_codigos.keys()

dict_keys(['18/5724', '18/6141', '18/8074', '18/5456', '18/4737', '18/1830', '18/1821', '18/2160', '18/4620', '18/8033', '', '18/5045', '18/2255', '18/8114', '18/1900', '18/5086', '18/4588', '18/4776', '18/5877', '18/5545', '18/1897', '18/4618', '18/2292', '18/8109', '18/2242', '18/1828', '18/5037', '18/5254', '18/8053', '18/1837', '18/2254', '18/8071', '18/4576', '18/2251', '18/5228', '18/4585', '18/4589', '18/2262', '18/5227', '18/8092', '18/8095', '18/4994', '18/2161', '18/8060', '18/8048', '18/8146', '18/8129', '18/1625', '18/1831', '18/8108', '18/4732', '18/5087', '18/2264', '18/4622', '18/5455', '18/5175', '18/5725', '18/4509', '18/4621', '18/8056', '18/1832', '18/1829', '18/8035', '18/5044', '18/8061', '18/8154', '18/5939', '18/6173', '18/4641', '18/8153', '18/4730', '18/8135', '18/5976', '18/4592', '18/8123', '18/8039', '18/5876', '18/5547', '18/2250', '18/8085', '18/8125', '18/8082', '18/8040', '18/5105', '18/4844', '18/8049', '18/4777', '18/8130', '18/8136', '18/4714', '18/22

In [None]:
#Se crea una columna correspondiente a cada código y se añade un 1 o 0 dependiendo si el registro tiene ese código en su lista de códigos de la columna "Códigos formación"
for index, lista in df['Códigos formación'].items():
  for codigo in dicc_codigos:
    if codigo in lista:
      dicc_codigos[codigo].append(1)
    else:
      dicc_codigos[codigo].append(0)

In [None]:
#Se añaden las nuevas columnas al dataframe
for codigo in dicc_codigos:
  serie = pd.Series(data = dicc_codigos[codigo], name = codigo)
  df = pd.concat([df, serie ],axis = 1)

Muestra del conjunto de datos resultante

In [None]:
df.head()

Unnamed: 0,Fecha de Inscripción,Género,Distrito,Tramos de Edad,Nacionalidad,Objetivo Profesional 1,Familia profesional,Códigos formación,18/5724,18/6141,...,18/1720,18/1503,18/1496,18/1723,18/1724,18/1505,18/1499,18/4725,18/1747,18/1736
0,sep-21,Mujer,Ciudad Lineal,Entre 46 y 55 años,Extracomunitaria,Técnicos superiores en documentación sanitaria,Sanidad,"['18/5724', '18/6141']",1,1,...,0,0,0,0,0,0,0,0,0,0
1,feb-21,Mujer,Carabanchel,Menor de 25 años,Extracomunitaria,Asistentes de dirección y administrativos,Administración y gestión,['18/8074'],0,0,...,0,0,0,0,0,0,0,0,0,0
2,jul-21,Mujer,Puente De Vallecas,Entre 46 y 55 años,Española,"Peones agrícolas en huertas, invernaderos, viv...",Agraria,"['18/5456', '18/4737']",0,0,...,0,0,0,0,0,0,0,0,0,0
3,may-21,Mujer,Ciudad Lineal,Entre 36 y 45 años,Extracomunitaria,Vendedores en tiendas y almacenes,Comercio y marketing,['18/1830'],0,0,...,0,0,0,0,0,0,0,0,0,0
4,may-21,Hombre,Ciudad Lineal,Entre 26 y 35 años,Española,"Peones agrícolas en huertas, invernaderos, viv...",Agraria,['18/1821'],0,0,...,0,0,0,0,0,0,0,0,0,0


### Funcion similitud del coseno

In [None]:
#Función auxiliar que calcula la similitud del coseno
def cosine_similarity(v1, v2):
  mod_v1 = math.sqrt(sum(np.square(v1)))
  mod_v2 = math.sqrt(sum(np.square(v2)))
  scalar = np.dot(v1,v2)
  return (scalar/(mod_v1 * mod_v2))


### Función recomendadora

In [None]:
# Función auxiliar que elimina el primer caracter y el último de un string
def sin_extremos(string):
  return string[1:-1]

In [None]:
#Función recomendadora
def recomender(user):
  fam_prof = user['Familia profesional']
  df_aux = df[df['Familia profesional']==fam_prof]
  v2 = user[cols]
  sim = []
  codigos_usuario = user['Códigos formación'][1:-1].split(', ')
  codigos_usuario = set(list(map(sin_extremos, codigos_usuario)))
  #calculamos la similitud del coseno de cada usuario con nuestro user y lo almacenamos en una lista
  for index, row in df_aux.iterrows():
    v1 = row[cols]
    sim.append((index,cosine_similarity(v1, v2))) #cuanto mas cercano a 1 mejor
  #ordenamos la lista en funcion del valor del coseno
  sim.sort(key=lambda x:x[1]) 
  # nos quedamos con los 3 usuarios más similares
  m_sim = sim[0:3] #lista de tuplas de indices y cosenos
  #vemos a qué dnis corresponden esos indices 
  indices = [x for (x,t) in m_sim]

  #vemos a qué códigos de cursos se corresponden
  codigos = []
  for indice in indices:
    codigos += df.loc[indice]['Códigos formación'][1:-1].split(', ')
  codigos = set(list(map(sin_extremos, codigos)))

  #Nos quedamos con los códigos de los cursos que el usuario no ha realizado
  codigos_recom = codigos - codigos_usuario
  #creamos un diccionario para almacenar las recomendaciones
  recomender = {'códigos_cursos': list(codigos_recom)}
  
  return recomender

### Lectura del dataset de cursos de formación profesional

In [None]:
cursos_original = pd.read_csv('cursos_formacion_profesional_empleo_procesados2.csv')

In [None]:
cursos = cursos_original.copy()

Muestra del dataset

In [None]:
cursos.head()

Unnamed: 0.1,Unnamed: 0,curso_codigo,sector_desc,familia_desc,area_desc,especialidad_desc_1,curso_desc,especialidad_de_certificado,modalidad,dirigido_a,censo,centro_desc,centro_municipio
0,0,18/8000,Servicios,Informática y comunicaciones,Desarrollo,DESARROLLO DE APPS PARA IOS CON OBJETIVE C Y S...,DESARROLLO DE APPS PARA IOS CON OBJETIVE C Y S...,NO,Presencial,Desempleados,1564,CENTRO DE FORMACION MUNICIPAL MOSTOLES DESAR...,MOSTOLES
1,1,18/8001,Servicios,Informática y comunicaciones,Desarrollo,DESARROLLO DE VIDEOJUEGOS Y REALIDAD VIRTUAL C...,DESARROLLO DE VIDEOJUEGOS Y REALIDAD VIRTUAL C...,NO,Presencial,Desempleados,1564,CENTRO DE FORMACION MUNICIPAL MOSTOLES DESAR...,MOSTOLES
2,2,18/8002,Servicios,Informática y comunicaciones,Inform�tica,T�CNICO EN SOFTWARE OFIM�TICO,T�CNICO EN SOFTWARE OFIM�TICO,NO,Presencial,Desempleados,1564,CENTRO DE FORMACION MUNICIPAL MOSTOLES DESAR...,MOSTOLES
3,3,18/8003,Servicios,Informática y comunicaciones,Sistemas y telem�tica,HERRAMIENTAS WEB 2.0,HERRAMIENTAS WEB 2.0,NO,Presencial,Desempleados,1564,CENTRO DE FORMACION MUNICIPAL MOSTOLES DESAR...,MOSTOLES
4,4,18/8004,Servicios,Informática y comunicaciones,Sistemas y telem�tica,"COMMUNITY MANAGER, HERRAMIENTAS, ANAL�TICA E I...","COMMUNITY MANAGER, HERRAMIENTAS, ANAL�TICA E I...",NO,Presencial,Desempleados,1564,CENTRO DE FORMACION MUNICIPAL MOSTOLES DESAR...,MOSTOLES


### Ejemplos

#### Ejemplo 1

In [None]:
#Se escoge el usuario y se muestra el registro completo
user = df.loc[0]
user[0:8]

Fecha de Inscripción                                              sep-21
Género                                                             Mujer
Distrito                                                   Ciudad Lineal
Tramos de Edad                                        Entre 46 y 55 años
Nacionalidad                                            Extracomunitaria
Objetivo Profesional 1    Técnicos superiores en documentación sanitaria
Familia profesional                                              Sanidad
Códigos formación                                 ['18/5724', '18/6141']
Name: 0, dtype: object

In [None]:
#Sugerencias de la función recomendadora
recomendaciones = recomender(user)
recomendaciones

{'códigos_cursos': ['18/8095',
  '18/5254',
  '18/5877',
  '18/5037',
  '18/4994',
  '18/4776']}

In [None]:
# Generación de dataset de cursos se corresponden a los códigos obtenidos
cursos_user1 = pd.DataFrame(columns = cursos.columns)
for codigo in recomendaciones['códigos_cursos']:
  cursos_user1 = pd.concat([cursos_user1, cursos[cursos['curso_codigo'] == codigo]])

In [None]:
#Muestra del dataset de cursos obtenidos
cursos_user1.head()

Unnamed: 0.1,Unnamed: 0,curso_codigo,sector_desc,familia_desc,area_desc,especialidad_desc_1,curso_desc,especialidad_de_certificado,modalidad,dirigido_a,censo,centro_desc,centro_municipio
62,95,18/8095,Servicios,Sanidad,Atenci�n sanitaria,TRANSPORTE SANITARIO,TRANSPORTE SANITARIO,S�,Presencial,Desempleados,27328,"CENTRO DE FORMACION MUNICIPAL ""PIO XII""",PARLA
80,1442,18/5254,Servicios,Sanidad,Atenci�n sanitaria,TRANSPORTE SANITARIO,TRANSPORTE SANITARIO,S�,Presencial,Desempleados,27937,ESLA FORMACION SAN BLAS-CANILLEJAS,MADRID
85,2065,18/5877,Servicios,Sanidad,Atenci�n sanitaria,TRANSPORTE SANITARIO,TRANSPORTE SANITARIO,S�,Presencial,Desempleados,27614,CENTRO DE FORMACION PARA EL EMPLEO Y DE SERVIC...,MEJORADA DEL CAMPO
71,1225,18/5037,Servicios,Sanidad,Atenci�n sanitaria,TRANSPORTE SANITARIO,TRANSPORTE SANITARIO,S�,Presencial,Desempleados,27467,ENSE�ANZAS MODERNAS-C.C. LAGOMAR,VALDEMORO
69,1182,18/4994,Servicios,Sanidad,Atenci�n sanitaria,ATENCI�N SANITARIA A M�LTIPLES V�CTIMAS Y CAT�...,ATENCI�N SANITARIA A M�LTIPLES V�CTIMAS Y CAT�...,S�,Presencial,Desempleados,27907,CESUR MADRID II,MADRID


#### Ejemplo 2

In [None]:
#Se escoge el usuario y se muestra el registro completo
user = df.loc[3]
user[0:8]

Fecha de Inscripción                                 may-21
Género                                                Mujer
Distrito                                      Ciudad Lineal
Tramos de Edad                           Entre 36 y 45 años
Nacionalidad                               Extracomunitaria
Objetivo Profesional 1    Vendedores en tiendas y almacenes
Familia profesional                    Comercio y marketing
Códigos formación                               ['18/1830']
Name: 3, dtype: object

In [None]:
#Sugerencias de la función recomendadora
recomendaciones2 = recomender(user)
recomendaciones2

{'códigos_cursos': ['18/8053', '18/2254', '18/2292', '18/8109', '18/8071']}

In [None]:
# Generación de dataset de cursos se corresponden a los códigos obtenidos
cursos_user2 = pd.DataFrame(columns = cursos.columns)
for codigo in recomendaciones2['códigos_cursos']:
  cursos_user2 = pd.concat([cursos_user2, cursos[cursos['curso_codigo'] == codigo]])

In [None]:
#Muestra del dataset de cursos obtenidos
cursos_user2.head()

Unnamed: 0.1,Unnamed: 0,curso_codigo,sector_desc,familia_desc,area_desc,especialidad_desc_1,curso_desc,especialidad_de_certificado,modalidad,dirigido_a,censo,centro_desc,centro_municipio
242,53,18/8053,Servicios,Comercio y marketing,Log�stica comercial y gesti�n del transporte,ACTIVIDADES AUXILIARES DE ALMAC�N,ACTIVIDADES AUXILIARES DE ALMAC�N,S�,Presencial,Desempleados,28120,EPE Alcal� Desarrollo - Fundaci�n N� 1,ALCALA DE HENARES
263,545,18/2254,Servicios,Comercio y marketing,Venta,ACTIVIDADES DE VENTA,INFORMACI�N Y ATENCI�N AL CLIENTE/CONSUMIDOR Y...,S�,Presencial,Desempleados,28007,"C.F.P.E EN ADMINISTRACI�N, SEGUROS Y FINANZAS ...",MADRID
267,565,18/2292,Servicios,Comercio y marketing,Marketing y relaciones p�blicas,RESPONSABLE DE MARKETING DIGITAL,EXPERTO EN MARKETING DIGITAL,NO,Presencial,Desempleados,28007,"C.F.P.E EN ADMINISTRACI�N, SEGUROS Y FINANZAS ...",MADRID
249,109,18/8109,Servicios,Comercio y marketing,Log�stica comercial y gesti�n del transporte,ORGANIZACI�N Y GESTI�N DE ALMACENES,ORGANIZACI�N Y GESTI�N DE ALMACENES,S�,Presencial,Desempleados,27320,CENTRO MUNICIPAL DE PARTICIPACION CIUDADANA Y ...,SAN FERNANDO DE HENARES
247,71,18/8071,Servicios,Comercio y marketing,Log�stica comercial y gesti�n del transporte,TR�FICO DE MERCANC�AS POR CARRETERA,TR�FICO DE MERCANC�AS POR CARRETERA,S�,Presencial,Desempleados,26817,CENTRO INICIATIVAS MUNI.,COLLADO VILLALBA
