# Desarrollo de Modelo de Recomendación para Investig-arte

Este notebook demuestra el desarrollo de un modelo de recomendación para emparejar freelancers con proyectos de investigación.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import random
import pickle
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler

## 1. Generación de Datos Sintéticos

In [2]:
# Generar datos simulados de usuarios
def generate_user_data(n_users=100):
    """
    Genera datos sintéticos de usuarios para entrenar el modelo de recomendación.
    """
    
    skills = [
        "Investigación cualitativa", "Investigación cuantitativa", "Análisis estadístico",
        "Diseño experimental", "Revisión de literatura", "Escritura científica",
        "Metodología de investigación", "Análisis de datos", "Desarrollo de encuestas",
        "Entrevistas estructuradas", "SPSS", "R", "Python", "Excel avanzado",
        "Investigación de mercados", "Estudios de caso", "Economía", "Finanzas",
        "Medicina", "Derecho", "Educación", "Psicología", "Sociología", "Marketing"
    ]
    
    areas = [
        "Ciencias sociales", "Economía", "Comercio exterior", 
        "Finanzas", "Jurisprudencia", "Medicina", "Educación",
        "Psicología", "Marketing", "Tecnología"
    ]
    
    users = []
    
    for i in range(n_users):
        is_freelancer = random.random() < 0.7  # 70% serán freelancers
        
        user = {
            "user_id": i + 1,
            "is_freelancer": is_freelancer,
            "is_client": not is_freelancer,
            "rating": round(random.uniform(3.0, 5.0), 1) if is_freelancer else None,
            "experience_years": round(random.uniform(0.5, 15.0), 1) if is_freelancer else None,
            "hourly_rate": round(random.uniform(10.0, 100.0), 2) if is_freelancer else None,
            "area_expertise": random.choice(areas) if is_freelancer else None,
            "skills": random.sample(skills, random.randint(3, 8)) if is_freelancer else []
        }
        users.append(user)
    
    return pd.DataFrame(users)

In [3]:
# Generar datos simulados de proyectos
def generate_project_data(n_projects=200, n_users=100):
    """
    Genera datos sintéticos de proyectos para entrenar el modelo de recomendación.
    """
    
    skills = [
        "Investigación cualitativa", "Investigación cuantitativa", "Análisis estadístico",
        "Diseño experimental", "Revisión de literatura", "Escritura científica",
        "Metodología de investigación", "Análisis de datos", "Desarrollo de encuestas",
        "Entrevistas estructuradas", "SPSS", "R", "Python", "Excel avanzado",
        "Investigación de mercados", "Estudios de caso", "Economía", "Finanzas",
        "Medicina", "Derecho", "Educación", "Psicología", "Sociología", "Marketing"
    ]
    
    areas = [
        "Ciencias sociales", "Economía", "Comercio exterior", 
        "Finanzas", "Jurisprudencia", "Medicina", "Educación",
        "Psicología", "Marketing", "Tecnología"
    ]
    
    projects = []
    
    for i in range(n_projects):
        # Seleccionar un cliente aleatorio (user_id que no sea freelancer)
        client_id = random.randint(1, n_users)
        while client_id % 10 < 7:  # Asegurar que sea cliente (30% de usuarios son clientes)
            client_id = random.randint(1, n_users)
        
        # Asignar o no freelancer
        is_assigned = random.random() < 0.7  # 70% están asignados
        freelancer_id = None
        if is_assigned:
            # Seleccionar un freelancer aleatorio (user_id que sea freelancer)
            freelancer_id = random.randint(1, n_users)
            while freelancer_id % 10 >= 3:  # Asegurar que sea freelancer (70% de usuarios son freelancers)
                freelancer_id = random.randint(1, n_users)
        
        area = random.choice(areas)
        budget = round(random.uniform(100, 5000), 2)
        
        project = {
            "project_id": i + 1,
            "client_id": client_id,
            "freelancer_id": freelancer_id,
            "is_assigned": is_assigned,
            "area": area,
            "budget": budget,
            "skills_required": random.sample(skills, random.randint(2, 6))
        }
        projects.append(project)
    
    return pd.DataFrame(projects)

In [4]:
# Generar datos de emparejamiento
def generate_matching_data(users_df, projects_df):
    """
    Genera datos de emparejamiento para entrenar un modelo de recomendación.
    """
    
    # Filtrar usuarios freelancer
    freelancers = users_df[users_df["is_freelancer"]].copy()
    
    # Filtrar proyectos asignados
    assigned_projects = projects_df[projects_df["is_assigned"]].copy()
    
    # Crear datos de emparejamiento
    matches = []
    
    # Para proyectos asignados, crear ejemplos positivos
    for _, project in assigned_projects.iterrows():
        freelancer_id = project["freelancer_id"]
        project_id = project["project_id"]
        
        # Ejemplo positivo (match real)
        matches.append({
            "freelancer_id": freelancer_id,
            "project_id": project_id,
            "match": 1
        })
        
        # Ejemplos negativos (freelancers que no fueron seleccionados)
        for _ in range(3):  # 3 ejemplos negativos por cada positivo
            random_freelancer = freelancers.sample(1).iloc[0]
            if random_freelancer["user_id"] != freelancer_id:
                matches.append({
                    "freelancer_id": random_freelancer["user_id"],
                    "project_id": project_id,
                    "match": 0
                })
    
    matches_df = pd.DataFrame(matches)
    
    # Combinar con características de freelancer y proyecto
    result = matches_df.merge(
        freelancers.rename(columns={"user_id": "freelancer_id"}),
        on="freelancer_id",
        how="left"
    )
    
    result = result.merge(
        projects_df.rename(columns={"project_id": "project_id"}),
        on="project_id",
        how="left"
    )
    
    return result

In [5]:
# Preparar características para el entrenamiento
def prepare_features(data):
    """
    Prepara características para el entrenamiento del modelo.
    """
    
    # Crear características basadas en habilidades
    # Contar cuántas habilidades coinciden entre el freelancer y el proyecto
    data['skill_match_count'] = data.apply(
        lambda row: len(set(row['skills']).intersection(set(row['skills_required']))) 
            if isinstance(row['skills'], list) and isinstance(row['skills_required'], list) 
            else 0, 
        axis=1
    )
    
    # Porcentaje de habilidades requeridas que posee el freelancer
    data['skill_match_pct'] = data.apply(
        lambda row: len(set(row['skills']).intersection(set(row['skills_required']))) / len(set(row['skills_required']))
            if isinstance(row['skills_required'], list) and len(row['skills_required']) > 0
            else 0,
        axis=1
    )
    
    # Coincidencia de área de expertise
    data['area_match'] = (data['area_expertise'] == data['area']).astype(int)
    
    # Características clave para el modelo
    X = data[['experience_years', 'hourly_rate', 'rating', 'skill_match_count', 'skill_match_pct', 'area_match', 'budget']]
    y = data['match']
    
    # Manejar valores nulos
    X = X.fillna(0)
    
    return X, y

## 2. Generar Datos y Entrenar Modelo

In [6]:
# Generar datos
print("Generando datos de usuarios...")
users_df = generate_user_data(n_users=100)

print("Generando datos de proyectos...")
projects_df = generate_project_data(n_projects=200, n_users=100)

print("Generando datos de emparejamiento...")
matching_data = generate_matching_data(users_df, projects_df)

print("Preparando características...")
X, y = prepare_features(matching_data)

print(f"Generados {len(users_df)} usuarios")
print(f"Generados {len(projects_df)} proyectos")
print(f"Generados {len(matching_data)} ejemplos de emparejamiento")

In [7]:
# División en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [8]:
# Entrenar modelo
print("Entrenando modelo...")
model = RandomForestClassifier(n_estimators=50, max_depth=10, random_state=42)
model.fit(X_train, y_train)

# Predecir
y_pred = model.predict(X_test)

# Evaluar modelo
print("\nEvaluación del modelo:")
print(f"Accuracy: {accuracy_score(y_test, y_pred):.4f}")
print(f"Precision: {precision_score(y_test, y_pred):.4f}")
print(f"Recall: {recall_score(y_test, y_pred):.4f}")
print(f"F1 Score: {f1_score(y_test, y_pred):.4f}")
print("\nInforme de clasificación:")
print(classification_report(y_test, y_pred))

## 3. Análisis del Modelo

In [9]:
# Importancia de características
feature_importance = pd.DataFrame({
    'feature': X.columns,
    'importance': model.feature_importances_
})
feature_importance = feature_importance.sort_values('importance', ascending=False)

print("Importancia de características:")
print(feature_importance)

# Visualizar importancia de características
plt.figure(figsize=(10, 6))
plt.barh(feature_importance['feature'], feature_importance['importance'])
plt.xlabel('Importancia')
plt.ylabel('Característica')
plt.title('Importancia de Características en el Modelo de Recomendación')
plt.tight_layout()
plt.show()

## 4. Guardar Modelo

In [10]:
# Guardar el modelo
model_path = "trained_model.pkl"
with open(model_path, 'wb') as f:
    pickle.dump(model, f)

print(f"Modelo guardado en {model_path}")

## 5. Probar el Modelo con Nuevos Datos

In [11]:
# Crear un ejemplo de prueba
freelancer = {
    'experience_years': 5.0,
    'hourly_rate': 50.0,
    'rating': 4.5,
    'area_expertise': 'Economía',
    'skills': ['Análisis estadístico', 'Python', 'R', 'Economía']
}

project = {
    'area': 'Economía',
    'budget': 1000.0,
    'skills_required': ['Análisis estadístico', 'Python', 'Economía']
}

# Preparar características
skill_match_count = len(set(freelancer['skills']).intersection(set(project['skills_required'])))
skill_match_pct = skill_match_count / len(project['skills_required'])
area_match = 1 if freelancer['area_expertise'] == project['area'] else 0

features = np.array([
    freelancer['experience_years'],
    freelancer['hourly_rate'],
    freelancer['rating'],
    skill_match_count,
    skill_match_pct,
    area_match,
    project['budget']
]).reshape(1, -1)

# Predecir
match_probability = model.predict_proba(features)[0][1]

print(f"Probabilidad de coincidencia: {match_probability:.4f}")
print(f"¿Recomendación?: {'Sí' if match_probability > 0.5 else 'No'}")