In [None]:
#Integracion Texto + Variables estructuradas
from sklearn.compose import ColumnTransformer

# --- Paso 2: Separar variable objetivo y datos ---

y = df_reducido['target']                  # Variable objetivo
X = df_reducido.drop(columns=['target'])  # Datos para modelo

# --- Paso 3: Definir columnas por tipo para la transformación ---

col_texto = 'clean_text'
columnas_numericas = ['bathrooms_text', 'price', 'number_of_reviews', 'review_scores_rating']
columnas_categoricas = ['host_is_superhost', 'property_type', 'room_type']

# --- Paso 4: Importar y crear transformadores ---

tfidf = TfidfVectorizer(ngram_range=(1, 2), max_features=500)
scaler = StandardScaler()
ohe = OneHotEncoder(drop='first', sparse_output=False)

preprocesador = ColumnTransformer(
    transformers=[
        ('texto', tfidf, col_texto),
        ('num', scaler, columnas_numericas),
        ('cat', ohe, columnas_categoricas)
    ],
    remainder='drop'  # eliminar columnas no listadas
)

# --- Paso 5: Aplicar transformación ---

X_final = preprocesador.fit_transform(X)

# --- Paso 6: Resultados ---

print("Tipo de X_final:", type(X_final))
print("Forma de X_final:", X_final.shape)


In [None]:
# Lista de categorías nuevas que te dio el error, seccion de entrenamiento
categorias_nuevas = ['Holiday park', 'Shared room in casa particular']

conteo = df_final[df_final['property_type'].isin(categorias_nuevas)].shape[0]
porcentaje = conteo / len(df_final) * 100

print(f"Filas con categorías nuevas en 'property_type': {conteo}")
print(f"Porcentaje sobre total: {porcentaje:.2f}%")

In [None]:
conteo = df_fc['target'].value_counts()
print (conteo)

In [None]:
# carga de librerías
import pandas as pd
import nltk
nltk.download('punkt', download_dir='/Users/aaronmelamed/nltk_data') # las librerias locales nltk se guardan en la carpeta nltk_data local
nltk.download('wordnet', download_dir='/Users/aaronmelamed/nltk_data')
nltk.download('omw-1.4', download_dir='/Users/aaronmelamed/nltk_data')
nltk.download('stopwords', download_dir='/Users/aaronmelamed/nltk_data')
nltk.download('vader_lexicon', download_dir='/Users/aaronmelamed/nltk_data')
nltk.data.path.append('/Users/aaronmelamed/nltk_data')

# carga de datos listings = pd.read_csv('listings.csv')
df_l = pd.read_csv('listings.csv')
# carga de datos reviews = pd.read_csv('reviews.csv')
df_r = pd.read_csv('reviews.csv')

# 1. Formulación del problema
# definir variables objetivo basadas en la calificación de los reviews
df_l['review_scores_rating'] = df_l['review_scores_rating'].fillna(0)  # Rellenar NaN con 0
df_l['review_scores_rating'] = df_l['review_scores_rating'].astype(float)  # Asegurar que sea float
df_l = df_l[df_l['review_scores_rating'] > 0]  # Filtrar filas con calificación positiva
import string
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.corpus import words
nltk.download('words', download_dir='/Users/aaronmelamed/nltk_data')
english_vocab = set(w.lower() for w in words.words()) # elimina palabras que no están en el vocabulario inglés
# Inicializar NLTK
for pkg in ['stopwords', 'wordnet', 'omw-1.4']: # Descargar recursos necesarios de NLTK
    nltk.download(pkg, quiet=True)
# Definir la variable objetivo
import nltk
# Definir variable objetivo binaria: 1 = alta calificación (≥ 4.5), 0 = baja calificación (< 4.5)
df_l['target'] = df_l['review_scores_rating'].apply(lambda x: 1 if x >= 4.5 else 0) # Verificar la creación de la variable objetivo

import seaborn as sns
import matplotlib.pyplot as plt

sns.countplot(x='target', data=df_l, palette='Set2') # Gráfico de barras de la variable objetivo
plt.title('#1 Distribución de la Variable Objetivo (target)')
plt.xlabel('Clase (0 = baja, 1 = alta)')
plt.ylabel('Cantidad de registros')
plt.grid(axis='y')
plt.savefig("/Users/aaronmelamed/Python 2025 Mineria de datos/output-py-final/#1_distribucion_variable_objetivo.png")
plt.close()
# Mostrar una muestra de 20 filas con la calificación original y su clase binaria
df_l[['review_scores_rating', 'target']].sample(20, random_state=1)

# 2. Procesamiento de texto
# limpiar el texto de la columna 'description'
import nltk
import string
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
nltk.download('punkt', quiet=True)
nltk.download('wordnet', quiet=True)
def limpiar_texto(texto):
    """Limpia el texto eliminando puntuación, convirtiendo a minúsculas y lematizando."""
    stop_words = set(stopwords.words('english')) # Usar stopwords en inglés
    lemmatizer = WordNetLemmatizer() # Inicializar el lematizador
    
    # 2.2 Convertir a minúsculas
    texto = texto.lower() # Convertir todo el texto a minúsculas
    # 2.3  Eliminar puntuación
    texto = texto.translate(str.maketrans('', '', string.punctuation)) # Eliminar puntuación
    # 2.3 (tokenizar) Eliminar stopwords y lematizar y filtrar por vocabulario inglés
    tokens = texto.split() # Tokenizar el texto en palabras
    tokens = [lemmatizer.lemmatize(w) for w in tokens if w not in stop_words and w in english_vocab] # Eliminar stopwords, lematizar y filtrar por vocabulario inglés
    
    return ' '.join(tokens)
# 2.1  aplicar la función de limpieza al texto de la columna 'description'
df_l['description_clean'] = df_l['description'].astype(str).apply(limpiar_texto) # Verificar la limpieza del texto

# 2.3 Usar TfidfVectorizer para vectorizar la columna 'description_clean'
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(max_features=100)  # Limitar a 100 características
X = tfidf_vectorizer.fit_transform(df_l['description_clean'])
print(f"#2 Dimensiones de la matriz TF-IDF: {X.shape}")  # Confirmar dimensiones
df_tfidf = pd.DataFrame(X.toarray(), columns=tfidf_vectorizer.get_feature_names_out()) # Convertir la matriz TF-IDF a un DataFrame
print(df_tfidf.head(10)) # Mostrar las primeras 10 filas del DataFrame resultante

# 2.4 crear visualizaiones como WordCloudsbde frecuencias por clase
from wordcloud import WordCloud
import matplotlib.pyplot as plt
def generar_wordcloud(texto, titulo): #
    """Genera y guarda una WordCloud a partir del texto proporcionado."""
    wordcloud = WordCloud(width=800, height=400, background_color='white').generate(texto) # Generar la WordCloud
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.title(titulo)
    nombre_archivo = titulo.replace(' ', '_').replace('#', '')
    ruta = f"/Users/aaronmelamed/Python 2025 Mineria de datos/output-py-final/{nombre_archivo}.png"
    plt.savefig(ruta)
    plt.close()
# Generar WordClouds para las descripciones de alta y baja calificación
textos_altos = ' '.join(df_l[df_l['target'] == 1]['description_clean'])
textos_bajos = ' '.join(df_l[df_l['target'] == 0]['description_clean'])
generar_wordcloud(textos_altos, 'WordCloud - Alta Calificación') # Verificar la generación de la WordCloud
generar_wordcloud(textos_bajos, 'WordCloud - Baja Calificación') 
print("#2 WordClouds generadas para alta y baja calificación.")
# Generar histogramas de frecuencias de palabras
def generar_histograma_frecuencias(texto, titulo):
    """Genera y muestra un histograma de frecuencias de palabras."""
    from collections import Counter
    import matplotlib.pyplot as plt
    
    palabras = texto.split() # Tokenizar el texto en palabras
    frecuencias = Counter(palabras) # Contar la frecuencia de cada palabra
    palabras_comunes = frecuencias.most_common(20)  # Top 20 palabras
    
    plt.figure(figsize=(10, 5))
    plt.bar(*zip(*palabras_comunes))
    plt.title(titulo)
    plt.xlabel('Palabras')
    plt.ylabel('Frecuencia')
    plt.xticks(rotation=45)
    ruta = f"/Users/aaronmelamed/Python 2025 Mineria de datos/output-py-final/#2_{titulo.replace(' ', '_')}.png"
    plt.tight_layout()
    plt.savefig(ruta)
    plt.close()
# Generar histogramas de frecuencias para alta y baja calificación
generar_histograma_frecuencias(textos_altos, 'Histograma - Alta Calificación')
generar_histograma_frecuencias(textos_bajos, 'Histograma - Baja Calificación')

# 2.5 Analisis de sentimiento
from nltk.sentiment import SentimentIntensityAnalyzer # Inicializar el analizador de sentimientos
sia = SentimentIntensityAnalyzer()
def analizar_sentimiento(texto): # Función para analizar el sentimiento de un texto
    """Analiza el sentimiento del texto y devuelve un puntaje compuesto."""
    return sia.polarity_scores(texto)['compound']
df_l['sentiment_score'] = df_l['description_clean'].apply(analizar_sentimiento) # Aplicar el análisis de sentimiento a la columna 'description_clean'
print(df_l[['description_clean', 'sentiment_score']].head(20)) # Mostrar las primeras 10 filas con el puntaje de sentimiento

# 3. Preprocesamiento de Datos Estructurados
# 3.1 Seleccionar columnas relevantes
columnas_relevantes = ['room_type', 'host_is_superhost', 'price']
df_l = df_l[columnas_relevantes + ['target', 'review_scores_rating', 'description_clean', 'sentiment_score']]  # si necesitas otras

# 3.2 Tratar valores nulos
df_l['room_type'] = df_l['room_type'].fillna('Unknown') # asumir 'Unknown' como valor por defecto
df_l['host_is_superhost'] = df_l['host_is_superhost'].fillna('f')  # asumir 'f' como valor por defecto

# 3.3 Codificar variables categóricas (usamos solo una técnica)
df_l = pd.get_dummies(df_l, columns=['room_type', 'host_is_superhost'], drop_first=True) # # Convertir variables categóricas en variables dummy

# 3.4 Normalizar valores numéricos
from sklearn.preprocessing import MinMaxScaler
# Limpiar el campo 'price' eliminando símbolos y convirtiendo a float
df_l['price'] = df_l['price'].replace('[\$,]', '', regex=True) # # eliminar símbolos de dólar y comas
df_l['price'] = df_l['price'].str.replace(',', '', regex=False)  # elimina comas si hay separadores de miles
df_l['price'] = df_l['price'].astype(float)
scaler = MinMaxScaler()
df_l[['price', 'review_scores_rating', 'sentiment_score']] = scaler.fit_transform(df_l[['price', 'review_scores_rating', 'sentiment_score']])

# Mostrar las primeras 20 filas
print(df_l.head(20))

# 4. Integración Texto + Variables Estructuradas

from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
import pandas as pd

# Asegurar que 'description_clean' esté limpia y sea texto
df_l['description_clean'] = df_l['description_clean'].fillna('').astype(str)

# Asegurar que 'price' sea numérica
df_l['price'] = df_l['price'].astype(str) # convertir a string para limpieza
df_l['price'] = df_l['price'].replace(r'[\$,]', '', regex=True) # # eliminar símbolos de dólar
df_l['price'] = df_l['price'].str.replace(',', '', regex=False) # eliminar comas si hay separadores de miles
df_l['price'] = df_l['price'].astype(float) # convertir a float

# Escalar numéricos
scaler = MinMaxScaler()
df_l[['price', 'review_scores_rating', 'sentiment_score']] = scaler.fit_transform(
    df_l[['price', 'review_scores_rating', 'sentiment_score']] 
) # Normalizar precios y puntuaciones

df_l = df_l.dropna() # Eliminar filas con valores faltantes antes del entrenamiento

# Variables estructuradas
columnas_estructuradas = ['room_type_Private room', 'room_type_Shared room', 'host_is_superhost_t', 'price', 'review_scores_rating', 'sentiment_score']

# Definir X e y
X = df_l.drop(columns=['target'])
y = df_l['target']

### Construir pipeline de preprocesamiento ###
preprocessor = ColumnTransformer(
    transformers=[
        ('tfidf', TfidfVectorizer(max_features=100), 'description_clean'),
        ('struct', 'passthrough', columnas_estructuradas)
    ],
    remainder='drop'
)

### Crear pipeline completo con modelo ###
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))
])

# Separar en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo
pipeline.fit(X_train, y_train)

# Predecir y evaluar
y_pred = pipeline.predict(X_test)
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred))
print("\nReporte de Clasificación:")
print(classification_report(y_test, y_pred))

# 5. Modelado Predictivo:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import classification_report, confusion_matrix
import joblib

# Definir X e y
X = df_l.drop(columns=['target'])
y = df_l['target']

# Asegurar tipos correctos de categóricas
cat_cols = ['room_type_Private room', 'room_type_Shared room', 'host_is_superhost_t']
X[cat_cols] = X[cat_cols].astype(str)

# Separar en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)

# 5.1  Entrenar con Pipeline (requisito 2) ===
preprocessor = ColumnTransformer(
    transformers=[
        ('text', TfidfVectorizer(max_features=100), 'description_clean'),
        ('cat', OneHotEncoder(), cat_cols),
        ('num', StandardScaler(), ['price', 'review_scores_rating', 'sentiment_score'])
    ],
    remainder='drop'
) # Definir preprocesador para texto, categóricas y numéricas

# 5.2 Aplicar al menos dos modelos supervisados (requisito 1) ===
modelos = {
    'LogisticRegression': LogisticRegression(max_iter=500, random_state=42),
    'RandomForest': RandomForestClassifier(n_estimators=100, random_state=42)
} # Definir modelos a evaluar

# Entrenar y evaluar modelos
for nombre, modelo in modelos.items():
    pipeline = Pipeline([
        ('preprocessor', preprocessor),
        ('classifier', modelo)
    ])
    pipeline.fit(X_train, y_train)
    y_pred = pipeline.predict(X_test)

    print(f"\n RESULTADOS: {nombre} ===")
    print("Matriz de Confusión:")
    print(confusion_matrix(y_test, y_pred))
    print("Reporte de Clasificación:")
    print(classification_report(y_test, y_pred))

    # Guardar el modelo
    joblib.dump(pipeline, f'modelo_airbnb_{nombre}.pkl')

# 5.3 Optimizar hiperparámetros con GridSearchCV (requisito 3) ===
parametros = {
    'classifier__n_estimators': [50, 100, 200],
    'classifier__max_depth': [None, 10, 20],
    'classifier__min_samples_split': [2, 5, 10]
} # Definir parámetros para RandomForestClassifier
pipeline_rf = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
]) # Crear pipeline para RandomForestClassifier
grid_search = GridSearchCV(
    estimator=pipeline_rf,
    param_grid=parametros,
    scoring='accuracy',
    cv=5,
    n_jobs=-1,
    verbose=1
) # Ajustar GridSearchCV
grid_search.fit(X_train, y_train) # Entrenar el modelo con GridSearchCV

# Evaluar mejor modelo
y_pred_mejor = grid_search.predict(X_test)
print("\n 5. RESULTADOS DEL MEJOR MODELO")
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred_mejor))
print("Reporte de Clasificación:")
print(classification_report(y_test, y_pred_mejor))
print("Mejores parámetros:")
print(grid_search.best_params_)

# Guardar el mejor modelo encontrado
joblib.dump(grid_search.best_estimator_, 'mejor_modelo_airbnb.pkl')

# 6. Evaluación del Modelo:
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, classification_report, roc_auc_score, roc_curve
)
import matplotlib.pyplot as plt
import joblib
import numpy as np

# Cargar el mejor modelo
mejor_modelo = joblib.load('mejor_modelo_airbnb.pkl')

# Predecir
y_pred_final = mejor_modelo.predict(X_test)
y_pred_proba = mejor_modelo.predict_proba(X_test)[:, 1]

# 6.1 MÉTRICAS CLÁSICAS ===
print("\n=== EVALUACIÓN DEL MEJOR MODELO ===")
print("Accuracy:", accuracy_score(y_test, y_pred_final))
print("Precision:", precision_score(y_test, y_pred_final))
print("Recall:", recall_score(y_test, y_pred_final))
print("F1-Score:", f1_score(y_test, y_pred_final))
print("\nMatriz de Confusión:")
print(confusion_matrix(y_test, y_pred_final))
print("\nReporte de Clasificación:")
print(classification_report(y_test, y_pred_final))

# CURVA ROC
fpr, tpr, _ = roc_curve(y_test, y_pred_proba)
roc_auc = roc_auc_score(y_test, y_pred_proba)

plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, label=f'ROC Curve (AUC = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], linestyle='--', color='gray')
plt.xlabel('Tasa de Falsos Positivos')
plt.ylabel('Tasa de Verdaderos Positivos')
plt.title('Curva ROC - Modelo Final')
plt.legend()
plt.grid(True)
plt.savefig("/Users/aaronmelamed/Python 2025 Mineria de datos/output-py-final/#6_curva_roc_modelo_final.png")
plt.close()

# 6.2 IMPORTANCIA DE FEATURES
feature_names = mejor_modelo.named_steps['preprocessor'].get_feature_names_out()
importancias = mejor_modelo.named_steps['classifier'].feature_importances_

# Mostrar las 10 características más importantes
importancia_df = pd.DataFrame({
    'feature': feature_names,
    'importance': importancias
}).sort_values(by='importance', ascending=False)

print("\n=== FEATURES MÁS IMPORTANTES ===")
print(importancia_df.head(10))

# Guardar modelo final
joblib.dump(mejor_modelo, 'modelo_final_airbnb.pkl')
print("\nModelo final guardado como 'modelo_final_airbnb.pkl'.")
print("Análisis completado y modelos guardados exitosamente.")

# 7. Visualización de Resultados

import seaborn as sns
import matplotlib.pyplot as plt
import shap
import scipy
import pandas as pd

# 7.1 WordClouds por categoría de rating ===
textos_altos = ' '.join(df_l[df_l['target'] == 1]['description_clean'])
textos_bajos = ' '.join(df_l[df_l['target'] == 0]['description_clean'])

generar_wordcloud(textos_altos, '#7 WordCloud - Alta Calificación')
generar_wordcloud(textos_bajos, '#7 WordCloud - Baja Calificación')

# 7.2 Mapa de calor de la distribución de precios ===
plt.figure(figsize=(10, 6))
sns.heatmap(
    df_l.pivot_table(index='room_type_Private room', columns='target', values='price', aggfunc='mean'),
    annot=True, cmap='coolwarm'
)
plt.title('Mapa de Calor - Distribución de Precios por Tipo de Habitación y Calificación')
plt.xlabel('Calificación (0 = Baja, 1 = Alta)')
plt.ylabel('Tipo de Habitación')
plt.savefig("/Users/aaronmelamed/Python 2025 Mineria de datos/output-py-final/#7_mapa_calor_precios_por_tipo_y_calificacion.png")
plt.close()

# 7.3 Matriz de confusión del mejor modelo ===
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix(y_test, y_pred_mejor), annot=True, fmt='d', cmap='Blues')
plt.title('Matriz de Confusión - Mejor Modelo')
plt.xlabel('Predicción')
plt.ylabel('Realidad')
plt.savefig("/Users/aaronmelamed/Python 2025 Mineria de datos/output-py-final/#7_matriz_confusion_mejor_modelo.png")
plt.close()

# 7.4 SHAP clásico – Gráfico de importancia de características
import shap
import scipy
import numpy as np

# Extraer pasos del modelo
preprocessor = mejor_modelo.named_steps['preprocessor']
modelo_rf = mejor_modelo.named_steps['classifier']

# Transformar datos
X_transformado = preprocessor.transform(X_test)
if scipy.sparse.issparse(X_transformado):
    X_transformado = X_transformado.toarray()
X_transformado = X_transformado.astype('float64')

# Crear el explicador SHAP y calcular valores
explainer = shap.TreeExplainer(modelo_rf)
shap_values = explainer.shap_values(X_transformado)

import numpy as np
# Validar forma de salida
# Si shap_values tiene 3 dimensiones, extraer solo la clase positiva (índice 1)
if isinstance(shap_values, np.ndarray) and shap_values.ndim == 3:
    shap_vals = shap_values[:, :, 1]  # clase positiva
elif isinstance(shap_values, list):
    shap_vals = shap_values[1] if len(shap_values) > 1 else shap_values[0]
else:
    shap_vals = shap_values

print(f"X_transformado.shape: {X_transformado.shape}")
print(f"shap_vals.shape: {shap_vals.shape}")

# Obtener nombres de características
feature_names = preprocessor.get_feature_names_out()

# Crear gráfico resumen SHAP
shap.summary_plot(shap_vals, X_transformado, feature_names=feature_names, show=False)
plt.title("Importancia de Características según SHAP")
plt.savefig("/Users/aaronmelamed/Python 2025 Mineria de datos/output-py-final/#7_importancia_features_SHAP.png", bbox_inches='tight')
plt.close()


# 7.5 SHAP explicativo sobre texto limpio (modo clásico para texto)
# Generar explicador directamente desde modelo final sobre pipeline de texto

# Crear un nuevo pipeline sólo para texto
text_pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(max_features=100)),
    ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))
])
# Ajustar a texto únicamente
text_pipeline.fit(df_l['description_clean'], df_l['target'])

# Crear explicador SHAP clásico para texto
explainer_text = shap.Explainer(
    text_pipeline.named_steps['classifier'],
    text_pipeline.named_steps['tfidf'].transform(df_l['description_clean']).toarray()
)
textos_muestra = [
    "beautiful apartment with excellent view",
    "dirty room and poor customer service",
    "quiet and cozy place near the city center"
]
shap_vals_text = explainer_text(
    text_pipeline.named_steps['tfidf'].transform(textos_muestra).toarray()
)

# Mostrar explicaciones tipo texto (visualización estándar por importancia)
shap.summary_plot(
    shap_vals_text.values,
    features=text_pipeline.named_steps['tfidf'].transform(textos_muestra).toarray(),
    feature_names=text_pipeline.named_steps['tfidf'].get_feature_names_out(),
    show=False
)
plt.savefig("/Users/aaronmelamed/Python 2025 Mineria de datos/output-py-final/#7_shap_texto_limpo.png", bbox_inches='tight')
plt.close()