In [4]:
import pandas as pd # Importar la biblioteca pandas para manipulación de datos

**Carga y análisis preliminar** específicamente enfocado en la identificación de valores faltantes.

In [5]:
# Carga del conjunto de datos desde un archivo CSV
df = pd.read_csv('/content/rest-mex_2022_recommendation_data_training.csv')

# Revisión de valores faltantes en el DataFrame
# El método isnull() identifica los valores nulos, y sum() suma estos valores por columna
missing_values = df.isnull().sum()

# Imprimir los resultados de la revisión de valores faltantes
# Cada columna del DataFrame se lista con el número de valores nulos encontrados
missing_values

Index       0
Gender      0
Place       0
Location    0
Date        0
Type        0
Label       0
dtype: int64

**Resultado Anterior** El resultado muestra que no hay valores faltantes en ninguna de las columnas del DataFrame. Las columnas listadas incluyen Index, Gender, Place, Location, Date, Type, y Label, todas con un conteo de 0 valores faltantes.

**Verificación de los valores** únicos presentes en la columna 'Gender' de un DataFrame de pandas.

In [6]:
# Verificación de valores únicos en la columna 'Gender'
# Esto ayuda a entender qué categorías de género están presentes en el conjunto de datos
gender_values = df['Gender'].unique()

# Imprimir los valores únicos encontrados en la columna 'Gender'
# Se espera ver categorías como 'Male', 'Female', y posiblemente otras como 'N/I' para no informado
gender_values

array(['Male', 'Female', 'N/I'], dtype=object)

**El método describe(include='all')** se utiliza para generar un resumen estadístico del DataFrame df. Este método proporciona una visión general de las estadísticas descriptivas que incluye:

count: número de entradas no nulas.
unique: número de valores únicos.
top: el valor más común.
freq: la frecuencia del valor más común.
mean, std, min, 25%, 50%, 75%, max: estadísticas descriptivas para columnas numéricas.
Al usar include='all', el método incluye columnas de todos los tipos de datos.

In [None]:
# Resumen estadístico y verificación de valores faltantes

# Generar un resumen estadístico de todas las columnas del DataFrame
# Incluye estadísticas descriptivas para columnas numéricas y categóricas
summary = df.describe(include='all')

# Contar y verificar la presencia de valores nulos en cada columna del DataFrame
# Esencial para la limpieza de datos y análisis precisos
missing_values = df.isnull().sum()

# Imprimir el resumen estadístico y el conteo de valores nulos
summary, missing_values


**Resultado Anterior**
El resumen estadístico muestra detalles como el número total de registros (count), la categoría más frecuente (top) y su frecuencia (freq) para cada columna. Para columnas numéricas, muestra estadísticas adicionales como la media (mean), desviación estándar (std),

#**Procesar y transformar datos** de fechas, específicamente ajustando las fechas a un formato de año y mes.

In [None]:
import re
from datetime import datetime

# Ruta al archivo CSV con los datos de recomendaciones
output_file_path=('/content/rest-mex_2022_recommendation_data_training.csv')

# Carga del archivo CSV en un DataFrame
df = pd.read_csv(output_file_path)

# Función para convertir fechas del formato texto a formato año-mes
def convert_to_year_month_format(date_str):
    # Mapeo de los meses en español a sus números correspondientes
    months_map = {
        "enero": "01",
        "febrero": "02",
        "marzo": "03",
        "abril": "04",
        "mayo": "05",
        "junio": "06",
        "julio": "07",
        "agosto": "08",
        "septiembre": "09",
        "octubre": "10",
        "noviembre": "11",
        "diciembre": "12"
    }

    # Extracción del mes y año
    match = re.search(r"(\w+) de (\d{4})", date_str)
    if match:
        month_spanish, year = match.groups()
        month_number = months_map.get(month_spanish.lower())
        return f"{year}-{month_number}"
    else:
        return None  # Mantener el valor como None si no se puede convertir

# Aplicando la conversión al DataFrame
df['Date'] = df['Date'].apply(convert_to_year_month_format)

# Verificando los cambios realizados
df.head()


# se realiza una copia del Dataset a utilizar

In [None]:
# Creando un nuevo DataFrame a partir del DataFrame actual
new_dataframe = df.copy()

# Guardando el nuevo DataFrame como un archivo CSV
output_file_path = '/content/cleaned_recommendation_data.csv'
new_dataframe.to_csv(output_file_path, index=False,sep=';')

output_file_path

#Codgio de limpieza y normalizacion para el archivo Places


In [None]:
df_places = pd.read_csv('/content/Places.csv') # cargue del documento Places
df_places.head()

**Concatena todas las columnas** del dataset, excepto la primera, para formar una nueva columna llamada 'Description'. Esta operación se realiza fila por fila, uniendo los valores de las columnas con el separador ' | '.

In [None]:
# Carga del archivo CSV que contiene los datos de los lugares
file_path = '/content/Places.csv'
data = pd.read_csv(file_path)

# Creación de la columna 'Description' concatenando todas las columnas excepto la primera
# Se utiliza el separador ' | ' para unir los valores
data['Description'] = data.iloc[:, 1:].apply(lambda x: ' | '.join(x.dropna()), axis=1)

# Creación de un nuevo DataFrame con solo las columnas 'Lugar' y 'Description'
df_places = data[['Lugar', 'Description']]

# Visualización de las primeras filas del DataFrame transformado
df_places.head()


**Resultado Anterior** Reemplazo de Caracteres en la Columna 'Description': El script reemplaza todos los caracteres '|' por comas (',') en la columna 'Description'. Esto cambia el formato de la descripción, haciendo que los diferentes elementos estén separados por comas en lugar de por el separador original ' | '.

**Modificación del Formato de Descripción:** El código reemplaza todos los caracteres '|' (barras verticales) por comas (',') en la columna 'Description'. Este cambio tiene como objetivo mejorar la legibilidad y el formato de las descripciones en el DataFrame.

In [None]:
# Creación de una copia independiente del DataFrame para evitar modificar el original
df_places = df_places.copy()

# Reemplazo de todos los separadores '|' por comas ',' en la columna 'Description'
# Esto se hace para mejorar la legibilidad y formato de las descripciones
df_places['Description'] = df_places['Description'].str.replace('|', ',', regex=False)

# Visualización de las primeras filas del DataFrame para confirmar los cambios
# Esto ayuda a verificar que los separadores han sido reemplazados correctamente
df_places.head()


**Resultado Anterior** Muestra una transformación exitosa

Con estos cambios, las descripciones de los lugares en el DataFrame df_places ahora presentan una separación más estándar y posiblemente más legible, utilizando comas en lugar de barras verticales.

**Exportación de datos del DataFrame** df_places a un nuevo archivo CSV con algunas modificaciones específicas

In [None]:
# Creando un nuevo DataFrame a partir del DataFrame actual para mantener los datos originales intactos
new_dataframe = df_places.copy()

# Especificando la ruta del archivo de salida para el nuevo DataFrame
output_places_file_path = '/content/Places_semicolon_delimited.csv'

# Guardando el DataFrame en un archivo CSV utilizando punto y coma como delimitador
# El uso de ';' ayuda a evitar problemas si los campos contienen comas
df_places.to_csv(output_places_file_path, sep=';', index=False)

# Mostrando la ruta del archivo de salida para confirmar su creación
output_places_file_path

In [None]:
df_places.head()

Termina normalizacion y limpieza del archivo places


**Combinar dos conjuntos de datos** relacionados con recomendaciones de lugares, places y rest_mex

In [None]:
# Carga de los dos datasets
cleaned_recommendation_data_path = '/content/cleaned_recommendation_data.csv'
places_semicolon_delimited_path = '/content/Places_semicolon_delimited.csv'

# Lectura de los archivos CSV
# Se especifica el separador ';' para el archivo cleaned_recommendation_data
cleaned_recommendation_data = pd.read_csv(cleaned_recommendation_data_path, sep=';')
places_semicolon_delimited = pd.read_csv(places_semicolon_delimited_path, sep=';')

# Renombrar la columna 'Lugar' a 'Place' en places_semicolon_delimited para que coincida con cleaned_recommendation_data
places_semicolon_delimited.rename(columns={'Lugar': 'Place'}, inplace=True)

# Fusión de los dos datasets usando la columna 'Place'
# Se utiliza un join externo (outer) para incluir todas las filas, incluso si no hay coincidencia
merged_data = pd.merge(cleaned_recommendation_data, places_semicolon_delimited, on='Place', how='outer')

# Mostrar las primeras filas del dataset combinado
merged_data.head()


**Resultado Anterior** La salida muestra el éxito en la combinación de dos conjuntos de datos relacionados con recomendaciones y descripciones de lugares. La fusión de datos de esta manera permite una visión más integral y enriquecida, donde cada lugar recomendado se acompaña de una descripción detallada.

La elección de un join externo es significativa, ya que permite conservar todos los registros de ambos conjuntos de datos, incluso aquellos que no tienen una correspondencia directa, lo que es esencial para análisis exhaustivos y completos.

**Gestiona la exportación del DataFrame combinado** merged_data a un archivo CSV.

In [None]:
# Creando una copia del DataFrame combinado para operaciones adicionales
new_dataframe = merged_data.copy()

# Definiendo la ruta del archivo de salida para el DataFrame combinado
output_places_file_path = '/content/merged_data_delimited.csv'

# Exportando el DataFrame a un archivo CSV, usando ';' como delimitador
# Este formato es útil para datos que contienen comas en sus campos
new_dataframe.to_csv(output_places_file_path, sep=';', index=False)

# Mostrando la ruta del archivo para confirmar la creación y ubicación del archivo CSV
output_places_file_path

**Resultado Anterior** La exportación del DataFrame merged_data a un archivo CSV con un delimitador de punto y coma representa un paso esencial en la gestión y compartición de grandes conjuntos de datos. El uso de un delimitador diferente a la coma convencional permite una mayor flexibilidad, especialmente útil en escenarios donde los datos incluyen comas dentro de sus campos.

**Inicio limpieza y union de los comentarios de los usuarios**


In [None]:
df_users = pd.read_csv('/content/Users/Usuario0.csv')

df_users.head()

**Combina múltiples archivos CSV**, cada uno representando los comentarios y puntuaciones de un usuario, en un único DataFrame. Itera a través de los archivos en una carpeta específica, extrayendo el nombre de usuario de cada archivo, seleccionando ciertas columnas, y luego los concatena en un DataFrame consolidado. Finalmente, el DataFrame combinado se guarda en un nuevo archivo CSV delimitado por punto y coma.

In [None]:
import os
# Reescribir el código completo para combinar los archivos CSV

# Ruta a la carpeta que contiene los archivos CSV
folder_path = '/content/Users/'

# Inicialización de un DataFrame vacío para almacenar los datos combinados
combined_data = pd.DataFrame(columns=['Usuario', 'Comentario', 'Puntuacion', 'Lugar', 'Puntuacion Global'])

# Iteración a través de cada archivo en la carpeta
for file in os.listdir(folder_path):
    # Verificación de que el archivo sea un archivo CSV
    if file.endswith('.csv'):
        # Extracción del nombre de usuario (sin la extensión del archivo)
        username = file.split('.')[0]

         # Lectura del archivo CSV, seleccionando solo las primeras cuatro columnas
        df = pd.read_csv(os.path.join(folder_path, file), header=None, usecols=[0, 1, 2, 3])

        # Añadiendo una nueva columna para el nombre de usuario
        df['Usuario'] = username

        # Renombrando las columnas
        df.columns = ['Comentario', 'Puntuacion', 'Lugar', 'Puntuacion Global', 'Usuario']

        # Reordenando las columnas
        df = df[['Usuario', 'Comentario', 'Puntuacion', 'Lugar', 'Puntuacion Global']]

        # Añadiendo estos datos al DataFrame combinado
        combined_data = pd.concat([combined_data, df])

# Reiniciando el índice del DataFrame combinado
combined_data.reset_index(drop=True, inplace=True)

# Guardando los datos combinados en un nuevo archivo CSV
output_file_path = '/content/combined_data.csv'
combined_data.to_csv(output_file_path, index=False,sep=';')

# Mostrando la ruta del archivo para confirmar la creación y ubicación del archivo CSV
output_file_path

**Resultado Anterior** El script realiza con éxito la tarea de combinar múltiples archivos CSV en un solo conjunto de datos, proporcionando una visión unificada de las interacciones de los usuarios. Esta consolidación de datos es fundamental en análisis de datos y en escenarios donde se requiere una vista agregada de información proveniente de múltiples fuentes.

**Cuenta la cantidad de archivos en una carpeta específica**, proporcionando un recuento de los archivos CSV (o cualquier otro tipo de archivo) contenidos en ella

In [None]:
# Ruta a la carpeta que contiene los archivos CSV
folder_path = '/content/Users/'

# Conteo del número de archivos en la carpeta
# Se incluyen solo los archivos, excluyendo subdirectorios
file_count = len([name for name in os.listdir(folder_path) if os.path.isfile(os.path.join(folder_path, name))])

# Mostrando el recuento de archivos
file_count

**Resultado Anterior** Se determina que hay 1311 archivos en la carpeta especificada

**Union del primer merge y el csv de todos los comentarios de todos los usuarios**

**Combina dos datasets distintos,** uno que contiene datos combinados de usuarios y otro con datos fusionados sobre lugares, en un único DataFrame. Utiliza un método de fusión basado en ciertas columnas clave, y maneja líneas mal formateadas en los archivos CSV al leerlos.

In [None]:
# Rutas a los archivos CSV
combined_data_path = '/content/combined_data.csv'
merged_data_delimited_path = '/content/merged_data_delimited.csv'

# Lectura del archivo combined_data.csv, omitiendo líneas mal formateadas
combined_data = pd.read_csv(combined_data_path, delimiter=';', on_bad_lines='skip')

# Lectura del archivo merged_data_delimited.csv, con el delimitador correcto y omitiendo líneas mal formateadas
merged_data_delimited = pd.read_csv(merged_data_delimited_path, delimiter=';', on_bad_lines='skip')

# Fusión de los datasets basada en las columnas 'Index' y 'Place' de un dataset y 'Usuario' y 'Lugar' del otro
merged_data = pd.merge(merged_data_delimited, combined_data, left_on=['Index', 'Place'], right_on=['Usuario', 'Lugar'])

# Muestra las primeras filas del dataset fusionado
print(merged_data.head())

# Guardado del dataset fusionado en un nuevo archivo
merged_data.to_csv('/content/merged_data.csv', index=False, sep=';')


**Resultado Anterior** muestra una fusión exitosa de los dos datasets

In [None]:
merged_data = pd.read_csv('/content/merged_data.csv', delimiter=';')  # Replace ';' with the correct delimiter
merged_data.head()


**Limpieza para el datset Resultante de la Union,** se buscan caracteres extraños.

In [None]:
import unicodedata

# Función para detectar caracteres extraños
def detectar_caracteres_extranos(texto):
    caracteres_extranos = []
    for caracter in texto:
        if ord(caracter) > 127:
            caracteres_extranos.append(caracter)
    return caracteres_extranos

# Función para limpiar texto
def limpiar_texto(texto):
    texto_normalizado = unicodedata.normalize('NFKC', texto)
    return texto_normalizado

# Cargando el dataset
file_path = '/content/merged_data.csv'
dataset = pd.read_csv(file_path, delimiter=';')

# Revisando caracteres extraños
columnas_revisar = ['Description', 'Comentario']
caracteres_extranos_unicos = set()

for columna in columnas_revisar:
    for texto in dataset[columna].dropna():
        caracteres_extranos = detectar_caracteres_extranos(texto)
        caracteres_extranos_unicos.update(caracteres_extranos)

# Limpiando el dataset
for columna in columnas_revisar:
    dataset[columna] = dataset[columna].astype(str).apply(limpiar_texto)

# Guardando el dataset limpio
new_file_path = '/content/merged_data_cleaned.csv'
dataset.to_csv(new_file_path, sep=';', index=False)

# Ruta del archivo guardado
print(f'Archivo guardado: {new_file_path}')
print(dataset.head())

In [None]:
# Cargando el dataset
file_path = '/content/merged_data_cleaned.csv'
dataset_clean = pd.read_csv(file_path, delimiter=';')
print(dataset_clean)

**Procesa un dataset de datos combinados,** eliminando columnas innecesarias y aplicando una función para etiquetar a los visitantes como 'Mexicano' o 'Extranjero' basándose en su ubicación.

In [None]:
# Cargar el archivo
file_path = '/content/merged_data_cleaned.csv'
df = pd.read_csv(file_path, delimiter=';')

# Eliminar la columna 'Usuario'
df.drop('Usuario', axis=1, inplace=True)
df.drop('Lugar', axis=1, inplace=True)

# Función para determinar si es extranjero o mexicano
# Modificando la función 'etiquetar' según las nuevas instrucciones
def etiquetar_modificada(location):
    # Lista de ubicaciones que clasificarán como 'Mexicano'
    ubicaciones_mexicanas = ['noreste', 'noroeste', 'centro', 'occidente', 'sureste']

    # Comprobar si la ubicación está en la lista
    if location.lower() in ubicaciones_mexicanas:
        return 'Mexicano'
    else:
        return 'Extranjero'

# Aplicar la función modificada para crear la columna 'Etiqueta'
df['Etiqueta'] = df['Location'].apply(etiquetar_modificada)

# Mostrar las primeras filas del DataFrame actualizado
print(df)


**Resultado Anterior** Muestra el DataFrame df después de haber eliminado las columnas 'Usuario' y 'Lugar', y haber añadido la columna 'Etiqueta', que clasifica a los visitantes como 'Mexicano' o 'Extranjero' según su ubicación.

**Guardar el dataframe modificado en un nuevo archivo CSV**

In [None]:
# Guardar el dataframe modificado en un nuevo archivo CSV
modified_file_path = '/content/modified_dataset.csv'
df.to_csv(modified_file_path, sep=';', index=False)

In [None]:
!pip install transformers

**Modelo de análisis de sentimientos basado en BERT** para evaluar el tono emocional de los comentarios en un dataset. Carga un modelo pre-entrenado de Hugging Face y lo aplica a los comentarios en el DataFrame, asignando una puntuación de sentimiento a cada comentario. Las puntuaciones son normalizadas para ajustarse a un rango de -1 a 1.

In [None]:
from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch

# Cargar tu archivo CSV
df = pd.read_csv('/content/modified_dataset.csv', delimiter=';')

# Cargar el modelo y el tokenizador
model_name = "nlptown/bert-base-multilingual-uncased-sentiment"  # Este modelo ofrece puntuaciones
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Función para calcular la puntuación de sentimiento
def sentiment_score(review):
    tokens = tokenizer.encode(review, return_tensors='pt')
    result = model(tokens)
    return int(torch.argmax(result.logits)) - 2

# Aplicar la función a la columna "Comentario"
df['SentimientoComentario'] = df['Comentario'].apply(sentiment_score)

# Normalizar las puntuaciones al rango deseado (-1 a 1)
df['SentimientoComentario'] = df['SentimientoComentario'] / 2.0

# Muestra el DataFrame
print(df.head())


**Resultado Anterior** Muestra el DataFrame con una nueva columna 'SentimientoComentario' que refleja el análisis de sentimientos de los comentarios.

**Reemplazando todos los puntos** ('.') por comas (',') en los datos, y luego guarda el DataFrame modificado en un nuevo archivo CSV.

In [None]:
# Cambiar todos los puntos ('.') por comas (',') en el DataFrame
df = df.astype(str).replace('\.', ',', regex=True)
# Guardar el DataFrame modificado en un nuevo archivo CSV
df.to_csv('archivo_listo.csv', index=False, sep=';')

**Resultado Anterior** Realiza un cambio de formato en los datos, reemplazando los puntos por comas, lo que es útil para la normalización de datos o para cumplir con ciertos estándares de formato que requiere power bi, ademas crea el archivo CSV Final, el cual obtiene el merge de los 3 archivos CSV iniciales.

### **Modelo Modelo Modelo MOdelol modleo**

**Procesar y preparar datos para análisis y modelado predictivo**, en el contexto de aprendizaje automático con Python. Se utiliza la biblioteca sklearn para varias transformaciones de datos:

**Lectura y Preprocesamiento de Datos:** Lee datos de un archivo CSV, reemplazando las comas por puntos en ciertas columnas para asegurar que los datos sean numéricos.

**Normalización de Características Numéricas:** Se aplica un escalado estándar a las características numéricas ('Puntuacion', 'SentimientoComentario').

**Codificación de Variables Categóricas:** Conviertir categorías textuales en variables numéricas a través de la técnica de codificación one-hot. Esto permite que los algoritmos de aprendizaje automático procesen eficientemente estas características.

**Preparación de Datos de Texto para NLP** (Procesamiento de Lenguaje Natural): Realiza una limpieza básica en los textos, como convertir a minúsculas y eliminar la puntuación.

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# Lectura de datos desde un archivo CSV
data = pd.read_csv('/content/archivo_listo.csv', delimiter=';')

# Convertir Puntuacion y SentimientoComentario a numérico (reemplazando comas por puntos)
data['Puntuacion'] = pd.to_numeric(data['Puntuacion'].str.replace(',', '.'))
data['SentimientoComentario'] = pd.to_numeric(data['SentimientoComentario'].str.replace(',', '.'))

# 2. Normalización de Características Numéricas
# Lista de características numéricas
numeric_features = ['Puntuacion', 'SentimientoComentario']

# 3. Codificación de Variables Categóricas
# Lista de características categóricas
categorical_features = ['Gender', 'Place', 'Location', 'Type']

# Construir un preprocesador compuesto para realizar la normalización y codificación
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)
    ]
)

# 4. Preparación de Datos de Texto para NLP
# Limpieza básica de texto
data['Comentario'] = data['Comentario'].str.lower()  # convertir a minúsculas
data['Comentario'] = data['Comentario'].str.replace('[^\w\s]', '')  # eliminar puntuación

# Aplicar el preprocesador a los datos (sin manejo de valores faltantes)
data_preprocessed = preprocessor.fit_transform(data)

# Mostrar los primeros 5 registros después de la preparación
print(data_preprocessed[:5])

**Resultadao Anterior** Se presentan en un formato de matriz dispersa (sparse matrix), donde cada fila representa un registro, y cada columna un atributo transformado. Por ejemplo, (0, 0) 0.46880723093849525 indica que en la primera fila, la primera característica numérica (probablemente 'Puntuacion') ha sido normalizada a 0.4688.

Las características numéricas aparecen primero (escaladas), seguidas de las características categóricas (codificadas one-hot). Los valores 1.0 en distintas columnas indican la presencia de una categoría específica para esa fila, según la codificación one-hot.

**Proceso de preparación de datos para un modelo de recomendación**  o análisis en el ámbito del Procesamiento de Lenguaje Natural (NLP). Se centra en la transformación de textos (comentarios) a un formato numérico que pueda ser procesado por algoritmos de aprendizaje automático. Utiliza la técnica de Vectorización TF-IDF para convertir los textos en vectores numéricos, reflejando la importancia de cada palabra en el conjunto de datos. Luego, estas características textuales se combinan con otras características previamente procesadas (numéricas y categóricas), preparando un conjunto de datos integral para el modelado.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 1. Tokenización y Limpieza de Texto
# Ya se realizó una limpieza básica en los pasos anteriores

# 2. Vectorización de Texto
# Convertir comentarios a formato numérico utilizando TF-IDF.
tfidf_vectorizer = TfidfVectorizer(stop_words='english', max_features=100)
text_features = tfidf_vectorizer.fit_transform(data['Comentario'])

# 3. Integración de Características Textuales con Otras Características
# Combinar las características de texto (TF-IDF) con las características preprocesadas anteriores
import scipy.sparse as sp
final_features = sp.hstack((data_preprocessed, text_features))

# Mostrar las dimensiones de las características finales
final_features.shape


**Resultado Anterior** El resultado final_features.shape muestra que el conjunto final de datos tiene 486 registros y 138 características. Esto significa que después de procesar los comentarios con TF-IDF y combinarlos con las características preprocesadas, se obtuvo una matriz con 486 filas (una por cada registro en el dataset) y 138 columnas (características).

**Clasificador de Bosque Aleatorio** Proceso de construcción y entrenamiento de un modelo de clasificación, para predecir etiquetas o categorías (denominadas 'Label') en un conjunto de datos. El proceso implica dividir los datos en conjuntos de entrenamiento y prueba, entrenar el modelo con el conjunto de entrenamiento, y luego evaluar su rendimiento en el conjunto de prueb

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# 1. División de Datos
X_train, X_test, y_train, y_test = train_test_split(final_features, data['Label'], test_size=0.2, random_state=42)

# 2. Selección del Modelo
# Usaremos un clasificador de bosque aleatorio, que es un buen punto de partida para problemas de clasificación
model = RandomForestClassifier(random_state=42)

# 3. Entrenamiento del Modelo
model.fit(X_train, y_train)

# 4. Evaluación del Modelo
# Realizamos predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluación del rendimiento del modelo
performance_report = classification_report(y_test, y_pred)

performance_report

**Resultado Obtenido**

**Precisión y Recall Variados:** Las categorías '1' y '2' tienen valores de 0.00 en todas las métricas, lo que sugiere que el modelo no predijo correctamente ninguna muestra de estas clases.

**Mejor Rendimiento en Categorías con Más Datos:** Las categorías con más muestras (como '5') tienen una mejor precisión y recall.

**Exactitud General del 55%:** Indica que el modelo es correcto en aproximadamente la mitad de los casos.

**F1-Score Variado:** Refleja un equilibrio entre la precisión y el recall, mostrando variaciones significativas entre categorías.

**Construir y evaluar un modelo de clasificación** utilizando un Clasificador de Bosque Aleatorio (Random Forest Classifier). Este tipo de modelo es una técnica de aprendizaje supervisado que opera construyendo múltiples árboles de decisión durante el entrenamiento y produciendo la clase que es la moda de las clasificaciones de los árboles individuales para la clasificación.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns


# Dividimos el conjunto de datos en entrenamiento y prueba para poder evaluar el modelo
X_train, X_test, y_train, y_test = train_test_split(final_features, data['Label'], test_size=0.2, random_state=42)

# Inicializamos el clasificador de bosque aleatorio y lo entrenamos con los datos de entrenamiento
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Realizamos predicciones con el modelo en el conjunto de prueba
y_pred = model.predict(X_test)
# Generamos un informe con las principales métricas de clasificación para evaluar el modelo
performance_report = classification_report(y_test, y_pred)

# Calculamos métricas adicionales para tener una evaluación más detallada del rendimiento del modelo
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

# Creamos y visualizamos la matriz de confusión para entender mejor dónde el modelo está haciendo correctas e incorrectas predicciones
conf_matrix = confusion_matrix(y_test, y_pred)

# Visualización de la Matriz de Confusión con Seaborn
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix, annot=True, fmt='g', cmap='Blues')
plt.title('Matriz de Confusión')
plt.xlabel('Predicciones')
plt.ylabel('Valores Verdaderos')
plt.show()

# Imprimimos todas las métricas calculadas para el modelo
performance_report, accuracy, precision, recall, f1

**Resultado Anterior** El modelo tiene problemas para clasificar las clases '1' y '2', ya que no ha hecho ninguna predicción correcta para estas clases, como se muestra por la precisión, el recall y el F1-score de 0.00.
La clase '5' tiene la mayor cantidad de predicciones correctas, lo que puede ser debido a un mayor número de muestras de entrenamiento, lo que generalmente mejora el rendimiento del modelo para esa clase específica.
Las clases '3' y '4' muestran un rendimiento intermedio, con algunas predicciones correctas, pero también con un número considerable de confusiones entre ellas.
La exactitud global del modelo es del 55%, lo que indica que puede predecir correctamente más de la mitad de las veces en el conjunto de prueba.
La matriz de confusión visual muestra que hay una tendencia del modelo a predecir con mayor frecuencia las clases con más ejemplos, lo cual es un comportamiento típico en conjuntos de datos desequilibrados.

**Realiza una búsqueda en cuadrícula con validación cruzada** para optimizar los hiperparámetros de un modelo de clasificación. El objetivo es encontrar la combinación de hiperparámetros (max_depth, min_samples_split, n_estimators) que resulte en la mejor precisión (accuracy) del modelo. Utiliza GridSearchCV de sklearn para automatizar la búsqueda y la validación cruzada, probando diferentes combinaciones de hiperparámetros y validando cada combinación mediante el método de validación cruzada con 5 particiones.

Para esto, utilizaremos una técnica llamada búsqueda en cuadrícula (Grid Search) con validación cruzada, que prueba sistemáticamente una serie de combinaciones de hiperparámetros y evalúa su rendimiento.

In [None]:
from sklearn.model_selection import GridSearchCV

# Definición de los hiperparámetros a ajustar
param_grid = {
    'n_estimators': [50, 100, 200],  # Define un rango para la cantidad de árboles en el bosque
    'max_depth': [None, 10, 20, 30],  # Define un rango para la máxima profundidad de cada árbol
    'min_samples_split': [2, 5, 10]  # Define el número mínimo de muestras requeridas para dividir un nodo
}

# Creación del objeto GridSearchCV para realizar la búsqueda en cuadrícula con los parámetros definidos
# 'cv=5' indica que se usa validación cruzada de 5 folds
# 'n_jobs=-1' permite usar todos los procesadores disponibles para paralelizar la operación
# 'scoring='accuracy'' establece la precisión como la métrica para evaluar el rendimiento
ggrid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, n_jobs=-1, scoring='accuracy')

# Ejecución de la búsqueda en cuadrícula en los datos de entrenamiento para encontrar los mejores hiperparámetros
grid_search.fit(X_train, y_train)

# Obtención de los mejores hiperparámetros y la mejor puntuación de precisión después de la búsqueda en cuadrícula
best_params = grid_search.best_params_
best_score = grid_search.best_score_

# Los resultados muestran los mejores hiperparámetros encontrados y la precisión correspondiente
best_params, best_score

**Resultado Anterior** Los resultados obtenidos del GridSearchCV indican que la mejor configuración de hiperparámetros para el clasificador de bosque aleatorio en este caso es con max_depth no definido (lo que permite que los árboles crezcan tanto como sea necesario), min_samples_split en 10 (requiriendo al menos 10 muestras para dividir un nodo interno), y n_estimators en 50 (usando 50 árboles en el bosque). La mejor puntuación de precisión obtenida con esta configuración es aproximadamente 0.634, lo que significa que el modelo, con estos hiperparámetros, tiene una precisión del 63.4% en la clasificación correcta de las muestras durante la validación cruzada.

**Reentrenar un modelo de clasificación de bosque aleatorio** (Random Forest) utilizando hiperparámetros que han sido identificados como óptimos mediante un proceso de búsqueda en cuadrícula (GridSearchCV). Una vez reentrenado, el modelo se evalúa con el conjunto de prueba para determinar si la optimización de hiperparámetros ha mejorado su rendimiento en términos de precisión, recall y F1-score.

El modelo reentrenado con los hiperparámetros óptimos ha sido evaluado en el conjunto de prueba.

In [None]:
# Reentrenamiento del modelo con los hiperparámetros óptimos encontrados por GridSearchCV
model_optimized = RandomForestClassifier(
    n_estimators=50, # Número óptimo de árboles
    max_depth=None, # Profundidad máxima de los árboles sin restricciones
    min_samples_split=10, # Número mínimo de muestras requeridas para dividir un nodo
    random_state=42 # Semilla para la reproducibilidad de los resultados
)

# Entrenamiento del modelo optimizado con el conjunto de entrenamiento
model_optimized.fit(X_train, y_train)

# Realizar predicciones con el modelo optimizado en el conjunto de prueba
y_pred_optimized = model_optimized.predict(X_test)

# Generación del informe de rendimiento para el modelo optimizado
# Esto incluye precisión, recall y F1-score para cada una de las clases
performance_report_optimized = classification_report(y_test, y_pred_optimized)
performance_report_optimized

**Resultado Anterior**
La precisión global ponderada y el F1-score de 0.46 y 0.51, respectivamente, junto con una precisión total del 59%, sugieren que el modelo optimizado ha mejorado en comparación con el modelo antes de la optimización de hiperparámetros.

Este análisis sugiere que, aunque la optimización de hiperparámetros ha mejorado el rendimiento general del modelo, todavía hay deficiencias significativas en la capacidad del modelo para clasificar todas las clases de manera equitativa.

**Mtraiz Confusion**

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
import matplotlib.pyplot as plt
import seaborn as sns

# Calculamos las métricas de rendimiento para el modelo optimizado
accuracy_optimized = accuracy_score(y_test, y_pred_optimized)
precision_optimized = precision_score(y_test, y_pred_optimized, average='weighted')
recall_optimized = recall_score(y_test, y_pred_optimized, average='weighted')
f1_optimized = f1_score(y_test, y_pred_optimized, average='weighted')

# Creación de la Matriz de Confusión para el modelo optimizado
conf_matrix_optimized = confusion_matrix(y_test, y_pred_optimized)

# Visualización de la Matriz de Confusión
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix_optimized, annot=True, fmt='g', cmap='Blues')
plt.title('Matriz de Confusión del Modelo Optimizado')
plt.xlabel('Predicciones')
plt.ylabel('Valores Verdaderos')
plt.show()

accuracy_optimized, precision_optimized, recall_optimized, f1_optimized


**Explorar técnicas de procesamiento de NLP para extraer características más significativas del texto.**

profundizaremos en la extracción de características mejorada utilizando técnicas más avanzadas de procesamiento de NLP. El objetivo es capturar de manera más efectiva la información contenida en los comentarios y descripciones, lo cual podría mejorar significativamente el rendimiento del modelo de recomendación. Aquí están los enfoques que exploraremos:

El propósito es profundizar en la comprensión del lenguaje y extraer características más ricas y significativas de los comentarios y descripciones. Las técnicas avanzadas como BERT, GPT, análisis de sentimientos, descomposición de tópicos y entrenamiento de word embeddings personalizados permiten capturar la semántica, el contexto, las emociones y los temas clave de los textos, lo cual puede incrementar significativamente la eficacia de un modelo de recomendación.

Está diseñado para generar representaciones vectoriales (embeddings) de texto utilizando BERT (Bidirectional Encoder Representations from Transformers), un modelo de procesamiento de lenguaje natural (NLP) preentrenado. Estas representaciones capturan el contexto semántico de las palabras en los comentarios y pueden mejorar significativamente las características utilizadas para el entrenamiento de modelos de aprendizaje automático,

In [None]:
from transformers import BertTokenizer, BertModel
import torch

# Cargar el tokenizador y modelo preentrenado BERT base version no diferenciador de mayúsculas
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model_bert = BertModel.from_pretrained('bert-base-uncased')

def bert_embeddings(text):
    """
    Función para obtener embeddings de BERT para un texto dado.
    """
    # Tokeniza el texto y lo prepara como input para el modelo BERT
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=512)

    # Pasa los inputs tokenizados al modelo BERT y obtiene los outputs
    outputs = model_bert(**inputs)

    # Retorna el promedio de los últimos estados ocultos como la representación vectorial del texto
    return outputs.last_hidden_state.mean(dim=1).detach().numpy()

# Aplica la función a cada comentario para obtener sus embeddings y los almacena en un tensor
bert_features = torch.stack([torch.tensor(bert_embeddings(comment)) for comment in data['Comentario']])

# Muestra las dimensiones del tensor de features, indicando el número de comentarios y la longitud del embedding
bert_features.shape

**Resutado Anterior** Los resultados de la ejecución del código muestran que los embeddings de BERT se han calculado con éxito para 486 comentarios, con cada comentario siendo representado por un vector de 768 elementos (el tamaño de los embeddings de la capa oculta de BERT base). El tamaño del tensor resultante es [486, 1, 768], lo que sugiere que ahora tenemos una representación densa y rica en información para cada comentario, que podría ser utilizada para entrenar un modelo de clasificación o regresión.

El siguiente paso es integrarlas con tus características numéricas y
categóricas preprocesadas y luego utilizar este conjunto de características combinado para entrenar y evaluar tu modelo de recomendación.

**Mejorar el conjunto de características para el entrenamiento de un modelo** de clasificación incorporando representaciones de texto avanzadas obtenidas a través de BERT. Al combinar estas representaciones de lenguaje natural con características numéricas y categóricas preprocesadas, se busca enriquecer el conjunto de datos y potencialmente aumentar la precisión del modelo al capturar mejor la semántica y el contexto de los comentarios.

In [None]:
import numpy as np

# Convertir los embeddings de BERT a un array de NumPy y remover la dimensión extra
bert_features_np = bert_features.squeeze().numpy()

# Combinar los embeddings de BERT con las características preprocesadas convirtiéndolas a NumPy array
combined_features = np.hstack((data_preprocessed.toarray(), bert_features_np))

# División del conjunto de datos combinados en entrenamiento y prueba
X_train_combined, X_test_combined, y_train_combined, y_test_combined = train_test_split(
    combined_features,
    data['Label'], # Asumiendo que 'data' es un DataFrame y 'Label' es la columna objetivo
    test_size=0.2,
    random_state=42
)

# Inicialización y entrenamiento del modelo de clasificación con las características combinadas
model_optimized.fit(X_train_combined, y_train_combined)

# Predicción y evaluación del modelo con el conjunto de prueba
y_pred_combined = model_optimized.predict(X_test_combined)
performance_report_combined = classification_report(y_test_combined, y_pred_combined)

performance_report_combined

**Resultado Anterior** Después de combinar las características textuales avanzadas con las características numéricas y categóricas preprocesadas, el modelo de clasificación optimizado presenta los siguientes resultados:

Las clases '1', '2', y '3' tienen una precisión y recall de 0.00. Esto sugiere que el modelo no está clasificando correctamente estas clases. La falta de rendimiento puede deberse a una muestra insuficiente de estas clases en los datos de entrenamiento, características poco representativas, o puede que el modelo necesite una estructura más compleja o diferente para capturar la variabilidad en estas clases específicas.

La clase '4' muestra una mejora en la precisión al 0.50 y un recall de 0.33. Aunque hay un avance en comparación con las clases '1' a '3', todavía indica un margen de mejora significativo para predecir correctamente estas muestras.

La clase '5' mantiene un rendimiento relativamente alto, con una precisión de 0.57 y un recall de 0.92, lo que resulta en un F1-score de 0.70. Esto indica que el modelo es capaz de identificar y clasificar con precisión las muestras de esta clase.

La precisión ponderada y el F1-score son 0.42 y 0.46 respectivamente, con una exactitud global de 0.55. Comparado con los resultados previos al uso de BERT, parece haber una disminución en la exactitud general, lo que podría indicar que la integración de características de BERT podría necesitar un ajuste adicional o que otras características están influyendo en el desempeño de las clases minoritarias.

La conclusión es que, aunque la integración de BERT ha enriquecido el conjunto de características, no necesariamente se traduce en una mejora directa en todas las métricas de clasificación.

**Metricas *1* Aplicar Métricas al Modelo Propuesto**

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
import matplotlib.pyplot as plt
import seaborn as sns

# Calculamos las métricas de rendimiento
accuracy = accuracy_score(y_test_combined, y_pred_combined)
precision = precision_score(y_test_combined, y_pred_combined, average='weighted')
recall = recall_score(y_test_combined, y_pred_combined, average='weighted')
f1 = f1_score(y_test_combined, y_pred_combined, average='weighted')

# Creación de la Matriz de Confusión
conf_matrix = confusion_matrix(y_test_combined, y_pred_combined)

# Visualización de la Matriz de Confusión
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix, annot=True, fmt='g', cmap='Blues')
plt.title('Matriz de Confusión')
plt.xlabel('Predicciones')
plt.ylabel('Valores Verdaderos')
plt.show()

# Resultados de las métricas
accuracy, precision, recall, f1



Interpretación de la Matriz de Confusión:
Filas (Valores Verdaderos): Representan las clases reales de los datos de prueba.
Columnas (Predicciones): Representan las clases predichas por el modelo.
Diagonal Principal: Muestra el número de predicciones correctas para cada clase (verdaderos positivos).
Fuera de la Diagonal Principal: Representa los casos en los que el modelo ha hecho una predicción incorrecta (falsos positivos y falsos negativos).
Observaciones específicas:

El modelo predijo correctamente 45 instancias de la clase '5', lo que sugiere que es la clase con mejor desempeño.
Para la clase '4', el modelo predijo correctamente 9 instancias, pero hubo 4 instancias que el modelo clasificó incorrectamente como '5'.
Las clases '1', '2' y '3' tienen muy pocas o ninguna predicción correcta, lo que indica que el modelo tiene dificultades con estas clases. Esto puede ser un indicador de desbalance de clases en el conjunto de datos.
Interpretación de las Métricas:
Exactitud (Accuracy): Aproximadamente el 55.10% de todas las predicciones fueron correctas.
Precisión (Precision): Cuando el modelo predice una clase, es correcto aproximadamente el 42.26% del tiempo.
Recall: El modelo identifica correctamente aproximadamente el 55.10% de todas las instancias positivas.
F1-Score: Es una medida de la precisión y el recall. En este caso, es aproximadamente 0.4617, lo que sugiere que hay un equilibrio relativamente bajo entre la precisión y el recall del modelo.
Conclusiones:
El modelo muestra un buen rendimiento al predecir la clase '5', pero es menos efectivo con las demás clases.
El bajo rendimiento en las clases '1', '2' y '3' puede deberse a un desbalance en el conjunto de datos, donde estas clases pueden estar subrepresentadas.
La precisión y el F1-Score bajos sugieren que hay margen de mejora, particularmente en la capacidad del modelo para manejar clases menos representadas o más difíciles de diferenciar.

**Predicciones con el conjunto de prueba**

In [None]:
# Predicciones con el conjunto de prueba
y_pred_test = model_optimized.predict(X_test_combined)

# Análisis de los resultados de la prueba
# Comparación de las predicciones con los valores reales
print("Predicciones:", y_pred_test)
print("Valores verdaderos:", y_test_combined)

# Obtener una visión general del rendimiento del modelo en cada clase
from sklearn.metrics import classification_report
print(classification_report(y_test_combined, y_pred_test))


Predicciones vs. Valores Verdaderos:

Las predicciones del modelo están fuertemente sesgadas hacia las clases '4' y '5', con una tendencia a predecir '5' la mayoría de las veces.
Los valores verdaderos muestran una distribución más uniforme entre las clases '3', '4' y '5', con algunas instancias pertenecientes a las clases '1' y '2'.
Métricas de Rendimiento:

Precisión: Para las clases '4' y '5', es del 50% y 57%, respectivamente, lo que significa que cuando el modelo predice estas clases, es correcto la mitad del tiempo para '4' y algo más de la mitad para '5'.
Recall: El modelo tiene un recall de 0% para las clases '1', '2' y '3', lo que significa que no identificó correctamente ninguna de las instancias verdaderas para estas clases. Para las clases '4' y '5', los valores de recall son del 33% y 92%, respectivamente, lo que indica que el modelo es capaz de identificar la mayoría de las instancias de la clase '5', pero no así para la clase '4'.
F1-Score: Los valores de F1-Score son bajos para todas las clases excepto para la '5'. El F1-Score es una media armónica de la precisión y el recall, y un valor bajo indica que el modelo no está equilibrado en términos de precisión y recall.
Exactitud (Accuracy):

La exactitud global es del 55%, lo que indica que más de la mitad de las predicciones totales fueron correctas. Sin embargo, esta métrica puede ser engañosa debido al desbalance entre las clases.
Inferencias y Conclusiones:
El modelo está claramente sesgado hacia las clases con más datos, particularmente la clase '5'. Esto puede ser un resultado del desbalance de clases en el conjunto de datos de entrenamiento.
La incapacidad del modelo para identificar las clases '1', '2' y '3' sugiere que no está aprendiendo características discriminativas para estas clases o que hay muy pocos datos para aprender de estas clases.
A pesar de que la clase '4' está mejor representada que '1', '2' y '3', el modelo aún lucha por predecirla correctamente, lo que podría ser un indicativo de características compartidas o confusas entre las clases '4' y '5'.
La métrica de exactitud no es un buen indicador del rendimiento del modelo en este caso, debido a la distribución desigual de las clases.