Propuesta Machine Learning

1. Análisis de Sentimiento de Reseñas

Descripción:
Analizar las reseñas de los usuarios para determinar el sentimiento (positivo, negativo, neutral).

Ventajas:

Proporciona información valiosa sobre la percepción de los clientes.
Permite a las empresas identificar problemas recurrentes y áreas de mejora.
Ayuda a mejorar la satisfacción del cliente a través de respuestas proactivas.

Desventajas:

Requiere técnicas avanzadas de procesamiento de lenguaje natural (NLP).
Puede ser difícil manejar el sarcasmo, la ironía y los contextos específicos.

Utilidades para el Mercado:

Mejora la gestión de la reputación online.
Permite personalizar la comunicación con los clientes.
Ayuda a desarrollar estrategias de marketing más efectivas.

Carpeta de Datos Utilizados: review-estados review.json

Posibles KPIs con este enfoque: Análisis de Sentimiento de Reseñas

Objetivo: Mejorar la satisfacción del cliente a través de la gestión proactiva de comentarios negativos.

Primer KPI: Reducción del número de reseñas con calificación inferior a 3 estrellas en un 20% trimestralmente.
Métrica: Porcentaje de reseñas con calificación inferior a 3 estrellas.
Objetivo: Aumentar la retención de clientes mediante la respuesta rápida a comentarios negativos.

Segundo KPI: Incremento en la tasa de retención de clientes en un 5% después de implementar el sistema de análisis de sentimiento.
Métrica: Tasa de retención de clientes.
Objetivo: Mejorar la reputación online de la empresa a través de comentarios positivos.

Tercer KPI: Aumento del promedio de calificación de la empresa en sitios de reseñas en línea en 0.5 puntos en un año.
Métrica: Promedio de calificación de la empresa en sitios de reseñas.

In [None]:
#Instalación de Bibliotecas Necesarias
pip install pandas textblob
#Importación de Bibliotecas Necesarias
import pandas as pd
from textblob import TextBlob

In [None]:
def load_reviews(file_path):
    """
    Carga las reseñas desde un archivo JSON a un DataFrame de pandas.

    :param file_path: Ruta al archivo JSON que contiene las reseñas.
    :return: DataFrame con las reseñas.
    """
    df = pd.read_json(file_path, lines=True)
    return df

def analyze_sentiment(text):
    """
    Analiza el sentimiento de un texto dado.

    :param text: Reseña en formato de texto.
    :return: Polaridad del sentimiento (valor entre -1 y 1).
    """
    blob = TextBlob(text)
    return blob.sentiment.polarity

def add_sentiment_column(df):
    """
    Añade una columna de sentimiento al DataFrame.

    :param df: DataFrame que contiene las reseñas.
    :return: DataFrame con una columna adicional de sentimiento.
    """
    df['sentiment'] = df['text'].apply(analyze_sentiment)
    return df

def save_results(df, output_path):
    """
    Guarda el DataFrame con los resultados del análisis de sentimiento a un archivo CSV.

    :param df: DataFrame que contiene las reseñas y los resultados del análisis de sentimiento.
    :param output_path: Ruta al archivo CSV donde se guardarán los resultados.
    """
    df.to_csv(output_path, index=False)

def main():
    """
    Función principal que ejecuta el flujo completo del análisis de sentimiento.

    1. Carga las reseñas desde un archivo JSON.
    2. Analiza el sentimiento de cada reseña.
    3. Guarda los resultados en un archivo CSV.
    """
    # Ruta al archivo de entrada y al archivo de salida
    input_file_path = 'review.json'
    output_file_path = 'sentiment_analysis_results.csv'
    
    # Cargar reseñas
    reviews_df = load_reviews(input_file_path)
    
    # Añadir columna de sentimiento
    reviews_df = add_sentiment_column(reviews_df)
    
    # Guardar resultados
    save_results(reviews_df, output_file_path)
    print(f"Resultados guardados en {output_file_path}")

# Ejecutar la función principal
if __name__ == "__main__":
    main()


2. Recomendador de Negocios

Descripción:

Crear un sistema de recomendación que sugiera negocios a los usuarios basándose en sus reseñas pasadas y las de otros usuarios similares.

Ventajas:

Aumenta la satisfacción del cliente al ofrecer recomendaciones personalizadas.
Incrementa la probabilidad de ventas cruzadas y repetitivas.
Mejora la experiencia del usuario en plataformas como Yelp y Google Maps.

Desventajas:

Requiere un gran volumen de datos para ser preciso.
Puede ser complicado de implementar y mantener.

Utilidades para el Mercado:

Plataformas de reseñas y directorios de negocios pueden retener usuarios por más tiempo.
Ayuda a los negocios a llegar a clientes potenciales de manera más efectiva.

Carpeta de Datos Utilizados: user.parquet review.json business.pkl

Posibles KPIs: Recomendador de Negocios

Objetivo: Incrementar las conversiones de visitas a negocios recomendados.

Primer KPI: Aumento del número de conversiones en ventas en un 10% mensualmente a través de recomendaciones personalizadas.
Métrica: Tasa de conversión de visitas a ventas.
Objetivo: Mejorar la satisfacción del cliente con las recomendaciones de productos o servicios.

Segundo KPI: Aumento del porcentaje de clientes satisfechos con las recomendaciones en un 15% en seis meses.
Métrica: Porcentaje de clientes satisfechos con las recomendaciones.
Objetivo: Optimizar el rendimiento de marketing mediante recomendaciones precisas.

Tercer KPI: Reducción del costo de adquisición de clientes (CAC) en un 10% utilizando recomendaciones personalizadas.
Métrica: Costo de adquisición de clientes.

In [None]:
#Instalamos lo necesario
pip install pandas scikit-surprise
#Importamos lo necesario
import pandas as pd
from surprise import Dataset, Reader, KNNBasic
from surprise import accuracy
from surprise.model_selection import train_test_split

In [None]:
def load_reviews(file_path):
    """
    Carga las reseñas desde un archivo JSON a un DataFrame de pandas.

    :param file_path: Ruta al archivo JSON que contiene las reseñas.
    :return: DataFrame con las reseñas.
    """
    df = pd.read_json(file_path, lines=True)
    return df

def prepare_data(df):
    """
    Prepara los datos para el sistema de recomendación.

    :param df: DataFrame que contiene las reseñas.
    :return: Dataset de Surprise listo para el entrenamiento y evaluación.
    """
    # Seleccionamos solo las columnas necesarias
    df = df[['user_id', 'business_id', 'stars']]
    
    # Definimos el esquema de los datos
    reader = Reader(rating_scale=(1, 5))
    
    # Creamos el dataset de Surprise
    data = Dataset.load_from_df(df, reader)
    
    return data

def build_and_evaluate_model(data):
    """
    Construye y evalúa el modelo de recomendación.

    :param data: Dataset de Surprise listo para el entrenamiento y evaluación.
    :return: Algoritmo entrenado y precisión del modelo.
    """
    # Dividimos el dataset en entrenamiento y prueba
    trainset, testset = train_test_split(data, test_size=0.25)
    
    # Definimos el algoritmo KNN básico
    algo = KNNBasic()
    
    # Entrenamos el modelo
    algo.fit(trainset)
    
    # Predecimos los datos de prueba
    predictions = algo.test(testset)
    
    # Calculamos la precisión del modelo
    rmse = accuracy.rmse(predictions)
    
    return algo, rmse

def get_top_n_recommendations(algo, user_id, n=10):
    """
    Obtiene las top N recomendaciones para un usuario dado.

    :param algo: Algoritmo entrenado de Surprise.
    :param user_id: ID del usuario para el cual se desean obtener las recomendaciones.
    :param n: Número de recomendaciones a obtener.
    :return: Lista de tuples con las recomendaciones (business_id, estimated_rating).
    """
    # Obtenemos todos los ítems
    all_items = algo.trainset.all_items()
    
    # Convertimos los ítems a sus IDs originales
    items = [algo.trainset.to_raw_iid(iid) for iid in all_items]
    
    # Predecimos las calificaciones para todos los ítems no vistos por el usuario
    predictions = [algo.predict(user_id, iid) for iid in items]
    
    # Ordenamos las predicciones por la calificación estimada
    predictions.sort(key=lambda x: x.est, reverse=True)
    
    # Retornamos las top N recomendaciones
    top_n = [(pred.iid, pred.est) for pred in predictions[:n]]
    
    return top_n

def main():
    """
    Función principal que ejecuta el flujo completo del sistema de recomendación.

    1. Carga las reseñas desde un archivo JSON.
    2. Prepara los datos para el sistema de recomendación.
    3. Construye y evalúa el modelo de recomendación.
    4. Obtiene y muestra las top N recomendaciones para un usuario específico.
    """
    # Ruta al archivo de entrada
    input_file_path = 'review.json'
    
    # Cargar reseñas
    reviews_df = load_reviews(input_file_path)
    
    # Preparar datos
    data = prepare_data(reviews_df)
    
    # Construir y evaluar modelo
    algo, rmse = build_and_evaluate_model(data)
    print(f"Precisión del modelo (RMSE): {rmse}")
    
    # Obtener y mostrar recomendaciones para un usuario específico
    user_id = 'Ha3iJu77CxlrFm-vQRs_8g'  # Cambia este ID por el que desees
    top_n_recommendations = get_top_n_recommendations(algo, user_id)
    print(f"Top {len(top_n_recommendations)} recomendaciones para el usuario {user_id}:")
    for business_id, rating in top_n_recommendations:
        print(f"Business ID: {business_id}, Estimated Rating: {rating}")

# Ejecutar la función principal
if __name__ == "__main__":
    main()

3. Segmentación de Clientes

Descripción:

Agrupar clientes en diferentes segmentos basados en su comportamiento, demografía y patrones de reseñas.

Ventajas:

Permite personalizar las campañas de marketing.
Identifica segmentos de alto valor para estrategias específicas.
Mejora la retención de clientes y la lealtad.

Desventajas:

Requiere análisis detallados y algoritmos de clustering.
Los segmentos pueden cambiar con el tiempo, requiriendo actualizaciones periódicas.

Utilidades para el Mercado:

Empresas pueden desarrollar productos y servicios específicos para diferentes segmentos.
Optimización de recursos en campañas de marketing.

Carpeta de Datos Utilizados: user.parquet review.json

Posibles KPIs: Segmentación de Clientes

Objetivo: Mejorar la personalización de ofertas basadas en el comportamiento del cliente.

Primer KPI: Aumento del valor promedio de compra por cliente en un 15% después de implementar la segmentación avanzada.
Métrica: Valor promedio de compra por cliente.
Objetivo: Aumentar la lealtad del cliente mediante ofertas personalizadas.

Segundo KPI: Incremento del número de clientes recurrentes en un 10% trimestralmente después de la implementación de la segmentación de clientes.
Métrica: Porcentaje de clientes recurrentes.
Objetivo: Reducir el abandono de carritos de compra a través de recomendaciones personalizadas.

Tercer KPI: Disminución de la tasa de abandono de carritos en un 5% después de la implementación del modelo de segmentación de clientes.
Métrica: Tasa de abandono de carritos de compra.

In [None]:
#Instalamos lo Necesario
pip install pandas scikit-learn
#Importamos lo necesario
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
def load_user_data(file_path):
    """
    Carga los datos de los usuarios desde un archivo parquet a un DataFrame de pandas.

    :param file_path: Ruta al archivo parquet que contiene los datos de los usuarios.
    :return: DataFrame con los datos de los usuarios.
    """
    df = pd.read_parquet(file_path)
    return df

def preprocess_data(df):
    """
    Preprocesa los datos de los usuarios para la segmentación.

    :param df: DataFrame que contiene los datos de los usuarios.
    :return: DataFrame preprocesado.
    """
    # Seleccionamos solo las columnas relevantes para la segmentación
    df = df[['review_count', 'useful', 'funny', 'cool', 'fans', 'average_stars', 'compliment_hot', 
             'compliment_more', 'compliment_profile', 'compliment_cute', 'compliment_list', 
             'compliment_note', 'compliment_plain', 'compliment_cool', 'compliment_funny', 
             'compliment_writer', 'compliment_photos']]
    
    # Estandarizamos los datos
    scaler = StandardScaler()
    df_scaled = scaler.fit_transform(df)
    
    return df_scaled

def find_optimal_clusters(data, max_k):
    """
    Encuentra el número óptimo de clusters usando el método del codo.

    :param data: Datos preprocesados.
    :param max_k: Número máximo de clusters a considerar.
    """
    iters = range(1, max_k+1)
    sse = []
    for k in iters:
        kmeans = KMeans(n_clusters=k, random_state=42)
        kmeans.fit(data)
        sse.append(kmeans.inertia_)
        print(f'Fit {k} clusters')
    
    plt.figure(figsize=(10, 6))
    plt.plot(iters, sse, marker='o')
    plt.xlabel('Número de Clusters')
    plt.ylabel('SSE')
    plt.title('Método del Codo para Encontrar el Número Óptimo de Clusters')
    plt.show()

def segment_customers(data, n_clusters):
    """
    Segmenta los clientes utilizando K-Means.

    :param data: Datos preprocesados.
    :param n_clusters: Número de clusters.
    :return: Modelo KMeans entrenado y etiquetas de los clusters.
    """
    kmeans = KMeans(n_clusters=n_clusters, random_state=42)
    labels = kmeans.fit_predict(data)
    return kmeans, labels

def add_cluster_labels(df, labels):
    """
    Añade las etiquetas de los clusters al DataFrame original.

    :param df: DataFrame original.
    :param labels: Etiquetas de los clusters.
    :return: DataFrame con las etiquetas de los clusters.
    """
    df['cluster'] = labels
    return df

def visualize_clusters(df):
    """
    Visualiza los clusters utilizando un par de variables seleccionadas.

    :param df: DataFrame que contiene los datos de los usuarios y las etiquetas de los clusters.
    """
    plt.figure(figsize=(10, 6))
    sns.scatterplot(x='average_stars', y='review_count', hue='cluster', data=df, palette='viridis')
    plt.title('Visualización de Clusters')
    plt.show()

def main():
    """
    Función principal que ejecuta el flujo completo de segmentación de clientes.

    1. Carga los datos de los usuarios desde un archivo parquet.
    2. Preprocesa los datos de los usuarios.
    3. Encuentra el número óptimo de clusters.
    4. Segmenta los clientes utilizando K-Means.
    5. Añade las etiquetas de los clusters al DataFrame original.
    6. Visualiza los clusters.
    """
    # Ruta al archivo de entrada
    input_file_path = 'user.parquet'
    
    # Cargar datos de los usuarios
    users_df = load_user_data(input_file_path)
    
    # Preprocesar datos
    data_scaled = preprocess_data(users_df)
    
    # Encontrar el número óptimo de clusters
    find_optimal_clusters(data_scaled, max_k=10)
    
    # Segmentar clientes
    n_clusters = 4  # Elige el número óptimo de clusters basado en el método del codo
    kmeans_model, cluster_labels = segment_customers(data_scaled, n_clusters)
    
    # Añadir etiquetas de los clusters al DataFrame original
    users_df_with_clusters = add_cluster_labels(users_df, cluster_labels)
    
    # Visualizar clusters
    visualize_clusters(users_df_with_clusters)

# Ejecutar la función principal
if __name__ == "__main__":
    main()

4. Predicción de Cierre de Negocios

Descripción:

Predecir la probabilidad de que un negocio cierre basándose en diferentes variables como reseñas, ratings, número de check-ins, etc.

Ventajas:

Permite a los negocios tomar medidas preventivas.
Ayuda a inversores y analistas a evaluar el riesgo.
Proporciona información para políticas de soporte y financiación.

Desventajas:

Puede generar falsos positivos y negativos.
Requiere modelos de clasificación robustos.

Utilidades para el Mercado:

Ayuda a mejorar la estabilidad del mercado.
Proporciona insights valiosos para consultores y gestores de negocios.

Carpeta de Datos Utilizados: business.pkl checkin.json review.json

Posibles KPIs: Predicción de Cierre de Negocios

Objetivo: Optimizar la gestión de riesgos mediante la predicción de cierre de negocios.

Primer KPI: Reducción del riesgo de cierre de negocios en un 15% anualmente utilizando modelos predictivos.
Métrica: Riesgo de cierre de negocios.
Objetivo: Mejorar la planificación financiera a través de predicciones precisas de ingresos.

Segundo KPI: Aumento de la precisión de las predicciones de ingresos en un 10% trimestralmente con modelos de predicción de cierre de negocios.
Métrica: Precisión de las predicciones de ingresos.
Objetivo: Reducir los costos operativos mediante la optimización de recursos en negocios con riesgo de cierre.

Tercer KPI: Disminución del costo operativo en negocios con riesgo de cierre en un 5% después de implementar estrategias basadas en predicciones.
Métrica: Costo operativo en negocios con riesgo de cierre.

In [2]:
#Instalamos lo necesario
pip install pandas scikit-learn
#Importamos lo necesario
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

In [None]:
def load_business_data(file_path):
    """
    Carga los datos de los negocios desde un archivo pickle a un DataFrame de pandas.

    :param file_path: Ruta al archivo pickle que contiene los datos de los negocios.
    :return: DataFrame con los datos de los negocios.
    """
    df = pd.read_pickle(file_path)
    return df

def preprocess_data(df):
    """
    Preprocesa los datos de los negocios para la predicción.

    :param df: DataFrame que contiene los datos de los negocios.
    :return: DataFrame preprocesado y etiquetas.
    """
    # Seleccionamos solo las columnas relevantes para la predicción
    df = df[['review_count', 'stars', 'is_open', 'attributes', 'categories']]
    
    # Convertimos columnas categóricas a dummies
    df = pd.get_dummies(df, columns=['attributes', 'categories'], drop_first=True)
    
    # Separar características y etiquetas
    X = df.drop('is_open', axis=1)
    y = df['is_open']
    
    # Estandarizamos los datos
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)
    
    return X_scaled, y

def train_model(X, y):
    """
    Entrena un modelo de Regresión Logística para predecir el cierre de negocios.

    :param X: Características preprocesadas.
    :param y: Etiquetas (objetivo).
    :return: Modelo entrenado.
    """
    # Dividir los datos en conjuntos de entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Entrenar el modelo
    model = LogisticRegression(random_state=42)
    model.fit(X_train, y_train)
    
    # Evaluar el modelo
    y_pred = model.predict(X_test)
    print("Matriz de confusión:\n", confusion_matrix(y_test, y_pred))
    print("Reporte de clasificación:\n", classification_report(y_test, y_pred))
    print("Exactitud:", accuracy_score(y_test, y_pred))
    
    return model

def main():
    """
    Función principal que ejecuta el flujo completo de predicción de cierre de negocios.

    1. Carga los datos de los negocios desde un archivo pickle.
    2. Preprocesa los datos de los negocios.
    3. Entrena un modelo de Regresión Logística para predecir el cierre de negocios.
    """
    # Ruta al archivo de entrada
    input_file_path = 'business.pkl'
    
    # Cargar datos de los negocios
    business_df = load_business_data(input_file_path)
    
    # Preprocesar datos
    X, y = preprocess_data(business_df)
    
    # Entrenar modelo
    model = train_model(X, y)

# Ejecutar la función principal
if __name__ == "__main__":
    main()

5. Optimización de Horarios de Atención

Descripción:

Analizar los patrones de check-in y reseñas para optimizar los horarios de apertura y cierre de los negocios.

Ventajas:

Mejora la eficiencia operativa.
Aumenta la satisfacción del cliente al estar abierto en horas más convenientes.
Optimiza la asignación de recursos humanos.

Desventajas:

Requiere un análisis detallado de los patrones de tráfico de clientes.
Puede ser complicado ajustar horarios en función de múltiples factores.

Utilidades para el Mercado:

Negocios pueden aumentar sus ingresos al estar abiertos en las horas más concurridas.
Mejora la experiencia del cliente al reducir tiempos de espera.

Carpeta de Datos Utilizados: checkin.json business.pkl