<h1>Tarea</h1>
<h3>Explorando la Reputación Corporativa</h3>

<h1>Contexto</h1>

En la era digital, la reputación corporativa se ha convertido en un activo crucial para las empresas, influyendo en su éxito, su capacidad para atraer talento y su relación con los consumidores. En este contexto, el análisis de sentimiento emerge como una herramienta poderosa para comprender la percepción pública de una empresa en línea.

El análisis de sentimiento es una técnica que permite identificar, cuantificar y analizar las emociones y opiniones expresadas en texto, ya sea en redes sociales, reseñas de productos, artículos de noticias o cualquier otro tipo de contenido en línea. Al aplicar esta técnica al estudio de la reputación corporativa, se puede obtener una visión profunda de cómo una empresa es percibida por el público en general y cómo estas percepciones pueden influir en su imagen y desempeño.

En esta serie de artículos, nos adentraremos en el emocionante campo del análisis de sentimiento aplicado a la reputación corporativa. Exploraremos cómo esta técnica puede ayudar a las empresas a monitorear la opinión pública, identificar tendencias emergentes, evaluar la satisfacción del cliente y detectar posibles problemas de reputación.

<h1>Asignación</h1>

Después de revisar los cuaderno sobre "Explorando la Reputación Corporativa: Parte de Web Scraping" y "Explorando la Reputación Corporativa: Parte de Análisis de Sentimiento", tenemos el objetivo de desarrollar un sistema de análisis de sentimiento basado en Big Data para explorar la reputación corporativa de de una empresa, con el fin de comprender la percepción del público y detectar tendencias y patrones relevantes.

Como experto en Big Data, se le solicita desarrollar este sistema de análisis de sentimiento utilizando técnicas avanzadas de procesamiento de lenguaje natural y aprendizaje automático. El sistema deberá recopilar y analizar datos de diversas fuentes en línea, como redes sociales, foros, noticias y reseñas de productos, para identificar la opinión y el sentimiento del público hacia la Empresa.

<h1>Tareas</h1>

- Recopilación de datos: Obtener datos en línea de diversas fuentes relevantes para la reputación corporativa de [Nombre de la Empresa], como Twitter, Facebook, blogs, noticias, etc.
- Preprocesamiento de datos: Limpiar y preparar los datos para su análisis, incluyendo la eliminación de ruido, la normalización de texto y la tokenización.
- Desarrollo de algoritmos de análisis de sentimiento: Diseñar y desarrollar algoritmos de análisis de sentimiento utilizando técnicas de aprendizaje automático, como modelos de clasificación de texto y análisis de emociones.
- Implementación del sistema: Implementar el sistema de análisis de sentimiento en una infraestructura de Big Data escalable y eficiente, asegurando su capacidad para procesar grandes volúmenes de datos en tiempo real.
- Evaluación del sistema: Evaluar el rendimiento del sistema utilizando métricas adecuadas, como precisión, recall y F1-score, y realizar ajustes según sea necesario.
- Generación de informes: Generar informes periódicos que resuman los resultados del análisis de sentimiento y destaquen las tendencias y patrones identificados.

<h1>Código en Python</h1>

En esta sección, es fundamental cargar las diferentes bibliotecas que se utilizarán en el estudio para garantizar un análisis efectivo y eficiente de los datos. A continuación, se proporciona un ejemplo de cómo podrías cargar estas bibliotecas en Python

In [None]:
import numpy as np
import scipy
import pandas as pd
import math
import random
import sklearn
from nltk.corpus import stopwords
from scipy.sparse import csr_matrix
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from scipy.sparse.linalg import svds
import seaborn as sns
from matplotlib import pyplot as plt
import re

Después, procedemos a cargar los datos utilizando la biblioteca Pandas. Puedes descargar los datos desde el aula virtual o el repositorio de <a href='https://drive.google.com/file/d/1b2o9RS4jty1ATkxszRQlmEEEdQfbM2IU/view?usp=drive_link'>datos</a>, dependiendo de tu preferencia. 

Primero cargamos y visalizamo los datos de los artículos.

In [None]:
RANDOMSEED=56

#adf = pd.read_csv('')
#display(adf.shape)
#display(adf.head())


Luego cargamos el conjunto de datos de users_interactions que contiene registros de interacciones de usuarios en artículos compartidos. Se puede relacionar con articles_shared.csv mediante la columna contentId.

In [None]:
##uidf = pd.read_csv('')
#display(uidf.shape)
#display(uidf.head())

<h1>Análisis exploratorio de datos</h1>

Debemos convertir los datos de timestamp al formato de datetime para las interacciones de los usuarios


In [None]:
#uidf['datetime'] = pd.to_datetime(uidf['timestamp'], unit='s')



Nos interesa graficar el número de interacciones por día

In [None]:
#gdf = uidf.groupby([pd.Grouper(key='datetime', freq='D')]).agg({'eventType':'count'}).reset_index()

#sns.set_theme(style='whitegrid', rc={'figure.figsize':(6, 4)})
#plt.title('Número de interacciones por día', fontsize=13)
#plt.xlabel('Fecha', fontsize=11)
#plt.ylabel('Cantidad de Interacciones', fontsize=11)
#sns.lineplot(data=gdf, y="eventType", x='datetime')

Debemos convertir los datos de timestamp al formato de datetime para los artículos

Nos interesa graficar el número de artículos por día

<h1>Divide tu data para entrenar el modelo y poder hacer pruebas de los modelos</h1>

In [None]:
train_df, val_df = train_test_split(idf, stratify=idf['personId'], test_size=0.2, random_state=RANDOMSEED)

display(train_df.shape)
display(val_df.shape)
display(train_df.head())

<h1>Entrenamiento de los modelos</h1>

<h2>Basado en Popularidad </h2>



In [None]:
pop_df = idf.groupby('contentId')['eventStrength'].sum().sort_values(ascending=False).reset_index()
pop_df.head()
    

Vamos a definir el primer modelo a entrenar. 

Nos gustaría presentar la evaluación del modelo

¿Podrías explicar lo que entiendes del resulato?

In [None]:
people_metrics = []
for idx, person_id in enumerate(list(val_df.index.unique().values)):
    person_metrics = evaluate_model_for_user(person_id)  
    person_metrics['_person_id'] = person_id
    people_metrics.append(person_metrics)

popularity_df = pd.DataFrame(people_metrics).sort_values('interacted_count', ascending=False)

popularity_recall_at_5 = popularity_df['hits@5_count'].sum() / float(popularity_df['interacted_count'].sum())
popularity_recall_at_10 = popularity_df['hits@10_count'].sum() / float(popularity_df['interacted_count'].sum())

popularity_metrics = {'modelName': 'Popularity',
                    'recall@5': popularity_recall_at_5,
                    'recall@10': popularity_recall_at_10}    

display('Métricas de evaluación del modelo de popularidad incluyen el recall para los top 5 y top 10 recomendaciones %s' % popularity_metrics)
popularity_df.head()



<h2>Basado en Contenido</h2>

Revisa las funciones que utilizamos para evaluar los modelos.

In [None]:
stopwords_list = stopwords.words('english')

vectorizer = TfidfVectorizer(analyzer='word',
                     ngram_range=(1, 2),
                     min_df=0.003,
                     max_df=0.5,
                     max_features=5000,
                     stop_words=stopwords_list)

item_ids = adf['contentId'].tolist()
tfidf_matrix = vectorizer.fit_transform(adf['title'] + "" + adf['text'])
tfidf_feature_names = vectorizer.get_feature_names_out()
display(tfidf_matrix)

Vamos a definir el modelo basado en contenido a entrenar.

Nos gustaría presentar la evaluación del modelo

¿Podrías explicar lo que entiendes del resulato?

In [None]:


people_metrics = []
for idx, person_id in enumerate(list(val_df.index.unique().values)):
    person_metrics = evaluate_cont_model_for_user(person_id)  
    person_metrics['_person_id'] = person_id
    people_metrics.append(person_metrics)

content_df = pd.DataFrame(people_metrics) \
                    .sort_values('interacted_count', ascending=False)

content_recall_at_5 = content_df['hits@5_count'].sum() / float(content_df['interacted_count'].sum())
content_recall_at_10 = content_df['hits@10_count'].sum() / float(content_df['interacted_count'].sum())

content_metrics = {'modelName': 'Content',
                    'recall@5': content_recall_at_5,
                    'recall@10': content_recall_at_10}    

print('Métricas de evaluación del modelo de contenido incluyen el recall para los top 5 y top 10 recomendaciones %s' % content_metrics)
content_df.head()

<h2>Métodos Híbridos</h2>

Revisa las funciones que utilizamos para evaluar los modelos.

In [None]:
def recommend_hybrid_items(person_id, items_to_ignore=[], cb_ensemble_weight=1, cf_ensemble_weight=100, verbose=False):
        cb_recs_df = recommend_cont_items(person_id, items_to_ignore=items_to_ignore).rename(columns={'recStrength': 'recStrengthCB'})
        cf_recs_df = recommend_collab_items(person_id, items_to_ignore=items_to_ignore).rename(columns={'recStrength': 'recStrengthCF'})
        recs_df = cb_recs_df.merge(cf_recs_df, how = 'outer', on = 'contentId').fillna(0.0)
        
        recs_df['recStrengthHybrid'] = (recs_df['recStrengthCB'] * cb_ensemble_weight) + (recs_df['recStrengthCF'] * cf_ensemble_weight)
        
        recommendations_df = recs_df.sort_values('recStrengthHybrid', ascending=False)

        if verbose:
            recommendations_df = recommendations_df.merge(adf, how = 'left', on = 'contentId')[['recStrengthHybrid', 'contentId', 'title', 'url', 'lang']]

        return recommendations_df

In [None]:
def evaluate_hybrid_model_for_user(person_id):
    interacted_values_testset = val_df.loc[person_id]
    if type(interacted_values_testset['contentId']) == pd.Series:
        person_interacted_items_testset = set(interacted_values_testset['contentId'])
    else:
        person_interacted_items_testset = set([int(interacted_values_testset['contentId'])])  
    
    interacted_items_count_testset = len(person_interacted_items_testset) 
    person_recs_df = recommend_hybrid_items(person_id, items_to_ignore=get_items_interacted(person_id, train_df))

    hits_at_5_count = 0
    hits_at_10_count = 0
    for item_id in person_interacted_items_testset:
        non_interacted_items_sample = get_not_interacted_items_sample(person_id, sample_size=100, seed=RANDOMSEED)

        items_to_filter_recs = non_interacted_items_sample.union(set([item_id]))

        valid_recs_df = person_recs_df[person_recs_df['contentId'].isin(items_to_filter_recs)]                    
        valid_recs = valid_recs_df['contentId'].values
        hit_at_5, index_at_5 = verify_hit_top_n(item_id, valid_recs, 5)
        hits_at_5_count += hit_at_5
        hit_at_10, index_at_10 = verify_hit_top_n(item_id, valid_recs, 10)
        hits_at_10_count += hit_at_10

    recall_at_5 = hits_at_5_count / float(interacted_items_count_testset)
    recall_at_10 = hits_at_10_count / float(interacted_items_count_testset)

    person_metrics = {'hits@5_count':hits_at_5_count, 
                        'hits@10_count':hits_at_10_count, 
                        'interacted_count': interacted_items_count_testset,
                        'recall@5': recall_at_5,
                        'recall@10': recall_at_10}
    return person_metrics

Vamos a definir el modelo hibrido a entrenar.

Nos gustaría presentar la evaluación del modelo

¿Podrías explicar lo que entiendes del resulato?

In [None]:
people_metrics = []
for idx, person_id in enumerate(list(val_df.index.unique().values)):
    #if idx % 100 == 0 and idx > 0:
    #    print('%d users processed' % idx)
    person_metrics = evaluate_hybrid_model_for_user(person_id)  
    person_metrics['_person_id'] = person_id
    people_metrics.append(person_metrics)

hybrid_df = pd.DataFrame(people_metrics).sort_values('interacted_count', ascending=False)

hybrid_recall_at_5 = hybrid_df['hits@5_count'].sum() / float(hybrid_df['interacted_count'].sum())
hybrid_recall_at_10 = hybrid_df['hits@10_count'].sum() / float(hybrid_df['interacted_count'].sum())

hybrid_metrics = {'modelName': 'Hybrid',
                    'recall@5': hybrid_recall_at_5,
                    'recall@10': hybrid_recall_at_10}    

print('Métricas de evaluación del modelo hibrido incluyen el recall para los top 5 y top 10 recomendaciones %s' % hybrid_metrics)
hybrid_df.head()

<h1>Resultado</h1>

Muestra un resumen de los resultados de todos los modelos

¿Podrías explicar lo que entiendes del resulato?

In [None]:
metrics = pd.DataFrame([popularity_metrics, content_metrics, collaborative_metrics, hybrid_metrics])
metrics

In [None]:
dfm = metrics.melt('modelName', var_name='recall', value_name='values')

sns.set_theme(style='whitegrid', rc={'figure.figsize':(6, 4)})  #  elige la apariencia
sns.barplot(dfm, x="modelName", y="values", hue='recall', palette='bone')

<h2>Pruebas</h2>

Realiza una pruebas del sistema de recomendación simulando ser el usuario -8845298781299428018 para evaluar las recomendaciones de cada modelo.

In [None]:
def inspect_interactions(person_id, test_set=True):
    if test_set:
        interactions_df = val_df
    else:
        interactions_df = train_df
    
    return interactions_df.loc[person_id].merge(adf, how = 'left', on = 'contentId') .sort_values('eventStrength', ascending = False)[['eventStrength', 'contentId','title', 'url', 'lang']]

<h1>Discusión y Conclusión</h1>

Presenta tus conclusiones sobre el trabajo llevado a cabo