<h1>Tarea</h1>
<h3>Explorando la Reputación Corporativa</h3>

<h1>Contexto</h1>

En la era digital, la reputación corporativa se ha convertido en un activo crucial para las empresas, influyendo en su éxito, su capacidad para atraer talento y su relación con los consumidores. En este contexto, el análisis de sentimiento emerge como una herramienta poderosa para comprender la percepción pública de una empresa en línea.

El análisis de sentimiento es una técnica que permite identificar, cuantificar y analizar las emociones y opiniones expresadas en texto, ya sea en redes sociales, reseñas de productos, artículos de noticias o cualquier otro tipo de contenido en línea. Al aplicar esta técnica al estudio de la reputación corporativa, se puede obtener una visión profunda de cómo una empresa es percibida por el público en general y cómo estas percepciones pueden influir en su imagen y desempeño.

En esta serie de artículos, nos adentraremos en el emocionante campo del análisis de sentimiento aplicado a la reputación corporativa. Exploraremos cómo esta técnica puede ayudar a las empresas a monitorear la opinión pública, identificar tendencias emergentes, evaluar la satisfacción del cliente y detectar posibles problemas de reputación.

<h1>Asignación</h1>

Después de revisar los cuaderno sobre "Explorando la Reputación Corporativa: Parte de Web Scraping" y "Explorando la Reputación Corporativa: Parte de Análisis de Sentimiento", tenemos el objetivo de desarrollar un sistema de análisis de sentimiento basado en Big Data para explorar la reputación corporativa de Facebook, con el fin de comprender la percepción del público y detectar tendencias y patrones relevantes.

Como experto en Big Data, se le solicita desarrollar este sistema de análisis de sentimiento utilizando técnicas avanzadas de procesamiento de lenguaje natural y aprendizaje automático. El sistema deberá recopilar y analizar datos de diversas fuentes en línea, como redes sociales, foros, noticias y reseñas de productos, para identificar la opinión y el sentimiento del público hacia la Empresa.

<h1>Tareas</h1>

- Recopilación de datos: Obtener datos en línea de diversas fuentes relevantes para la reputación corporativa de [Nombre de la Empresa], como Twitter, Facebook, blogs, noticias, etc.
- Preprocesamiento de datos: Limpiar y preparar los datos para su análisis, incluyendo la eliminación de ruido, la normalización de texto y la tokenización.
- Desarrollo de algoritmos de análisis de sentimiento: Diseñar y desarrollar algoritmos de análisis de sentimiento utilizando técnicas de aprendizaje automático, como modelos de clasificación de texto y análisis de emociones.
- Implementación del sistema: Implementar el sistema de análisis de sentimiento en una infraestructura de Big Data escalable y eficiente, asegurando su capacidad para procesar grandes volúmenes de datos en tiempo real.
- Evaluación del sistema: Evaluar el rendimiento del sistema utilizando métricas adecuadas, como precisión, recall y F1-score, y realizar ajustes según sea necesario.
- Generación de informes: Generar informes periódicos que resuman los resultados del análisis de sentimiento y destaquen las tendencias y patrones identificados.

<h1>Código en Python</h1>

En esta sección, es fundamental cargar las diferentes bibliotecas que se utilizarán en el estudio para garantizar un análisis efectivo y eficiente de los datos. A continuación, se proporciona un ejemplo de cómo podrías cargar estas bibliotecas en Python

In [None]:
import numpy as np
import pandas as pd
from nltk.corpus import stopwords
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
import seaborn as sns
from matplotlib import pyplot as plt
import re
import contractions
from sklearn.svm import LinearSVC
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from wordcloud import WordCloud
from textblob import TextBlob
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
import itertools


Los datos esta disponible para descargar directamente desde el repositorio de <a href='https://drive.google.com/file/d/1TwSiWvg-WAYfpgzsC3L-Dg3BEEIJkD-N/view?usp=drive_link'>datos</a>.

El primer paso consiste en cargar los datos que utilizaremos para entrenar nuestros modelos.

In [None]:
RANDOMSEED=56

df = pd.read_csv('training.csv',lineterminator='\n')
display(df.shape)
display(df.head())
display(df.info())

En esta etapa inicial, nos enfocamos en cargar específicamente la parte de los tweets de nuestros datos. Descartamos otras columnas o atributos que no son relevantes para nuestro análisis o modelo, centrándonos únicamente en la información contenida en los tweets.

In [None]:
df = df[['Tweet']]
display(df.head())

<h1>Proceso de Limpieza</h1>
Después de cargar los datos de los tweets, procedemos a realizar una limpieza exhaustiva de los mensajes mediante el desarrollo de una función especializada para este propósito. El proceso comienza convirtiendo todos los mensajes a formato de cadena de texto y luego los transformamos a minúsculas para mantener una coherencia en el análisis. Posteriormente, eliminamos todas las URLs, las menciones de usuarios (@user), los hashtags (#), emojis, números y signos de puntuación.

In [None]:
def data_cleaning(tweet):
  tweet = str(tweet)
  tweet = tweet.lower()
  tweet = re.sub('http\S+|www\S+|https\S+', '', tweet, flags=re.MULTILINE)
  tweet = re.sub('\@\w+|\#', '', tweet)

  regrex_pattern = re.compile(pattern = "["
        u"\U0001F600-\U0001F64F"
        u"\U0001F300-\U0001F5FF"
        u"\U0001F680-\U0001F6FF"
        u"\U0001F1E0-\U0001F1FF"
        u"\U00002702-\U000027B0"
        u"\U000024C2-\U0001F251"
                           "]+", flags = re.UNICODE)
  regrex_pattern.sub('',tweet)

  tweet = ''.join(c for c in tweet if not c.isdigit())

  expanded = []
  for word in tweet.split():
    expanded.append(contractions.fix(word))
  tweet =  ' '.join(expanded)

  tweet = re.sub('[^\w\s]', '', tweet)

  stop_words = set(stopwords.words('english'))
  tweet_tokens = word_tokenize(tweet)
  filtered_texts = [word for word in tweet_tokens if word not in stop_words]

  lemma = WordNetLemmatizer()
  lemma_texts = (lemma.lemmatize(text, pos='a') for text in filtered_texts)

  return " ".join(lemma_texts)


In [None]:
df.Tweet = df['Tweet'].apply(data_cleaning)
display(df.Tweet.head())

In [None]:
display(df[df.duplicated()].shape)
display(df[df.duplicated()].head())

df = df.drop_duplicates('Tweet')

Nos interesa ver el conjunto de datos

In [None]:
#

<h2>Polaridad</h2>


In [None]:
def polarity(Tweet):
  return TextBlob(Tweet).sentiment.polarity

Nos interesa que se aplique la funcion de polaridad al conjunto de datos

In [None]:
#df['Polarity'] = df['Tweet'].apply()
#df.head()

<h2>Categorias</h2>
Nos interesa que se aplique la funcion de Categorias al conjunto de datos

In [None]:
def get_label(score):
  if score < 0:
    return 'Negative'
  elif score == 0:
    return 'Neutral'
  else:
    return 'Positive'

In [None]:
#df['Sentiment'] = df['Polarity'].apply()
#df.head()

<h1>Análisis exploratorio de datos</h1>
Presenta un wordcloud del conjunto de datos

In [None]:
words = ' '.join([tweets for tweets in df['Tweet']])
plt.figure(figsize = (20,15))
wordCloud = WordCloud(width = 1600, height = 800, random_state = 21).generate(words)
plt.imshow(wordCloud, interpolation = "bilinear")
plt.axis("off")
plt.show()

<h1>Divide tu data para entrenar el modelo y poder hacer pruebas de los modelos</h1>

In [None]:
X_train, X_val, y_train, y_val = train_test_split(df["Tweet"], df["Sentiment"], test_size=0.2, random_state=RANDOMSEED)
display(X_train.shape)
display(X_val.shape)

<h2>Extracción de Características</h2>

In [None]:
vect = TfidfVectorizer(sublinear_tf=True).fit(X_train)

feature_names = vect.get_feature_names_out()
display("Numero de features: {}".format(len(feature_names)))
X_train = vect.transform(X_train)

<h1>Entrenamiento de los modelos </h1>

In [None]:
def evaluate_model(predictions, train_predictions):
    """Comparar el rendimiento del modelo de aprendizaje automático con la referencia. Calculo estadísticos y Muestra de la curva ROC."""
    
    results = {}
    results['acurracy'] = accuracy_score(predictions, y_val)

    train_results = {}
    train_results['acurracy'] = accuracy_score(train_predictions, y_train)

    for metric in ['acurracy']:
        display(f'Comparación {metric.capitalize()} - Prueba: {round(results[metric], 2)} Entrenamiento: {round(train_results[metric], 2)}')

    display('Reporte de Prueba')
    print(classification_report(y_val, predictions))
    display('Reporte de Entrenamiento')
    print(classification_report(y_train, train_predictions))

    return accuracy_score(predictions, y_val)

In [None]:
def plot_confusion_matrix(predictions):

    cm = confusion_matrix(y_val, predictions)
    classes = ['Negativo', 'Neutro', 'Positivo']

    plt.figure(figsize = (10, 10))
    plt.imshow(cm, interpolation='nearest', cmap=plt.cm.Oranges)
    plt.title('Matriz de confusión', size = 24)
    plt.colorbar(aspect=4)
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45, size = 14)
    plt.yticks(tick_marks, classes, size = 14)

    fmt = '.2f'
    thresh = cm.max() / 2.

    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt), fontsize = 20,
                    horizontalalignment="center",
                    color="white" if cm[i, j] > thresh else "black")
        
    plt.grid(None)
    plt.tight_layout()
    plt.ylabel('Etiqueta Verdadera')
    plt.xlabel('Etiqueta predicha')

<h2>Linear Support Vector Classifier (SVM)</h2>

Vamos a definir el primer modelo a entrenar. 

Nos gustaría presentar la evaluación del modelo

¿Podrías explicar lo que entiendes del resulato?

In [None]:
model_svm = LinearSVC()
model_svm.fit(X_train, y_train)

In [None]:
train_predictions_svm = model_svm.predict(X_train)
predictions_svm = model_svm.predict(vect.transform(X_val))

acurracy_svm = evaluate_model())
plot_confusion_matrix()

In [None]:
plot_confusion_matrix(predictions_svm)

<h2>Regresión Logística</h2>

Vamos a definir el segundo modelo a entrenar. 

Nos gustaría presentar la evaluación del modelo

¿Podrías explicar lo que entiendes del resulato?

In [None]:
model_lr = LogisticRegression()
model_lr.fit(X_train, y_train)

In [None]:
train_predictions_lr = model_lr.predict(X_train)
predictions_lr = model_lr.predict(vect.transform(X_val))

acurracy_lr = evaluate_model()
plot_confusion_matrix()

<h2>Multinomial Naive Bayes</h2>

Vamos a definir el tercer modelo a entrenar. 

Nos gustaría presentar la evaluación del modelo

¿Podrías explicar lo que entiendes del resulato?

In [None]:
model_nb = MultinomialNB()
model_nb.fit(X_train, y_train)

train_predictions_nb = model_nb.predict(X_train)
predictions_nb = model_nb.predict(vect.transform(X_val))

acurracy_nb = evaluate_model()
plot_confusion_matrix()

<h1>Resultado</h1>

Muestra un resumen de los resultados de todos los modelos

¿Podrías explicar lo que entiendes del resulato?

In [None]:
models = ['LinearSVC (SVM)', 'Regresión logística', 'Multinomial Naive Bayes']
values = np.array([acurracy_svm, acurracy_lr, acurracy_nb])
sns.set_theme(style='whitegrid', rc={'figure.figsize':(6, 4)})  #  elige la apariencia
sns.barplot(x=models, y=values)

<h2>Pruebas</h2>

Realiza una pruebas del sistema de recomendación simulando ser el usuario -8845298781299428018 para evaluar las recomendaciones de cada modelo.

In [None]:
before_df = pd.read_csv('before.csv')
layoff_df = pd.read_csv('layoff.csv')
after_df = pd.read_csv('after.csv')
display(before_df.head())
display(layoff_df.head())
display(after_df.head())

In [None]:
before_df = before_df[['Tweet']]
before_df.Tweet = before_df['Tweet'].apply(data_cleaning)
before_df = before_df.drop_duplicates('Tweet')
display(before_df.shape)
display(before_df.head())

In [None]:

layoff_df = layoff_df[['Tweet']]
layoff_df.Tweet = layoff_df['Tweet'].apply(data_cleaning)
layoff_df = layoff_df.drop_duplicates('Tweet')
display(layoff_df.shape)
display(layoff_df.head())

In [None]:
after_df = after_df[['Tweet']]
after_df.Tweet = after_df['Tweet'].apply(data_cleaning)
after_df = after_df.drop_duplicates('Tweet')
display(after_df.shape)
display(after_df.head())

In [None]:
before_df['Sentiment'] = model_svm.predict(vect.transform(before_df['Tweet']))
display(before_df.shape)
display(before_df.head())

In [None]:
sns.set_theme(style='whitegrid', rc={'figure.figsize':(6, 4)})
sns.countplot(data=before_df, x="Sentiment", hue='Sentiment', palette='bone')

In [None]:
layoff_df['Sentiment'] = model_svm.predict(vect.transform(layoff_df['Tweet']))
display(layoff_df.shape)
display(layoff_df.head())

In [None]:
sns.set_theme(style='whitegrid', rc={'figure.figsize':(6, 4)})
sns.countplot(data=layoff_df, x="Sentiment", hue='Sentiment', palette='bone')

In [None]:
after_df['Sentiment'] = model_svm.predict(vect.transform(after_df['Tweet']))
display(after_df.shape)
display(after_df.head())

In [None]:
sns.set_theme(style='whitegrid', rc={'figure.figsize':(6, 4)})
sns.countplot(data=after_df, x="Sentiment", hue='Sentiment', palette='bone')

In [None]:
def determine_cr(df):
  pos = df[df.Sentiment == 'Positive']
  pos_count = len(pos.index)
  neg = df[df.Sentiment == 'Negative']
  neg_count = len(neg.index)
  cr = ((pos_count-neg_count)/(pos_count+neg_count))*100
  return cr

In [None]:
cr_before = determine_cr(before_df)
cr_layoff = determine_cr(layoff_df)
cr_after = determine_cr(after_df)

In [None]:
col = ['Antes', 'Durante', 'Despues']
values = np.array([cr_before, cr_layoff, cr_after])
sns.set_theme(style='whitegrid', rc={'figure.figsize':(6, 4)})  #  elige la apariencia
sns.barplot(x=col, y=values)
plt.ylabel("Reputación neta de la marca")
plt.title("Comparaciones netas de reputación de marca")

In [None]:
fig, ax = plt.subplots(1,3,figsize=(10,5))
fig.tight_layout(pad=4.0)
ax[0].title.set_text('Antes')
ax[1].title.set_text('Durante')
ax[2].title.set_text('Despues')
sns.countplot(x = 'Sentiment', hue = 'Sentiment', palette='bone', data = before_df, ax=ax[0])
sns.countplot(x = 'Sentiment', hue = 'Sentiment', palette='bone', data = layoff_df, ax=ax[1])
sns.countplot(x = 'Sentiment', hue = 'Sentiment', palette='bone', data = after_df, ax=ax[2])
plt.ylabel("Total")

<h1>Discusión y Conclusión</h1>

Presenta tus conclusiones sobre el trabajo llevado a cabo