## Análisis de Opiniones con Text Analytics
By Fernanda Ochoa.

El presente notebook, desarrolla un ejemplo de como utilizar la data extraída por ThreadsAPI con la implementación de ```getData.py``` y el notebook de limpieza de datos ```threads.ipynb``` para trabajarlo con los servicios cognitivos de Azure.

[Azure Cognitive Services](https://learn.microsoft.com/es-MX/azure/cognitive-services/) es una plataforma basada en la nube que ofrece servicios de inteligencia artificial (IA). Estos servicios nos permiten integrar capacidades cognitivas en aplicaciones sin necesidad de tener conocimientos profundos de IA o ciencia de datos.


#### Categorías de servicios cognitivos

Los servicios cognitivos se pueden clasificar en cinco áreas principales:

+ [Voz](https://learn.microsoft.com/es-MX/azure/cognitive-services/): 
  + Voz a texto
  + Texto a voz
  + Traducción de voz
  + Reconocimiento de voz
+ [Lenguaje](https://learn.microsoft.com/es-MX/azure/cognitive-services/):
  + Reconocimiento de entidades
  + Análisis de opiniones
  + Respuestas a preguntas
  + Reconocimiento de lenguaje conversacional
  + Traductor
+ [Visión](https://learn.microsoft.com/es-MX/azure/cognitive-services/):
  + Análisis de Imágenes y Video
  + Modelos personalizados
+ [Decisión](https://learn.microsoft.com/es-MX/azure/cognitive-services/):
  + Detector de anomalías
  + Moderador de contenido
  + Personalizer
+ [Servicio Azure OpenAI](https://learn.microsoft.com/es-MX/azure/cognitive-services/openai/concepts/models):
  + Dall E
  + GPT-4
  + GPT-3.5
  + Incrustaciones

#### Herramientas

* Pandas
    * Es una biblioteca considerada una extensión de Numpy para la manipulación y análisis de datos con Python.
    * [Pandas Docs](https://pandas.pydata.org/)
* Azure AI TextAnalytics:
  * Es un servicio basado en la nube que proporciona funciones de procesamiento de lenguaje natural (NLP) para comprender y analizar texto.
  * Es necesaria una suscripción de Azure para obtener las credenciales como ```APIKey``` y ```Url Endpoint```.
  * [Azure AI TextAnalytics Docs](https://pypi.org/project/azure-ai-textanalytics/)
* Dot env:
  * Biblioteca para leer los pares clave-valor de un archivo .env y  establecerlos como variables de entorno. Ayuda en el desarrollo de aplicaciones siguiendo los principios de 12 factores.
  * [Dot env Docs](https://pypi.org/project/python-dotenv/)

#### Requisitos
* Dataset: Conjunto de datos en csv con el que vamos a trabajar.
  * Puedes encontrar un ejemplo en la carpeta: ```data``` en formato ```csv```.
* Suscripción de Azure: Ingresar al [portal de azure](https://portal.azure.com), crear una suscripción, agregar una tarjeta (usamos la tarifa gratuita por lo que no hay costos) y listo.
* [Activar suscripción](https://azure.microsoft.com/es-mx/free/)
* Credenciales text analytics: 
  * Ingresar al [portal de azure](https://portal.azure.com)
  * [Seguir el tutorial](https://learn.microsoft.com/es-mx/azure/cognitive-services/cognitive-services-apis-create-account?tabs=multiservice%2Canomaly-detector%2Clanguage-service%2Ccomputer-vision%2Cwindows)

#### Instalamos las Bibliotecas

* [Text analytics](https://pypi.org/project/azure-ai-textanalytics/):
  * Visual Studio Code: ```%pip install azure-ai-textanalytics```
  * Google Colab: ```!pip install azure-ai-textanalytics```
* [Dot env](https://pypi.org/project/python-dotenv/): 
  * Visual Studio Code: ```%pip install python-dotenv```
  * Google Colab: ```!pip install python-dotenv```

#### Credenciales

Una vez creados los servicios cognitivos en el [portal de azure](https://portal.azure.com). Se debe crear en la raíz del proyecto un archivo llamado ```.env```, este archivo de configuración, contiene las variables de entorno del proyecto, es decir las credenciales de acceso al API de los servicios cognitivos.

``` Contenido de mi archivo .env
API_KEY = 'Reemplazar por tus credenciales'
API_ENDPOINT = 'Reemplazar por tus credenciales'
API_REGION = 'Reemplazar por tus credenciales'
```

Recuerda crear el archivo: ```.gitignore``` y añadir tu archivo ```.env``` si planeas subirlo a un repositorio de git.

``` Contenigo de mi archivo .gitignore
# Ignorar archivo .env que puede contener información sensible
.env
```
---

#### Procedimiento

In [1]:
# Instalamos azure-ai-textanalytics
%pip install azure-ai-textanalytics

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [2]:
# Instalamos python-dotenv
%pip install python-dotenv

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


#### Importamos las bibliotecas y variables de entorno

In [3]:
# Importamos las bibliotecas de Azure: Credentials y TextAnalyticsClient
# Importamos la biblioteca pandas para trabajar con los datos
import os
import pandas as pd
from azure.core.credentials import AzureKeyCredential
from azure.ai.textanalytics import TextAnalyticsClient

In [4]:
# Para importar las variables de entorno
from dotenv import load_dotenv
load_dotenv()

True

In [5]:
# Importamos nuestro csv con la data
data = pd.read_csv('../data/cleanData.csv')

In [6]:
# Definimos las credenciales del API
endpoint = os.getenv('API_ENDPOINT')
apiKey = os.getenv('API_KEY')

In [7]:
# Autenticamos el cliente
client = TextAnalyticsClient(endpoint=endpoint, credential=AzureKeyCredential(apiKey))

In [8]:
# Estructuramos el dataframe con las columnas de interés: Text y Likes
data.columns = ['Thread', 'Likes']

In [9]:
# Convertimos el dataframe a una lista 
threads = data['Thread'].tolist()

In [10]:
# Comprobamos que la lista tiene contenido
print(threads)

['Amanecimos con buenas noticias 💪🏽Ya podemos establecer un pipeline de mejora continua. Quizá para fin de año estrenemos revamp en las apps ⚡️', 'Listo, ya solo documento algunos ejemplos con hilos y con funciones asíncronas. Igual un par con Azure OpenAI Services y algunos con Azure Cognitive Services 💅🏼Voy por tacos mientras, ¿En que andan?, ¿Qué se les ocurre que hagamos?', 'Ya les ando preparando el repo para que puedan procesar todos los posts de Threads con Pandas, aunque no será posible que lo corran en in Jupiter Notebook por las llamadas asíncronas.', '¿Cómo va su sábado?, ¿Ya tomaron café?', 'Si llego a mil seguidores el fin les explico cómo hacerlo en Python. No todo el código es mío (Como todo en la programación) pero cuenten con la súper explicación y todo digerible para procesar los datos con pandas.', 'La verdad si se agradece una red social sin hate y sin anuncios 🏽', 'Yo Me queda 1 x 100 🎶Mi jefa Pues ponlo a cargar 🔌😂', 'Empieza mi fin de semana con lluvia, el marató

In [11]:
# Definimos una lista para almacenar las opiniones minadas
mined_opinions = []

In [12]:
# Procesamos los threads en lotes de 10 (límite de la API)
for i in range(0, len(threads), 10):
    batch = threads[i : i + 10]
    result = client.analyze_sentiment(batch, show_opinion_mining=True)
    docs = [doc for doc in result if not doc.is_error]

    for idx, doc in enumerate(docs):
         
        opinions = []
        for sentence in doc.sentences:
            for mined_opinion in sentence.mined_opinions:
                opinions.append({
                    'Target': mined_opinion.target.text,
                    'Assessments': [assessment.text for assessment in mined_opinion.assessments]
                })
        mined_opinions.append(opinions if opinions else ['Ninguna opninion minada'])


In [13]:
# Agregamos una columna al dataframe con las opiniones minadas
data['Mined Opinions'] = mined_opinions

In [14]:
# Comprobamos que el dataframe tiene la nueva columna
data.head()

Unnamed: 0,Thread,Likes,Mined Opinions
0,Amanecimos con buenas noticias 💪🏽Ya podemos es...,14,[Ninguna opninion minada]
1,"Listo, ya solo documento algunos ejemplos con ...",33,[Ninguna opninion minada]
2,Ya les ando preparando el repo para que puedan...,11,[Ninguna opninion minada]
3,"¿Cómo va su sábado?, ¿Ya tomaron café?",15,[Ninguna opninion minada]
4,Si llego a mil seguidores el fin les explico c...,31,"[{'Target': 'explicación', 'Assessments': ['sú..."


In [15]:
# Exploramos la nueva columna y evaluamos si es necesario limpiarla
print(data['Mined Opinions'].head())

0                            [Ninguna opninion minada]
1                            [Ninguna opninion minada]
2                            [Ninguna opninion minada]
3                            [Ninguna opninion minada]
4    [{'Target': 'explicación', 'Assessments': ['sú...
Name: Mined Opinions, dtype: object


#### Procedimiento de formato de datos

In [16]:
# Verificar el tipo de dato de la columna
print(data['Mined Opinions'].apply(type).value_counts())

Mined Opinions
<class 'list'>    22
Name: count, dtype: int64


Al ser una lista que contiene cadenas y diccionarios, es necesario procesarla y formatearla para que sea legible.

In [17]:
# Función para convertir diccionarios o cadenas a strings
def dict_or_string_to_string(item):
    if isinstance(item, dict):
        return ' | '.join([f"{k}: {v}" for k, v in item.items()])
    else:
        return item

El siguiente paso, es algo complicado de leer por lo que explico a detalle:

+ df['Mined Opinions'].apply(...):
  + La función apply() se utiliza para aplicar una función a lo largo de un eje del DataFrame. En este caso, estamos aplicando una función a cada elemento de la columna 'Mined Opinions' de nuestro DataFrame.
+ lambda x: ...: 
  + Aquí defino una función anónima (también conocida como función lambda) que toma un argumento x (en este caso, cada elemento individual de la columna 'Mined Opinions') y luego realiza una operación con ese argumento.
+ ' '.join(...): 
  + Este es un método de una cadena en Python que une una lista de cadenas en una única cadena. El carácter o cadena que llama a este método (en este caso, ' ') se inserta entre cada cadena en la lista. Así que si tienes ['a', 'b', 'c'] y haces ''.join(['a', 'b', 'c']), obtendrás 'a b c'.
+ [dict_or_string_to_string(opinion) for opinion in x]: 
  + Este es un list comprehension en Python. En esencia, lo que está haciendo es tomar cada 'opinión' en la lista x y aplicarle la función dict_or_string_to_string(). Entonces, obtenemos una nueva lista que contiene el resultado de aplicar dict_or_string_to_string() a cada opinión en x.

In [18]:
# Convertir cada diccionario en una cadena y unir todas las cadenas en cada lista de 'Mined Opinions'
data['Mined Opinions'] = data['Mined Opinions'].apply(lambda x: ' '.join([dict_or_string_to_string(opinion) for opinion in x]))

In [21]:
data.head(5)

Unnamed: 0,Thread,Likes,Mined Opinions
0,Amanecimos con buenas noticias 💪🏽Ya podemos es...,14,Ninguna opninion minada
1,"Listo, ya solo documento algunos ejemplos con ...",33,Ninguna opninion minada
2,Ya les ando preparando el repo para que puedan...,11,Ninguna opninion minada
3,"¿Cómo va su sábado?, ¿Ya tomaron café?",15,Ninguna opninion minada
4,Si llego a mil seguidores el fin les explico c...,31,Target: explicación | Assessments: ['súper']


Si así lo deseamos, podemos exportarlo a un csv, complementarlo con más api's, etc.

Threads API: Análisis de Opiniones con Azure y Threads API

Material desarrollado por: Fernanda Ochoa.

Contacto:
* GitHub: [FernandaOchoa](https://github.com/FernandaOchoa)
* Twitter: [@imonsh](https://twitter.com/imonsh)
* Instagram: [fherz8a](https://instagram.com/fherz8a)
* Linkedin: [Fernanda Ochoa](https://www.linkedin.com/in/fernandaochoa8/)