## Procesamiento de Lenguaje Natural con Python

### Profesor: José Incio, Ph.D
#### Departamento de Ciencias Sociales - Sociología
- correo: jincio@pucp.pe
- web: www.joseincio.com

## Clasificación de documentos y Machine Learning para texto.

**Presentación sobre clasificación de documentos con Machine Learning**

**Introducción**

La clasificación de documentos es una tarea importante en muchas áreas, como la investigación, el comercio electrónico y la atención al cliente. En el pasado, esta tarea se realizaba manualmente, pero esto puede ser lento y costoso, especialmente para grandes conjuntos de datos.

El Machine Learning (ML) ofrece una solución a este problema. Los algoritmos de ML pueden aprender a clasificar documentos de forma automática, basándose en un conjunto de datos de entrenamiento. Una vez entrenado, el algoritmo de ML puede clasificar nuevos documentos con una alta precisión.

**Lógica de la clasificación de documentos con ML**

Los algoritmos de ML para la clasificación de documentos funcionan de la siguiente manera:

1. **Preprocesamiento de datos:** El primer paso es preprocesar los datos de entrenamiento. Esto puede incluir tareas como la eliminación de caracteres especiales, la corrección de errores ortográficos y la conversión de todos los documentos a un formato común.
2. **Extracción de características:** Una vez que los datos han sido preprocesados, el algoritmo de ML extrae características de cada documento. Las características son propiedades de los documentos que pueden ayudar al algoritmo a clasificarlos. Por ejemplo, algunas características comunes para la clasificación de documentos de texto son las palabras clave, los temas y la longitud del documento.
3. **Entrenamiento del algoritmo:** El siguiente paso es entrenar el algoritmo de ML. Esto se hace alimentando al algoritmo los datos de entrenamiento y dejándolo que aprenda a clasificar los documentos en función de las características extraídas.
4. **Clasificación de nuevos documentos:** Una vez que el algoritmo ha sido entrenado, puede ser utilizado para clasificar nuevos documentos. Para ello, el algoritmo simplemente extrae las características del nuevo documento y las compara con las características de los documentos de entrenamiento. El algoritmo clasifica entonces el nuevo documento en la categoría que mejor se ajuste a sus características.

**Técnicas más utilizadas para la clasificación de documentos con ML**

Existen muchas técnicas diferentes de ML que pueden utilizarse para la clasificación de documentos. Algunas de las técnicas más utilizadas son:

* **Máquinas de vectores de soporte (SVM):** Las SVM son un tipo de algoritmo de ML que puede utilizarse para clasificar datos no lineales. Las SVM funcionan creando un hiperplano que separa los datos en dos categorías.
* **Árbol de decisión:** Un árbol de decisión es un tipo de algoritmo de ML que puede utilizarse para clasificar datos mediante la creación de un conjunto de reglas. Cada regla en el árbol de decisión comprueba una característica del documento y devuelve una clasificación.
* **Naive Bayes:** Naive Bayes es un tipo de algoritmo de ML basado en la teoría de Bayes. Naive Bayes funciona calculando la probabilidad de que un documento pertenezca a una determinada categoría en función de sus características.

*
**Conclusión**

La clasificación de documentos con ML es una técnica poderosa que puede utilizarse para automatizar la clasificación de grandes conjuntos de documentos. Los algoritmos de ML pueden aprender a clasificar documentos con una alta precisión, lo que puede ahorrar tiempo y dinero a las organizaciones.

*Aplicaciones de la clasificación de documentos con ML**

La clasificación de documentos con ML tiene una amplia gama de aplicaciones, incluyendo:

* **Clasificación de correo electrónico:** Los algoritmos de ML pueden utilizarse para clasificar los correos electrónicos en categorías como spam, importante y personal.
* **Clasificación de documentos legales:** Los algoritmos de ML pueden utilizarse para clasificar los documentos legales en categorías como contratos, facturas y demandas.
* **Clasificación de artículos científicos:** Los algoritmos de ML pueden utilizarse para clasificar los artículos científicos en categorías como temas, autores y revistas.
* **Clasificación de noticias:** Los algoritmos de ML pueden utilizarse para clasificar las noticias en categorías como deportes, política y negocios.




Google Cloud Natural Language API

Para utilizar Google Cloud Natural Language API para la clasificación de documentos, siga estos pasos:

Cree una cuenta de Google Cloud Platform y habilite la API de Natural Language.
Instale la biblioteca de clientes de Natural Language API para su lenguaje de programación preferido.
Cargue el documento que desea clasificar en la biblioteca de clientes.
Llame a la API de Natural Language para clasificar el documento.
La API devolverá una lista de categorías posibles para el documento, junto con sus respectivas puntuaciones de confianza.

## Amazon Comprehend

Para utilizar Amazon Comprehend para la clasificación de documentos, siga estos pasos:

Cree una cuenta de Amazon Web Services (AWS) y habilite el servicio Comprehend.
Instale la biblioteca de clientes de Comprehend para su lenguaje de programación preferido.
Cargue el documento que desea clasificar en la biblioteca de clientes.
Llame a la API de Comprehend para clasificar el documento.
La API devolverá una lista de categorías posibles para el documento, junto con sus respectivas puntuaciones de confianza.
Azure Text Analytics

Para utilizar Azure Text Analytics para la clasificación de documentos:

Cree una cuenta de Microsoft Azure y habilite el servicio Text Analytics.
Instale la biblioteca de clientes de Text Analytics para su lenguaje de programación preferido.
Cargue el documento que desea clasificar en la biblioteca de clientes.
Llame a la API de Text Analytics para clasificar el documento.
La API devolverá una lista de categorías posibles para el documento, junto con sus respectivas puntuaciones de confianza.
IBM Watson Language Understanding

Para utilizar IBM Watson Language Understanding para la clasificación de documentos:

Cree una cuenta de IBM Cloud y habilite el servicio Watson Language Understanding.
Instale la biblioteca de clientes de Watson Language Understanding para su lenguaje de programación preferido.
Cargue el documento que desea clasificar en la biblioteca de clientes.
Llame a la API de Watson Language Understanding para clasificar el documento.
La API devolverá una lista de categorías posibles para el documento, junto con sus respectivas puntuaciones de confianza.

## SpaCy

Para utilizar SpaCy para la clasificación de documentos:

Instale SpaCy y el paquete de modelos de clasificación de texto.
Cargue el documento que desea clasificar en SpaCy.
Utilice SpaCy para extraer las características del documento.
Entrene un modelo de clasificación de texto con las características extraídas.
Utilice el modelo entrenado para clasificar el documento.

Google Cloud Natural Language API
Google Cloud Natural Language API cobra $0.0003 por documento para la clasificación. Para 1000 tweets, el costo sería de $0.30.

Amazon Comprehend
Amazon Comprehend cobra $0.006 por texto para la clasificación. Para 1000 tweets, el costo sería de $6.00.

Azure Text Analytics
Azure Text Analytics cobra $0.0045 por texto para la clasificación. Para 1000 tweets, el costo sería de $4.50.

IBM Watson Language Understanding
IBM Watson Language Understanding cobra $0.0025 por texto para la clasificación. Para 1000 tweets, el costo sería de $2.50.

SpaCy
SpaCy es una biblioteca de código abierto, por lo que no hay un costo directo por usarla para la clasificación. Sin embargo, puede haber costos indirectos, como el costo de alojar y mantener un servidor para ejecutar SpaCy.

Tenga en cuenta que estos son solo estimados y el costo real puede variar según sus patrones de uso y el nivel de precios que elija.




Google Cloud
```
import io
from google.cloud import language

# Crea una instancia del cliente de Natural Language
client = language.LanguageServiceClient()

# Carga el documento que desea clasificar
with io.open("documento.txt", "r", encoding="utf-8") as f:
    document = client.document_from_text(content=f.read())

# Clasifica el documento
classification = client.classify_document(document=document)

# Imprime la categoría más probable para el documento
print(classification.categories[0].name)

```



Amazon Comprehend

```
import boto3

# Crea una instancia del cliente de Comprehend
comprehend = boto3.client("comprehend")

# Carga el documento que desea clasificar
with open("documento.txt", "rb") as f:
    document = f.read()

# Clasifica el documento
response = comprehend.detect_dominant_language(Text=document)

# Imprime el idioma más probable para el documento
print(response["Languages"][0]["LanguageCode"])
```



Azurre

```
import azure.cognitiveservices.textanalytics as textanalytics

# Crea una instancia del cliente de Text Analytics
client = textanalytics.TextAnalyticsClient(credentials=credentials)

# Carga el documento que desea clasificar
with open("documento.txt", "rb") as f:
    document = f.read()

# Clasifica el documento
response = client.classify_text(documents=[document])

# Imprime la categoría más probable para el documento
print(response.classifications[0].categories[0].label)
```





```
# Carga el conjunto de datos de entrenamiento
df_train = pd.read_csv("train.csv", encoding="utf-8")

# Prepara los datos de entrenamiento
X_train = df_train["texto"]
y_train = df_train["categoria"]

# Crea una pipeline


# vectorizer: Transforma el texto en un vector de recuento de palabras.

# tfidf: Transforma el vector de recuento de palabras en un vector TF-IDF.

# clf: Clasifica el texto utilizando un modelo de regresión logística.

pipeline = Pipeline([
    ("vectorizer", CountVectorizer()),
    ("tfidf", TfidfTransformer()),
    ("clf", LogisticRegression()),
])

# Define el espacio de parámetros para GridSearchCV


# clf__C: Hiperparámetro que controla la regularización L1 del modelo.

# clf__penalty: Hiperparámetro que especifica el tipo de regularización (L1 o L2).

param_grid = {
    "clf__C": [0.01, 0.1, 1.0, 10.0],
    "clf__penalty": ["l1", "l2"],
}

# Crea un objeto GridSearchCV


# cv: Número de pliegues para la validación cruzada.

gs_clf = GridSearchCV(pipeline, param_grid, cv=5)

# Entrena el modelo


# gs_clf.fit() entrena el modelo utilizando una validación cruzada de 5 pliegues.

gs_clf.fit(X_train, y_train)

# Imprime el mejor modelo


# gs_clf.best_estimator_ devuelve el mejor modelo según la validación cruzada.

print(gs_clf.best_estimator_)
```



In [None]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

# Carga el conjunto de datos de entrenamiento
df_train = pd.read_csv("train.csv", encoding="utf-8")

# Prepara los datos de entrenamiento
X_train = df_train["texto"]
y_train = df_train["categoria"]

# Crea una pipeline

# vectorizer: Transforma el texto en un vector de recuento de palabras.
# tfidf: Transforma el vector de recuento de palabras en un vector TF-IDF.
# clf: Clasifica el texto utilizando una máquina de vectores de soporte (SVM).

pipeline = Pipeline([
    ("vectorizer", CountVectorizer()),
    ("tfidf", TfidfTransformer()),
    ("clf", SVC()),
])

# Define el espacio de parámetros para GridSearchCV

# clf__C: Hiperparámetro que controla la regularización L1 del modelo.
# clf__kernel: Hiperparámetro que especifica el tipo de núcleo de la SVM.

param_grid = {
    "clf__C": [0.01, 0.1, 1.0, 10.0],
    "clf__kernel": ["linear", "rbf"],
}

# Crea un objeto GridSearchCV

# cv: Número de pliegues para la validación cruzada.

gs_clf = GridSearchCV(pipeline, param_grid, cv=5)

# Entrena el modelo

# gs_clf.fit() entrena el modelo utilizando una validación cruzada de 5 pliegues.

gs_clf.fit(X_train, y_train)

# Imprime el mejor modelo

# gs_clf.best_estimator_ devuelve el mejor modelo según la validación cruzada.

print(gs_clf.best_estimator_)

El núcleo RBF es una buena elección para muchas tareas de aprendizaje automático, como la clasificación, la regresión y la agrupación. Es especialmente adecuado para tareas en las que los datos están separados de forma no lineal.

## USANDO OPEN IA



```
!pip uninstall openai
!pip install openai
```


Esta conexión es para OpenAI
```
import openai
openai.api_key = 'ESTA LLAVE CUESTA'
```



```
pais='Chile'
directorio=""
df_2 = pd.read_csv(directorio+'cleaned_tweets_parties_'+pais+'_g.csv')
df_1 = pd.read_csv(directorio+'Chile/data_problemas_Chile.csv')
```



```
prompt = (
    "Please classify the content of tweets from Chilean congressmen. Assign a number from the "
    "following list of topics based on the central theme or issue of the tweet. If the tweet's content "
    "does not align with any of these topics, assign a 0. The topics, along with some indicative keywords, are:\n"
    "1. Inflación (Inflation) - Keywords: precios, costo de vida, aumento, economía, alza de precios, incremento, subida, devaluacion, alza de canasta basica\n"
    "2. Inseguridad Ciudadana y delincuencia (Public insecurity and crime) - Keywords: seguridad, delitos, policía, crimen, desconfianza, delincuencia, vulnerabilidad, temor\n"
    "3. Salud/Seguridad Social (Health/Social Security) - Keywords: hospitales, médicos, pensiones, salud pública, jubilaciones, covid, virus, vacunas, bienestar, paciente, essalud\n"
    "4. Educación (Education) - Keywords: escuelas, universidades, estudiantes, reforma educativa, alfabetizacion, profesor, enseñanza, aprendizaje\n"
    "5. Derechos de los grupos étnicos y culturales (Rights of ethnic and cultural groups) - Keywords: indígenas, cultura, lengua, diversidad, minorias, discriminacion, pluricultural, identidad\n"
    "6. Desempleo y Subempleo (Unemployment and Underemployment) - Keywords: trabajo, empleo, economía laboral, oportunidades, tasa de desempleo, crisis laboral, subempleo, informal\n"
    "7. Medio Ambiente (Environment) - Keywords: naturaleza, contaminación, protección ambiental, cambio climático, arboles, aves, incendios, sostenibilidad, biodiversidad, conservacion\n"
    "8. Conflictos entre los poderes del Estado (Conflicts between the powers of the State) - Keywords: congreso, gobierno, ley, constitución, separacion de poder, institucional, autonomia, legislativo, ejecutivo, judicial\n"
    "9. Narcotráfico (Drug trafficking) - Keywords: drogas, narcóticos, fronteras, policía, narcotrafico, pandillas, delincuencia organizada, cocaína\n"
    "Analyze the tweets provided below, and for each, indicate only the topic number(s) it pertains to (NEVER A TEXT), based on the central theme of the tweet in relation to the topics and keywords listed. If the tweet is unrelated to these topics, or if you're unable to determine the topic due to lack of context or clarity, assign a 0."
)

```




