<div>
<img src="https://i.ibb.co/v3CvVz9/udd-short.png" width="150"/>
    <br>
    <strong>Universidad del Desarrollo</strong><br>
    <em>Magíster en Data Science</em><br>
    <em>Profesora: Maria Paz Raveau</em><br>
    <em>Asignatura: Procesamiento de Lenguaje Natural</em><br>

</div>

# **Tarea 1**

*Fecha de Entrega: Domingo 20, Julio 2025.*

**Nombre Estudiante**: Victor Saldivia Vera

### **01. Intrucciones y Enunciado**

Suponga que ud. es contactado por alguna agencia gubernamental que quiere saber qué dijeron los participantes de los cabildos de 2016. Ud. debe entonces, basándose en los textos de fundamento, responder a este requerimiento.  Use para ello la base de datos que vimos en clases, de los cabildos provinciales. 

- Escoja alguna de los conceptos que vienen en la base de datos (evite las que no tengan muchas entradas). Hemos visto cómo generar WordClouds con tokens y con bigramas. *¿Es posible valerse de las etiquetas gramaticales para mejorar el resultado?* 
- Pruebe haciendo un WordCloud con tokens/sustantivos,  y otro con  bigramas/sustantivo-adjetivo. Recuerde pre-procesar correctamente.
- Con estos mismo bigramas/sustantivo-adjetivo, haga una red de bigramas.
- Ayúdese con frases de ejemplo, y de los WordClouds, para escribir una descripción del concepto.


### **02. Descripción de la Data**


In [50]:
import pandas as pd
df = pd.read_excel('data/resultadocabildoprovincial.xlsx')
print(f'Dimensión: {df.shape}'), 
print(f'Nombre de Columnas: {df.columns}')

Dimensión: (30414, 12)
Nombre de Columnas: Index(['region_nombre', 'provincia_nombre', 'comuna_nombre', 'cabildo_id',
       'cabildo_nombre', 'cabildo_direccion', 'num_mesa', 'pregunta_glosa',
       'concepto_nombre', 'concepto_otro', 'tipo-eleccion', 'fundamento'],
      dtype='object')


### **03. Librerías a Utilizar**


In [51]:
import pandas as pd
import numpy as np
import re
import unicodedata
from collections import Counter

# Librerías de Procesamiento de Texto
import nltk
from nltk.corpus import stopwords
from nltk.collocations import BigramCollocationFinder, BigramAssocMeasures
import stanza

# Visualización
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import networkx as nx

# La librería de warnings se utiliza para manejar las advertencias
import warnings
warnings.filterwarnings('ignore')

# Paquete muestra Barra de Progreso
from tqdm import tqdm
tqdm.pandas()

In [None]:
# Descargas (Nota: Ejecutar una sola vez en entorno local)
# nltk.download('punkt')
# nltk.download('stopwords')
# stanza.download('es')

#### Configuración de Stanza para el PLN

In [52]:
nlp = stanza.Pipeline('es', processors='tokenize,pos,lemma', use_gpu=False)  # Cambiar a True si hay GPU


2025-07-19 23:50:14 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 433kB [00:00, 20.5MB/s]                    
2025-07-19 23:50:14 INFO: Downloaded file to C:\Users\Victo\stanza_resources\resources.json
2025-07-19 23:50:14 INFO: Loading these models for language: es (Spanish):
| Processor | Package           |
---------------------------------
| tokenize  | combined          |
| mwt       | combined          |
| pos       | combined_charlm   |
| lemma     | combined_nocharlm |

2025-07-19 23:50:14 INFO: Using device: cpu
2025-07-19 23:50:14 INFO: Loading: tokenize
2025-07-19 23:50:14 INFO: Loading: mwt
2025-07-19 23:50:14 INFO: Loading: pos
2025-07-19 23:50:16 INFO: Loading: lemma
2025-07-19 23:50:18 INFO: Done loading processors!


### **04. Carga y Exploración Inicial**


In [53]:
df.head()

Unnamed: 0,region_nombre,provincia_nombre,comuna_nombre,cabildo_id,cabildo_nombre,cabildo_direccion,num_mesa,pregunta_glosa,concepto_nombre,concepto_otro,tipo-eleccion,fundamento
0,Arica y Parinacota,Arica,Arica,81,Colegio San Marcos,"Santa María 2140, Arica",1,¿Cuáles son los valores y principios más impor...,Autonomía/libertad,,A,sin fundamento
1,Arica y Parinacota,Arica,Arica,81,Colegio San Marcos,"Santa María 2140, Arica",1,¿Cuáles son los valores y principios más impor...,Democracia,,A,Sin fundamento
2,Arica y Parinacota,Arica,Arica,81,Colegio San Marcos,"Santa María 2140, Arica",1,¿Cuáles son los valores y principios más impor...,Descentralización,,A,La descentralizacion de ser autonoma por ser z...
3,Arica y Parinacota,Arica,Arica,81,Colegio San Marcos,"Santa María 2140, Arica",1,¿Cuáles son los valores y principios más impor...,Equidad de género,,A,Sin fundamento
4,Arica y Parinacota,Arica,Arica,81,Colegio San Marcos,"Santa María 2140, Arica",1,¿Cuáles son los valores y principios más impor...,Respeto/conservación de la naturaleza o medio ...,,A,Sin fundamento


#### Conteo de nulos en columnas de texto


In [54]:
texto_col = "fundamento"
print(df[texto_col].isna().sum())

0


#### Estadísticas Descriptivas sobre el texto


In [55]:
df['len_chars'] = df[texto_col].str.len() # columna de longitud de caracteres
df['len_tokens_raw'] = df[texto_col].str.split().str.len() # columna de tokens sin procesar
df[['len_chars','len_tokens_raw']].describe()

Unnamed: 0,len_chars,len_tokens_raw
count,30414.0,30414.0
mean,69.090123,10.82827
std,69.670394,10.993367
min,1.0,1.0
25%,15.0,2.0
50%,47.0,7.0
75%,102.0,16.0
max,300.0,61.0


#### Eliminación de nulos y duplicados


In [56]:
before = len(df)
df = df.dropna(subset=[texto_col])
df = df.drop_duplicates(subset=[texto_col])
print(f"Filas eliminadas: {before - len(df)}")

Filas eliminadas: 11088


### **05. Selección de Concepto**


In [57]:
# Distribución de frecuencias para elegir uno con suficientes observaciones
concepto_col = "concepto_nombre" 
concept_counts = df[concepto_col].value_counts()
concept_counts.head(20)

concepto_nombre
Otro                                                      3976
Igualdad                                                   519
Democracia                                                 507
Descentralización                                          503
Justicia                                                   492
Respeto/conservación de la naturaleza o medio ambiente     484
A la vida                                                  440
A la salud                                                 437
A la educación                                             428
Respeto                                                    385
Fuerzas Armadas                                            381
Bien Común/comunidad                                       381
Congreso o parlamento (estructura y funciones)             373
A la vivienda digna                                        365
Plebiscitos, referendos y consultas                        361
Respeto por la constitución            

#### Selección de Concepto

In [None]:
concepto_elegido = "Democracia" 

#### Creación del Subconjunto filtrado

In [65]:
subset = df[df[concepto_col] == concepto_elegido].copy()
print("Filas del concepto:", len(subset))
#subset.head(3)

Filas del concepto: 437
