# üß† An√°lisis de Nota Econ√≥mica ‚Äì NLP en Python

## üìå Introducci√≥n

Este notebook presenta un an√°lisis de lenguaje natural (NLP) aplicado a una nota publicada en el diario *La Naci√≥n* el **29 de junio de 2025**, escrita por **Jos√© Del R√≠o**. El art√≠culo se enfoca en el estado de √°nimo y las preocupaciones de distintos referentes empresariales frente a la coyuntura econ√≥mica argentina.

A trav√©s del uso de herramientas de NLP en Python, exploraremos el contenido de la nota para extraer patrones, reducir el texto a sus componentes esenciales y medir su carga emocional o polaridad.

## üéØ Objetivos

- Preprocesar el texto mediante tokenizaci√≥n, lematizaci√≥n y remoci√≥n de stopwords.
- Extraer tokens relevantes del art√≠culo y visualizar palabras frecuentes.
- Realizar un an√°lisis de sentimientos o polaridad del texto completo.
- Observar las distintas opiniones expresadas por 5 referentes clave:
  - **Javier Bolzico**, presidente de Adeba (sector bancario).
  - **Gustavo Weiss**, titular de Camarco (infraestructura).
  - **Issel Kiperszmid**, vicepresidente de la CEDU (desarrollos inmobiliarios).
  - **Mart√≠n Rapallini**, presidente de la Uni√≥n Industrial Argentina (industria nacional).
  - **Mario Grinman**, titular de la C√°mara Argentina de Comercio (comercio y servicios).

Estos representantes, junto con la Bolsa y la Sociedad Rural Argentina, forman un term√≥metro de los sectores m√°s relevantes del pa√≠s.

## üîó Fuente del art√≠culo

[Plan econ√≥mico: ¬øcu√°l es el verdadero riesgo que preocupa a los empresarios? (La Naci√≥n)](https://www.lanacion.com.ar/economia/plan-economico-cual-es-el-verdadero-riesgo-que-preocupa-a-los-empresarios-nid29062025/)

## üß∞ Librer√≠as necesarias

Este proyecto utilizar√° las siguientes bibliotecas de Python:

- **spaCy**: Para tokenizaci√≥n y lematizaci√≥n en idioma espa√±ol.
- **nltk**: Para eliminaci√≥n de *stopwords*.
- **textblob** y **textblob-es**: Para an√°lisis de sentimientos.
- **matplotlib**: Para visualizaci√≥n gr√°fica de los resultados.
- **seaborn**: Para visualizaciones estad√≠sticas mejoradas.
- **pandas**: Para manipulaci√≥n y an√°lisis de datos tabulares.
- **numpy**: Para operaciones num√©ricas y estructuras de datos eficientes.
- **vaderSentiment** *(opcional)*: An√°lisis de polaridad si se decide traducir el texto a ingl√©s.

In [None]:
# Procesamiento de lenguaje natural
import spacy
import nltk
from nltk.corpus import stopwords

# Descargar stopwords de NLTK
nltk.download('stopwords')

# An√°lisis de sentimientos
from textblob import TextBlob

# Visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# An√°lisis y manipulaci√≥n de datos
import pandas as pd
import numpy as np

# VADER (opcional)
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer

# Descargar modelo de spaCy en espa√±ol si a√∫n no est√° cargado
nlp = spacy.load("es_core_news_sm")

# Descargar los corpora necesarios para textblob desde consola
!python -m textblob.download_corpora

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\George\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Finished.


[nltk_data] Downloading package brown to
[nltk_data]     C:\Users\George\AppData\Roaming\nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\George\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\George\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\George\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package conll2000 to
[nltk_data]     C:\Users\George\AppData\Roaming\nltk_data...
[nltk_data]   Package conll2000 is already up-to-date!
[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\George\AppData\Roaming\nltk_data...
[nltk_data]   Package movie_reviews 

## üì• Carga del texto

Para trabajar con el contenido del art√≠culo period√≠stico, primero cargamos el texto desde un archivo local llamado `economic_article-2025-06-29.txt`. Este archivo contiene la nota completa publicada en el diario *La Naci√≥n* el 29 de junio de 2025, escrita por Jos√© Del R√≠o.

El archivo debe estar ubicado en el mismo directorio que este notebook o se debe indicar la ruta relativa correspondiente.

Una vez cargado, el contenido se guarda en la variable `texto` para su posterior an√°lisis.

In [2]:
# Leer el texto desde el archivo .txt
with open("economic_article-2025-06-29.txt", "r", encoding="utf-8") as file:
    texto = file.read()

# Ver los primeros 500 caracteres del texto para verificar
print(texto[:500])

Plan econ√≥mico. Cu√°l es el verdadero riesgo que preocupa a los empresarios?
El debate es cada vez m√°s expl√≠cito; la brecha entre la macro y la micro est√° a flor de piel; cu√°les son las reformas que esperan y porqu√© tienen la mira en el empleo y la actividad; cu√°l es el pa√≠s que corre por las venas de quienes hacen negocios en la Argentina desde hace muchos a√±os; las expectativas sobre el d√≥lar y el dilema de la competitividad.
Fueron tres caf√©s negros y un cortado. La charla se extendi√≥ por 60 m


## üßπ Preprocesamiento del texto

Antes de realizar cualquier an√°lisis, es necesario limpiar y estructurar el texto para facilitar su interpretaci√≥n computacional. En este paso aplicamos varias t√©cnicas de procesamiento de lenguaje natural (NLP):

- **Conversi√≥n a min√∫sculas**: Unificamos todo el texto para evitar diferencias entre palabras id√©nticas por su uso de may√∫sculas.

- **Tokenizaci√≥n**: Dividimos el texto en unidades ling√º√≠sticas m√≠nimas llamadas *tokens* (generalmente palabras).

- **Lematizaci√≥n**: Reducimos cada palabra a su forma base o *lema* (por ejemplo, "ten√≠an" ‚Üí "tener").

- **Eliminaci√≥n de stopwords**: Quitamos palabras vac√≠as o muy frecuentes que no aportan valor sem√°ntico al an√°lisis (como ‚Äúel‚Äù, ‚Äúy‚Äù, ‚Äúde‚Äù).

- **Filtro de puntuaci√≥n y tokens no alfab√©ticos**: Se descartan signos de puntuaci√≥n, n√∫meros y palabras no alfab√©ticas para centrarnos en contenido relevante.

El resultado de este proceso es una lista de palabras limpias y lematizadas que nos servir√° como base para el an√°lisis de frecuencia y sentimiento.

### Tokenizaci√≥n

In [None]:
# Procesar el texto
doc = nlp(texto)

print("‚úÖ Texto procesado con spaCy")
print("Ejemplo de tokens:")
print([token.text for token in doc[:20]])

‚úÖ Texto procesado con spaCy
Ejemplo de tokens:
['Plan', 'econ√≥mico', '.', 'Cu√°l', 'es', 'el', 'verdadero', 'riesgo', 'que', 'preocupa', 'a', 'los', 'empresarios', '?', '\n', 'El', 'debate', 'es', 'cada', 'vez']


### Eliminar Signos de Puntuaci√≥n

In [12]:
# Extraer solo los tokens que son palabras (sin puntuaci√≥n, n√∫meros, etc.)
tokens = [token for token in doc if token.is_alpha]

print("‚úÖ Tokens alfab√©ticos extra√≠dos:")
print([t.text for t in tokens[:20]])

‚úÖ Tokens alfab√©ticos extra√≠dos:
['Plan', 'econ√≥mico', 'Cu√°l', 'es', 'el', 'verdadero', 'riesgo', 'que', 'preocupa', 'a', 'los', 'empresarios', 'El', 'debate', 'es', 'cada', 'vez', 'm√°s', 'expl√≠cito', 'la']


### Convertir a Min√∫sculas

In [13]:
tokens_minuscula = [token.text.lower() for token in tokens]

print("‚úÖ Tokens en min√∫scula:")
print(tokens_minuscula[:20])

‚úÖ Tokens en min√∫scula:
['plan', 'econ√≥mico', 'cu√°l', 'es', 'el', 'verdadero', 'riesgo', 'que', 'preocupa', 'a', 'los', 'empresarios', 'el', 'debate', 'es', 'cada', 'vez', 'm√°s', 'expl√≠cito', 'la']


### Lematizaci√≥n

In [14]:
tokens_lematizados = [token.lemma_ for token in tokens]

print("‚úÖ Tokens lematizados:")
print(tokens_lematizados[:20])

‚úÖ Tokens lematizados:
['Plan', 'econ√≥mico', 'cu√°l', 'ser', 'el', 'verdadero', 'riesgo', 'que', 'preocupar', 'a', 'el', 'empresario', 'el', 'debate', 'ser', 'cada', 'vez', 'm√°s', 'expl√≠cito', 'el']


### Eliminado de Stop Words

In [15]:
stop_words = set(stopwords.words('spanish'))

# Usamos los lemas en min√∫scula
tokens_finales = [lemma.lower() for lemma in tokens_lematizados if lemma.lower() not in stop_words]

print("‚úÖ Tokens limpios (lematizados, min√∫scula, sin stopwords):")
print(tokens_finales[:50])

‚úÖ Tokens limpios (lematizados, min√∫scula, sin stopwords):
['plan', 'econ√≥mico', 'cu√°l', 'ser', 'verdadero', 'riesgo', 'preocupar', 'empresario', 'debate', 'ser', 'cada', 'vez', 'expl√≠cito', 'brecha', 'macro', 'micro', 'flor', 'piel', 'cu√°l', 'ser', 'reforma', 'esperar', 'porqu√©', 'tener', 'mira', 'empleo', 'actividad', 'cu√°l', 'ser', 'pa√≠s', 'correr', 'vena', 'hacer', 'negocio', 'argentina', 'hacer', 'a√±o', 'expectativa', 'd√≥lar', 'dilema', 'competitividad', 'ser', 'tres', 'caf√©', 'negro', 'cortado', 'charla', 'extender', 'minuto', 'eufemismo']


## ‚ù§Ô∏è An√°lisis de Sentimientos

El an√°lisis de sentimientos nos permite identificar la carga emocional del texto: si predominan opiniones positivas, negativas o neutrales. 

En este proyecto exploramos dos enfoques:

- **TextBlob**: Biblioteca simple que devuelve un puntaje de polaridad (de -1 a 1) y subjetividad (de 0 a 1). Aunque su precisi√≥n en espa√±ol es limitada, puede dar una visi√≥n general del tono del art√≠culo completo.
  
- **VADER (Valence Aware Dictionary for Sentiment Reasoning)**: Espec√≠ficamente dise√±ado para textos en ingl√©s. Para usarlo con textos en espa√±ol es necesario traducir el contenido previamente. Este enfoque puede ser √∫til si se busca una evaluaci√≥n m√°s refinada del sentimiento.

Opcionalmente, se puede aplicar el an√°lisis de sentimiento a:
- Todo el art√≠culo
- Fragmentos por referente (opiniones de Bolzico, Rapallini, Grinman, etc.)

Esto permite detectar diferencias de percepci√≥n entre sectores clave de la econom√≠a argentina.