# Recolección y Exploración del Corpus de Noticias

## Introducción
El análisis de texto es una técnica fundamental en el procesamiento del lenguaje natural (NLP), utilizada para extraer información significativa de grandes volúmenes de datos textuales. En este caso, trabajaremos con un conjunto de noticias provenientes de un archivo de datos en Excel, con el objetivo de realizar una carga, exploración y análisis inicial del corpus de noticias.

### Este cuaderno Jupyter se enfocará en:

1. Carga y visualización del corpus 
* Importación del archivo de noticias en un DataFrame de Pandas.
* Inspección de la estructura y calidad de los datos.
* Identificación de valores nulos o inconsistencias en las noticias.

2. Exploración del corpus
* Análisis estadístico del conjunto de datos.
* Conteo de la cantidad de noticias por categoría.
* Cálculo de la longitud promedio de los artículos en términos de palabras.

3. Palabras más frecuentes
* Extracción de todas las palabras del corpus de noticias.
* Conteo de la frecuencia de cada palabra en el conjunto de datos.
* Identificación de las palabras más utilizadas en los artículos.

## Importancia del Corpus de Noticias
El análisis de este corpus nos permitirá identificar tendencias, patrones lingüísticos y relaciones entre palabras, lo cual es útil para aplicaciones como:

* Análisis de sentimientos: Determinar la polaridad de las noticias.
* Clasificación de noticias: Organizar artículos en categorías relevantes.
* Extracción de palabras clave: Identificar términos importantes dentro del corpus.
* Modelado de temas: Descubrir patrones y agrupaciones temáticas en los datos.

# 1. Carga y Visualización del Corpus

In [19]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ojito\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ojito\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Este fragmento de código descarga dos recursos clave de la biblioteca NLTK (Natural Language Toolkit), que es una de las herramientas más utilizadas para el procesamiento del lenguaje natural (NLP):

1. nltk.download('punkt'):
* Descarga el paquete Punkt, que contiene un modelo de tokenización preentrenado.
* Se utiliza para dividir un texto en oraciones o palabras, facilitando el análisis del corpus.

2. nltk.download('stopwords'):
* Descarga una lista de stopwords (palabras vacías o de poco significado, como "el", "la", "de", etc.).
* Estas palabras suelen eliminarse en tareas de análisis de texto, ya que no aportan mucho significado a nivel de contenido.

In [21]:
# Importar las bibliotecas necesarias
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
import string
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from gensim.models import Word2Vec

# Descargar recursos de NLTK
nltk.download('punkt')
nltk.download('stopwords')
from nltk.corpus import stopwords

# Cargar el archivo de datos
file_path = r'C:\Users\ojito\Gerencia de Proyectos 2\Noticias.xlsx'

data = pd.read_excel(file_path)

# Mostrar una vista previa de los datos

data.shape

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ojito\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ojito\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


(14396, 6)

Este fragmento de código se encarga de importar bibliotecas, descargar recursos de NLP, cargar el dataset y mostrar su estructura.

1. Importación de bibliotecas
* pandas: Para la manipulación y análisis del dataset.
* nltk.tokenize.word_tokenize: Para dividir el texto en palabras.
* string y re: Para manipulación de texto y expresiones regulares.
* TfidfVectorizer (Scikit-learn): Para la vectorización de texto usando TF-IDF, una técnica que mide la importancia de cada palabra en un documento.
* Word2Vec (Gensim): Para la representación de palabras en vectores numéricos basados en su contexto en el corpus.

2. Descarga de recursos de NLTK
* punkt: Para tokenización en NLTK.
* stopwords: Contiene palabras vacías en varios idiomas.

3. Carga del dataset
* Carga el archivo de Excel en un DataFrame de Pandas.
* Se asume que el script se ejecuta en Google Colab (por el uso de '/content/' como ruta).

4. Visualización de la estructura de los datos
* shape devuelve la forma del dataset en (filas, columnas), permitiendo conocer el tamaño del corpus de noticias.

In [23]:
if data.empty:
    print("Error: El archivo está vacío o no se pudo cargar.")
else:
    print(f"Dataset cargado correctamente con {data.shape[0]} filas y {data.shape[1]} columnas.")

Dataset cargado correctamente con 14396 filas y 6 columnas.


Mostramos las primeras filas para entender la estructura

In [25]:
data.head()

Unnamed: 0,Columna1,Enlaces,Título,info,contenido,Etiqueta
0,0,https://www.eltiempo.com/agresion-contra-un-op...,Operador de grúa quedó inconsciente tras agres...,El conductor de una moto le lanzó el casco y p...,Las autoridades están buscando al conductor de...,colombia
1,1,https://www.eltiempo.com/archivo/documento/CMS...,"Usaquén, primera en infracciones por mal parqueo",La localidad ocupa el primer lugar en comparen...,"""Los andenes son para los peatones"", reclama e...",archivo
2,2,https://www.eltiempo.com/archivo/documento/CMS...,'Me atracaron y vi un arma que me heló la sang...,Un ciudadano relata cómo cuatro hombres lo rob...,A las 7 de la noche me había quedado de encont...,archivo
3,3,https://www.eltiempo.com/archivo/documento/CMS...,"Escoltas mal estacionados, dolor de cabeza de ...",Las zonas de restaurantes se convierten en par...,Atravesados. Eso es lo que se les pasa por la ...,archivo
4,4,https://www.eltiempo.com/archivo/documento/CMS...,Radicado primer proyecto que autorizaría union...,"El representante de 'la U', Miguel Gómez, dijo...",“Estamos proponiendo la figura de un contrato ...,archivo


# 2. Exploración del Corpus

In [31]:
# Cantidad de noticias por categoría
print("\n📌 Cantidad de noticias por etiqueta:")
print(data["Etiqueta"].value_counts())

# Longitud promedio de los artículos (usando 'contenido' en lugar de 'contenido_preprocesado')
data["longitud"] = data["contenido"].dropna().apply(lambda x: len(str(x).split()))
print("\n📊 Longitud promedio de los artículos:", data["longitud"].mean())

# Palabras más frecuentes en el corpus (usando 'contenido' en lugar de 'contenido_preprocesado')
from collections import Counter

# Concatenar todos los textos en un solo string
texto_completo = " ".join(data["contenido"].dropna())
palabras = texto_completo.split()
conteo_palabras = Counter(palabras)

# Mostrar las 10 palabras más comunes
print("\n🔝 Palabras más frecuentes en el corpus:")
print(conteo_palabras.most_common(10))


📌 Cantidad de noticias por etiqueta:
Etiqueta
archivo                 9187
colombia                 934
deportes                 727
opinion                  532
mundo                    446
cultura                  430
economia                 367
justicia                 343
bogota                   311
vida                     268
politica                 252
tecnosfera               214
salud                    106
historias-el-tiempo       57
mundial                   47
contenido-comercial       34
elecciones                33
unidad-investigativa      27
podcast                   20
foro-w                    18
bocas                     15
carrusel                   8
datos                      7
lecturas-dominicales       6
mas-contenido              4
especiales                 3
Name: count, dtype: int64

📊 Longitud promedio de los artículos: 531.6849614208764

🔝 Palabras más frecuentes en el corpus:
[('de', 496879), ('la', 253580), ('en', 212954), ('que', 190982), ('el', 18

1. Cantidad de noticias por categoría (Etiqueta)
* Se cuenta cuántas noticias hay en cada categoría y se imprime el resultado.
  
2. Longitud promedio de los artículos (contenido)
* Se calcula la cantidad promedio de palabras en los artículos.
* Se usa .dropna() para evitar errores con valores nulos.
* Se utiliza split() para contar el número de palabras en cada artículo.
  
3. Palabras más frecuentes en el corpus (contenido)
* se concatenan todos los artículos en un solo texto.
* Se separan las palabras usando split().
* Se utiliza Counter de la biblioteca collections para contar la frecuencia de cada palabra.
* Se imprimen las 10 palabras más comunes en el corpus de noticias.

# 3. Palabras Más Frecuentes

In [37]:
from collections import Counter

# Obtener todas las palabras en una sola lista (usando 'contenido' en lugar de 'tokens_sin_stopwords')
todas_las_palabras = [word for text in data["contenido"].dropna() for word in text.split()]

# Contar la frecuencia de cada palabra
conteo_palabras = Counter(todas_las_palabras)

# Mostrar las 10 palabras más comunes
print("\n🔝 Palabras más frecuentes en el corpus:")
print(conteo_palabras.most_common(10))


🔝 Palabras más frecuentes en el corpus:
[('de', 496879), ('la', 253580), ('en', 212954), ('que', 190982), ('el', 181023), ('y', 161176), ('a', 135845), ('del', 112492), ('los', 92772), ('con', 85706)]


Este fragmento de código cuenta las palabras más frecuentes en el corpus de noticias utilizando la columna contenido. Aquí está el desglose de lo que hace:

1. Obtener todas las palabras en una sola lista
* Se itera sobre la columna contenido, asegurando que no haya valores nulos con .dropna().
* Cada artículo de noticias se divide en palabras usando .split(), generando una lista de todas las palabras.

2. Contar la frecuencia de cada palabra
* Se utiliza la clase Counter de la biblioteca collections para contar cuántas veces aparece cada palabra en el conjunto de datos.

3. Mostrar las 10 palabras más comunes
* Se usa most_common(10) para obtener e imprimir las 10 palabras con mayor frecuencia en el corpus.