# ¿Qué es Trafilatura?

Es una librería de Python diseñada para extraer automáticamente el texto principal de artículos en páginas web.

A diferencia de BeautifulSoup (donde vos tenés que buscar manualmente los p o div), Trafilatura ya está optimizada para detectar y devolver solo el contenido central de un artículo, sin menús, publicidad, ni pie de página.

👉 Ideal para construir corpus de textos periodísticos, blogs, revistas.

## ¿Qué es un corpus de textos?

Un corpus es una colección de textos organizados que sirven como base para análisis, minería de texto o entrenamiento de modelos de lenguaje.

Ejemplo: podés scrapear notas de Clarín, Página/12 o Revista Ñ, sobre un tema (ej: política, economía, cultura, un personaje famoso).

Ese corpus luego se convierte en un dataset.

##¿Qué es metadata?

Metadata = datos sobre los datos.

En este caso, no solo querés el texto del artículo, sino también información adicional:
URL de origen
Fecha de publicación
Autor
Medio (Página/12, Clarín, etc.)
Tema o categoría
La metadata es clave para:
Recuperación aumentada de datos (ej. RAG con modelos de lenguaje).
Filtrar corpus por fecha, fuente o temática.
Mantener trazabilidad y transparencia del dataset.

##Explicación del codigo
El código usa la librería Trafilatura para descargar y extraer el texto principal de artículos de una página web, en este caso una nota de Página/12. Primero, se define una función que recibe una URL y trata de obtener el contenido de la página. Si logra descargarlo, intenta extraer el texto limpio (sin comentarios ni imágenes). Si todo sale bien, devuelve ese texto; si no, devuelve un mensaje de error. Esto evita que el programa se corte cuando hay problemas con alguna URL.

Luego, se prepara una lista de URLs (podés agregar tantas como quieras) y se crea una lista vacía para ir guardando los datos. Por cada URL, el programa muestra en consola cuál está procesando, llama a la función para obtener el texto y lo guarda junto con la URL en un diccionario. Ese diccionario se va agregando a la lista corpus_data.

Después, con pandas, se transforma esa lista en un DataFrame (una tabla) donde cada fila corresponde a un artículo y las columnas son la URL y el texto extraído. Así se construye un corpus de textos periodísticos.

El programa también imprime las primeras filas de esa tabla para revisarla, y recorre todas las filas mostrando por consola el texto de cada artículo con su URL correspondiente. Por último, permite acceder de forma directa al texto de un artículo en particular (por ejemplo, el primero de la lista).

In [None]:
!pip install trafilatura -q

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m132.6/132.6 kB[0m [31m5.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m837.9/837.9 kB[0m [31m14.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m315.5/315.5 kB[0m [31m16.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m274.7/274.7 kB[0m [31m11.7 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
import trafilatura

In [None]:
url = "https://www.pagina12.com.ar/849012-taylor-swift-anuncia-el-lanzamiento-de-su-nuevo-disco-the-li"

In [None]:
downloaded = trafilatura.fetch_url(url)
text = trafilatura.extract(downloaded, include_comments=False, include_images=False)
print(text)

Taylor Swift anunció la preventa de su nuevo álbum, titulado "The Life of a Showgirl". La novedad se dio a conocer esta medianoche y en su web oficial se publicaron las primeras imágenes, difuminadas, de un vinilo, un CD y un casete con un candado que no deja ver cómo será la portada porque será "revelada en una fecha posterior".
Aunque se reveló el título de su nuevo trabajo de estudio, el número 12 de su carrera, no se indicó cuándo será su lanzamiento oficial. De todos modos, se anticipó que quienes compren el disco en esta preventa lo recibirán antes del 13 de octubre.
"Quería mostrarles algo", publió la estrella pop estadounidense en un video publicado en su Instagram mientras, sostiene un disco de vinilo con la portada completamente borrosa.
"Este es mi nuevo álbum: 'The Life of a Show Girl'", agregó en la grabación, en el podcast de su novio, el jugador de fútbol americano Travis Kelce, y su hermano, el exjugador de la NFL Jason Kelce.
"The Life of a Showgirl" es el sucesor del 

In [None]:
import pandas as pd
import trafilatura

def obtener_texto_articulo(url):
    """
    Obtiene y extrae texto de una URL dada usando trafilatura.

    Args:
        url (str): La URL del artículo.

    Returns:
        str: El texto extraído del artículo, o un mensaje de error si la obtención o extracción falla.
    """
    try:
        descargado = trafilatura.fetch_url(url)
        if descargado:
            texto = trafilatura.extract(descargado, include_comments=False, include_images=False)
            if texto:
                return texto
            else:
                return "No se pudo extraer texto de la URL."
        else:
            return "No se pudo obtener la URL."
    except Exception as e:
        return f"Ocurrió un error: {e}"

# Lista de URLs para construir el corpus (puedes modificar esta lista)
urls = [
    "https://www.pagina12.com.ar/849012-taylor-swift-anuncia-el-lanzamiento-de-su-nuevo-disco-the-li",
    # Agrega más URLs aquí si es necesario
]

# Crear una lista para almacenar los datos
corpus_data = []

# Iterar sobre las URLs y extraer el texto
for url in urls:
    print(f"Procesando: {url}")
    texto_extraido = obtener_texto_articulo(url)
    corpus_data.append({'URL': url, 'Texto': texto_extraido})

# Crear el DataFrame de pandas
df_corpus = pd.DataFrame(corpus_data)

# Mostrar las primeras filas del DataFrame
display(df_corpus.head())

Procesando: https://www.pagina12.com.ar/849012-taylor-swift-anuncia-el-lanzamiento-de-su-nuevo-disco-the-li


Unnamed: 0,URL,Texto
0,https://www.pagina12.com.ar/849012-taylor-swif...,Taylor Swift anunció la preventa de su nuevo á...


In [None]:
# Iterar sobre las filas del DataFrame e imprimir el texto completo
for index, row in df_corpus.iterrows():
    print(f"--- Texto del artículo de la URL: {row['URL']} ---")
    print(row['Texto'])
    print("-" * 30) # Separador entre artículos

--- Texto del artículo de la URL: https://www.pagina12.com.ar/849012-taylor-swift-anuncia-el-lanzamiento-de-su-nuevo-disco-the-li ---
Taylor Swift anunció la preventa de su nuevo álbum, titulado "The Life of a Showgirl". La novedad se dio a conocer esta medianoche y en su web oficial se publicaron las primeras imágenes, difuminadas, de un vinilo, un CD y un casete con un candado que no deja ver cómo será la portada porque será "revelada en una fecha posterior".
Aunque se reveló el título de su nuevo trabajo de estudio, el número 12 de su carrera, no se indicó cuándo será su lanzamiento oficial. De todos modos, se anticipó que quienes compren el disco en esta preventa lo recibirán antes del 13 de octubre.
"Quería mostrarles algo", publió la estrella pop estadounidense en un video publicado en su Instagram mientras, sostiene un disco de vinilo con la portada completamente borrosa.
"Este es mi nuevo álbum: 'The Life of a Show Girl'", agregó en la grabación, en el podcast de su novio, el j

In [None]:
# También podes acceder al texto de un artículo específico por su índice
# Por ejemplo, para el primer artículo (índice 0):
print(df_corpus.loc[0, 'Texto'])

Taylor Swift anunció la preventa de su nuevo álbum, titulado "The Life of a Showgirl". La novedad se dio a conocer esta medianoche y en su web oficial se publicaron las primeras imágenes, difuminadas, de un vinilo, un CD y un casete con un candado que no deja ver cómo será la portada porque será "revelada en una fecha posterior".
Aunque se reveló el título de su nuevo trabajo de estudio, el número 12 de su carrera, no se indicó cuándo será su lanzamiento oficial. De todos modos, se anticipó que quienes compren el disco en esta preventa lo recibirán antes del 13 de octubre.
"Quería mostrarles algo", publió la estrella pop estadounidense en un video publicado en su Instagram mientras, sostiene un disco de vinilo con la portada completamente borrosa.
"Este es mi nuevo álbum: 'The Life of a Show Girl'", agregó en la grabación, en el podcast de su novio, el jugador de fútbol americano Travis Kelce, y su hermano, el exjugador de la NFL Jason Kelce.
"The Life of a Showgirl" es el sucesor del 