In [35]:
"""
Extracci√≥n de Caracter√≠sticas de Texto - An√°lisis de Noticias
Autor: Abraham MD
Fecha: 2025
"""

# === IMPORTACIONES ===
import pathlib
import pandas as pd
import numpy as np
import spacy
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from typing import List, Dict, Tuple, Optional
import warnings
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
pd.set_option('display.max_columns', None)

# === CONFIGURACI√ìN DE RUTAS ===
BASE_DIR = pathlib.Path.cwd().parent.resolve()
print(f"Directorio base del proyecto: {BASE_DIR}")

# Verificar estructura de directorios



BASE_DIR

Directorio base del proyecto: C:\Users\ABRAHAM\Documents\GitHub\Practica-1


WindowsPath('C:/Users/ABRAHAM/Documents/GitHub/Practica-1')

# Carga y An√°lisis del Dataset

Este notebook implementa la extracci√≥n de caracter√≠sticas de texto para el an√°lisis de noticias verdaderas vs falsas.

In [15]:
# === CARGA DEL DATASET LIMPIO ===
def load_clean_dataset() -> Optional[pd.DataFrame]:
    """
    Carga el dataset limpio desde m√∫ltiples ubicaciones posibles
    
    Returns:
        DataFrame con los datos limpios o None si no se encuentra
    """
    # Posibles ubicaciones del archivo
    possible_paths = [
        BASE_DIR / 'data' / 'corpus_limpio' / 'noticias_combinadas.csv'
    ]
    
    for path in possible_paths:
        try:
            if path.exists():
                print(f"Encontrado dataset en: {path}")
                df = pd.read_csv(path, encoding='utf-8')
                
                
                # Limpiar y preparar datos
                df['text'] = df['text'].astype(str)
                df['label'] = df['label'].astype(bool)
                
                # Eliminar textos vac√≠os
                initial_len = len(df)
                df = df[df['text'].str.strip() != ''].reset_index(drop=True)
                removed = initial_len - len(df)
                
                if removed > 0:
                    print(f"Eliminados {removed} registros con texto vac√≠o")
                
                print(f"Dataset cargado: {len(df):,} registros")
                print(f"Columnas: {list(df.columns)}")
                print(f"Distribuci√≥n de etiquetas:")
                label_counts = df['label'].value_counts()
                for label, count in label_counts.items():
                    label_name = "Verdaderas" if label else "Falsas"
                    pct = (count / len(df)) * 100
                    print(f"   ‚Ä¢ {label_name}: {count:,} ({pct:.1f}%)")
                
                return df
                
        except Exception as e:
            print(f"Error cargando {path}: {e}")
            continue
    
    print("No se pudo cargar el dataset desde ninguna ubicaci√≥n")
    return None

# Cargar datos
df = load_clean_dataset()
if df is not None:
    print(f"\nVista previa del dataset:")
    display(df.head())
else:
    print("No se puede continuar sin datos")

Encontrado dataset en: C:\Users\ABRAHAM\Documents\GitHub\Practica-1\data\corpus_limpio\noticias_combinadas.csv
Dataset cargado: 5,518 registros
Columnas: ['text', 'label']
Distribuci√≥n de etiquetas:
   ‚Ä¢ Verdaderas: 2,839 (51.4%)
   ‚Ä¢ Falsas: 2,679 (48.6%)

Vista previa del dataset:


Unnamed: 0,text,label
0,distintas desinformaciones senalan falsamente ...,False
1,el metraje realmente corresponde a embarcacion...,False
2,una cuenta desinformadora de derecha adelanta ...,False
3,se trata de una suplantacion que no ha sido pu...,False
4,un video viral atribuye a hugo ‚Äúel pollo‚Äù carv...,False


In [20]:
# === INICIALIZACI√ìN DE SPACY ===
def setup_spacy_model() -> Optional[spacy.Language]:
    """
    Configura y carga el modelo de SpaCy para espa√±ol
    
    Returns:
        Modelo de SpaCy o None si hay error
    """

    # Intentar cargar el modelo
    nlp = spacy.load("es_core_news_sm")
    
    # Verificar que el modelo funciona
    test_doc = nlp("Esta es una prueba del modelo de SpaCy.")
    if len(test_doc) > 0:
        print("Modelo de SpaCy cargado exitosamente")
        print(f"   ‚Ä¢ Idioma: {nlp.lang}")
        print(f"   ‚Ä¢ Pipeline: {nlp.pipe_names}")
        print(f"   ‚Ä¢ Stopwords disponibles: {len(nlp.Defaults.stop_words)}")
        return nlp
    else:
        print("El modelo no procesa texto correctamente")
        return None
            


# Configurar SpaCy
nlp = setup_spacy_model()

if nlp:
    # Mostrar ejemplo de procesamiento
    sample_text = "Las noticias falsas son un problema grave en la sociedad moderna."
    doc = nlp(sample_text)
    

Modelo de SpaCy cargado exitosamente
   ‚Ä¢ Idioma: es
   ‚Ä¢ Pipeline: ['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']
   ‚Ä¢ Stopwords disponibles: 521


# Tokenizaci√≥n y Stemming

Procesamiento avanzado de texto utilizando SpaCy y NLTK para:
- **Tokenizaci√≥n**: Separar el texto en unidades b√°sicas
- **Stemming**: Reducir palabras a su ra√≠z lexical
- **Filtrado**: Eliminar puntuaci√≥n y espacios irrelevantes

In [22]:
# === PROCESAMIENTO DE TEXTO: TOKENIZACI√ìN Y STEMMING ===

class TextProcessor:
    """
    Clase para procesamiento avanzado de texto con SpaCy y NLTK
    """
    
    def __init__(self, nlp_model=None):
        self.nlp = nlp_model
        self.stemmer = SnowballStemmer('spanish')
        
    def tokenize_and_stem(self, text: str) -> str:
        """
        Tokeniza el texto y aplica stemming usando SpaCy + NLTK
        
        Args:
            text (str): Texto a procesar
            
        Returns:
            str: Texto tokenizado y con stemming aplicado
        """
        if not isinstance(text, str) or not text.strip():
            return ""
        
        if self.nlp is None:
            # Fallback sin SpaCy
            words = text.split()
            stemmed = [self.stemmer.stem(word) for word in words if word.isalpha()]
            return " ".join(stemmed)
        
        try:
            # Procesar con SpaCy
            doc = self.nlp(text)
            
            # Filtrar y aplicar stemming
            processed_tokens = []
            for token in doc:
                # Filtrar tokens no deseados
                if (not token.is_punct and 
                    not token.is_space and 
                    not token.is_digit and
                    len(token.text.strip()) > 1 and
                    token.text.isalpha()):
                    
                    # Aplicar stemming al token limpio
                    stemmed_token = self.stemmer.stem(token.text.lower())
                    processed_tokens.append(stemmed_token)
            
            return " ".join(processed_tokens)
            
        except Exception as e:
            print(f"Error procesando texto: {e}")
            # Fallback simple
            words = text.split()
            return " ".join([self.stemmer.stem(word.lower()) for word in words if word.isalpha()])
    
    def process_dataframe(self, df: pd.DataFrame, text_column: str = 'text') -> pd.DataFrame:
        """
        Procesa una columna de texto en un DataFrame
        
        Args:
            df: DataFrame a procesar
            text_column: Nombre de la columna de texto
            
        Returns:
            DataFrame con columna adicional de texto procesado
        """
        if df.empty or text_column not in df.columns:
            print(f"DataFrame vac√≠o o columna '{text_column}' no encontrada")
            return df
        
        print(f"Procesando {len(df):,} textos...")
        
        # Crear copia del DataFrame
        df_processed = df.copy()
        
        # Aplicar procesamiento
        import time
        start_time = time.time()
        
        df_processed['texto_procesado'] = df_processed[text_column].apply(self.tokenize_and_stem)
        
        end_time = time.time()
        processing_time = end_time - start_time
        
        # Estad√≠sticas
        empty_processed = (df_processed['texto_procesado'] == "").sum()
        avg_tokens_before = df_processed[text_column].str.split().str.len().mean()
        avg_tokens_after = df_processed['texto_procesado'].str.split().str.len().mean()
        
        print(f"Procesamiento completado en {processing_time:.2f} segundos")
        print(f"Estad√≠sticas:")
        print(f"   ‚Ä¢ Textos vac√≠os despu√©s del procesamiento: {empty_processed}")
        print(f"   ‚Ä¢ Tokens promedio (antes): {avg_tokens_before:.1f}")
        print(f"   ‚Ä¢ Tokens promedio (despu√©s): {avg_tokens_after:.1f}")
        print(f"   ‚Ä¢ Reducci√≥n de tokens: {((avg_tokens_before - avg_tokens_after) / avg_tokens_before * 100):.1f}%")
        
        return df_processed

# Inicializar procesador
if df is not None:
    processor = TextProcessor(nlp)
    
    # Procesar el dataset
    df_processed = processor.process_dataframe(df, 'text')

    print(f"\nEjemplo de procesamiento:")
    if len(df_processed) > 0:
        sample_idx = 0
        original = df_processed.iloc[sample_idx]['text'][:200]
        processed = df_processed.iloc[sample_idx]['texto_procesado'][:200]
        print(f"Original: {original}...")
        print(f"Procesado: {processed}...")
else:
    print("No hay datos para procesar")

üî§ Procesando 5,518 textos...
‚úÖ Procesamiento completado en 545.00 segundos
üìä Estad√≠sticas:
   ‚Ä¢ Textos vac√≠os despu√©s del procesamiento: 0
   ‚Ä¢ Tokens promedio (antes): 182.2
   ‚Ä¢ Tokens promedio (despu√©s): 172.8
   ‚Ä¢ Reducci√≥n de tokens: 5.2%

üîç Ejemplo de procesamiento:
Original: distintas desinformaciones senalan falsamente la estatua como si fuera del dictador sovietico unas con la imagen original y otras con inteligencia artificial...
Procesado: distint desinform senal fals la estatu com si fuer del dictador soviet unas con la imag original otras con inteligent artificial...
‚úÖ Procesamiento completado en 545.00 segundos
üìä Estad√≠sticas:
   ‚Ä¢ Textos vac√≠os despu√©s del procesamiento: 0
   ‚Ä¢ Tokens promedio (antes): 182.2
   ‚Ä¢ Tokens promedio (despu√©s): 172.8
   ‚Ä¢ Reducci√≥n de tokens: 5.2%

üîç Ejemplo de procesamiento:
Original: distintas desinformaciones senalan falsamente la estatua como si fuera del dictador sovietico unas con la imagen o

In [23]:
# === VISUALIZACI√ìN DEL DATASET PROCESADO ===
if 'df_processed' in locals() and df_processed is not None:
    print("Dataset con texto procesado:")
    display(df_processed[['text', 'texto_procesado', 'label']].head())
    
    # An√°lisis r√°pido de longitudes
    if 'texto_procesado' in df_processed.columns:
        longitudes = df_processed['texto_procesado'].str.split().str.len()
        print(f"\nEstad√≠sticas de longitud (tokens procesados):")
        print(f"   ‚Ä¢ Promedio: {longitudes.mean():.1f} tokens")
        print(f"   ‚Ä¢ Mediana: {longitudes.median():.1f} tokens")
        print(f"   ‚Ä¢ M√≠nimo: {longitudes.min()} tokens")
        print(f"   ‚Ä¢ M√°ximo: {longitudes.max()} tokens")
else:
    print("No hay datos procesados para mostrar")

Dataset con texto procesado:


Unnamed: 0,text,texto_procesado,label
0,distintas desinformaciones senalan falsamente ...,distint desinform senal fals la estatu com si ...,False
1,el metraje realmente corresponde a embarcacion...,el metraj realment correspond embarc zarp tras...,False
2,una cuenta desinformadora de derecha adelanta ...,una cuent desinform de derech adelant dat fals...,False
3,se trata de una suplantacion que no ha sido pu...,se trat de una suplant que no ha sid public po...,False
4,un video viral atribuye a hugo ‚Äúel pollo‚Äù carv...,un vide viral atribu hug el poll carvajal fals...,False



Estad√≠sticas de longitud (tokens procesados):
   ‚Ä¢ Promedio: 172.8 tokens
   ‚Ä¢ Mediana: 41.0 tokens
   ‚Ä¢ M√≠nimo: 5 tokens
   ‚Ä¢ M√°ximo: 4402 tokens


In [None]:
# === EXTRACCI√ìN DE CARACTER√çSTICAS: BAG OF WORDS ===
print("Extrayendo caracter√≠sticas con Bag of Words...")

class FeatureExtractor:
    """
    Clase para extracci√≥n de caracter√≠sticas de texto
    """
    
    def __init__(self, nlp_model=None):
        self.nlp = nlp_model
        self.stop_words = list(nlp_model.Defaults.stop_words) if nlp_model else None
        
    def extract_bow_features(self, df: pd.DataFrame, text_column: str = 'texto_procesado') -> pd.DataFrame:
        """
        Extrae caracter√≠sticas usando Bag of Words con diferentes configuraciones
        
        Args:
            df: DataFrame con texto procesado
            text_column: Columna con texto a analizar
            
        Returns:
            DataFrame con caracter√≠sticas extra√≠das
        """
        if df.empty or text_column not in df.columns:
            print(f"Error: DataFrame vac√≠o o columna '{text_column}' no encontrada")
            return df
        
        df_features = df.copy()
        
        # 1. BOW b√°sico (unigramas y bigramas)
        print("Extrayendo vocabulario b√°sico (unigramas + bigramas)...")
        vectorizer_basic = CountVectorizer(
            ngram_range=(1, 2),
            max_features=1000,  # Limitar caracter√≠sticas para eficiencia
            min_df=2,  # Aparecer en al menos 2 documentos
            stop_words=self.stop_words
        )
        
        # Ajustar vectorizador a todos los textos
        all_texts = df_features[text_column].fillna("").tolist()
        vectorizer_basic.fit(all_texts)
        
        print(f"   ‚Ä¢ Vocabulario b√°sico: {len(vectorizer_basic.vocabulary_):,} t√©rminos")
        
        # 2. BOW sin stopwords personalizadas
        print("Extrayendo vocabulario sin stopwords...")
        vectorizer_no_stop = CountVectorizer(
            ngram_range=(1, 2),
            max_features=800,
            min_df=3,
            stop_words=self.stop_words
        )
        vectorizer_no_stop.fit(all_texts)
        
        print(f"   ‚Ä¢ Vocabulario sin stopwords: {len(vectorizer_no_stop.vocabulary_):,} t√©rminos")
        
        # 3. BOW con filtrado por frecuencia
        print("Extrayendo vocabulario filtrado por frecuencia...")
        vectorizer_freq = CountVectorizer(
            ngram_range=(1, 2),
            max_features=600,
            min_df=5,  # Debe aparecer en al menos 5 documentos
            max_df=0.8,  # No m√°s del 80% de documentos
            stop_words=self.stop_words
        )
        vectorizer_freq.fit(all_texts)
        
        print(f"   ‚Ä¢ Vocabulario filtrado: {len(vectorizer_freq.vocabulary_):,} t√©rminos")
        
        # 4. TF-IDF para comparaci√≥n
        print("Extrayendo caracter√≠sticas TF-IDF...")
        vectorizer_tfidf = TfidfVectorizer(
            ngram_range=(1, 2),
            max_features=500,
            min_df=3,
            max_df=0.8,
            stop_words=self.stop_words
        )
        vectorizer_tfidf.fit(all_texts)
        
        print(f"   ‚Ä¢ Vocabulario TF-IDF: {len(vectorizer_tfidf.vocabulary_):,} t√©rminos")
        
        # Guardar metadatos de vocabularios para an√°lisis posterior
        df_features['vocab_basico'] = [len(vectorizer_basic.vocabulary_)] * len(df_features)
        df_features['vocab_sin_stopwords'] = [len(vectorizer_no_stop.vocabulary_)] * len(df_features)
        df_features['vocab_filtrado'] = [len(vectorizer_freq.vocabulary_)] * len(df_features)
        df_features['vocab_tfidf'] = [len(vectorizer_tfidf.vocabulary_)] * len(df_features)
        
        # Almacenar vectorizadores para uso posterior
        self.vectorizers = {
            'basico': vectorizer_basic,
            'sin_stopwords': vectorizer_no_stop,
            'filtrado': vectorizer_freq,
            'tfidf': vectorizer_tfidf
        }
        
        return df_features
    
    def analyze_vocabulary_overlap(self) -> None:
        """
        Analiza la superposici√≥n entre diferentes vocabularios
        """
        if not hasattr(self, 'vectorizers'):
            print("Primero ejecuta extract_bow_features()")
            return
        
        print("\nAn√°lisis de superposici√≥n de vocabularios:")
        print("-" * 50)
        
        vocabs = {name: set(vec.vocabulary_.keys()) for name, vec in self.vectorizers.items()}
        
        # Calcular intersecciones
        intersections = {}
        for name1, vocab1 in vocabs.items():
            for name2, vocab2 in vocabs.items():
                if name1 != name2:
                    key = f"{name1} ‚à© {name2}"
                    intersections[key] = len(vocab1 & vocab2)
        
        # Mostrar resultados
        for key, value in intersections.items():
            print(f"   ‚Ä¢ {key}: {value:,} t√©rminos comunes")
        
        # T√©rminos √∫nicos de cada vocabulario
        print(f"\nT√©rminos m√°s frecuentes por tipo:")
        for name, vectorizer in self.vectorizers.items():
            if hasattr(vectorizer, 'vocabulary_'):
                # Obtener algunos t√©rminos de ejemplo
                sample_terms = list(vectorizer.vocabulary_.keys())[:10]
                print(f"   ‚Ä¢ {name}: {', '.join(sample_terms[:5])}...")

# Ejecutar extracci√≥n de caracter√≠sticas
if 'df_processed' in locals() and df_processed is not None:
    extractor = FeatureExtractor(nlp)
    df_with_features = extractor.extract_bow_features(df_processed, 'texto_procesado')
    
    # An√°lizar vocabularios
    extractor.analyze_vocabulary_overlap()
    
    print(f"\nCaracter√≠sticas extra√≠das para {len(df_with_features):,} documentos")
else:
    print("No hay datos procesados para extraer caracter√≠sticas")

Extrayendo caracter√≠sticas con Bag of Words...
Extrayendo vocabulario b√°sico (unigramas + bigramas)...
Extrayendo vocabulario b√°sico (unigramas + bigramas)...
   ‚Ä¢ Vocabulario b√°sico: 1,000 t√©rminos
Extrayendo vocabulario sin stopwords...
   ‚Ä¢ Vocabulario b√°sico: 1,000 t√©rminos
Extrayendo vocabulario sin stopwords...
   ‚Ä¢ Vocabulario sin stopwords: 800 t√©rminos
Extrayendo vocabulario filtrado por frecuencia...
   ‚Ä¢ Vocabulario sin stopwords: 800 t√©rminos
Extrayendo vocabulario filtrado por frecuencia...
   ‚Ä¢ Vocabulario filtrado: 600 t√©rminos
Extrayendo caracter√≠sticas TF-IDF...
   ‚Ä¢ Vocabulario filtrado: 600 t√©rminos
Extrayendo caracter√≠sticas TF-IDF...
   ‚Ä¢ Vocabulario TF-IDF: 500 t√©rminos

An√°lisis de superposici√≥n de vocabularios:
--------------------------------------------------
   ‚Ä¢ basico ‚à© sin_stopwords: 800 t√©rminos comunes
   ‚Ä¢ basico ‚à© filtrado: 600 t√©rminos comunes
   ‚Ä¢ basico ‚à© tfidf: 500 t√©rminos comunes
   ‚Ä¢ sin_stopwords ‚

In [25]:
# === VISUALIZACI√ìN DEL DATASET CON CARACTER√çSTICAS ===
if 'df_with_features' in locals() and df_with_features is not None:
    print("Dataset con caracter√≠sticas extra√≠das:")
    
    # Mostrar informaci√≥n del dataset
    print(f"Dimensiones: {df_with_features.shape}")
    print(f"Columnas: {list(df_with_features.columns)}")

    # Mostrar vista previa
    display_columns = ['text', 'texto_procesado', 'label', 'vocab_basico', 'vocab_sin_stopwords']
    available_columns = [col for col in display_columns if col in df_with_features.columns]
    
    if available_columns:
        print(f"\nVista previa (columnas: {', '.join(available_columns)}):")
        display(df_with_features[available_columns].head())
    else:
        display(df_with_features.head())
    
    # Resumen estad√≠stico de caracter√≠sticas
    numeric_cols = df_with_features.select_dtypes(include=[np.number]).columns
    if len(numeric_cols) > 0:
        print(f"\nResumen estad√≠stico de caracter√≠sticas num√©ricas:")
        display(df_with_features[numeric_cols].describe())
else:
    print("No hay dataset con caracter√≠sticas para mostrar")

Dataset con caracter√≠sticas extra√≠das:
Dimensiones: (5518, 7)
Columnas: ['text', 'label', 'texto_procesado', 'vocab_basico', 'vocab_sin_stopwords', 'vocab_filtrado', 'vocab_tfidf']

Vista previa (columnas: text, texto_procesado, label, vocab_basico, vocab_sin_stopwords):


Unnamed: 0,text,texto_procesado,label,vocab_basico,vocab_sin_stopwords
0,distintas desinformaciones senalan falsamente ...,distint desinform senal fals la estatu com si ...,False,1000,800
1,el metraje realmente corresponde a embarcacion...,el metraj realment correspond embarc zarp tras...,False,1000,800
2,una cuenta desinformadora de derecha adelanta ...,una cuent desinform de derech adelant dat fals...,False,1000,800
3,se trata de una suplantacion que no ha sido pu...,se trat de una suplant que no ha sid public po...,False,1000,800
4,un video viral atribuye a hugo ‚Äúel pollo‚Äù carv...,un vide viral atribu hug el poll carvajal fals...,False,1000,800



Resumen estad√≠stico de caracter√≠sticas num√©ricas:


Unnamed: 0,vocab_basico,vocab_sin_stopwords,vocab_filtrado,vocab_tfidf
count,5518.0,5518.0,5518.0,5518.0
mean,1000.0,800.0,600.0,500.0
std,0.0,0.0,0.0,0.0
min,1000.0,800.0,600.0,500.0
25%,1000.0,800.0,600.0,500.0
50%,1000.0,800.0,600.0,500.0
75%,1000.0,800.0,600.0,500.0
max,1000.0,800.0,600.0,500.0


In [26]:
# === EJEMPLO DE VECTORIZACI√ìN CON TEXTO DE PRUEBA ===
print("Ejemplo pr√°ctico de vectorizaci√≥n...")

def demonstrate_vectorization():
    """
    Demuestra c√≥mo funciona la vectorizaci√≥n con un ejemplo concreto
    """
    # Texto de ejemplo
    sample_texts = [
        "El zorro marr√≥n salta sobre el perro perezoso. El zorro es muy r√°pido y astuto.",
        "Las noticias falsas se propagan r√°pidamente en redes sociales modernas.",
        "La inteligencia artificial ayuda a detectar informaci√≥n falsa autom√°ticamente."
    ]
    
    print("Textos de ejemplo:")
    for i, text in enumerate(sample_texts, 1):
        print(f"   {i}. {text}")
    
    if nlp is not None:
        # Usar el vectorizador configurado anteriormente
        if 'extractor' in locals() and hasattr(extractor, 'vectorizers'):
            vectorizer = extractor.vectorizers['basico']
        else:
            # Crear vectorizador simple para demostraci√≥n
            vectorizer = CountVectorizer(
                ngram_range=(1, 2),
                stop_words=list(nlp.Defaults.stop_words) if nlp else None
            )
            vectorizer.fit(sample_texts)
        
        print(f"\nVocabulario extra√≠do ({len(vectorizer.vocabulary_)} t√©rminos):")
        
        # Mostrar algunos t√©rminos del vocabulario
        vocab_items = list(vectorizer.vocabulary_.items())
        vocab_items.sort(key=lambda x: x[1])  # Ordenar por √≠ndice
        
        print("   Primeros 10 t√©rminos:")
        for term, idx in vocab_items[:10]:
            print(f"     '{term}' -> √≠ndice {idx}")
        
        # Vectorizar los textos de ejemplo
        print(f"\nMatriz de caracter√≠sticas (shape: {vectorizer.transform(sample_texts).shape}):")
        feature_matrix = vectorizer.transform(sample_texts).toarray()
        
        # Mostrar matriz con nombres de caracter√≠sticas
        feature_names = vectorizer.get_feature_names_out()[:10]  # Primeras 10
        print(f"   Caracter√≠sticas mostradas: {', '.join(feature_names)}")
        print("   Matriz (primeras 10 columnas):")
        for i, row in enumerate(feature_matrix[:, :10]):
            print(f"     Texto {i+1}: {row}")
    else:
        print("SpaCy no disponible, ejemplo limitado")
        
        # Ejemplo b√°sico sin SpaCy
        basic_vectorizer = CountVectorizer(ngram_range=(1, 2))
        basic_vectorizer.fit(sample_texts)

        print(f"Vocabulario b√°sico ({len(basic_vectorizer.vocabulary_)} t√©rminos):")
        vocab_sample = list(basic_vectorizer.vocabulary_.keys())[:10]
        print(f"   Muestra: {', '.join(vocab_sample)}")

# Ejecutar demostraci√≥n
demonstrate_vectorization()

Ejemplo pr√°ctico de vectorizaci√≥n...
Textos de ejemplo:
   1. El zorro marr√≥n salta sobre el perro perezoso. El zorro es muy r√°pido y astuto.
   2. Las noticias falsas se propagan r√°pidamente en redes sociales modernas.
   3. La inteligencia artificial ayuda a detectar informaci√≥n falsa autom√°ticamente.

Vocabulario extra√≠do (40 t√©rminos):
   Primeros 10 t√©rminos:
     'artificial' -> √≠ndice 0
     'artificial ayuda' -> √≠ndice 1
     'astuto' -> √≠ndice 2
     'autom√°ticamente' -> √≠ndice 3
     'ayuda' -> √≠ndice 4
     'ayuda detectar' -> √≠ndice 5
     'detectar' -> √≠ndice 6
     'detectar informaci√≥n' -> √≠ndice 7
     'falsa' -> √≠ndice 8
     'falsa autom√°ticamente' -> √≠ndice 9

Matriz de caracter√≠sticas (shape: (3, 40)):
   Caracter√≠sticas mostradas: artificial, artificial ayuda, astuto, autom√°ticamente, ayuda, ayuda detectar, detectar, detectar informaci√≥n, falsa, falsa autom√°ticamente
   Matriz (primeras 10 columnas):
     Texto 1: [0 0 1 0 0 0 0 0 0 0]
 

In [27]:
# === AN√ÅLISIS FINAL DEL DATASET PROCESADO ===
if 'df_with_features' in locals() and df_with_features is not None:
    print("RESUMEN FINAL DEL PROCESAMIENTO")
    print("=" * 60)
    
    # Informaci√≥n general
    print(f"Registros totales: {len(df_with_features):,}")
    print(f"Columnas generadas: {len(df_with_features.columns)}")
    
    # An√°lisis de texto procesado
    if 'texto_procesado' in df_with_features.columns:
        texto_procesado = df_with_features['texto_procesado']
        
        # Estad√≠sticas de longitud
        longitudes = texto_procesado.str.split().str.len()
        print(f"\nAn√°lisis del texto procesado:")
        print(f"   ‚Ä¢ Longitud promedio: {longitudes.mean():.1f} tokens")
        print(f"   ‚Ä¢ Longitud mediana: {longitudes.median():.1f} tokens")
        print(f"   ‚Ä¢ Rango: {longitudes.min()} - {longitudes.max()} tokens")
        
        # Textos vac√≠os
        textos_vacios = (texto_procesado.str.strip() == '').sum()
        if textos_vacios > 0:
            print(f"   Textos vac√≠os despu√©s del procesamiento: {textos_vacios}")
        
        # Distribuci√≥n por etiquetas
        if 'label' in df_with_features.columns:
            print(f"\nDistribuci√≥n por tipo de noticia:")
            for label in [False, True]:
                subset = df_with_features[df_with_features['label'] == label]
                if len(subset) > 0:
                    avg_length = subset['texto_procesado'].str.split().str.len().mean()
                    label_name = "Falsas" if not label else "Verdaderas"
                    print(f"   ‚Ä¢ {label_name}: {len(subset):,} textos, {avg_length:.1f} tokens promedio")
    
    # Informaci√≥n de vocabularios
    vocab_cols = [col for col in df_with_features.columns if col.startswith('vocab_')]
    if vocab_cols:
        print(f"\nTama√±os de vocabularios extra√≠dos:")
        for col in vocab_cols:
            vocab_size = df_with_features[col].iloc[0] if len(df_with_features) > 0 else 0
            vocab_name = col.replace('vocab_', '').replace('_', ' ').title()
            print(f"   ‚Ä¢ {vocab_name}: {vocab_size:,} t√©rminos")
    
    # Vista final del dataset
    print(f"\nEstructura final del dataset:")
    print(f"Columnas: {list(df_with_features.columns)}")
    
    display(df_with_features.head(3))
    
else:
    print("No hay dataset procesado para mostrar el resumen final")

RESUMEN FINAL DEL PROCESAMIENTO
Registros totales: 5,518
Columnas generadas: 7

An√°lisis del texto procesado:
An√°lisis del texto procesado:
   ‚Ä¢ Longitud promedio: 172.8 tokens
   ‚Ä¢ Longitud mediana: 41.0 tokens
   ‚Ä¢ Rango: 5 - 4402 tokens

Distribuci√≥n por tipo de noticia:

   ‚Ä¢ Longitud promedio: 172.8 tokens
   ‚Ä¢ Longitud mediana: 41.0 tokens
   ‚Ä¢ Rango: 5 - 4402 tokens

Distribuci√≥n por tipo de noticia:
   ‚Ä¢ Falsas: 2,679 textos, 131.4 tokens promedio
   ‚Ä¢ Verdaderas: 2,839 textos, 211.8 tokens promedio

Tama√±os de vocabularios extra√≠dos:
   ‚Ä¢ Basico: 1,000 t√©rminos
   ‚Ä¢ Sin Stopwords: 800 t√©rminos
   ‚Ä¢ Filtrado: 600 t√©rminos
   ‚Ä¢ Tfidf: 500 t√©rminos

Estructura final del dataset:
Columnas: ['text', 'label', 'texto_procesado', 'vocab_basico', 'vocab_sin_stopwords', 'vocab_filtrado', 'vocab_tfidf']
   ‚Ä¢ Falsas: 2,679 textos, 131.4 tokens promedio
   ‚Ä¢ Verdaderas: 2,839 textos, 211.8 tokens promedio

Tama√±os de vocabularios extra√≠dos:
   ‚Ä¢ Ba

Unnamed: 0,text,label,texto_procesado,vocab_basico,vocab_sin_stopwords,vocab_filtrado,vocab_tfidf
0,distintas desinformaciones senalan falsamente ...,False,distint desinform senal fals la estatu com si ...,1000,800,600,500
1,el metraje realmente corresponde a embarcacion...,False,el metraj realment correspond embarc zarp tras...,1000,800,600,500
2,una cuenta desinformadora de derecha adelanta ...,False,una cuent desinform de derech adelant dat fals...,1000,800,600,500


In [34]:
# === EXPORTACI√ìN DEL DATASET CON CARACTER√çSTICAS ===
print("Exportando dataset con caracter√≠sticas extra√≠das...")

def export_processed_dataset(df: pd.DataFrame, base_dir: pathlib.Path) -> bool:
    """
    Exporta el dataset procesado con manejo robusto de directorios y errores
    
    Args:
        df: DataFrame a exportar
        base_dir: Directorio base del proyecto
        
    Returns:
        bool: True si la exportaci√≥n fue exitosa
    """
    if df.empty:
        print("Error: DataFrame vac√≠o, no se puede exportar")
        return False
    
    try:
        # Crear directorio de destino
        output_dir = base_dir / 'data' / 'extraccion_caracteristicas'
        output_dir.mkdir(parents=True, exist_ok=True)
        
        # Ruta completa del archivo
        output_path = output_dir / 'extraccion_caracteristicas.csv'
        
        # Exportar con manejo de encoding
        df.to_csv(output_path, index=False, encoding='utf-8')
        
        # Verificar exportaci√≥n
        file_size = output_path.stat().st_size
        file_size_mb = file_size / (1024 * 1024)
        
        print(f"Dataset exportado exitosamente:")
        print(f"   Ubicaci√≥n: {output_path}")
        print(f"   Registros: {len(df):,}")
        print(f"   Columnas: {len(df.columns)}")
        print(f"   Tama√±o: {file_size_mb:.2f} MB")
        
        # Verificar integridad del archivo
        try:
            verification_df = pd.read_csv(output_path, encoding='utf-8', nrows=3)
            if len(verification_df) > 0:
                print("Verificaci√≥n de integridad: EXITOSA")
            else:
                print("Archivo exportado est√° vac√≠o")
                return False
        except Exception as verify_error:
            print(f"Error en verificaci√≥n: {verify_error}")
            return False
        
        # Resumen de columnas exportadas
        print(f"\nColumnas exportadas:")
        for i, col in enumerate(df.columns, 1):
            col_type = df[col].dtype
            non_null = df[col].notna().sum()
            print(f"   {i:2}. {col:<25} ({col_type}) - {non_null:,} valores no nulos")
        
        return True
        
    except PermissionError:
        print("Error: Sin permisos para escribir en el directorio")
        return False
    except Exception as e:
        print(f"Error inesperado durante la exportaci√≥n: {e}")
        return False

def generate_processing_report(original_df: pd.DataFrame, processed_df: pd.DataFrame) -> None:
    """
    Genera un reporte del procesamiento realizado
    """
    if original_df.empty or processed_df.empty:
        return
    
    print(f"\n{'='*60}")
    print(f"REPORTE DE PROCESAMIENTO DE CARACTER√çSTICAS")
    print(f"{'='*60}")
    
    # Estad√≠sticas de transformaci√≥n
    original_words = original_df['text'].astype(str).str.split().str.len().sum()
    if 'texto_procesado' in processed_df.columns:
        processed_words = processed_df['texto_procesado'].str.split().str.len().sum()
        word_reduction = ((original_words - processed_words) / original_words) * 100
        print(f"Reducci√≥n de palabras: {word_reduction:.1f}%")
        print(f"   ‚Ä¢ Palabras originales: {original_words:,}")
        print(f"   ‚Ä¢ Palabras procesadas: {processed_words:,}")
    
    # Caracter√≠sticas extra√≠das
    feature_cols = [col for col in processed_df.columns if col.startswith('vocab_')]
    if feature_cols:
        print(f"Caracter√≠sticas extra√≠das: {len(feature_cols)} tipos de vocabulario")
    
    # Calidad de datos
    original_empty = (original_df['text'].astype(str).str.strip() == '').sum()
    if 'texto_procesado' in processed_df.columns:
        processed_empty = (processed_df['texto_procesado'].str.strip() == '').sum()
        print(f"Calidad de procesamiento:")
        print(f"   ‚Ä¢ Textos vac√≠os iniciales: {original_empty}")
        print(f"   ‚Ä¢ Textos vac√≠os finales: {processed_empty}")
    
    print("Procesamiento de caracter√≠sticas completado exitosamente")

# Ejecutar exportaci√≥n
if 'df_with_features' in locals() and df_with_features is not None:
    success = export_processed_dataset(df_with_features, BASE_DIR)
    
    if success and 'df' in locals():
        generate_processing_report(df, df_with_features)
else:
    print("No hay dataset con caracter√≠sticas para exportar")
    print("   Aseg√∫rate de haber ejecutado las celdas anteriores correctamente")

Exportando dataset con caracter√≠sticas extra√≠das...
Dataset exportado exitosamente:
   Ubicaci√≥n: C:\Users\ABRAHAM\Documents\GitHub\Practica-1\data\extraccion_caracteristicas\extraccion_caracteristicas.csv
   Registros: 5,518
   Columnas: 7
   Tama√±o: 10.51 MB
Verificaci√≥n de integridad: EXITOSA

Columnas exportadas:
    1. text                      (object) - 5,518 valores no nulos
    2. label                     (bool) - 5,518 valores no nulos
    3. texto_procesado           (object) - 5,518 valores no nulos
    4. vocab_basico              (int64) - 5,518 valores no nulos
    5. vocab_sin_stopwords       (int64) - 5,518 valores no nulos
    6. vocab_filtrado            (int64) - 5,518 valores no nulos
    7. vocab_tfidf               (int64) - 5,518 valores no nulos

REPORTE DE PROCESAMIENTO DE CARACTER√çSTICAS
Reducci√≥n de palabras: 5.2%
   ‚Ä¢ Palabras originales: 1,005,398
   ‚Ä¢ Palabras procesadas: 953,324
Caracter√≠sticas extra√≠das: 4 tipos de vocabulario
Calidad de p