# Configuración del Entorno - Proyecto Neural News

Este notebook configura el entorno conda `neural_news` e inicializa el proyecto de análisis de noticias falsas y predicción de popularidad de artículos.

## Objetivos
1. ✅ Verificar configuración del entorno conda
2. ✅ Crear estructura completa de carpetas 
3. ✅ Descargar archivos de datos necesarios
4. ✅ Verificar instalación de todas las librerías
5. ✅ Configurar parámetros del proyecto

---

## 1. Verificar Configuración del Entorno

Verificamos que el entorno conda `neural_news` esté activo y que la versión de Python sea compatible.

In [None]:
import sys
import os
import platform

print("🔧 VERIFICACIÓN DEL ENTORNO")
print("=" * 50)

# Verificar versión de Python
print(f"🐍 Python: {sys.version}")
print(f"📁 Directorio actual: {os.getcwd()}")
print(f"💻 Sistema: {platform.system()} {platform.release()}")

# Verificar entorno conda
try:
    conda_env = os.environ.get('CONDA_DEFAULT_ENV', 'No detectado')
    print(f"🔷 Entorno Conda: {conda_env}")
except:
    print("⚠️  No se pudo detectar el entorno conda")

# Verificar compatibilidad de Python
major, minor = sys.version_info[:2]
if major == 3 and minor >= 9:
    print("✅ Versión de Python compatible (3.9+)")
else:
    print("❌ Se requiere Python 3.9 o superior")
    
print("=" * 50)

## 2. Crear Estructura del Proyecto

Creamos la estructura completa de carpetas para organizar el proyecto de manera eficiente.

In [None]:
import os
from pathlib import Path

def create_project_structure():
    """Crear la estructura completa de carpetas del proyecto"""
    
    print("📁 CREANDO ESTRUCTURA DEL PROYECTO")
    print("=" * 40)
    
    # Definir estructura de carpetas
    folders = [
        'data/raw',
        'data/processed', 
        'notebooks',
        'src/preprocessing',
        'src/models',
        'src/utils',
        'results/plots',
        'results/models'
    ]
    
    created_folders = []
    existing_folders = []
    
    # Crear carpetas
    for folder in folders:
        folder_path = Path(f"../{folder}")
        if not folder_path.exists():
            folder_path.mkdir(parents=True, exist_ok=True)
            created_folders.append(folder)
            print(f"✅ Creada: {folder}")
        else:
            existing_folders.append(folder)
            print(f"📂 Ya existe: {folder}")
    
    print("\n📊 RESUMEN:")
    print(f"✅ Carpetas creadas: {len(created_folders)}")
    print(f"📂 Carpetas existentes: {len(existing_folders)}")
    
    return created_folders, existing_folders

# Ejecutar creación de estructura
created, existing = create_project_structure()

print("\n🗂️  ESTRUCTURA FINAL:")
print("""
prueba_desafio/
├── data/
│   ├── raw/          # Datasets originales
│   └── processed/    # Datos procesados
├── notebooks/        # Jupyter notebooks
├── src/
│   ├── preprocessing/  # Scripts de preprocesamiento
│   ├── models/        # Implementaciones de modelos
│   └── utils/         # Funciones utilitarias
├── results/
│   ├── plots/         # Gráficos y visualizaciones
│   └── models/        # Modelos entrenados guardados
└── requirements.txt   # Dependencias del proyecto
""")

## 3. Descargar Archivos de Datos Necesarios

Descargamos el modelo Word2Vec de Google News que será necesario para la tarea de clasificación de noticias falsas.

**Nota:** La descarga del modelo Word2Vec (~1.5GB) puede tardar varios minutos dependiendo de la conexión a internet.

In [None]:
import gdown
import os
from pathlib import Path

def download_word2vec_model():
    """Descargar el modelo Word2Vec de Google News"""
    
    print("⬇️  DESCARGA DEL MODELO WORD2VEC")
    print("=" * 40)
    
    # URL del modelo Word2Vec de Google News
    url = 'https://drive.google.com/uc?id=191stTi4bltaYgZX5l-i2mcxjcxjuMNPK'
    output_path = '../data/raw/word2vec_google_news.bin'
    
    # Verificar si el archivo ya existe
    if Path(output_path).exists():
        file_size = Path(output_path).stat().st_size / (1024**3)  # GB
        print(f"📁 El archivo ya existe: {output_path}")
        print(f"📊 Tamaño: {file_size:.2f} GB")
        return True
    
    try:
        print("🚀 Iniciando descarga...")
        print("⏳ Esto puede tardar varios minutos (archivo ~1.5GB)")
        
        # Descargar el archivo
        gdown.download(url, output_path, quiet=False)
        
        # Verificar descarga exitosa
        if Path(output_path).exists():
            file_size = Path(output_path).stat().st_size / (1024**3)  # GB
            print(f"\n✅ Descarga completada exitosamente!")
            print(f"📁 Ubicación: {output_path}")
            print(f"📊 Tamaño: {file_size:.2f} GB")
            return True
        else:
            print("❌ Error: El archivo no se descargó correctamente")
            return False
            
    except Exception as e:
        print(f"❌ Error durante la descarga: {e}")
        print("💡 Sugerencia: Verifica tu conexión a internet e intenta nuevamente")
        return False

# Ejecutar descarga (comentado por defecto para evitar descargas automáticas)
print("🔄 Para descargar el modelo Word2Vec, descomenta y ejecuta la siguiente línea:")
print("# download_success = download_word2vec_model()")
print("\n⚠️  IMPORTANTE: La descarga es de ~1.5GB y puede tardar varios minutos")
print("💡 Solo ejecuta si realmente necesitas el modelo para las tareas 1-4")

## 4. Verificar Instalación de Librerías

Importamos y verificamos todas las librerías necesarias para el proyecto, incluyendo sus versiones.

In [None]:
def verify_libraries():
    """Verificar que todas las librerías necesarias estén instaladas"""
    
    print("📚 VERIFICACIÓN DE LIBRERÍAS")
    print("=" * 50)
    
    # Diccionario de librerías categorizadas
    libraries = {
        "📊 Análisis de Datos": {
            'pandas': 'pd',
            'numpy': 'np'
        },
        "📈 Visualización": {
            'matplotlib.pyplot': 'plt',
            'seaborn': 'sns'
        },
        "🧠 Deep Learning": {
            'tensorflow': 'tf',
            'keras': 'keras'
        },
        "🤖 Machine Learning": {
            'sklearn': 'sklearn',
            'xgboost': 'xgb'
        },
        "📝 Procesamiento de Texto": {
            'gensim': 'gensim',
            'nltk': 'nltk',
            'wordcloud': 'wordcloud'
        },
        "🛠️ Utilidades": {
            'gdown': 'gdown',
            'joblib': 'joblib'
        }
    }
    
    total_libraries = 0
    successful_imports = 0
    failed_imports = []
    
    for category, libs in libraries.items():
        print(f"\n{category}:")
        print("-" * 30)
        
        for lib_name, alias in libs.items():
            total_libraries += 1
            try:
                # Importar librería
                exec(f"import {lib_name} as {alias}")
                
                # Obtener versión si está disponible
                try:
                    version = eval(f"{alias}.__version__")
                    print(f"  ✅ {lib_name:20} v{version}")
                except AttributeError:
                    print(f"  ✅ {lib_name:20} (importado correctamente)")
                
                successful_imports += 1
                
            except ImportError as e:
                print(f"  ❌ {lib_name:20} ERROR: {e}")
                failed_imports.append(lib_name)
    
    # Resumen final
    print("\n" + "=" * 50)
    print("📊 RESUMEN DE VERIFICACIÓN:")
    print(f"✅ Librerías correctas: {successful_imports}/{total_libraries}")
    print(f"❌ Librerías faltantes: {len(failed_imports)}")
    
    if failed_imports:
        print(f"\n🔧 Librerías a instalar: {', '.join(failed_imports)}")
        print("💡 Ejecuta el comando de instalación correspondiente del plan de resolución")
        return False
    else:
        print("\n🎉 ¡TODAS LAS LIBRERÍAS ESTÁN INSTALADAS CORRECTAMENTE!")
        return True

# Ejecutar verificación
verification_success = verify_libraries()

## 5. Configuración Inicial del Proyecto

Configuramos parámetros importantes para el proyecto, incluyendo seeds para reproducibilidad y configuraciones de visualización.

In [None]:
# Importar librerías principales para configuración
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import tensorflow as tf
import warnings
import random
import os

def setup_project_configuration():
    """Configurar parámetros del proyecto para reproducibilidad y visualización"""
    
    print("⚙️  CONFIGURACIÓN DEL PROYECTO")
    print("=" * 40)
    
    # 1. Configurar seeds para reproducibilidad
    print("🎲 Configurando seeds para reproducibilidad...")
    RANDOM_SEED = 42
    
    random.seed(RANDOM_SEED)
    np.random.seed(RANDOM_SEED)
    tf.random.set_seed(RANDOM_SEED)
    os.environ['PYTHONHASHSEED'] = str(RANDOM_SEED)
    
    print(f"✅ Seed configurado: {RANDOM_SEED}")
    
    # 2. Configurar warnings
    print("\n⚠️  Configurando filtros de warnings...")
    warnings.filterwarnings('ignore', category=FutureWarning)
    warnings.filterwarnings('ignore', category=UserWarning)
    print("✅ Warnings filtrados")
    
    # 3. Configurar matplotlib
    print("\n📊 Configurando matplotlib...")
    plt.style.use('default')
    plt.rcParams['figure.figsize'] = (10, 6)
    plt.rcParams['font.size'] = 12
    plt.rcParams['axes.grid'] = True
    plt.rcParams['grid.alpha'] = 0.3
    print("✅ Matplotlib configurado")
    
    # 4. Configurar seaborn
    print("\n🎨 Configurando seaborn...")
    sns.set_theme(style="whitegrid")
    sns.set_palette("husl")
    print("✅ Seaborn configurado")
    
    # 5. Configurar pandas
    print("\n🐼 Configurando pandas...")
    pd.set_option('display.max_columns', 20)
    pd.set_option('display.max_rows', 100)
    pd.set_option('display.float_format', '{:.4f}'.format)
    print("✅ Pandas configurado")
    
    # 6. Configurar TensorFlow
    print("\n🧠 Configurando TensorFlow...")
    tf.config.experimental.enable_op_determinism()
    print("✅ TensorFlow configurado para reproducibilidad")
    
    return RANDOM_SEED

# Ejecutar configuración
seed_used = setup_project_configuration()

# Crear archivo de configuración del proyecto
def create_project_config_file():
    """Crear archivo de configuración del proyecto"""
    
    config_content = f"""# Configuración del Proyecto Neural News
# Generado automáticamente

# Configuración de reproducibilidad
RANDOM_SEED = {seed_used}

# Rutas de datos
DATA_RAW_PATH = '../data/raw/'
DATA_PROCESSED_PATH = '../data/processed/'
RESULTS_PATH = '../results/'
MODELS_PATH = '../results/models/'
PLOTS_PATH = '../results/plots/'

# Configuración para modelos
MAX_FEATURES = 80000  # Tamaño máximo del vocabulario
MAX_SEQUENCE_LENGTH = 80  # Longitud máxima de secuencias
EMBEDDING_DIM = 300  # Dimensión del embedding Word2Vec

# Configuración de entrenamiento
EPOCHS_LIMIT = 20  # Límite de épocas para modelos
BATCH_SIZE = 32
TEST_SIZE = 0.33  # Proporción para conjunto de test

# Configuración de visualización
FIGURE_SIZE = (10, 6)
DPI = 100
"""
    
    config_path = '../src/utils/config.py'
    with open(config_path, 'w', encoding='utf-8') as f:
        f.write(config_content)
    
    print(f"\n📄 Archivo de configuración creado: {config_path}")
    return config_path

config_file = create_project_config_file()

print("\n🎉 ¡CONFIGURACIÓN COMPLETADA!")
print("=" * 40)
print("✅ Seeds configurados para reproducibilidad")
print("✅ Librerías de visualización configuradas") 
print("✅ Archivo de configuración creado")
print("✅ Proyecto listo para comenzar el análisis")

---

## ✅ Resumen de Configuración Completada

### 🎯 Estado del Proyecto

| Componente | Estado | Descripción |
|------------|--------|-------------|
| 🐍 Python | ✅ | Versión 3.9+ verificada |
| 📁 Estructura | ✅ | Carpetas del proyecto creadas |
| 📚 Librerías | ✅ | Todas las dependencias instaladas |
| ⚙️ Configuración | ✅ | Seeds y parámetros configurados |
| 📄 Archivos | ✅ | Scripts utilitarios creados |

### 🚀 Próximos Pasos

1. **Obtener Datasets**: 
   - `news1.csv` - Noticias clasificadas (Verdaderas/Falsas)
   - `news_pred.csv` - Noticias para predicción
   - `OnlineNewsPopularity.csv` - Dataset de Mashable
   - `util_bagging.py` - Función de bagging (si no está incluida)

2. **Comenzar Análisis**:
   - Abrir `neural_news_analysis.ipynb` 
   - Seguir el plan de resolución paso a paso
   - Ejecutar las 11 tareas del proyecto

3. **Descargar Word2Vec** (cuando sea necesario):
   - Ejecutar la función de descarga en la sección 3
   - Solo necesario para las tareas 1-4 de clasificación de noticias

### 🔧 Archivos Creados

- `src/utils/verify_setup.py` - Script de verificación
- `src/utils/config.py` - Configuración del proyecto  
- `requirements.txt` - Lista de dependencias
- `notebooks/environment_setup.ipynb` - Este notebook

---

**🎉 ¡El entorno está listo! Puedes comenzar con el análisis de datos.**