In [None]:
from bs4 import BeautifulSoup
import csv
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

def exploracion_eda(df, columnas_seleccionadas, columna_fecha):
    """
    Realiza un an√°lisis exploratorio de datos (EDA) en columnas espec√≠ficas de un DataFrame,
    incluyendo distribuci√≥n, correlaci√≥n y histogramas de fecha con variables num√©ricas.

    Args:
        df (pd.DataFrame): El DataFrame de Pandas a analizar.
        columnas_seleccionadas (list): Una lista de las 4 columnas espec√≠ficas a analizar.
        columna_fecha (str): El nombre de la columna que contiene los datos de fecha.
    """

    print("üöÄ Iniciando An√°lisis Exploratorio de Datos (EDA) üöÄ\n")

    # Verificar que las columnas existan en el DataFrame
    for col in columnas_seleccionadas + [columna_fecha]:
        if col not in df.columns:
            print(f"‚ùå Error: La columna '{col}' no se encuentra en el DataFrame. Por favor, verifica los nombres.")
            return

    df_seleccionado = df[columnas_seleccionadas + [columna_fecha]].copy()

    # Convertir la columna de fecha a formato datetime
    try:
        df_seleccionado[columna_fecha] = pd.to_datetime(df_seleccionado[columna_fecha])
    except Exception as e:
        print(f"‚ö†Ô∏è Advertencia: No se pudo convertir la columna '{columna_fecha}' a datetime. Error: {e}")
        print("Continuando el an√°lisis sin conversi√≥n de fecha para esta parte.")

    print(f"‚ú® Columnas seleccionadas para el an√°lisis: {columnas_seleccionadas} y {columna_fecha}\n")

    # --- 1. Informaci√≥n General y Estad√≠sticas Descriptivas ---
    print("--- 1. Informaci√≥n General y Estad√≠sticas Descriptivas ---\n")
    print("üìã Informaci√≥n del DataFrame (primeras filas):\n")
    print(df_seleccionado.head())
    print("\n")

    print("üìä Estad√≠sticas descriptivas de las columnas seleccionadas:\n")
    print(df_seleccionado[columnas_seleccionadas].describe().T)
    print("\n")

    print("üîé Valores nulos por columna:\n")
    print(df_seleccionado[columnas_seleccionadas + [columna_fecha]].isnull().sum())
    print("\n" + "-"*70 + "\n")

    # --- 2. An√°lisis de Distribuci√≥n (para columnas num√©ricas continuas) ---
    print("--- 2. An√°lisis de Distribuci√≥n (Histogramas y Boxplots) ---\n")
    numeric_cols = df_seleccionado[columnas_seleccionadas].select_dtypes(include=np.number).columns.tolist()

    if not numeric_cols:
        print("‚ÑπÔ∏è No hay columnas num√©ricas continuas entre las seleccionadas para el an√°lisis de distribuci√≥n.")
    else:
        for col in numeric_cols:
            plt.figure(figsize=(12, 5))

            # Histograma
            plt.subplot(1, 2, 1)
            sns.histplot(df_seleccionado[col].dropna(), kde=True, bins=30)
            plt.title(f'Distribuci√≥n de {col}')
            plt.xlabel(col)
            plt.ylabel('Frecuencia')

            # Boxplot
            plt.subplot(1, 2, 2)
            sns.boxplot(y=df_seleccionado[col].dropna())
            plt.title(f'Boxplot de {col}')
            plt.ylabel(col)

            plt.tight_layout()
            plt.show()
            print(f"üìä La distribuci√≥n de '{col}' muestra una asimetr√≠a de {df_seleccionado[col].skew():.2f} y una curtosis de {df_seleccionado[col].kurtosis():.2f}.\n")
            print("-" * 70 + "\n")
    print("\n" + "-"*70 + "\n")

    # --- 3. An√°lisis de Correlaci√≥n (entre columnas num√©ricas) ---
    print("--- 3. An√°lisis de Correlaci√≥n ---\n")
    if len(numeric_cols) > 1:
        corr_matrix = df_seleccionado[numeric_cols].corr()
        print("üîó Matriz de Correlaci√≥n de Pearson:\n")
        print(corr_matrix)
        print("\n")

        plt.figure(figsize=(8, 6))
        sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f")
        plt.title('Mapa de Calor de la Matriz de Correlaci√≥n')
        plt.show()
        print("üí° Los valores cercanos a 1 o -1 indican una fuerte correlaci√≥n positiva o negativa, respectivamente.")
    else:
        print("‚ÑπÔ∏è Se necesitan al menos dos columnas num√©ricas para calcular la correlaci√≥n.")
    print("\n" + "-"*70 + "\n")

    # --- 4. Histograma de la Fecha con cada Variable Num√©rica Continua ---
    print(f"--- 4. Histograma de '{columna_fecha}' con cada Variable Num√©rica Continua ---\n")
    if not numeric_cols:
        print(f"‚ÑπÔ∏è No hay columnas num√©ricas continuas para graficar con '{columna_fecha}'.")
    elif columna_fecha not in df_seleccionado.columns or not pd.api.types.is_datetime64_any_dtype(df_seleccionado[columna_fecha]):
        print(f"‚ö†Ô∏è No se puede generar el histograma de la fecha con variables num√©ricas porque '{columna_fecha}' no es un tipo de dato datetime v√°lido.")
    else:
        # Extraer el a√±o y el mes para una mejor visualizaci√≥n si la fecha es muy granular
        df_seleccionado['a√±o_mes'] = df_seleccionado[columna_fecha].dt.to_period('M')
        df_seleccionado = df_seleccionado.sort_values(by=columna_fecha) # Asegurar orden temporal

        for col in numeric_cols:
            plt.figure(figsize=(15, 6))
            sns.lineplot(x=df_seleccionado['a√±o_mes'].astype(str), y=df_seleccionado[col])
            plt.title(f'{col} a lo largo del tiempo (por A√±o-Mes)')
            plt.xlabel('A√±o-Mes')
            plt.ylabel(col)
            plt.xticks(rotation=45, ha='right')
            plt.grid(True, linestyle='--', alpha=0.7)
            plt.tight_layout()
            plt.show()
            print(f"üìà Este gr√°fico muestra la tendencia de '{col}' a lo largo del tiempo, agrupado por a√±o y mes.")
            print("-" * 70 + "\n")

    print("‚úÖ An√°lisis Exploratorio de Datos completado.")

# --- Ejemplo de Uso ---
if __name__ == "__main__':
    # Crear un DataFrame de ejemplo para demostrar la funci√≥n
    np.random.seed(42)
    data = {
        'Fecha': pd.to_datetime(pd.date_range(start='2020-01-01', periods=100, freq='D').tolist() +
                                pd.date_range(start='2020-01-01', periods=100, freq='D').tolist()), # Duplicar para simular m√°s datos
        'Variable_A': np.random.rand(200) * 100,
        'Variable_B': np.random.randn(200) * 10 + 50,
        'Variable_C': np.random.randint(1, 100, 200),
        'Variable_D': np.random.normal(loc=100, scale=15, size=200),
        'Categoria': np.random.choice(['X', 'Y', 'Z'], 200),
        'Otra_Numerica': np.random.lognormal(mean=2, sigma=0.5, size=200)
    }
    df_ejemplo = pd.DataFrame(C:\Users\ricar\Documents\UVG-CUARTO A√ëO\8vo Semestre\DATA SCIENCE)

    # Introducir algunos valores nulos para demostraci√≥n
    df_ejemplo.loc[np.random.choice(df_ejemplo.index, 10), 'Variable_A'] = np.nan
    df_ejemplo.loc[np.random.choice(df_ejemplo.index, 5), 'Variable_C'] = np.nan

    # Definir las 4 columnas espec√≠ficas y la columna de fecha que quieres analizar
    mis_columnas = ['Variable_A', 'Variable_B', 'Variable_C', 'Variable_D']
    mi_columna_fecha = 'Fecha'

    # Llamar a la funci√≥n de an√°lisis exploratorio
    exploracion_eda(df_ejemplo, mis_columnas, mi_columna_fecha)