In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats
from io import StringIO

# Cargar el dataset
std_df = pd.read_csv("C:/Users/sopor/Desktop/Curso Coding Dojo/Machine Learning/Proyecto 2/Students Life Style/student_lifestyle_dataset.csv")

std_df["Stress_Level"] = std_df["Stress_Level"].replace({"Low": 1, "Moderate": 5, "High": 10})

# Función para realizar un analisis exploratorio inicial
def eda_inicial(std_df):
    # Descripción del conjunto de datos
    # Información general sobre el dataset
    print("Descripcion del Conjunto de Datos:")
    print(std_df.info())  
    # Estadisticas descriptivas basicas
    print("\nEstadísticas Descriptivas:")
    print(std_df.describe())  

    # Analisis de variables categoricas y valores unicos
    print("\nDistribucion de Variables Categoricas:")
    print(std_df.select_dtypes(include='object').nunique())  

    # Visualizaciones
    print("\nVisualizaciones:")
    # Histograma para variables numericas
    std_df.hist(bins=20, figsize=(15, 10))
    plt.suptitle("Histograma de Variables Numéricas")
    plt.show()

    # Grafico de barras para variables categoricas
    for column in std_df.select_dtypes(include='object'):
        plt.figure(figsize=(10, 6))
        std_df[column].value_counts().plot(kind='bar')
        plt.title(f"Distribución de {column}")
        plt.show()

    # Boxplot para detectar outliers
    print("\nIdentificación de Outliers con Boxplot:")
    for col in std_df.columns:
        plt.figure(figsize=(6, 4))
        sns.boxplot(x=std_df[col])
        plt.title(f"Outliers en {col}")
        plt.show()
  

    # Mapa de calor para ver correlaciones
    print("\nMapa de Calor de Correlaciones:")
    plt.figure(figsize=(12, 8))
    sns.heatmap(std_df.corr(), annot=True, cmap='coolwarm', fmt='.2f')
    plt.title("Correlación entre Variables")
    plt.show()

    # Identificacion de valores nulos y mostrar cantidad
    print("\nValores Nulos:")
    print(std_df.isnull().sum())  
    
    # Identificacion de outliers utilizando Z-score y eliminacion de NaN
    print("\nIdentificación de Outliers:")
    # Filtrar solo columnas numéricas para Z-score
    numeric_columns = std_df.select_dtypes(include='number').columns
    
    # Eliminar filas con NaN y calcular el Z-score solo para columnas numericas
    z_scores = stats.zscore(std_df[numeric_columns].dropna())  
    # Contar los outliers
    outliers = (z_scores > 3).sum(axis=0)  
    print(f"Número de outliers en cada columna: {outliers}")

    # Funcion para guardar los hallazgos en un archivo
def guardar_hallazgos(hallazgos, filename="hallazgos_eda.txt"):
    with open(filename, 'w') as f:
        f.write(hallazgos)

# Funcion para capturar la informacion del dataset y guardarla en un archivo
def realizar_eda(std_df):
    # Realizar el analisis exploratorio
    eda_inicial(std_df)

    # Guardar los hallazgos en un archivo
    hallazgos = "Este es un ejemplo de los hallazgos del EDA.\n"
    
    # Capturar descripcion del dataset y estadísticas descriptivas
    str_io = StringIO()
    
    # Salida de dataset.info()
    std_df.info(buf=str_io)  
    hallazgos += f"Descripción del dataset:\n{str_io.getvalue()}\n"

    hallazgos += f"Estadísticas descriptivas:\n{std_df.describe()}\n"
    
    # Guardar en archivo
    guardar_hallazgos(hallazgos)

# Llamada de la función
realizar_eda(std_df)
