**Análisis exploratorios de datos**

In [15]:
import os
import pandas as pd
import json
from pprint import pprint

Funcion de analisis

In [16]:
def analizar_hoja(df, nombre):
    """
    Analiza un DataFrame de pandas y regresa un diccionario con los resultados.
    """
    analisis = {}
    analisis['nombre'] = nombre
    analisis['forma'] = df.shape
    analisis['columnas'] = df.columns.tolist()
    analisis['tipos_datos'] = df.dtypes.astype(str).to_dict()
    analisis['valores_nulos'] = df.isnull().sum().to_dict()
    analisis['valores_unicos'] = df.nunique().to_dict()

    # Estadísticas de tendencia central para columnas numéricas
    estadisticas = {}
    for col in df.select_dtypes(include='number').columns:
        estadisticas[col] = {
            'media': df[col].mean(),
            'mediana': df[col].median(),
            #'moda': df[col].mode().values.tolist() if not df[col].mode().empty else [],
            'nulos': int(df[col].isnull().sum())
        }
    analisis['estadisticas_tendencia_central'] = estadisticas

    # Ejemplo de los primeros 5 registros
    analisis['ejemplo'] = df.head().to_dict()

    return analisis


In [17]:
# 📂 Ruta a la carpeta con los archivos Excel
# carpeta = "/home/jeropf/OKVET/OKVET_DS_PROJECT/data"
carpeta = os.path.abspath(os.path.join(os.getcwd(), "../data"))

resultados_analisis = {}

for archivo in os.listdir(carpeta):
    if archivo.lower().endswith('.xlsx'):
        ruta_archivo = os.path.join(carpeta, archivo)
        try:
            excel = pd.ExcelFile(ruta_archivo)
            for hoja in excel.sheet_names:
                try:
                    df = pd.read_excel(ruta_archivo, sheet_name=hoja)
                    analisis = analizar_hoja(df, f"{archivo} - {hoja}")
                    if archivo not in resultados_analisis:
                        resultados_analisis[archivo] = {}
                    resultados_analisis[archivo][hoja] = analisis
                except Exception as e:
                    print(f"❌ Error leyendo hoja '{hoja}' en '{archivo}': {e}")
        except Exception as e:
            print(f"❌ Error abriendo archivo '{archivo}': {e}")

Extraccion de Hojas de Excel

In [18]:
# ✅ Guardar resultados como JSON
try:
    with open("resumen_eda.json", "w", encoding="utf-8") as f:
        json.dump(resultados_analisis, f, indent=2, ensure_ascii=False, default=str)
    print("✅ Archivo resumen_eda.json guardado correctamente.")
except Exception as e:
    print(f"❌ Error guardando JSON: {e}")


# 👀 Revisión rápida en Jupyter Notebook (ejemplo)
# Cambia "archivo.xlsx" y "Hoja1" por los reales de tu carpeta
pprint(resultados_analisis["consultas.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])

✅ Archivo resumen_eda.json guardado correctamente.
{'attitude': {'media': 0.162, 'mediana': 0.0, 'nulos': 0},
 'cardiovascular': {'media': 0.127, 'mediana': 0.0, 'nulos': 0},
 'differential_diagnosis': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'digestive': {'media': 0.181, 'mediana': 0.0, 'nulos': 0},
 'dx_differential': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'dx_final': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'dx_presumptive': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'ears': {'media': 0.122, 'mediana': 0.0, 'nulos': 0},
 'eyes': {'media': 0.135, 'mediana': 0.0, 'nulos': 0},
 'final_diagnosis': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'hydration': {'media': 0.142, 'mediana': 0.0, 'nulos': 0},
 'id': {'media': 1808874.5, 'mediana': 1808874.5, 'nulos': 0},
 'import_id': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'lymph_nodes': {'media': 0.144, 'mediana': 0.0, 'nulos': 0},
 'mucous': {'media': 0.146, 'mediana': 0.0, 'nulos': 0},
 'muscle': {'media