**Análisis exploratorios de datos**

In [1]:
import os
import pandas as pd
import json
from pprint import pprint

***Funcion de analisis***

In [7]:
def analizar_hoja(df, nombre):
    """
    Analiza un DataFrame de pandas y regresa un diccionario con los resultados.
    """
    analisis = {}
    analisis['nombre'] = nombre
    analisis['forma'] = df.shape
    analisis['columnas'] = df.columns.tolist()
    analisis['tipos_datos'] = df.dtypes.astype(str).to_dict()
    analisis['valores_nulos'] = df.isnull().sum().to_dict()
    analisis['valores_unicos'] = df.nunique().to_dict()

    # Estadísticas de tendencia central para columnas numéricas
    estadisticas = {}
    for col in df.select_dtypes(include='number').columns:
        estadisticas[col] = {
            'media': df[col].mean(),
            'mediana': df[col].median(),
            #'moda': df[col].mode().values.tolist() if not df[col].mode().empty else [],
            'nulos': int(df[col].isnull().sum())
        }
    analisis['estadisticas_tendencia_central'] = estadisticas

    # Ejemplo de los primeros 5 registros
    analisis['ejemplo'] = df.head().to_dict()

    return analisis

In [8]:
# 📂 Ruta a la carpeta con los archivos Excel
# carpeta = "/home/jeropf/OKVET/OKVET_DS_PROJECT/data"
carpeta = os.path.abspath(os.path.join(os.getcwd(), "../data"))

resultados_analisis = {}

for archivo in os.listdir(carpeta):
    if archivo.lower().endswith('.xlsx'):
        ruta_archivo = os.path.join(carpeta, archivo)
        try:
            excel = pd.ExcelFile(ruta_archivo)
            for hoja in excel.sheet_names:
                try:
                    df = pd.read_excel(ruta_archivo, sheet_name=hoja)
                    analisis = analizar_hoja(df, f"{archivo} - {hoja}")
                    if archivo not in resultados_analisis:
                        resultados_analisis[archivo] = {}
                    resultados_analisis[archivo][hoja] = analisis
                except Exception as e:
                    print(f"❌ Error leyendo hoja '{hoja}' en '{archivo}': {e}")
        except Exception as e:
            print(f"❌ Error abriendo archivo '{archivo}': {e}")

***Extraccion de Hojas de Excel***

In [9]:
# ✅ Guardar resultados como JSON
try:
    with open("resumen_eda.json", "w", encoding="utf-8") as f:
        json.dump(resultados_analisis, f, indent=2, ensure_ascii=False, default=str)
    print("✅ Archivo resumen_eda.json guardado correctamente.")
except Exception as e:
    print(f"❌ Error guardando JSON: {e}")


# 👀 Revisión rápida en Jupyter Notebook (ejemplo)
# Cambia "archivo.xlsx" y "Hoja1" por los reales de tu carpeta
pprint(resultados_analisis["consultas.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])

✅ Archivo resumen_eda.json guardado correctamente.
{'attitude': {'media': np.float64(0.162), 'mediana': 0.0, 'nulos': 0},
 'cardiovascular': {'media': np.float64(0.127), 'mediana': 0.0, 'nulos': 0},
 'differential_diagnosis': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'digestive': {'media': np.float64(0.181), 'mediana': 0.0, 'nulos': 0},
 'dx_differential': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'dx_final': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'dx_presumptive': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'ears': {'media': np.float64(0.122), 'mediana': 0.0, 'nulos': 0},
 'eyes': {'media': np.float64(0.135), 'mediana': 0.0, 'nulos': 0},
 'final_diagnosis': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'hydration': {'media': np.float64(0.142), 'mediana': 0.0, 'nulos': 0},
 'id': {'media': np.float64(1808874.5), 'mediana': 1808874.5, 'nulos': 0},
 'import_id': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'lymph_nodes': {'media': np.float64(0.144), 'mediana

### **ANÁLISIS INDIVIDUAL DE HOJAS DE DATOS**

**MASCOTAS**

In [10]:
##Forma
print("Forma del DataFrame:")
pprint(resultados_analisis["mascotas.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["mascotas.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["mascotas.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["mascotas.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["mascotas.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["mascotas.xlsx"]["Sheet1"]["ejemplo"])


Forma del DataFrame:
(1000, 22)
Tipos de datos:
{'birth_at': 'object',
 'code': 'object',
 'color': 'object',
 'created_at': 'object',
 'dead': 'int64',
 'dead_at': 'object',
 'deleted_at': 'object',
 'food': 'object',
 'gender_id': 'int64',
 'id': 'int64',
 'name': 'object',
 'owner_id': 'int64',
 'photo': 'object',
 'race': 'object',
 'race_other': 'object',
 'reproductive_state': 'object',
 'size_id': 'int64',
 'specie': 'object',
 'specie_other': 'object',
 'updated_at': 'object',
 'weight': 'float64',
 'weight_unit': 'object'}
Columnas:
['id',
 'owner_id',
 'name',
 'specie',
 'race',
 'specie_other',
 'race_other',
 'gender_id',
 'color',
 'birth_at',
 'weight',
 'weight_unit',
 'size_id',
 'reproductive_state',
 'photo',
 'dead',
 'dead_at',
 'code',
 'food',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'birth_at': 0,
 'code': 914,
 'color': 25,
 'created_at': 0,
 'dead': 0,
 'dead_at': 994,
 'deleted_at': 999,
 'food': 653,
 'gender_id': 0,
 'id': 0,
 'name': 0,

Las columnas que se puede quitar son: weight_unit, race_other, photo, dead_at, delete_at.
Crear una columna llamada Edad a partir del nacimiento

**CITAS**

In [6]:
##Forma
print("Forma del DataFrame:")
pprint(resultados_analisis["citas.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["citas.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["citas.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["citas.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["citas.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["citas.xlsx"]["Sheet1"]["ejemplo"])

Forma del DataFrame:
(1000, 23)
Tipos de datos:
{'assistance': 'object',
 'calendar_id': 'int64',
 'comments': 'object',
 'created_at': 'object',
 'deleted_at': 'object',
 'description': 'object',
 'end': 'object',
 'event_id': 'float64',
 'form_id': 'float64',
 'form_type': 'object',
 'id': 'int64',
 'owner_id': 'float64',
 'pet_id': 'float64',
 'responsible_id': 'float64',
 'start': 'object',
 'subtype': 'object',
 'summary': 'object',
 'type': 'object',
 'updated_at': 'object',
 'user_id': 'int64',
 'variables': 'object',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64'}
Columnas:
['id',
 'calendar_id',
 'vet_id',
 'owner_id',
 'pet_id',
 'user_id',
 'responsible_id',
 'event_id',
 'type',
 'subtype',
 'summary',
 'description',
 'start',
 'end',
 'assistance',
 'comments',
 'form_id',
 'form_type',
 'variables',
 'waiting_room_shift_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'assistance': 0,
 'calendar_id': 0,
 'comments': 996,
 'created_at': 0,
 'dele

NOTAS:

**Consultas**

In [7]:
##Forma
print("Forma del DataFrame:")
pprint(resultados_analisis["consultas.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["consultas.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["consultas.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["consultas.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["consultas.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["consultas.xlsx"]["Sheet1"]["ejemplo"])

Forma del DataFrame:
(1000, 71)
Tipos de datos:
{'anamnesis': 'object',
 'attitude': 'int64',
 'attitude_obs': 'object',
 'bcs': 'object',
 'blood_pressure': 'object',
 'breathing_rate': 'object',
 'cardiovascular': 'int64',
 'cardiovascular_obs': 'object',
 'consult_at': 'object',
 'created_at': 'object',
 'crt': 'object',
 'deleted_at': 'object',
 'diagnostic_plan': 'object',
 'differential_diagnosis': 'float64',
 'digestive': 'int64',
 'digestive_obs': 'object',
 'dx_differential': 'float64',
 'dx_final': 'float64',
 'dx_presumptive': 'float64',
 'ears': 'int64',
 'ears_obs': 'object',
 'eyes': 'int64',
 'eyes_obs': 'object',
 'file': 'object',
 'final_diagnosis': 'float64',
 'glycemia': 'object',
 'heart_rate': 'object',
 'heartbeat': 'object',
 'hydration': 'int64',
 'hydration_obs': 'object',
 'id': 'int64',
 'import_id': 'float64',
 'interpretation': 'object',
 'lymph_nodes': 'int64',
 'lymph_nodes_obs': 'object',
 'mucous': 'int64',
 'mucous_membrane': 'object',
 'mucous_obs': 

Notas: Muchas columnas de descripciones-Muchas columnas con valores nulos 

**Desparasitaciones**

In [8]:
##Forma
print("Forma del DataFrame:")
pprint(resultados_analisis["desparasitaciones.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["desparasitaciones.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["desparasitaciones.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["desparasitaciones.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["desparasitaciones.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["desparasitaciones.xlsx"]["Sheet1"]["ejemplo"])

Forma del DataFrame:
(1000, 15)
Tipos de datos:
{'created_at': 'object',
 'deleted_at': 'object',
 'details': 'object',
 'deworming_at': 'object',
 'dose': 'object',
 'file': 'object',
 'id': 'int64',
 'last_deworming': 'object',
 'next_control_at': 'object',
 'pet_id': 'int64',
 'product': 'object',
 'updated_at': 'object',
 'user_id': 'int64',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64'}
Columnas:
['id',
 'pet_id',
 'vet_id',
 'user_id',
 'deworming_at',
 'product',
 'dose',
 'last_deworming',
 'next_control_at',
 'file',
 'details',
 'waiting_room_shift_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'created_at': 0,
 'deleted_at': 997,
 'details': 659,
 'deworming_at': 0,
 'dose': 0,
 'file': 0,
 'id': 0,
 'last_deworming': 609,
 'next_control_at': 226,
 'pet_id': 0,
 'product': 0,
 'updated_at': 0,
 'user_id': 0,
 'vet_id': 0,
 'waiting_room_shift_id': 1000}
Estadísticas de tendencia central:
{'id': {'media': 396647.5, 'mediana': 396647.5, 'nulos': 0}

Notas: Se pueden eliminar las fechas, me parece que lo importante es lo que usan para desparasitar

**Documentos**

In [9]:
##Forma
print("Forma del DataFrame:")
pprint(resultados_analisis["documentos.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["documentos.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["documentos.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["documentos.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["documentos.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["documentos.xlsx"]["Sheet1"]["ejemplo"])

Forma del DataFrame:
(1000, 16)
Tipos de datos:
{'created_at': 'object',
 'deleted_at': 'object',
 'doc_format_type_id': 'int64',
 'documented_at': 'object',
 'documented_id': 'float64',
 'documented_type': 'object',
 'firebase_token_id': 'float64',
 'id': 'int64',
 'name': 'object',
 'pet_id': 'int64',
 'required_signature': 'int64',
 'signature_at': 'object',
 'updated_at': 'object',
 'user_id': 'int64',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64'}
Columnas:
['id',
 'vet_id',
 'pet_id',
 'user_id',
 'firebase_token_id',
 'doc_format_type_id',
 'documented_id',
 'documented_type',
 'documented_at',
 'name',
 'required_signature',
 'signature_at',
 'waiting_room_shift_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'created_at': 0,
 'deleted_at': 961,
 'doc_format_type_id': 0,
 'documented_at': 0,
 'documented_id': 940,
 'documented_type': 940,
 'firebase_token_id': 986,
 'id': 0,
 'name': 0,
 'pet_id': 0,
 'required_signature': 0,
 'signature_at': 361,
 '

Nota: Waiting_Id se puede eliminar- Firebase_token_id Revisar que es
No le ve importancia para el estudio

**Examenes_cabecera**

In [10]:
##Forma
print("Forma del DataFrame:")
pprint(resultados_analisis["examenes_cabecera.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["examenes_cabecera.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["examenes_cabecera.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["examenes_cabecera.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["examenes_cabecera.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["examenes_cabecera.xlsx"]["Sheet1"]["ejemplo"])

Forma del DataFrame:
(1000, 13)
Tipos de datos:
{'created_at': 'object',
 'deleted_at': 'object',
 'diagnosis': 'object',
 'dx': 'object',
 'exam_date': 'object',
 'id': 'int64',
 'laboratories_id': 'float64',
 'laboratories_type': 'float64',
 'pet_id': 'int64',
 'updated_at': 'object',
 'user_id': 'int64',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64'}
Columnas:
['id',
 'pet_id',
 'user_id',
 'laboratories_id',
 'laboratories_type',
 'vet_id',
 'exam_date',
 'diagnosis',
 'dx',
 'waiting_room_shift_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'created_at': 0,
 'deleted_at': 993,
 'diagnosis': 46,
 'dx': 999,
 'exam_date': 0,
 'id': 0,
 'laboratories_id': 1000,
 'laboratories_type': 1000,
 'pet_id': 0,
 'updated_at': 0,
 'user_id': 0,
 'vet_id': 0,
 'waiting_room_shift_id': 1000}
Estadísticas de tendencia central:
{'id': {'media': 572754.5, 'mediana': 572754.5, 'nulos': 0},
 'laboratories_id': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'laboratories_

Nota: Lo importante es el diagnostico
No se sabe que es el dx

**Examenes Items**

In [11]:
##Forma
print("Forma del DataFrame:")
pprint(resultados_analisis["examenes_items.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["examenes_items.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["examenes_items.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["examenes_items.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["examenes_items.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["examenes_items.xlsx"]["Sheet1"]["ejemplo"])

Forma del DataFrame:
(1000, 10)
Tipos de datos:
{'created_at': 'object',
 'deleted_at': 'object',
 'file': 'object',
 'id': 'int64',
 'laboratory_id': 'int64',
 'laboratory_test_id': 'int64',
 'order_item_id': 'float64',
 'quantity': 'int64',
 'updated_at': 'object',
 'user_id': 'int64'}
Columnas:
['id',
 'laboratory_id',
 'user_id',
 'laboratory_test_id',
 'order_item_id',
 'quantity',
 'file',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'created_at': 0,
 'deleted_at': 998,
 'file': 133,
 'id': 0,
 'laboratory_id': 0,
 'laboratory_test_id': 0,
 'order_item_id': 1000,
 'quantity': 0,
 'updated_at': 0,
 'user_id': 0}
Estadísticas de tendencia central:
{'id': {'media': 708429.5, 'mediana': 708429.5, 'nulos': 0},
 'laboratory_id': {'media': 572859.806, 'mediana': 572883.0, 'nulos': 0},
 'laboratory_test_id': {'media': 1801168.622, 'mediana': 2053119.5, 'nulos': 0},
 'order_item_id': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'quantity': {'media': 1.0, 'mediana': 1.0,

Nota: No veo informacion importante para minar
Preguntar que es el id del test de laboratorio

**Formulas Cabecera**

In [12]:
##Forma
print("Forma del DataFrame:")
pprint(resultados_analisis["formulas_cabecera.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["formulas_cabecera.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["formulas_cabecera.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["formulas_cabecera.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["formulas_cabecera.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["formulas_cabecera.xlsx"]["Sheet1"]["ejemplo"])

Forma del DataFrame:
(1000, 14)
Tipos de datos:
{'created_at': 'object',
 'deleted_at': 'object',
 'details': 'object',
 'diagnosis': 'object',
 'dx': 'object',
 'id': 'int64',
 'pet_id': 'int64',
 'prescription': 'float64',
 'prescription_at': 'object',
 'raw_prescription': 'float64',
 'updated_at': 'object',
 'user_id': 'int64',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64'}
Columnas:
['id',
 'pet_id',
 'vet_id',
 'user_id',
 'prescription_at',
 'diagnosis',
 'raw_prescription',
 'prescription',
 'details',
 'dx',
 'waiting_room_shift_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'created_at': 0,
 'deleted_at': 993,
 'details': 1,
 'diagnosis': 0,
 'dx': 992,
 'id': 0,
 'pet_id': 0,
 'prescription': 1000,
 'prescription_at': 0,
 'raw_prescription': 1000,
 'updated_at': 0,
 'user_id': 0,
 'vet_id': 0,
 'waiting_room_shift_id': 993}
Estadísticas de tendencia central:
{'id': {'media': 1412537.5, 'mediana': 1412537.5, 'nulos': 0},
 'pet_id': {'media': 161293

Nota: prescripcion y raw_prescripcion no tiene informacion. La informacion esta en details y diagnosis

**Formulas Items**

In [13]:
##Forma
print("Forma del DataFrame:")
pprint(resultados_analisis["formulas_cabecera.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["formulas_cabecera.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["formulas_cabecera.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["formulas_cabecera.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["formulas_cabecera.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["formulas_cabecera.xlsx"]["Sheet1"]["ejemplo"])

Forma del DataFrame:
(1000, 14)
Tipos de datos:
{'created_at': 'object',
 'deleted_at': 'object',
 'details': 'object',
 'diagnosis': 'object',
 'dx': 'object',
 'id': 'int64',
 'pet_id': 'int64',
 'prescription': 'float64',
 'prescription_at': 'object',
 'raw_prescription': 'float64',
 'updated_at': 'object',
 'user_id': 'int64',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64'}
Columnas:
['id',
 'pet_id',
 'vet_id',
 'user_id',
 'prescription_at',
 'diagnosis',
 'raw_prescription',
 'prescription',
 'details',
 'dx',
 'waiting_room_shift_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'created_at': 0,
 'deleted_at': 993,
 'details': 1,
 'diagnosis': 0,
 'dx': 992,
 'id': 0,
 'pet_id': 0,
 'prescription': 1000,
 'prescription_at': 0,
 'raw_prescription': 1000,
 'updated_at': 0,
 'user_id': 0,
 'vet_id': 0,
 'waiting_room_shift_id': 993}
Estadísticas de tendencia central:
{'id': {'media': 1412537.5, 'mediana': 1412537.5, 'nulos': 0},
 'pet_id': {'media': 161293

Nota: Poca información relevante

**Guarderia**

In [14]:
##Forma
print("Forma del DataFrame:")
pprint(resultados_analisis["guarderia.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["guarderia.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["guarderia.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["guarderia.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["guarderia.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["guarderia.xlsx"]["Sheet1"]["ejemplo"])

Forma del DataFrame:
(1000, 14)
Tipos de datos:
{'admission_date': 'object',
 'created_at': 'object',
 'deleted_at': 'object',
 'discharge_date': 'object',
 'id': 'int64',
 'objects': 'object',
 'observations': 'object',
 'pet_id': 'int64',
 'quantity': 'object',
 'type': 'object',
 'updated_at': 'object',
 'user_id': 'int64',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64'}
Columnas:
['id',
 'pet_id',
 'vet_id',
 'user_id',
 'admission_date',
 'discharge_date',
 'type',
 'quantity',
 'objects',
 'observations',
 'waiting_room_shift_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'admission_date': 0,
 'created_at': 0,
 'deleted_at': 985,
 'discharge_date': 176,
 'id': 0,
 'objects': 428,
 'observations': 482,
 'pet_id': 0,
 'quantity': 3,
 'type': 4,
 'updated_at': 0,
 'user_id': 0,
 'vet_id': 0,
 'waiting_room_shift_id': 1000}
Estadísticas de tendencia central:
{'id': {'media': 7359.5, 'mediana': 7359.5, 'nulos': 0},
 'pet_id': {'media': 1247040.052, 'mediana

Nota: La informaciín valiosa es en quantity (Parece ser de comida)

-------------------------------------------------------------------------------------------------------------------------------------------------------

***Análisis exploratorio en el que se estudia el tipo de dato de cada columna de las hojas de excel asignadas y se establece el significado cualitativo de cada columna***

##### Propietarios .xlsx

In [15]:
##Forma
print("Forma (size) del DataFrame:")
pprint(resultados_analisis["propietarios.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["propietarios.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["propietarios.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["propietarios.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["propietarios.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["propietarios.xlsx"]["Sheet1"]["ejemplo"])

Forma (size) del DataFrame:
(1000, 19)
Tipos de datos:
{'address (mask)': 'object',
 'city': 'object',
 'conctact (mask)': 'object',
 'country': 'object',
 'created_at': 'object',
 'deleted_at': 'float64',
 'email (mask)': 'object',
 'habeas_at': 'object',
 'id': 'int64',
 'ident_type': 'object',
 'kind_person': 'object',
 'mobile (mask)': 'object',
 'name (mask)': 'object',
 'number_doc (mask)': 'object',
 'phone (mask)': 'object',
 'phone2 (mask)': 'object',
 'regime': 'object',
 'region': 'object',
 'updated_at': 'object'}
Columnas:
['id',
 'name (mask)',
 'ident_type',
 'number_doc (mask)',
 'phone (mask)',
 'phone2 (mask)',
 'mobile (mask)',
 'email (mask)',
 'address (mask)',
 'city',
 'region',
 'country',
 'conctact (mask)',
 'kind_person',
 'regime',
 'habeas_at',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'address (mask)': 0,
 'city': 9,
 'conctact (mask)': 387,
 'country': 10,
 'created_at': 0,
 'deleted_at': 1000,
 'email (mask)': 0,
 'habeas_at': 9,
 'id'

- Eliminar: deleted_at (100% nulos).

- Revisar o decidir según necesidad: conctact (mask) (38.7% nulos), phone2 (mask), number_doc (mask).

- Posible imputación: city, region, habeas_at.

##### hospitalizaciones.xlsx

In [16]:
##Forma
print("Forma (size) del DataFrame:")
pprint(resultados_analisis["hospitalizaciones.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["hospitalizaciones.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["hospitalizaciones.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["hospitalizaciones.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["hospitalizaciones.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["hospitalizaciones.xlsx"]["Sheet1"]["ejemplo"])

Forma (size) del DataFrame:
(1000, 14)
Tipos de datos:
{'admission_date': 'object',
 'created_at': 'object',
 'deleted_at': 'object',
 'details': 'object',
 'discharge_date': 'object',
 'dx': 'object',
 'hospital_care_type_id': 'int64',
 'id': 'int64',
 'pet_id': 'int64',
 'reason': 'object',
 'updated_at': 'object',
 'user_id': 'int64',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64'}
Columnas:
['id',
 'pet_id',
 'vet_id',
 'user_id',
 'admission_date',
 'discharge_date',
 'hospital_care_type_id',
 'reason',
 'details',
 'dx',
 'waiting_room_shift_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'admission_date': 0,
 'created_at': 0,
 'deleted_at': 973,
 'details': 509,
 'discharge_date': 682,
 'dx': 997,
 'hospital_care_type_id': 0,
 'id': 0,
 'pet_id': 0,
 'reason': 0,
 'updated_at': 0,
 'user_id': 0,
 'vet_id': 0,
 'waiting_room_shift_id': 997}
Estadísticas de tendencia central:
{'hospital_care_type_id': {'media': 4.806, 'mediana': 1.0, 'nulos': 0},
 'id': 

***eliminar dx, waiting_room_shift_id y deleted_at. Evaluar si vale la pena imputar o conservar parcialmente discharge_date y details***

#### Imagenologia.xlsx

In [17]:
##Forma
print("Forma (size) del DataFrame:")
pprint(resultados_analisis["imagenologia.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["imagenologia.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["imagenologia.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["imagenologia.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["imagenologia.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["imagenologia.xlsx"]["Sheet1"]["ejemplo"])

Forma (size) del DataFrame:
(1000, 18)
Tipos de datos:
{'clinical_signs': 'object',
 'created_at': 'object',
 'date': 'object',
 'deleted_at': 'object',
 'details': 'object',
 'dx': 'object',
 'files': 'object',
 'id': 'int64',
 'image_type': 'object',
 'order_item_id': 'float64',
 'pet_id': 'int64',
 'presumptive_diagnosis': 'object',
 'study_type': 'object',
 'type_other': 'object',
 'updated_at': 'object',
 'user_id': 'int64',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64'}
Columnas:
['id',
 'pet_id',
 'vet_id',
 'user_id',
 'order_item_id',
 'date',
 'clinical_signs',
 'presumptive_diagnosis',
 'study_type',
 'image_type',
 'type_other',
 'details',
 'files',
 'dx',
 'waiting_room_shift_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'clinical_signs': 29,
 'created_at': 0,
 'date': 0,
 'deleted_at': 987,
 'details': 556,
 'dx': 996,
 'files': 134,
 'id': 0,
 'image_type': 0,
 'order_item_id': 971,
 'pet_id': 0,
 'presumptive_diagnosis': 2,
 'study_type': 

Eliminar columnas:

- dx: 996 nulos, sin utilidad para el análisis inmediato.

- type_other: 981 nulos, muy poco aporte.

- order_item_id: 971 nulos, parece ser un campo auxiliar sin continuidad.

- waiting_room_shift_id: 999 nulos.

- deleted_at: 987 nulos, sin utilidad activa.

 Imputar o clasificar: 

- details: 556 nulos → imputar con "No reportado".

- files: 134 nulos → imputar con lista vacía o string "Sin archivo".

- clinical_signs: 29 nulos → imputar con "Sin signos clínicos".

- presumptive_diagnosis: 2 nulos → imputar con "Sin diagnóstico presuntivo".

- study_type: 132 nulos → evaluar con image_type si se puede inferir.


Conversión de tipos: 
- Convertir date, created_at, updated_at a tipo datetime.

- Si se desea estandarizar, desanidar files en una tabla aparte.

#### ordenes_cabecera.xlsx

In [18]:
##Forma
print("Forma (size) del DataFrame:")
pprint(resultados_analisis["ordenes_cabecera.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["ordenes_cabecera.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["ordenes_cabecera.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["ordenes_cabecera.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["ordenes_cabecera.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["ordenes_cabecera.xlsx"]["Sheet1"]["ejemplo"])

Forma (size) del DataFrame:
(1000, 10)
Tipos de datos:
{'created_at': 'object',
 'deleted_at': 'object',
 'id': 'int64',
 'observation': 'object',
 'order_date': 'object',
 'pet_id': 'int64',
 'updated_at': 'object',
 'user_id': 'int64',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64'}
Columnas:
['id',
 'pet_id',
 'user_id',
 'vet_id',
 'order_date',
 'observation',
 'waiting_room_shift_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'created_at': 0,
 'deleted_at': 990,
 'id': 0,
 'observation': 0,
 'order_date': 0,
 'pet_id': 0,
 'updated_at': 0,
 'user_id': 0,
 'vet_id': 0,
 'waiting_room_shift_id': 972}
Estadísticas de tendencia central:
{'id': {'media': 79927.5, 'mediana': 79927.5, 'nulos': 0},
 'pet_id': {'media': 1480602.259, 'mediana': 1719919.0, 'nulos': 0},
 'user_id': {'media': 13523.227, 'mediana': 16171.5, 'nulos': 0},
 'vet_id': {'media': 7718.78, 'mediana': 10287.0, 'nulos': 0},
 'waiting_room_shift_id': {'media': 22837.89285714286,
             

🔹 Eliminar columnas:

- deleted_at: 1000 nulos, sin utilidad.

- waiting_room_shift_id: 998 nulos, campo prescindible en esta hoja.

🔹 Imputar o clasificar:

- observation: 409 nulos → imputar con "Sin observación".

🔹 Conversión de tipos:

- Convertir order_date, created_at, updated_at a datetime.

#### ordenes_items.xlsx

In [19]:
##Forma
print("Forma (size) del DataFrame:")
pprint(resultados_analisis["ordenes_items.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["ordenes_items.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["ordenes_items.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["ordenes_items.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["ordenes_items.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["ordenes_items.xlsx"]["Sheet1"]["ejemplo"])

Forma (size) del DataFrame:
(1000, 13)
Tipos de datos:
{'commandable_id': 'float64',
 'commandable_type': 'object',
 'created_at': 'object',
 'deleted_at': 'float64',
 'id': 'int64',
 'level': 'object',
 'notes': 'object',
 'order_id': 'int64',
 'pending': 'float64',
 'quantity': 'int64',
 'type_other': 'object',
 'updated_at': 'object',
 'user_id': 'float64'}
Columnas:
['id',
 'order_id',
 'commandable_type',
 'commandable_id',
 'type_other',
 'quantity',
 'level',
 'notes',
 'pending',
 'user_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'commandable_id': 7,
 'commandable_type': 0,
 'created_at': 0,
 'deleted_at': 1000,
 'id': 0,
 'level': 393,
 'notes': 554,
 'order_id': 0,
 'pending': 576,
 'quantity': 0,
 'type_other': 993,
 'updated_at': 0,
 'user_id': 783}
Estadísticas de tendencia central:
{'commandable_id': {'media': 1206341.081570997, 'mediana': 48772.0, 'nulos': 7},
 'deleted_at': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'id': {'media': 106688.5, '

🔹 Eliminar columnas:

- deleted_at: 1000 nulos.

- type_other: 993 nulos.

- user_id: 783 nulos → revisar si se puede asociar con cabecera, si no, eliminar.

🔹 Imputar o clasificar:

- pending: 576 nulos → clasificar como 0 (no pendiente) si se justifica.

- notes: 554 nulos → imputar con "Sin notas".

- level: 393 nulos → imputar con "Sin prioridad".

- commandable_id: 7 nulos → posible imputación si commandable_type lo permite.

🔹 Conversión de tipos:

- Convertir created_at, updated_at a datetime.

#### peluqueria_spa_cabecera.xlsx

In [20]:
##Forma
print("Forma (size) del DataFrame:")
pprint(resultados_analisis["peluqueria_spa_cabecera.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["peluqueria_spa_cabecera.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["peluqueria_spa_cabecera.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["peluqueria_spa_cabecera.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["peluqueria_spa_cabecera.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["peluqueria_spa_cabecera.xlsx"]["Sheet1"]["ejemplo"])

Forma (size) del DataFrame:
(1000, 14)
Tipos de datos:
{'created_at': 'object',
 'date': 'object',
 'deleted_at': 'object',
 'details': 'object',
 'file_after': 'object',
 'file_before': 'object',
 'id': 'int64',
 'next_control_at': 'object',
 'pet_id': 'int64',
 'rabies_vaccine': 'object',
 'updated_at': 'object',
 'user_id': 'int64',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64'}
Columnas:
['id',
 'pet_id',
 'vet_id',
 'user_id',
 'date',
 'details',
 'rabies_vaccine',
 'file_before',
 'file_after',
 'next_control_at',
 'waiting_room_shift_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'created_at': 0,
 'date': 0,
 'deleted_at': 995,
 'details': 656,
 'file_after': 972,
 'file_before': 957,
 'id': 0,
 'next_control_at': 703,
 'pet_id': 0,
 'rabies_vaccine': 873,
 'updated_at': 0,
 'user_id': 0,
 'vet_id': 0,
 'waiting_room_shift_id': 1000}
Estadísticas de tendencia central:
{'id': {'media': 259912.5, 'mediana': 259912.5, 'nulos': 0},
 'pet_id': {'media': 

Eliminar columnas:

- deleted_at: 1000 nulos.

- waiting_room_shift_id: 1000 nulos, sin relevancia.

🔹 Imputar o clasificar:

- file_before, file_after: 565 y 639 nulos respectivamente → imputar con "Sin archivo".

- details: 400 nulos → imputar con "No especificado".

- rabies_vaccine: 212 nulos → imputar con "No registrada".

- next_control_at: 537 nulos → puede clasificarse como "Sin programación".

🔹 Conversión de tipos:

- Convertir date, next_control_at, created_at, updated_at a datetime.



#### peluqueria_spa_items

In [21]:
##Forma
print("Forma (size) del DataFrame:")
pprint(resultados_analisis["peluqueria_spa_items.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["peluqueria_spa_items.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["peluqueria_spa_items.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["peluqueria_spa_items.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["peluqueria_spa_items.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["peluqueria_spa_items.xlsx"]["Sheet1"]["ejemplo"])

Forma (size) del DataFrame:
(1000, 8)
Tipos de datos:
{'created_at': 'object',
 'deleted_at': 'float64',
 'details': 'object',
 'id': 'int64',
 'responsible_id': 'float64',
 'spa_id': 'int64',
 'subject': 'object',
 'updated_at': 'object'}
Columnas:
['id',
 'spa_id',
 'subject',
 'responsible_id',
 'details',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'created_at': 0,
 'deleted_at': 1000,
 'details': 644,
 'id': 0,
 'responsible_id': 562,
 'spa_id': 0,
 'subject': 0,
 'updated_at': 0}
Estadísticas de tendencia central:
{'deleted_at': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'id': {'media': 266134.5, 'mediana': 266134.5, 'nulos': 0},
 'responsible_id': {'media': 13323.648401826484,
                    'mediana': 12781.0,
                    'nulos': 562},
 'spa_id': {'media': 259918.409, 'mediana': 259919.5, 'nulos': 0}}
Ejemplo de los primeros 5 registros:
{'created_at': {0: '2025-05-28 15:01:52',
                1: '2025-05-28 15:01:14',
                2: '20

🔹 Eliminar columnas:

- deleted_at: 1000 nulos.

🔹 Imputar o clasificar:

- details: 644 nulos → imputar con "Sin detalles".

- responsible_id: 992 nulos → si no es vital, eliminar o marcar como "Sin responsable".

🔹 Conversión de tipos:

- created_at, updated_at → convertir a datetime.

#### remisiones.xlsx

In [22]:
##Forma
print("Forma (size) del DataFrame:")
pprint(resultados_analisis["remisiones.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["remisiones.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["remisiones.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["remisiones.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["remisiones.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["remisiones.xlsx"]["Sheet1"]["ejemplo"])

Forma (size) del DataFrame:
(1000, 14)
Tipos de datos:
{'created_at': 'object',
 'deleted_at': 'object',
 'destination': 'object',
 'dx': 'float64',
 'id': 'int64',
 'observations': 'object',
 'pet_id': 'int64',
 'profesional_id': 'int64',
 'reason': 'object',
 'referral_at': 'object',
 'updated_at': 'object',
 'user_id': 'int64',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64'}
Columnas:
['id',
 'pet_id',
 'vet_id',
 'user_id',
 'profesional_id',
 'referral_at',
 'destination',
 'reason',
 'observations',
 'dx',
 'waiting_room_shift_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'created_at': 0,
 'deleted_at': 983,
 'destination': 4,
 'dx': 1000,
 'id': 0,
 'observations': 149,
 'pet_id': 0,
 'profesional_id': 0,
 'reason': 0,
 'referral_at': 0,
 'updated_at': 0,
 'user_id': 0,
 'vet_id': 0,
 'waiting_room_shift_id': 998}
Estadísticas de tendencia central:
{'dx': {'media': nan, 'mediana': nan, 'nulos': 1000},
 'id': {'media': 59507.5, 'mediana': 59507.5, 'nu

🔹 Eliminar columnas:

- deleted_at: 999 nulos, sin utilidad.

- waiting_room_shift_id: 998 nulos, prescindible.

🔹 Imputar o clasificar:

- reason: 234 nulos → imputar con "No especificado".

- details: 877 nulos → imputar con "Sin detalles".

- file: 986 nulos → imputar con "Sin archivo".

- vet_referred_to: 202 nulos → imputar con "No informado".

- file_description: 984 nulos → imputar con "Sin descripción".

- reception_observation: 984 nulos → imputar con "Sin observación".

🔹 Conversión de tipos:

- Convertir date, created_at, updated_at a datetime.

#### seguimientos.xlsx

In [23]:
print("Forma (size) del DataFrame:")
pprint(resultados_analisis["seguimientos.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["seguimientos.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["seguimientos.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["seguimientos.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["seguimientos.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["seguimientos.xlsx"]["Sheet1"]["ejemplo"])

Forma (size) del DataFrame:
(1000, 32)
Tipos de datos:
{'bcs': 'object',
 'blood_pressure': 'object',
 'breathing_rate': 'object',
 'created_at': 'object',
 'crt': 'object',
 'deleted_at': 'object',
 'details': 'object',
 'dx': 'object',
 'file': 'object',
 'glycemia': 'object',
 'heart_rate': 'object',
 'heartbeat': 'object',
 'id': 'int64',
 'monitorable_id': 'float64',
 'monitorable_type': 'object',
 'monitoring_at': 'object',
 'mucous_membrane': 'object',
 'next_control_at': 'object',
 'observations': 'object',
 'palpation': 'object',
 'pet_id': 'int64',
 'reflexes': 'object',
 'saturation': 'object',
 'temperature': 'float64',
 'temperature_unit': 'object',
 'type': 'float64',
 'updated_at': 'object',
 'user_id': 'int64',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64',
 'weight': 'float64',
 'weight_unit': 'object'}
Columnas:
['id',
 'pet_id',
 'vet_id',
 'user_id',
 'monitorable_id',
 'monitorable_type',
 'monitoring_at',
 'type',
 'details',
 'next_control_at',
 'temper

🔹 Eliminar columnas:

- deleted_at: 1000 nulos, sin utilidad.

- waiting_room_shift_id: 999 nulos, irrelevante para análisis.

🔹 Imputar o clasificar:

- details: 414 nulos → imputar con "Sin detalles".

- file: 964 nulos → imputar con "Sin archivo".

🔹 Conversión de tipos:

- Convertir date, created_at, updated_at a datetime.

#### vacunaciones.xlsx

In [24]:
print("Forma (size) del DataFrame:")
pprint(resultados_analisis["vacunaciones.xlsx"]["Sheet1"]["forma"])
##Tipos de datos
print("Tipos de datos:")
pprint(resultados_analisis["vacunaciones.xlsx"]["Sheet1"]["tipos_datos"])
##Columnas
print("Columnas:")
pprint(resultados_analisis["vacunaciones.xlsx"]["Sheet1"]["columnas"])
##Valores nulos
print("Valores nulos:")
pprint(resultados_analisis["vacunaciones.xlsx"]["Sheet1"]["valores_nulos"])
##Estadisticas de tendencia central
print("Estadísticas de tendencia central:")
pprint(resultados_analisis["vacunaciones.xlsx"]["Sheet1"]["estadisticas_tendencia_central"])
##Muestra de los primeros 5 registros
print("Ejemplo de los primeros 5 registros:")
pprint(resultados_analisis["vacunaciones.xlsx"]["Sheet1"]["ejemplo"])

Forma (size) del DataFrame:
(1000, 14)
Tipos de datos:
{'created_at': 'object',
 'deleted_at': 'object',
 'details': 'object',
 'id': 'int64',
 'laboratory': 'object',
 'lot': 'object',
 'next_vaccine_at': 'object',
 'pet_id': 'int64',
 'updated_at': 'object',
 'user_id': 'int64',
 'vaccine_at': 'object',
 'vaccine_type_id': 'int64',
 'vet_id': 'int64',
 'waiting_room_shift_id': 'float64'}
Columnas:
['id',
 'pet_id',
 'vet_id',
 'user_id',
 'vaccine_type_id',
 'laboratory',
 'lot',
 'details',
 'vaccine_at',
 'next_vaccine_at',
 'waiting_room_shift_id',
 'created_at',
 'updated_at',
 'deleted_at']
Valores nulos:
{'created_at': 0,
 'deleted_at': 998,
 'details': 482,
 'id': 0,
 'laboratory': 332,
 'lot': 460,
 'next_vaccine_at': 151,
 'pet_id': 0,
 'updated_at': 0,
 'user_id': 0,
 'vaccine_at': 0,
 'vaccine_type_id': 0,
 'vet_id': 0,
 'waiting_room_shift_id': 994}
Estadísticas de tendencia central:
{'id': {'media': 934729.5, 'mediana': 934729.5, 'nulos': 0},
 'pet_id': {'media': 1660088

🔹 Eliminar columnas:

- deleted_at: 1000 nulos.

- waiting_room_shift_id: 1000 nulos.

- vaccine_other: 981 nulos → campo auxiliar que puede eliminarse.

🔹 Imputar o clasificar:

- batch: 964 nulos → imputar con "Desconocido".

- lab: 962 nulos → imputar con "No informado".

- vaccine_type: 35 nulos → imputar con "Tipo no registrado".

- observations: 790 nulos → imputar con "Sin observaciones".

- vaccine_place: 964 nulos → imputar con "No especificado".

- rabies_tag: 964 nulos → imputar con "Sin etiqueta".

- file: 987 nulos → imputar con "Sin archivo".

🔹 Conversión de tipos:

- Convertir date, next_control_at, created_at, updated_at a datetime.

