# Health Pulse Data Analysis


In [32]:
# Importar las bibliotecas necesarias
import pandas as pd
import numpy as np
import json

# 1
def load_data(file_path):   
    """
    Carga los datos desde el archivo CSV especificado.
    """
    df = pd.read_csv(file_path) # pd.read_csv() lee el archivo CSV
    return df # Devuelve un DataFrame que contiene los datos cargados desde el archivo CSV

# 2
def calculate_age(dob):
    """
    Calcula la edad del paciente a partir de su fecha de nacimiento (dob).
    """
    today = pd.Timestamp('now') # pd.Timestamp('now') para obtener la fecha y hora actuales como un objeto 
    dob = pd.to_datetime(dob) # pd.to_datetime (dob) convierte la fecha de nacimiento a un objeto Timestamp
    age = today.year - dob.year - ((today.month, today.day) < (dob.month, dob.day)) # resta el año de nacimiento (dob.year) del año actual (today.year). Se ajusta el cálculo restando 1 si la fecha actual es anterior a la fecha de cumpleaños en el año actual. 
    return age

# 3
def calculate_average_age(df):
    """
    Calcula el promedio de edad de todos los pacientes en el dataset.
    """
    df['age'] = df['dob'].apply(calculate_age)
    return df['age'].mean()


# 4
def common_diagnoses(df):
    """
    Retorna los 5 diagnósticos más comunes.
    """
    diagnoses = [] #inicializa una lista vacia
    for history in df['medical_history']: # Itera sobre cada valor de la columna medical_history del DataFrame.
        medical_history = json.loads(history) # Convierte la cadena JSON a una lista de diccionarios
        for record in medical_history:  # Itera sobre cada registro en la lista de historial médico y se extrae el valor del campo 'diagnosis'
            diagnoses.append(record['diagnosis']) # Se agrega a la lista diagnoses.
    return pd.Series(diagnoses).value_counts().head(5) # value_counts() cuenta la frecuencia de cada diagnóstico y head(5) devuelve los 5 diagnósticos más comunes


# 5
def diagnosis_treatment_association(df):
    """
    Retorna una tabla que muestra la cantidad de veces que cada tratamiento se asoció a un diagnóstico,
    con los valores como enteros.
    """
    association = {}  # Diccionario para almacenar las asociaciones

    for history in df['medical_history']:  # Recorrer cada historial médico en el DataFrame
        medical_history = json.loads(history)  # Convertir la cadena JSON en un diccionario
        for record in medical_history:  # Recorrer cada registro dentro del historial médico
            diagnosis = record['diagnosis']  # Obtener el diagnóstico
            treatment = record['treatment']  # Obtener el tratamiento

            # Inicializar el diccionario para el diagnóstico si no existe
            if diagnosis not in association:
                association[diagnosis] = {}

            # Inicializar el contador para el tratamiento si no existe
            if treatment not in association[diagnosis]:
                association[diagnosis][treatment] = 0

            # Incrementar el contador para el tratamiento específico dentro del diagnóstico
            association[diagnosis][treatment] += 1

    # Convertir el diccionario de asociaciones en un DataFrame
    association_table = pd.DataFrame(association)

    # Reemplazar NaN con 0 y convertir los valores a enteros
    association_table = association_table.fillna(0).astype(int)

    return association_table
    

print('------------------------------------  1. Cargar los datos del archivo CSV ---------------------------------------------')
file_path = 'health_pulse.csv'
df = load_data(file_path)


print('-----------------------------------  2. Calcular la edad a partir de fecha de nacimiento -----------------------------')
df['age'] = df['dob'].apply(calculate_age)  # Aplicar la función a la columna 'dob'
print (df)

print('------------------------------------- 3. Calcular el promedio de edad de los pacientes -----------------------------')
average_age = calculate_average_age(df)
print(f'Promedio de edad de los pacientes: {average_age:.2f} años')


print('------------------------------------- 4. Mostrar los 5 diagnosticos más comunes -------------------------------------')
common_diag = common_diagnoses(df)
print('Diagnósticos más comunes:')
print(common_diag)


print('-------------------------------------- 5. Relación entre diagnostico y tratamiento -----------------------------------')
diag_treat_assoc = diagnosis_treatment_association(df)
print(diag_treat_assoc)

------------------------------------  1. Cargar los datos del archivo CSV ---------------------------------------------
-----------------------------------  2. Calcular la edad a partir de fecha de nacimiento -----------------------------
   patient_id              name         dob  \
0    HP-78901        Ana García  1985-03-15   
1    HP-78902        Luis Pérez  1990-06-23   
2    HP-78903       Maria Gómez  1978-12-01   
3    HP-78904  Carlos Fernández  1982-04-10   
4    HP-78905    Lucía Martínez  1995-07-14   
5    HP-78906  Javier Rodríguez  1988-01-30   
6    HP-78907    Patricia López  1979-11-22   
7    HP-78908     Miguel Torres  1984-09-11   
8    HP-78909     Elena Navarro  1987-05-03   
9    HP-78910       Manuel Ruiz  1975-08-19   
10   HP-78911     Sofía Morales  1992-02-27   
11   HP-78912      David Romero  1980-06-15   
12   HP-78913     Isabel Santos  1985-04-25   
13   HP-78914      José Herrera  1990-12-10   
14   HP-78915     María Jiménez  1983-11-05   

        

## Explicación de las Funciones
Este notebook utiliza pandas para manejar y analizar los datos de salud. Las funciones desarrolladas incluyen:

1. **load_data(file_path):** Carga los datos desde un archivo CSV.
2. **calculate_age(dob):** Calcula la edad de los pacientes a partir de su fecha de nacimiento.
3. **calculate_average_age(df):** Calcula el promedio de edad de todos los pacientes.
4. **common_diagnoses(df):** Encuentra los diagnósticos más comunes entre los pacientes.
5. **diagnosis_treatment_association(df):** Analiza la relación entre diagnósticos y tratamientos.

Cada ejemplo de ejecución muestra los resultados directamente en la pantalla utilizando `print`.