# Proyecto Integrador Procesamiento de Datos. 

Proyecto Realizado por Jose Leonardo Piñeres Ramirez estudiante de ciencias de datos y machine learning.

# Parte 1: Introducción al análisis de datos
El proyecto de este curso consiste en analizar el conjunto de datos introducido en esta sección, procesarlo, limpiarlo y finalmente ajustar modelos de machine learning para realizar predicciones sobre estos datos.

Para el desarrollo de esta etapa del proyecto necesitamos intalar la librería datasets de Huggingface

pip install datasets
Vamos a trabajar con un dataset sobre fallo cardíaco

El dataset contiene registros médicos de 299 pacientes que padecieron insuficiencia cardíaca durante un período de seguimiento.

Las 13 características clínicas incluidas en el conjunto de datos son:

- Edad: edad del paciente (años)
- Anemia: disminución de glóbulos rojos o hemoglobina (booleano)
- Presión arterial alta: si el paciente tiene hipertensión (booleano)
- Creatinina fosfoquinasa (CPK): nivel de la enzima CPK en la sangre (mcg/L)
- Diabetes: si el paciente tiene diabetes (booleano)
- Fracción de eyección: porcentaje de sangre que sale del corazón en cada contracción (porcentaje)
- Plaquetas: plaquetas en la sangre (kiloplaquetas/mL)
- Sexo: mujer u hombre (binario)
- Creatinina sérica: nivel de creatinina sérica en la sangre (mg/dL)
- Sodio sérico: nivel de sodio sérico en la sangre (mEq/L)
- Fumar: si el paciente fuma o no (booleano)
- Tiempo: período de seguimiento (días)
- [Objetivo] Evento de fallecimiento: si el paciente falleció durante el período de seguimiento (booleano)

In [1]:
pip install datasets


Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd
import numpy as np

In [3]:
from datasets import load_dataset


dataset = load_dataset("mstz/heart_failure")

In [4]:
dataset

DatasetDict({
    train: Dataset({
        features: ['age', 'has_anaemia', 'creatinine_phosphokinase_concentration_in_blood', 'has_diabetes', 'heart_ejection_fraction', 'has_high_blood_pressure', 'platelets_concentration_in_blood', 'serum_creatinine_concentration_in_blood', 'serum_sodium_concentration_in_blood', 'is_male', 'is_smoker', 'days_in_study', 'is_dead'],
        num_rows: 299
    })
})

In [5]:
data = dataset["train"]
data

Dataset({
    features: ['age', 'has_anaemia', 'creatinine_phosphokinase_concentration_in_blood', 'has_diabetes', 'heart_ejection_fraction', 'has_high_blood_pressure', 'platelets_concentration_in_blood', 'serum_creatinine_concentration_in_blood', 'serum_sodium_concentration_in_blood', 'is_male', 'is_smoker', 'days_in_study', 'is_dead'],
    num_rows: 299
})

In [6]:
edades = np.array(data['age'])
edades

array([75, 55, 65, 50, 65, 90, 75, 60, 65, 80, 75, 62, 45, 50, 49, 82, 87,
       45, 70, 48, 65, 65, 68, 53, 75, 80, 95, 70, 58, 82, 94, 85, 50, 50,
       65, 69, 90, 82, 60, 60, 70, 50, 70, 72, 60, 50, 51, 60, 80, 57, 68,
       53, 60, 70, 60, 95, 70, 60, 49, 72, 45, 50, 55, 45, 45, 60, 42, 72,
       70, 65, 41, 58, 85, 65, 69, 60, 70, 42, 75, 55, 70, 67, 60, 79, 59,
       51, 55, 65, 44, 57, 70, 60, 42, 60, 58, 58, 63, 70, 60, 63, 65, 75,
       80, 42, 60, 72, 55, 45, 63, 45, 85, 55, 50, 70, 60, 58, 60, 85, 65,
       86, 60, 66, 60, 60, 60, 43, 46, 58, 61, 53, 53, 60, 46, 63, 81, 75,
       65, 68, 62, 50, 80, 46, 50, 61, 72, 50, 52, 64, 75, 60, 72, 62, 50,
       50, 65, 60, 52, 50, 85, 59, 66, 45, 63, 50, 45, 80, 53, 59, 65, 70,
       51, 52, 70, 50, 65, 60, 69, 49, 63, 55, 40, 59, 65, 75, 58, 60, 50,
       60, 60, 40, 80, 64, 50, 73, 45, 77, 45, 65, 50, 60, 63, 45, 70, 60,
       78, 50, 40, 85, 60, 49, 70, 50, 78, 48, 65, 73, 70, 54, 68, 55, 73,
       65, 42, 47, 58, 75

In [7]:
promedio_edades = np.mean(edades)
promedio_edades

60.82943143812709

# Parte 2: Carga de datos
Continuando con la anterior sección del proyecto integrador, ahora debes realizar lo siguiente:

- Convertir la estructura Dataset en un DataFrame de Pandas usando pd.DataFrame.
- Separar el dataframe en dos diferentes, uno conteniendo las filas con personas que perecieron (is_dead=1) y otro con el complemento.
- Calcular los promedios de las edades de cada dataset e imprimir.

In [8]:
# Paso 1: Convertir la estructura Dataset en un DataFrame de Pandas
df = pd.DataFrame(data)
df

Unnamed: 0,age,has_anaemia,creatinine_phosphokinase_concentration_in_blood,has_diabetes,heart_ejection_fraction,has_high_blood_pressure,platelets_concentration_in_blood,serum_creatinine_concentration_in_blood,serum_sodium_concentration_in_blood,is_male,is_smoker,days_in_study,is_dead
0,75,False,582.0,False,20.0,True,265000.00,1.9,130.0,True,False,4,1
1,55,False,7861.0,False,38.0,False,263358.03,1.1,136.0,True,False,6,1
2,65,False,146.0,False,20.0,False,162000.00,1.3,129.0,True,True,7,1
3,50,True,111.0,False,20.0,False,210000.00,1.9,137.0,True,False,7,1
4,65,True,160.0,True,20.0,False,327000.00,2.7,116.0,False,False,8,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
294,62,False,61.0,True,38.0,True,155000.00,1.1,143.0,True,True,270,0
295,55,False,1820.0,False,38.0,False,270000.00,1.2,139.0,False,False,271,0
296,45,False,2060.0,True,60.0,False,742000.00,0.8,138.0,False,False,278,0
297,45,False,2413.0,False,38.0,False,140000.00,1.4,140.0,True,True,280,0


In [9]:
# Paso 2: Separar el DataFrame en dos (perecieron y el complemento)
df_perecieron = df[df['is_dead'] == 1]
df_no_perecieron = df[df['is_dead'] == 0]

In [10]:
# Paso 3: Calcular los promedios de las edades de cada dataset
promedio_edad_perecieron = np.mean(df_perecieron['age'])
promedio_edad_no_perecieron = np.mean(df_no_perecieron['age'])


In [11]:
# Paso 4: Imprimir los resultados
print('Promedio de edad de personas que murieron:')
promedio_edad_perecieron


Promedio de edad de personas que murieron:


65.20833333333333

In [12]:
print('Promedio de edad de personas que no murieron:')
promedio_edad_no_perecieron

Promedio de edad de personas que no murieron:


58.758620689655174

# Parte 3: Calculando analíticas simples
Continuando con el DataFrame con todos los datos de la anterior subsección, ahora debes:

- Verificar que los tipos de datos son correctos en cada colúmna (por ejemplo que no existan colúmnas numéricas en formato de cadena).
- Calcular la cantidad de hombres fumadores vs mujeres fumadoras (usando agregaciones en Pandas).

In [13]:
# Asegurémonos de que los tipos de datos son los correctos
df.dtypes

age                                                  int64
has_anaemia                                           bool
creatinine_phosphokinase_concentration_in_blood    float64
has_diabetes                                          bool
heart_ejection_fraction                            float64
has_high_blood_pressure                               bool
platelets_concentration_in_blood                   float64
serum_creatinine_concentration_in_blood            float64
serum_sodium_concentration_in_blood                float64
is_male                                               bool
is_smoker                                             bool
days_in_study                                        int64
is_dead                                              int64
dtype: object

In [14]:
# O tambien se utiliza
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 13 columns):
 #   Column                                           Non-Null Count  Dtype  
---  ------                                           --------------  -----  
 0   age                                              299 non-null    int64  
 1   has_anaemia                                      299 non-null    bool   
 2   creatinine_phosphokinase_concentration_in_blood  299 non-null    float64
 3   has_diabetes                                     299 non-null    bool   
 4   heart_ejection_fraction                          299 non-null    float64
 5   has_high_blood_pressure                          299 non-null    bool   
 6   platelets_concentration_in_blood                 299 non-null    float64
 7   serum_creatinine_concentration_in_blood          299 non-null    float64
 8   serum_sodium_concentration_in_blood              299 non-null    float64
 9   is_male                         

In [15]:
#Esta ultima me gusta mas porque se puede ver mucho mejor los datos y conocer la integridad de los mismo

In [16]:
# Filtrar el DataFrame para obtener solo los datos de fumadores
df_fumadores = df[df['is_smoker'] == 1]

# Usar agregaciones en Pandas para contar la cantidad de hombres y mujeres fumadoras
cantidad_hombres_fumadores = df_fumadores[df_fumadores['is_male'] == 1].shape[0]
cantidad_mujeres_fumadoras = df_fumadores[df_fumadores['is_male'] == 0].shape[0]

In [17]:
# Imprimir los resultados
print(f"Cantidad de hombres fumadores: {cantidad_hombres_fumadores}")
print(f"Cantidad de mujeres fumadoras: {cantidad_mujeres_fumadoras}")

Cantidad de hombres fumadores: 92
Cantidad de mujeres fumadoras: 4


# Parte 4: Procesando información en bruto
Imagina que no tuvieramos el acceso fácil de estos datos a través de la librería y tuvieramos que descargar los datos usando requests.

Los datos son accesibles en esta dirección https://huggingface.co/datasets/mstz/heart_failure/raw/main/heart_failure_clinical_records_dataset.csv

- Realiza un GET request para descargarlos y escribe la respuesta como un archivo de texto plano con extensión csv (no necesitas pandas para esto, sólo manipulación de archivos nativa de Python)
- Agrupa el código para esto en una función reutilizable que reciba como argumento la url.

In [18]:
import requests

def descargar_y_guardar_csv(url, nombre_archivo):
    # Realizar el GET request
    respuesta = requests.get(url)

    # Verificar si la solicitud fue exitosa (código de estado 200)
    if respuesta.status_code == 200:
        # Guardar la respuesta en un archivo CSV
        with open(nombre_archivo, 'w') as archivo:
            archivo.write(respuesta.text)
        print(f"Datos descargados y guardados como {nombre_archivo}")
    else:
        print(f"Error al descargar los datos. Código de estado: {respuesta.status_code}")

In [19]:
# URL de los datos
url_datos = 'https://huggingface.co/datasets/mstz/heart_failure/raw/main/heart_failure_clinical_records_dataset.csv'  # Reemplaza con la URL real de tus datos
nombre_archivo = 'datos_descargados.csv'

# Llamada a la función para descargar y guardar los datos
descargar_y_guardar_csv(url_datos, nombre_archivo)

Datos descargados y guardados como datos_descargados.csv


In [20]:
# Datos descargados por API
datos_descargados = pd.read_csv("datos_descargados.csv")
datos_descargados

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,75.0,0,582,0,20,1,265000.00,1.9,130,1,0,4,1
1,55.0,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1
2,65.0,0,146,0,20,0,162000.00,1.3,129,1,1,7,1
3,50.0,1,111,0,20,0,210000.00,1.9,137,1,0,7,1
4,65.0,1,160,1,20,0,327000.00,2.7,116,0,0,8,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
294,62.0,0,61,1,38,1,155000.00,1.1,143,1,1,270,0
295,55.0,0,1820,0,38,0,270000.00,1.2,139,0,0,271,0
296,45.0,0,2060,1,60,0,742000.00,0.8,138,0,0,278,0
297,45.0,0,2413,0,38,0,140000.00,1.4,140,1,1,280,0


# Parte 5: Limpieza y preparación de datos
Una vez cargado el csv mediante el request anterior, realiza lo siguiente:

- Verificar que no existan valores faltantes
- Verificar que no existan filas repetidas
- Verificar si existen valores atípicos y eliminarlos
- Crear una columna que categorice por edades
  - 0-12: Niño
  - 13-19: Adolescente
  - 20-39: Jóvenes adulto
  - 40-59: Adulto
  - 60-...: Adulto mayor
- Guardar el resultado como csv
Encapsular toda la lógica anterior en una función que reciba un dataframe como entrada.

In [21]:
# Verificacion completa
valores_faltantes = datos_descargados.isnull().sum()
valores_faltantes

age                         0
anaemia                     0
creatinine_phosphokinase    0
diabetes                    0
ejection_fraction           0
high_blood_pressure         0
platelets                   0
serum_creatinine            0
serum_sodium                0
sex                         0
smoking                     0
time                        0
DEATH_EVENT                 0
dtype: int64

In [22]:
valores_duplicados = datos_descargados.duplicated().sum()
valores_duplicados

0

In [23]:
#Eliminar valores faltantes (si los hubiera)
datos_descargados.dropna()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,75.0,0,582,0,20,1,265000.00,1.9,130,1,0,4,1
1,55.0,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1
2,65.0,0,146,0,20,0,162000.00,1.3,129,1,1,7,1
3,50.0,1,111,0,20,0,210000.00,1.9,137,1,0,7,1
4,65.0,1,160,1,20,0,327000.00,2.7,116,0,0,8,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
294,62.0,0,61,1,38,1,155000.00,1.1,143,1,1,270,0
295,55.0,0,1820,0,38,0,270000.00,1.2,139,0,0,271,0
296,45.0,0,2060,1,60,0,742000.00,0.8,138,0,0,278,0
297,45.0,0,2413,0,38,0,140000.00,1.4,140,1,1,280,0


In [24]:
# Eliminar filas duplicadas (Si fuera el caso)
datos_descargados.drop_duplicates()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,75.0,0,582,0,20,1,265000.00,1.9,130,1,0,4,1
1,55.0,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1
2,65.0,0,146,0,20,0,162000.00,1.3,129,1,1,7,1
3,50.0,1,111,0,20,0,210000.00,1.9,137,1,0,7,1
4,65.0,1,160,1,20,0,327000.00,2.7,116,0,0,8,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
294,62.0,0,61,1,38,1,155000.00,1.1,143,1,1,270,0
295,55.0,0,1820,0,38,0,270000.00,1.2,139,0,0,271,0
296,45.0,0,2060,1,60,0,742000.00,0.8,138,0,0,278,0
297,45.0,0,2413,0,38,0,140000.00,1.4,140,1,1,280,0


In [25]:
datos_descargados['age'].mean()

60.83389297658862

In [26]:
datos_descargados['age'].max()

95.0

In [27]:
datos_descargados['age'].min()

40.0

In [28]:
datos_descargados['age'].describe()

count    299.000000
mean      60.833893
std       11.894809
min       40.000000
25%       51.000000
50%       60.000000
75%       70.000000
max       95.000000
Name: age, dtype: float64

In [29]:
# Crear la columna de categorización por edades
bins = [0, 12, 19, 39, 59, 100]
labels = ['Niño', 'Adolescente', 'Joven Adulto', 'Adulto', 'Adulto Mayor']
datos_descargados['Grupo Edad'] = pd.cut(datos_descargados['age'], bins, labels=labels, right=False)
datos_descargados['Grupo Edad'].head()

0    Adulto Mayor
1          Adulto
2    Adulto Mayor
3          Adulto
4    Adulto Mayor
Name: Grupo Edad, dtype: category
Categories (5, object): ['Niño' < 'Adolescente' < 'Joven Adulto' < 'Adulto' < 'Adulto Mayor']

In [30]:
datos_descargados['Grupo Edad'].tail()

294    Adulto Mayor
295          Adulto
296          Adulto
297          Adulto
298          Adulto
Name: Grupo Edad, dtype: category
Categories (5, object): ['Niño' < 'Adolescente' < 'Joven Adulto' < 'Adulto' < 'Adulto Mayor']

In [31]:
#Guardar los datos en un CSV
datos_descargados.to_csv('d_limpios.csv', index = False)

In [33]:
d_limpios = pd.read_csv('d_limpios.csv')
d_limpios

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT,Grupo Edad
0,75.0,0,582,0,20,1,265000.00,1.9,130,1,0,4,1,Adulto Mayor
1,55.0,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1,Adulto
2,65.0,0,146,0,20,0,162000.00,1.3,129,1,1,7,1,Adulto Mayor
3,50.0,1,111,0,20,0,210000.00,1.9,137,1,0,7,1,Adulto
4,65.0,1,160,1,20,0,327000.00,2.7,116,0,0,8,1,Adulto Mayor
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
294,62.0,0,61,1,38,1,155000.00,1.1,143,1,1,270,0,Adulto Mayor
295,55.0,0,1820,0,38,0,270000.00,1.2,139,0,0,271,0,Adulto
296,45.0,0,2060,1,60,0,742000.00,0.8,138,0,0,278,0,Adulto
297,45.0,0,2413,0,38,0,140000.00,1.4,140,1,1,280,0,Adulto


In [37]:
#Para poder usar hay que el db. 
# Cargar datos desde el archivo CSV descargado anteriormente
# db = pd.read_csv('datos_descargados.csv')

def limpieza_y_preparacion(db):
    # Verificar valores faltantes
    db = db.dropna()
    # Verificar filas duplicadas
    db = db.drop_duplicates()
    # Verificar y eliminar valores atípicos (puedes personalizar esta parte según tus criterios)
    limites_edad_inferior = 0
    limites_edad_superior = 120
    db = db[(db['age'] >= limites_edad_inferior) & (db['age'] <= limites_edad_superior)]
    # Crear columna de categorización por edades
    bins = [0, 12, 19, 39, 59, 100]
    labels = ['Niño', 'Adolescente', 'Joven Adulto', 'Adulto', 'Adulto Mayor']
    db['Grupo Edad'] = pd.cut(db['age'], bins, labels=labels, right=False)
    print("Columna 'Grupo Edad' creada.")

    # Guardar el resultado como CSV
    db.to_csv('db_limpios.csv', index=False)
    print("Datos preprocesados guardados como 'db_limpios.csv'.")

limpieza_y_preparacion(datos)
print("Los datos han sido procesados y limpiados exitosamente")

Columna 'Grupo Edad' creada.
Datos preprocesados guardados como 'db_limpios.csv'.
Los datos han sido procesados y limpiados exitosamente
