In [16]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# Parte 1: Limpieza con Python (Pandas)

# Paso 0: Carga de Datos

# Ve a la web del dataset en este enlace y descarga el fichero processed.cleveland.data.
# Este fichero no tiene cabecera. Al cargarlo con pd.read_csv(), tendrás que asignar los nombres de las columnas manualmente 
# usando el argumento names. Usa la siguiente lista para los nombres y familiarízate con su significado antes de continuar:

column_names = [
    'age',       # Edad del paciente (en años)
    'sex',       # Sexo (1 = hombre, 0 = mujer)
    'cp',        # Tipo de dolor torácico:
                 #   1 = angina típica
                 #   2 = angina atípica
                 #   3 = dolor no anginoso
                 #   4 = asintomático
    'trestbps',  # Presión arterial en reposo (mm Hg)
    'chol',      # Colesterol sérico total (mg/dl)
    'fbs',       # Glucemia en ayunas > 120 mg/dl (1 = sí, 0 = no)
    'restecg',   # Resultados del electrocardiograma en reposo:
                 #   0 = normal
                 #   1 = anormalidad ST-T
                 #   2 = hipertrofia ventricular izquierda
    'thalach',   # Frecuencia cardíaca máxima alcanzada (latidos por minuto)
    'exang',     # Angina inducida por ejercicio (1 = sí, 0 = no)
    'oldpeak',   # Depresión del segmento ST inducida por ejercicio (comparado con reposo)
    'slope',     # Pendiente del segmento ST:
                 #   1 = ascendente
                 #   2 = plana
                 #   3 = descendente
    'ca',        # Número de vasos principales coloreados por fluoroscopia (0–3)
    'thal',      # Resultado de la prueba de talasemia:
                 #   3 = normal
                 #   6 = defecto fijo
                 #   7 = defecto reversible
    'target'     # Diagnóstico de enfermedad cardíaca:
                 #   0 = no tiene enfermedad
                 #   1–4 = tiene enfermedad cardíaca
]

df = pd.read_csv('processed.cleveland.data', names=column_names)

print(df.head())
print(df.info())


    age  sex   cp  trestbps   chol  fbs  restecg  thalach  exang  oldpeak  \
0  63.0  1.0  1.0     145.0  233.0  1.0      2.0    150.0    0.0      2.3   
1  67.0  1.0  4.0     160.0  286.0  0.0      2.0    108.0    1.0      1.5   
2  67.0  1.0  4.0     120.0  229.0  0.0      2.0    129.0    1.0      2.6   
3  37.0  1.0  3.0     130.0  250.0  0.0      0.0    187.0    0.0      3.5   
4  41.0  0.0  2.0     130.0  204.0  0.0      2.0    172.0    0.0      1.4   

   slope   ca thal  target  
0    3.0  0.0  6.0       0  
1    2.0  3.0  3.0       2  
2    2.0  2.0  7.0       1  
3    3.0  0.0  3.0       0  
4    1.0  0.0  3.0       0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    float64
 1   sex       303 non-null    float64
 2   cp        303 non-null    float64
 3   trestbps  303 non-null    float64
 4   chol      303 non-n

In [17]:
# Paso 1: Análisis de Valores Faltantes (¡con truco!)

# Pregunta: Si usas .isnull().sum() directamente, ¿detectas algún valor nulo? La documentación del dataset indica que los valores faltantes se marcan con un '?'. 
# ¿Qué pasos necesitas seguir para que Pandas los reconozca como nulos?

# Sale que no hay nulos, pero hay que tener en cuenta que aquí los NaN se identifican con una ?
# print(df.isnull().sum())

# Para poder saber en este caso que valores hay con NaN, habrá que sustituir las interrogantes por el NaN necesario

# Acción: Aplica el reemplazo necesario.

# Aquí simplemente hago un replace, que cambie las interrogantes ? por NaN
df.replace('?', pd.NA, inplace=True)

print(df.isnull().sum())

# Pregunta: Ahora, ¿qué columnas son las afectadas por los nulos? ¿Qué estrategia de imputación (media o mediana) sería más robusta para ellas?

# Solo las columnas de ca (4) y thal (2) tienen columnas como nulas, y yo creo que la mejor estrategia sería la de la media, ya que se ven
# afectados muy poquitos registros, solo 2 y 4 de más de 300 registros
# Eso si, hay que tener en cuenta que esos dos campos utilizan números concretos para decir cada cosa, y realizar una media o mediana quizás no sería lo mejor
# Yo pienso que la mejor manera en este caso quizás sería la imputación por moda

    # 'ca',      # Número de vasos principales coloreados por fluoroscopia (0–3)
    # 'thal',    # Resultado de la prueba de talasemia:
                 #   3 = normal
                 #   6 = defecto fijo
                 #   7 = defecto reversible

# Acción: Implementa la estrategia de imputación que has elegido y comprueba que el dataset queda libre de valores nulos.

# Rellenar nulos con la moda
moda_ca = df['ca'].mode()[0]
df['ca'].fillna(moda_ca, inplace=True)

moda_thal = df['thal'].mode()[0]
df['thal'].fillna(moda_thal, inplace=True)

print(df.isnull().sum())


age         0
sex         0
cp          0
trestbps    0
chol        0
fbs         0
restecg     0
thalach     0
exang       0
oldpeak     0
slope       0
ca          4
thal        2
target      0
dtype: int64
age         0
sex         0
cp          0
trestbps    0
chol        0
fbs         0
restecg     0
thalach     0
exang       0
oldpeak     0
slope       0
ca          0
thal        0
target      0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['ca'].fillna(moda_ca, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['thal'].fillna(moda_thal, inplace=True)


In [None]:
# Paso 2: Gestión de Datos Duplicados

# Pregunta: ¿Contiene el dataset alguna fila duplicada?

# No, no contiene filas duplicadas

# Acción: Realiza la comprobación y, si es necesario, aplica la corrección correspondiente.

num_duplicados = df.duplicated().sum()
print(f"Número de filas duplicadas: {num_duplicados}")

# Sale que hay 0 filas duplicadas
# En caso de que hubieran duplicados, para eliminarlos sería así: df_sin_duplicados = df.drop_duplicates()


Número de filas duplicadas: 0


In [22]:
# Paso 3: Corrección de Tipos de Datos

# Pregunta: Tras el reemplazo de los '?', las columnas ca y thal (que contenían los nulos) probablemente tengan un tipo de dato incorrecto (ej. `object`). 
# ¿Qué tipo de dato deberían tener para el análisis numérico y cómo puedes corregirlo?

# Ahora mismo tanto ca como thal son de tipo object (strings), para poder trabajar con ellos de manera numérica habrá que reconvertirlos a numéricos, y después a float, como estaba originalmente (pero en string)
# Ademas, apli co el coerce, por si hubiera algún tipo de dato no numérico
df.info()

# Acción: Aplica la conversión de tipos necesaria y verifica el resultado final usando .info().

df['ca'] = pd.to_numeric(df['ca'], errors='coerce').astype(float)
df['thal'] = pd.to_numeric(df['thal'], errors='coerce').astype(float)

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    float64
 1   sex       303 non-null    float64
 2   cp        303 non-null    float64
 3   trestbps  303 non-null    float64
 4   chol      303 non-null    float64
 5   fbs       303 non-null    float64
 6   restecg   303 non-null    float64
 7   thalach   303 non-null    float64
 8   exang     303 non-null    float64
 9   oldpeak   303 non-null    float64
 10  slope     303 non-null    float64
 11  ca        303 non-null    float64
 12  thal      303 non-null    float64
 13  target    303 non-null    int64  
dtypes: float64(13), int64(1)
memory usage: 33.3 KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    float