  <a href="https://colab.research.google.com/github/marcpalo1999/MIA_sanidad/blob/main/2_1_introduccion_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import os
if not os.path.exists('/content/MIA_sanidad'):
    !git clone https://github.com/marcpalo1999/MIA_sanidad.git
os.chdir('/content/MIA_sanidad')
os.getcwd()


 # Introducción a Pandas para Análisis de Datos Médicos



 En este notebook aprenderás conceptos fundamentales de Pandas:



 - Qué es Pandas y para qué sirve

 - Cargar y explorar datasets

 - Inspeccionar datos (filas, columnas, tipos)

 - Seleccionar y filtrar información

 - Crear y modificar columnas

 - Trabajar con valores nulos

 - Agrupar y resumir datos

 - Visualización básica

 - Guardar resultados



 ---

 ## ¿Qué es Pandas?



 **Pandas** es una librería de Python diseñada para el análisis y manipulación de datos.

 Es como tener Excel pero con superpoderes programáticos.



 ### ¿Para qué sirve Pandas?

 - Cargar datos desde archivos (CSV, Excel, JSON, etc.)

 - Limpiar y transformar datos

 - Realizar cálculos y análisis estadísticos

 - Filtrar y agrupar información

 - Crear visualizaciones básicas

 - Exportar resultados procesados



 ### Estructura principal: DataFrame

 Un **DataFrame** es como una tabla de Excel en Python:

 - Tiene filas y columnas

 - Cada columna puede contener diferentes tipos de datos

 - Se puede filtrar, ordenar y modificar fácilmente

In [None]:
import os
# if not os.path.exists('/content/MIA_sanidad'):
#     !git clone https://github.com/marcpalo1999/MIA_sanidad.git
# os.chdir('/content/MIA_sanidad')
os.getcwd()


In [None]:
# Importar las librerías necesarias para el análisis de datos
import pandas as pd  # Para manipulación de datos tabulares
import numpy as np   # Para operaciones matemáticas y arrays
import matplotlib.pyplot as plt  # Para crear gráficos básicos


 ## Capítulo 1: Cargar y Explorar Datos



 Vamos a trabajar con un dataset real de enfermedades cardíacas.

## Cargar Datos: Rutas de Archivos

Para cargar nuestro dataset, necesitamos decirle a Python dónde encontrarlo.

### Dos formas de especificar la ubicación:

**❌ Ruta completa (no recomendado):**
```python
df = pd.read_csv("C:/Users/maria/Desktop/proyecto/heart_disease_dataset.csv")
```
- Solo funciona en tu computadora
- No funciona si compartes el código

**✅ Ruta relativa (recomendado):**
```python
df = pd.read_csv("./data/heart_disease_dataset.csv")
```
- le indicamos a python que los datos estan en el mismo sitio donde esta nuestro archivo sobre el que trabajamos, dentro de la carpeta /data, y que los datos se llaman heart_disease_dataset.csv

In [None]:
# Cargar el archivo CSV en un DataFrame - la estructura principal de pandas
df = pd.read_csv("./data/heart_disease_dataset_con_nulos.csv")

# Mostrar las primeras filas del dataset para ver qué contiene
df


 ### Contexto del Dataset



 Este dataset contiene información médica de 303 pacientes:



# Dataset Heart Disease - UCI Machine Learning Repository

## Descripción General

La base de datos Heart Disease fue obtenida del repositorio de UCI Machine Learning, compuesto de **14 atributos o variables**, distribuidas en **5 variables cuantitativas** y **9 variables categóricas**, con **303 observaciones** en total.

## Variables del Dataset

### Variables Demográficas

* **Edad (age):** Edad del paciente (Variable cuantitativa discreta)
* **Sexo (sex):** Sexo del paciente (Categórica con dos niveles: Femenino y Masculino)

### Variables Clínicas - Síntomas

* **Cp:** Tipo de dolor en el pecho (Categórica con 4 tipos)
   * **Tipo 1:** Angina típica
   * **Tipo 2:** Angina Atípica
   * **Tipo 3:** Dolor no anginal
   * **Tipo 4:** Asintomático

* **exang:** Angina inducida por el ejercicio (Categórica con dos niveles: Sí, No)

### Variables Clínicas - Mediciones Fisiológicas

* **trestbps:** Presión arterial en reposo en mm Hg al ingreso al hospital (Variable continua)
* **chol:** Colesterol sérico en mg/dl (Variable continua)
* **fbs:** Azúcar en sangre en ayunas > 120 mg/dl (Categórica con 2 niveles: verdadero, falso)
* **thalach:** Frecuencia cardíaca máxima alcanzada (Variable continua)
* **oldpeak:** Depresión del ST inducida por el ejercicio en relación con el descanso (Variable continua)

### Variables Clínicas - Estudios Especializados

* **restecg:** Resultados electrocardiográficos en reposo (Categórica con 3 niveles)
   * **Nivel 0:** Normal
   * **Nivel 1:** Tener anormalidad de onda ST-T (inversiones de onda T y/o elevación o depresión de ST de > 0.05 mV)
   * **Nivel 2:** Muestra hipertrofia ventricular izquierda probable o definitiva según los criterios de Estes

* **slope:** La pendiente del segmento ST de ejercicio pico (Categórica con 3 niveles)
   * **Valor 1:** Ascenso
   * **Valor 2:** Plano
   * **Valor 3:** Descenso

* **ca:** Número de vasos principales (0-3) coloreados por fluoroscopia (Categórica con 4 niveles: 0-1-2-3)

* **thal:** El estado del corazón según la prueba de Thallium (Categórica con 3 niveles)
   * **N:** Normal
   * **DF:** Defecto fijo
   * **DR:** Defecto reversible

### Variable Objetivo

* **num:** Presencia de enfermedad cardíaca (estado de enfermedad angiográfica) (Categórica con 5 niveles)
   * **0:** Saludable
   * **1:** Diagnosticado como etapa 1
   * **2:** Diagnosticado como etapa 2
   * **3:** Diagnosticado como etapa 3
   * **4:** Diagnosticado como etapa 4

## Simplificación de la Variable Objetivo

Para un mejor entendimiento de la base de datos, la variable **num** se considerará con **dos niveles únicamente**:

- **0 = "No":** El paciente está saludable, no presenta enfermedad cardíaca
- **1-4 = "Sí":** El paciente presenta enfermedad cardíaca (cualquier etapa)



 ## Capítulo 2: Inspección Básica del DataFrame



 Lo primero que hacemos siempre es conocer nuestros datos.

In [None]:
# Ver las primeras 5 filas del dataset - útil para ver la estructura de los datos
df.head()


In [None]:
# Ver las últimas 3 filas - para comprobar que no hay problemas al final del archivo
df.tail(3)


In [None]:
# Ver una muestra aleatoria de 5 filas - nos da una idea general sin sesgo de posición
df.sample(5)


In [None]:
# Obtener las dimensiones del DataFrame (número de filas y columnas)
# shape devuelve una tupla: (filas, columnas)
df.shape


In [None]:
# Ver todos los nombres de las columnas del dataset
# Útil para saber exactamente qué variables tenemos disponibles
df.columns


In [None]:
# Verificar qué tipo de dato tiene cada columna (int64, float64, object, etc.)
# Importante para saber qué operaciones podemos hacer con cada variable
df.dtypes


In [None]:
# Obtener información general del DataFrame: tipos, valores no nulos, memoria usada
# Es como un resumen técnico completo del dataset
df.info()


In [None]:
# Generar estadísticas descriptivas de todas las columnas numéricas
# Incluye: conteo, media, desviación estándar, min, max, percentiles
df.describe()


 ### Ejercicios Capítulo 1 y 2: Exploración Básica



 ### Ejercicio 1

 Usando los métodos que acabas de aprender:

 1. Muestra las primeras 10 filas del dataset

 2. Cuenta cuántas filas y columnas tiene el dataset

 3. Identifica qué tipos de datos hay en cada columna

In [None]:
# Respuesta ejercicio 1


In [None]:
# 1. Mostrar las primeras 10 filas usando head(n) donde n es el número de filas



In [None]:
# 2. Obtener dimensiones usando shape - devuelve tupla (filas, columnas)



In [None]:
# 3. Ver tipos de datos de cada columna usando dtypes



 ### Ejercicio 2

 Explora las estadísticas descriptivas:

 1. Usa `.describe()` para ver el resumen estadístico

 2. Identifica cuál es la edad promedio de los pacientes

 3. Encuentra el valor máximo y mínimo del colesterol

In [None]:
# Respuesta ejercicio 2


 ## Capítulo 3: Seleccionar Columnas y Filas



 Pandas ofrece varias formas de acceder a los datos.

In [None]:
# Seleccionar una sola columna usando corchetes - devuelve una Serie (1 dimensión)
df["age"].head(10)


In [None]:
# Alternativa: seleccionar columna usando notación de punto (solo si el nombre no tiene espacios)
df.chol.head()


In [None]:
# Seleccionar múltiples columnas pasando una lista de nombres de columnas - devuelve DataFrame filtrado por nuestras columnas de interes
subset = df[["age", "sex", "chol", "num"]]
subset.head()


### `.loc` e `.iloc`

Pandas ofrece dos métodos principales para seleccionar datos específicos de un DataFrame. Ambos separan por este orden [filas, columnas]. Separadas por una coma. 

#### `.iloc` - Selección por Posición Numérica

**¿Qué es?** 
- **i**nteger **loc**ation - selecciona por números de posición. És analogo al tema de indices de listas o strings.
- Funciona igual que los índices de Python: empieza en 0
- Los rangos excluyen el último número (como `range()` o slicing)


**Ejemplos prácticos:**
```python
df.iloc[0]           # Primera fila completa
df.iloc[-1]          # Última fila completa
df.iloc[0:5]         # Primeras 5 filas (0, 1, 2, 3, 4)
df.iloc[:, 0:3]      # Todas las filas, primeras 3 columnas
df.iloc[10, 2]       # Fila 10, columna 2 (un valor específico)
```

#### `.loc` - Selección por Etiquetas/Nombres

**¿Qué es?**
- **L**abel l**oc**ation - selecciona por nombres de filas/columnas
- Los rangos incluyen ambos extremos
- Más legible y descriptivo

**¿Cuándo usarlo?**
- Cuando conoces los nombres de las columnas
- Para filtrar datos con condiciones
- Cuando quieres código más legible

**Ejemplos prácticos:**
```python
df.loc[0, 'age']                      # Fila 0, columna 'age'
df.loc[:, 'age']                      # Todas las filas, solo columna 'age'
df.loc[0:4, 'age':'chol']            # Filas 0-4, desde 'age' hasta 'chol'
df.loc[df['age'] > 50, 'chol']       # Colesterol de pacientes >50 años
df.loc[:, ['age', 'sex', 'chol']]    # Columnas específicas por nombre
```

#### Comparación Directa

| Aspecto | `.iloc` | `.loc` |
|---------|---------|--------|
| **Selecciona por** | Números (posición) | Nombres (etiquetas) |
| **Rangos** | Excluye final `[0:3]` = 0,1,2 | Incluye final `[0:3]` = 0,1,2,3 |
| **Legibilidad** | Menos descriptivo | Más descriptivo |
| **Filtros** | No permite condiciones | Permite condiciones |

#### Casos de Uso Comunes

**Usa `.iloc` cuando:**
```python
# Quieres las primeras/últimas filas
df.iloc[:10]          # Primeras 10 filas
df.iloc[-5:]          # Últimas 5 filas

# Sabes posiciones exactas
df.iloc[25, 3]        # Fila 25, columna 3
```

**Usa `.loc` cuando:**
```python
# Trabajas con nombres descriptivos
df.loc[:, 'age':'chol']           # Rango de columnas por nombre

# Aplicas filtros
df.loc[df['age'] > 60, 'chol']    # Colesterol de mayores de 60
```



In [None]:
# Seleccionar una fila específica por su posición usando iloc (integer location)
# iloc[0] selecciona la primera fila (recordar que Python empieza en 0)
df.iloc[0]

#Fijaros que nos ha seleccionado la primera fila del dataframe pero nos la muestra verticalmente, es solo para verla mejor.


In [None]:
# Seleccionar un rango de filas usando iloc con slice notation [inicio:fin]
# iloc[5:10] selecciona filas desde la 5 hasta la 9 (la 10 no se incluye)
df.iloc[5:10]


In [None]:
# Seleccionar filas y columnas específicas usando iloc[filas, columnas]
# iloc[0:3, 0:4] selecciona las primeras 3 filas y las primeras 4 columnas
df.iloc[0:3, 0:4]


In [None]:
# Seleccionar usando loc con nombres de columnas (label location)
# loc permite usar nombres de columnas en lugar de posiciones numéricas
df.loc[0:2, ["age", "sex", "chol"]]


 ### Ejercicios Capítulo 3: Selección de Datos



 ### Ejercicio 1

 Practica la selección de datos:

 1. Selecciona solo la columna `trestbps` (presión arterial)

 2. Selecciona las columnas `age`, `sex` y `thalach` de los primeros 8 pacientes

 3. Muestra la información completa del paciente en la posición 50

In [None]:
# Respuesta ejercicio 1


 ### Ejercicio 2

 Practica con iloc y loc:

 1. Usa `iloc` para seleccionar las filas 10-15 y las columnas 2-5

 2. Usa `loc` para seleccionar las primeras 5 filas de las columnas `age`, `chol` y `num`

In [None]:
# Respuesta ejercicio 2


 ## Capítulo 4: Filtrar Datos



 Una de las operaciones más importantes es filtrar filas según condiciones.

In [None]:
df["age"] > 60

#Fijaos que nos devuelve la la columna age, pero en vez de la edad con un bool verdadero/falso dependiendo de si la edad es mayor que 60 o no.

In [None]:
#Si cogemos un dataframe y le damos como indice una columna con bools, nos devuelve solo las filas donde el bool es True
df[df["age"] > 60]

In [None]:
# Filtrar filas que cumplen una condición: pacientes mayores de 60 años
# df["age"] > 60 crea una Serie de valores booleanos (True/False)
# df[condición_booleana] devuelve solo las filas donde la condición es True
mayores_60 = df[df["age"] > 60]
len(mayores_60)  # Contar cuántos pacientes cumplen la condición


In [None]:
mayores_60.head()  # Mostrar algunos ejemplos de los pacientes filtrados


In [None]:
(df["sex"] == 0) & (df["age"] > 50)

In [None]:
df[(df["sex"] == 0) & (df["age"] > 50)]

In [None]:
# Filtrar con múltiples condiciones usando operadores lógicos
# & significa AND (ambas condiciones deben ser True)
# Paréntesis son necesarios para que funcione correctamente
mujeres_mayores = df[(df["sex"] == 0) & (df["age"] > 50)]
len(mujeres_mayores)


In [None]:
mujeres_mayores.head()


In [None]:
# Usar operador OR (|) para filtrar filas que cumplen al menos una condición
# Pacientes con colesterol alto O presión arterial alta
alto_riesgo = df[(df["chol"] > 240) | (df["trestbps"] > 140)]
len(alto_riesgo)


dataframe.isin(lista):

In [None]:
df["cp"].isin([1, 2])

In [None]:
# EXTRA: Filtrar usando isin() para verificar si un valor está en una lista específica
# Útil cuando queremos seleccionar múltiples valores exactos de una variable
dolor_especifico = df[df["cp"].isin([1, 2])]
len(dolor_especifico)


In [None]:
# Usar query() para filtros complejos con sintaxis más legible
# Permite escribir condiciones como si fuera SQL, más fácil de leer
resultado = df.query("age > 50 and chol > 200 and sex == 1")
len(resultado)


In [None]:
resultado.head()


 ### Ejercicios Capítulo 4: Filtrado de Datos



 ### Ejercicio 1

 Practica filtros simples:

 1. Filtra pacientes menores de 40 años

 2. Filtra pacientes con colesterol mayor a 250

 3. Filtra pacientes que tienen enfermedad cardíaca (`num` > 0)

In [None]:
# Respuesta ejercicio 1


In [None]:
# 1. Filtrar menores de 40 años usando condición simple



In [None]:
# 2. Filtrar por colesterol alto usando operador de comparación



In [None]:
# 3. Filtrar pacientes con enfermedad usando condición > 0



 ### Ejercicio 2

 Practica filtros con múltiples condiciones:

 1. Encuentra mujeres con presión arterial mayor a 130

 2. Encuentra hombres menores de 45 años CON enfermedad cardíaca

 3. Encuentra pacientes con colesterol alto (>240) O frecuencia cardíaca baja (<120)

In [None]:
# Respuesta ejercicio 2


 ## Capítulo 5: Crear y Modificar Columnas



 Es muy común necesitar crear nuevas variables o transformar las existentes.

In [None]:
# Crear una nueva columna usando operaciones matemáticas simples
# Asignar directamente a df["nueva_columna"] crea la columna
df["edad_en_meses"] = df["age"] * 12
df[["age", "edad_en_meses"]].head()


In [None]:
# Crear columna combinando múltiples columnas existentes
# Útil para crear índices o ratios médicos
df["indice_colesterol_edad"] = df["chol"] / df["age"]
df[["age", "chol", "indice_colesterol_edad"]].head()


In [None]:
# Crear columna categórica usando pd.cut() para convertir valores continuos en rangos
# bins define los límites de los rangos, labels define los nombres de cada categoría
df["grupo_edad"] = pd.cut(df["age"], 
                          bins=[0, 40, 50, 60, 70, 100],
                          labels=["<40", "40-49", "50-59", "60-69", "70+"])
df[['age',"grupo_edad"]]

Igual que para las listas teniamos la función .count() para contar las frecuencias de los elementos, en dataframes tenemos la funcion .value_counts() que hace lo mismo

In [None]:
df["grupo_edad"].value_counts()


In [None]:
# Usar apply() para aplicar funciones personalizadas a cada valor de una columna
# Útil cuando necesitamos lógica compleja que no se puede hacer con operaciones simples
def clasificar_colesterol(valor):
    if pd.isna(valor):  # Verificar si el valor es nulo
        return "Desconocido"
    elif valor < 200:
        return "Normal"
    elif valor < 240:
        return "Límite alto"
    else:
        return "Alto"

df["categoria_colesterol"] = df["chol"].apply(clasificar_colesterol)
df["categoria_colesterol"].value_counts()


In [None]:
# Usar np.where() para crear columnas con lógica condicional simple (if-else)
# np.where(condición, valor_si_true, valor_si_false)
df["sexo_texto"] = np.where(df["sex"] == 0, "Mujer", "Hombre")
df["sexo_texto"].value_counts()


In [None]:
# Usar map() con diccionario para recodificar valores según una tabla de mapeo
# Útil cuando tenemos códigos numéricos que queremos convertir a texto descriptivo
mapeo_enfermedad = {0: "Sin enfermedad", 1: "Leve", 2: "Moderada", 3: "Severa", 4: "Muy severa"}
df["nivel_enfermedad"] = df["num"].map(mapeo_enfermedad)
df["nivel_enfermedad"].value_counts()


 ### Ejercicios Capítulo 5: Creación de Columnas



 ### Ejercicio 1

 Crea nuevas columnas básicas:

 1. Crea una columna `edad_años_2030` que muestre la edad que tendrán los pacientes en 2030 (asume que estamos en 2024)

 2. Crea una columna `frecuencia_por_edad` que divida `thalach` entre `age`

In [None]:
# Respuesta ejercicio 1


In [None]:
# 1. Calcular edad futura sumando años a la edad actual



In [None]:
# 2. Crear ratio dividiendo una columna entre otra



 ### Ejercicio 2

 Crea columnas categóricas:

 1. Crea una función que clasifique la presión arterial (`trestbps`):

    - "Normal": menor a 120

    - "Elevada": entre 120 y 129

    - "Alta": 130 o más

 2. Aplica esta función para crear la columna `categoria_presion`

In [None]:
# Respuesta ejercicio 2


In [None]:
# 1. Definir función que clasifica presión según rangos médicos estándar



In [None]:
# 2. Aplicar la función usando apply() para crear nueva columna categórica



 ### Ejercicio 3

 Usa mapeo y condicionales:
 1. Crea un diccionario para mapear los valores de `cp` (dolor en pecho):

    - 1: "Angina típica", 2: "Angina atípica", 3: "Dolor no anginoso", 4: "Asintomático"

    - Aplícalo para crear la columna `tipo_dolor`

In [None]:
# Respuesta ejercicio 3


 ## Capítulo 6: Trabajar con Valores Nulos



 El manejo de valores faltantes es crucial en el análisis de datos.

In [None]:
# Detectar valores nulos en cada columna del dataset
# isnull() devuelve True para valores nulos, sum() cuenta cuántos True hay por columna
df.isnull().sum()


In [None]:
# Calcular el porcentaje de valores nulos por columna
# Dividir por len(df) da la proporción, multiplicar por 100 da el porcentaje
(df.isnull().sum() / len(df) * 100).round(2)


In [None]:
# Encontrar todas las filas que tienen al menos un valor nulo
# any(axis=1) devuelve True si hay algún nulo en la fila
filas_con_nulos = df[df.isnull().any(axis=1)]
len(filas_con_nulos)


In [None]:
# Mostrar las filas con valores nulos si existen
filas_con_nulos


In [None]:
# Crear una copia del DataFrame para no modificar el original durante las pruebas
df_limpio = df.copy()

# Estrategia 1: Rellenar valores nulos con un valor específico (0 en este caso)
if df_limpio["ca"].isnull().sum() > 0:
    df_limpio["ca"] = df_limpio["ca"].fillna(0)

# Estrategia 2: Rellenar valores nulos con la media de la columna
if df_limpio["thal"].isnull().sum() > 0:
    df_limpio["thal"] = df_limpio["thal"].fillna(df_limpio["thal"].mean())

# Verificar que los valores nulos fueron tratados correctamente
df_limpio.isnull().sum()


# Efectivamente ca ya no tiene valores nulos


 ### Ejercicios Capítulo 6: Valores Nulos



 ### Ejercicio 1

 Detecta y analiza valores nulos:

 1. Cuenta cuántos valores nulos hay en total en el dataset

 2. Identifica qué columnas tienen valores nulos

 3. Calcula qué porcentaje del dataset representan los valores nulos

In [None]:
# Respuesta ejercicio 1


 ### Ejercicio 2

 Si encuentras valores nulos, practica diferentes estrategias:

 1. Crea una copia del dataset llamada `df_test`

 2. Para cualquier columna numérica con nulos, rellénalos con la mediana

 3. Para cualquier columna categórica con nulos, rellénalos con "Desconocido"

In [None]:
# Respuesta ejercicio 2


 ## Capítulo 7: Exploración y Análisis Básico



 Vamos a explorar los datos para entender mejor el dataset.

In [None]:
# Contar la frecuencia de cada valor único en una columna categórica
# value_counts() es fundamental para entender la distribución de variables categóricas
df["num"].value_counts()


In [None]:
# Obtener porcentajes en lugar de conteos absolutos
# normalize=True convierte los conteos en proporciones, multiplicar por 100 da porcentajes
(df["num"].value_counts(normalize=True) * 100).round(1)


In [None]:
# Crear una variable binaria simplificada para análisis más claros
# np.where convierte la variable multiclase en binaria (tiene/no tiene enfermedad)
df["tiene_enfermedad"] = np.where(df["num"] > 0, "Sí", "No")
df["tiene_enfermedad"].value_counts()


In [None]:
# Crear tabla cruzada para ver la relación entre dos variables categóricas
# crosstab es equivalente a una tabla dinámica de Excel
tabla_cruzada = pd.crosstab(df["sexo_texto"], df["tiene_enfermedad"])
tabla_cruzada


In [None]:
# Convertir tabla cruzada a porcentajes por fila (normalize='index')
# Esto nos muestra qué porcentaje de hombres/mujeres tiene enfermedad
pd.crosstab(df["sexo_texto"], df["tiene_enfermedad"], normalize='index') * 100

# la otra opcion seria normalise = 'columns'


In [None]:
# Calcular estadísticas por grupos usando groupby()
# groupby agrupa los datos y aplica funciones estadísticas a cada grupo
df.groupby("tiene_enfermedad")["age"].mean().round(1)

#esto lo que haria és, hazme grupos en funcion de si tienen o no enfermedad, coge la variable age y calcula la media de age de cada grupo

In [None]:
# Aplicar múltiples funciones estadísticas usando agg()
# agg() permite calcular varias estadísticas simultáneamente
df.groupby("tiene_enfermedad")["age"].agg(["mean", "median", "std"]).round(1)

# si en vez de la media queremos otras estadisticas descriptivas, las podemos pedir con la funcion .agg()

 ### Ejercicios Capítulo 7: Exploración de Datos



 ### Ejercicio 1

 Explora la distribución de variables:

 1. Cuenta los valores únicos de la variable `cp` (tipo de dolor)

 2. Calcula qué porcentaje de pacientes tiene cada tipo de dolor

 3. Encuentra la edad promedio por tipo de dolor

In [None]:
# Respuesta ejercicio 1


In [None]:
# 1. Contar frecuencia de cada tipo de dolor usando value_counts()



In [None]:
# 2. Convertir conteos a porcentajes usando normalize=True



In [None]:
# 3. Calcular edad promedio por tipo de dolor usando groupby()



 ### Ejercicio 2

 Crea tablas cruzadas:

 1. Crea una tabla cruzada entre `grupo_edad` y `tiene_enfermedad`

 2. Convierte esta tabla a porcentajes por columna para ver qué grupo de edad tiene más riesgo

 3. Calcula el colesterol promedio por grupo de edad

In [None]:
# Respuesta ejercicio 2


 ### Ejercicio 3

 Análisis de riesgo:

 1. Crea una variable `colesterol_alto` que sea "Sí" si `chol` > 240, "No" en caso contrario

 2. Crea una tabla cruzada entre `colesterol_alto` y `tiene_enfermedad`

 3. Calcula qué porcentaje de personas con colesterol alto tiene enfermedad cardíaca

In [None]:
# Respuesta ejercicio 3


 ## Capítulo 8: Visualización Básica con matplotlib.pyplot alias plt



 Pandas tiene capacidades de visualización integradas útiles para exploración rápida.

In [None]:
# Crear histograma para ver la distribución de una variable continua
# kind='hist' especifica el tipo de gráfico, bins controla el número de barras
plt.figure(figsize=(8, 5))
df["age"].plot(kind='hist', bins=20, edgecolor='black', alpha=0.7)
plt.title("Distribución de edades")
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.show()


In [None]:
# Crear gráfico de barras para variables categóricas
# value_counts().plot() convierte directamente conteos en barras
plt.figure(figsize=(8, 5))
df["tiene_enfermedad"].value_counts().plot(kind='bar', color=['lightblue', 'salmon'])
plt.title("Distribución de enfermedad cardíaca")
plt.xlabel("Tiene enfermedad")
plt.ylabel("Número de pacientes")
plt.xticks(rotation=0)  # Rotar etiquetas para mejor legibilidad
plt.show()


In [None]:
# Crear box plot para comparar distribuciones entre grupos
# boxplot() muestra mediana, cuartiles y valores atípicos por categoría
plt.figure(figsize=(8, 6))
df.boxplot(column='chol', by='sexo_texto', figsize=(8, 6))
plt.suptitle("Distribución del colesterol por sexo")
plt.title("")  # Quitar título automático redundante
plt.ylabel("Colesterol (mg/dl)")
plt.show()


In [None]:
# Crear scatter plot para explorar relaciones entre variables continuas
# kind='scatter' permite visualizar correlaciones potenciales
plt.figure(figsize=(8, 6))
df.plot(kind='scatter', x='age', y='chol', alpha=0.6, figsize=(8, 6))
plt.title("Relación entre edad y colesterol")
plt.xlabel("Edad")
plt.ylabel("Colesterol")
plt.show()


In [None]:
# Comparar distribuciones entre grupos usando histogramas superpuestos
# Filtrar datos por grupo y plotear cada uno con diferente color y transparencia
plt.figure(figsize=(10, 6))
df[df["tiene_enfermedad"] == "No"]["age"].plot(kind='hist', alpha=0.7, label='Sin enfermedad', bins=20)
df[df["tiene_enfermedad"] == "Sí"]["age"].plot(kind='hist', alpha=0.7, label='Con enfermedad', bins=20)
plt.title("Distribución de edad según presencia de enfermedad")
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.legend()  # Mostrar leyenda para distinguir los grupos
plt.show()


 ### Ejercicios Capítulo 8: Visualización



 ### Ejercicio 1

 Crea visualizaciones básicas:

 1. Haz un histograma de la presión arterial (`trestbps`)

 2. Crea un gráfico de barras de la variable `categoria_colesterol`

 3. Haz un box plot del colesterol por grupo de edad

In [None]:
# Respuesta ejercicio 1


In [None]:
# 1. Histograma de presión arterial para ver su distribución



In [None]:
# 2. Gráfico de barras para ver distribución de categorías de colesterol



In [None]:
# 3. Box plot para comparar colesterol entre grupos de edad



 ### Ejercicio 2

 Explora relaciones entre variables:

 1. Crea un scatter plot entre `age` y `thalach` (frecuencia cardíaca máxima)

 2. Haz un histograma comparativo de `thalach` para pacientes con y sin enfermedad

 3. Crea un gráfico de barras que compare el porcentaje de enfermedad por sexo

In [None]:
# Respuesta ejercicio 2


 ## Capítulo 9: Guardar Resultados



 Después de procesar los datos, necesitamos guardar los resultados.

In [None]:
# Guardar el DataFrame completo modificado en formato CSV
# index=False evita guardar el índice numérico como columna adicional
df_limpio.to_csv("./results/heart_disease_procesado.csv", index=False)


In [None]:
# Guardar solo un subconjunto de columnas relevantes para reportes específicos
# Útil cuando queremos compartir solo información esencial
columnas_importantes = ["age", "sexo_texto", "chol", "categoria_colesterol", "tiene_enfermedad"]
df[columnas_importantes].to_csv("./results/heart_disease_resumido.csv", index=False)


In [None]:
# Crear tabla de resumen con estadísticas agregadas por grupo
# groupby + agg permite crear reportes estadísticos complejos
resumen_final = df.groupby("sexo_texto").agg({
    "age": ["mean", "std"],           # Media y desviación estándar de edad
    "chol": ["mean", "std"],          # Media y desviación estándar de colesterol
    "trestbps": "mean",               # Media de presión arterial
    "num": lambda x: (x > 0).mean() * 100  # Porcentaje con enfermedad
}).round(1)

resumen_final


In [None]:
# Guardar la tabla de resumen en archivo separado
resumen_final.to_csv("./results/resumen_por_sexo.csv")


 ### Ejercicios Capítulo 9: Guardar Datos



 ### Ejercicio 1

 Practica guardar diferentes versiones:

 1. Guarda un dataset que contenga solo pacientes con enfermedad cardíaca

 2. Crea y guarda una tabla resumen que muestre estadísticas por grupo de edad

 3. Guarda solo las columnas numéricas del dataset original

In [None]:
# Respuesta ejercicio 1


In [None]:
# 1. Filtrar solo pacientes con enfermedad y guardar



In [None]:
# 2. Crear resumen estadístico por grupo de edad y guardar



In [None]:
# 3. Seleccionar solo columnas numéricas y guardar



## EJERCICIO INTEGRADOR FINAL

### Sistema de Análisis de Riesgo Cardíaco

Vamos a crear un análisis completo que use **todos** los conceptos aprendidos en este notebook.
Eres un analista de datos médicos y necesitas crear un reporte de riesgo cardíaco.

---

### PASO 1: Preparación de Datos

**1.1 Carga y verificación inicial**
- Carga el dataset `heart_disease_dataset_con_nulos.csv`
- Usa `.isnull().sum()` para verificar si hay valores nulos
- Si hay nulos, decide cómo tratarlos (rellenar o eliminar)

**1.2 Crear variables categóricas (usa las funciones que aprendiste)**

Crea estas nuevas columnas:

- `grupo_edad_riesgo`: Usa `pd.cut()` con rangos [0, 50, 65, 100] y etiquetas ["<50", "50-65", ">65"]
- `presion_categoria`: Usa `np.where()` - "Alta" si `trestbps >= 130`, sino "Normal"  
- `colesterol_riesgo`: Usa `np.where()` - "Alto" si `chol >= 200`, sino "Normal"
- `sexo_texto`: Usa `np.where()` - "Hombre" si `sex == 1`, sino "Mujer"
- `tiene_enfermedad`: Usa `np.where()` - "Sí" si `num > 0`, sino "No"

**Verificación:** Usa `.value_counts()` en cada variable nueva para comprobar que se crearon correctamente.

---

### PASO 2: Análisis de Factores de Riesgo

Para cada factor de riesgo, calcula qué porcentaje de pacientes tiene enfermedad cardíaca:

**2.1 Análisis por edad**
- Crea una tabla cruzada entre `grupo_edad_riesgo` y `tiene_enfermedad`
- Convierte a porcentajes por fila usando `normalize='index'`
- Pregunta a responder: ¿Qué grupo de edad tiene mayor riesgo?

**2.2 Análisis por presión arterial**
- Crea una tabla cruzada entre `presion_categoria` y `tiene_enfermedad` 
- Convierte a porcentajes por fila
- Pregunta a responder: ¿Cuánto aumenta el riesgo tener presión alta?

**2.3 Análisis por colesterol**
- Crea una tabla cruzada entre `colesterol_riesgo` y `tiene_enfermedad`
- Convierte a porcentajes por fila  
- Pregunta a responder: ¿El colesterol alto aumenta significativamente el riesgo?

**2.4 Análisis por sexo**
- Crea una tabla cruzada entre `sexo_texto` y `tiene_enfermedad`
- Convierte a porcentajes por fila
- Pregunta a responder: ¿Hay diferencias entre hombres y mujeres?

---

### PASO 3: Crear Índice de Riesgo

**3.1 Contar factores de riesgo por paciente**

Crea variables binarias (0 o 1) para cada factor:
- `factor_edad_mayor`: 1 si `age > 65`, sino 0
- `factor_presion_alta`: 1 si `trestbps >= 130`, sino 0  
- `factor_colesterol_alto`: 1 si `chol >= 200`, sino 0
- `factor_es_hombre`: 1 si `sex == 1`, sino 0

**3.2 Sumar factores**
- Crea columna `total_factores_riesgo` que sume los 4 factores anteriores
- Usa `.value_counts()` para ver la distribución

**3.3 Clasificar nivel de riesgo**
- Crea columna `nivel_riesgo` usando `np.where()` anidados o `pd.cut()`:
  - "Bajo": 0-1 factores
  - "Medio": 2 factores  
  - "Alto": 3-4 factores

---

### PASO 4: Visualización y Análisis Final

**4.1 Crear 3 visualizaciones obligatorias:**

1. **Gráfico de barras**: Distribución de `nivel_riesgo` (usa `.value_counts().plot(kind='bar')`)

2. **Tabla de análisis**: Tabla cruzada entre `nivel_riesgo` y `tiene_enfermedad` con porcentajes

3. **Comparación por sexo**: Gráfico que compare el porcentaje de enfermedad entre hombres y mujeres por nivel de riesgo

**4.2 Crear tabla de resumen**
- Usa `.groupby("nivel_riesgo")` para calcular:
  - Número de pacientes por nivel
  - Edad promedio por nivel
  - Porcentaje con enfermedad por nivel

**4.3 Guardar resultados**
- Guarda el dataset completo con todas las nuevas variables: `analisis_riesgo_completo.csv`
- Guarda solo la tabla de resumen: `resumen_por_nivel_riesgo.csv`

---

### PREGUNTAS A RESPONDER AL FINAL

Después de completar el análisis, responde estas preguntas específicas:

1. **Factor más predictivo**: De los 4 factores analizados (edad, presión, colesterol, sexo), ¿cuál muestra la mayor diferencia en porcentaje de enfermedad entre sus categorías?

2. **Efectividad del índice**: ¿Qué porcentaje de pacientes clasificados como "alto riesgo" realmente tiene enfermedad cardíaca? ¿Es útil este índice?

3. **Diferencias por sexo**: ¿Los hombres tienen consistentemente mayor riesgo que las mujeres en todos los niveles de riesgo, o hay variaciones?

4. **Recomendación médica**: Basándose en tus hallazgos, ¿qué factores recomendarías monitorear más de cerca en pacientes?

---



In [None]:
# Espacio para el ejercicio integrador final
# Aquí deberás aplicar todos los conceptos aprendidos para crear un análisis completo


 ## Resumen de Conceptos Aprendidos



 En este notebook has aprendido:



 ### **Conceptos Fundamentales de Pandas:**

 - **DataFrame**: Estructura principal para datos tabulares - como una tabla de Excel mejorada

 - **Carga de datos**: `pd.read_csv()` para importar archivos desde disco

 - **Exploración**: `.head()`, `.tail()`, `.info()`, `.describe()`, `.shape` para entender los datos

 - **Selección**: `df["columna"]`, `df[["col1", "col2"]]`, `.iloc[]`, `.loc[]` para acceder a subconjuntos

 - **Filtrado**: Operadores de comparación (`>`, `<`, `==`) y lógicos (`&`, `|`) para encontrar datos específicos



 ### **Transformación de Datos:**

 - **Nuevas columnas**: Operaciones matemáticas (`df["nueva"] = df["col1"] + df["col2"]`)

 - **Categorización**: `pd.cut()` para rangos, `.apply()` para funciones personalizadas, `np.where()` para condicionales, `.map()` para mapeos

 - **Valores nulos**: `.isnull()` para detectar, `.fillna()` para rellenar, `.dropna()` para eliminar



 ### **Análisis Estadístico:**

 - **Agrupación**: `.groupby()` para dividir datos por categorías, `.agg()` para múltiples estadísticas

 - **Tablas cruzadas**: `pd.crosstab()` para relaciones entre variables categóricas

 - **Estadísticas descriptivas**: `.mean()`, `.std()`, `.value_counts()` para resumir datos



 ### **Visualización:**

 - **Histogramas**: `.plot(kind='hist')` para distribuciones de variables continuas

 - **Gráficos de barras**: `.plot(kind='bar')` para variables categóricas

 - **Box plots**: `.boxplot()` para comparar distribuciones entre grupos

 - **Scatter plots**: `.plot(kind='scatter')` para relaciones entre variables numéricas



 ### **Exportación:**

 - **Guardar datos**: `.to_csv()` para exportar DataFrames procesados

 - **Subconjuntos específicos**: Combinar filtros con `.to_csv()` para reportes personalizados



 ### **Flujo de trabajo típico en pandas:**

 1. **Cargar** datos con `pd.read_csv()`

 2. **Explorar** con `.head()`, `.info()`, `.describe()`

 3. **Limpiar** valores nulos y datos problemáticos

 4. **Transformar** creando nuevas variables necesarias

 5. **Analizar** usando filtros, agrupaciones y estadísticas

 6. **Visualizar** patrones y relaciones importantes

 7. **Exportar** resultados para reportes o siguientes análisis



 ### **Próximos Pasos:**

 - Practicar con otros datasets médicos (diabetes, cáncer, estudios epidemiológicos)

 - Aprender visualizaciones más avanzadas con matplotlib y seaborn

 - Explorar técnicas de machine learning para predicción médica

 - Desarrollar dashboards interactivos con plotly o streamlit

 - Trabajar con datos de series temporales (evolución de pacientes)

 - Combinar múltiples fuentes de datos médicos



 ### **Recursos Adicionales:**

 - **Documentación oficial**: https://pandas.pydata.org/docs/user_guide/

 - **Ejercicios prácticos**: Kaggle Learn - Pandas Course

 - **Datasets médicos**: UCI ML Repository, Kaggle Healthcare datasets

 - **Libros recomendados**: "Python for Data Analysis" by Wes McKinney

 - **Comunidad**: Stack Overflow, Reddit r/datascience



 ### **Consejos para seguir aprendiendo:**

 - **Practica regularmente**: Analiza al menos un dataset nuevo por semana

 - **Documenta tu código**: Usa comentarios explicativos como en este notebook

 - **Comparte tu trabajo**: Sube análisis a GitHub para construir un portafolio

 - **Participa en competiciones**: Kaggle competitions para casos reales

 - **Lee código de otros**: GitHub, Kaggle kernels para ver diferentes aproximaciones



 **¡Felicidades!** Has completado la introducción a Pandas para análisis de datos médicos.

 Con estos conocimientos ya puedes:

 - Cargar y explorar datasets médicos reales

 - Identificar patrones en datos de salud

 - Crear variables clínicas derivadas

 - Generar reportes estadísticos para equipos médicos

 - Visualizar tendencias para comunicar hallazgos

 - Preparar datos para modelos predictivos



 **Recuerda**: El análisis de datos médicos requiere rigor y ética. Siempre:

 - Verifica la calidad de tus datos

 - Interpreta resultados con precaución clínica

 - Colabora con profesionales médicos

 - Respeta la privacidad de los pacientes

 - Documenta metodologías para reproducibilidad