#  Visualizaci√≥n y an√°lisis de datos m√©dicos

En este proyecto se visualizan y analizan datos de ex√°menes m√©dicos utilizando **pandas**, **NumPy**, **matplotlib** y **seaborn**. Los valores del conjunto de datos fueron recopilados durante ex√°menes m√©dicos de rutina.

---

##  Archivo de datos

**Nombre del archivo:** `medical_examination.csv`  
Cada fila representa un paciente. Las columnas contienen medidas corporales, resultados de an√°lisis de sangre y h√°bitos de vida.

| Caracter√≠stica                          | Tipo de variable         | Variable       | Tipo de valor                          |
|----------------------------------------|---------------------------|----------------|----------------------------------------|
| Edad                                   | Objetiva                  | `age`          | Entero (d√≠as)                          |
| Altura                                 | Objetiva                  | `height`       | Entero (cm)                            |
| Peso                                   | Objetiva                  | `weight`       | Flotante (kg)                          |
| G√©nero                                 | Objetiva                  | `gender`       | C√≥digo categ√≥rico                      |
| Presi√≥n arterial sist√≥lica             | Funci√≥n de examen         | `ap_hi`        | Entero                                 |
| Presi√≥n arterial diast√≥lica            | Funci√≥n de examen         | `ap_lo`        | Entero                                 |
| Colesterol                             | Funci√≥n de examen         | `cholesterol`  | 1: normal, 2: alto, 3: muy alto        |
| Glucosa                                | Funci√≥n de examen         | `gluc`         | 1: normal, 2: alto, 3: muy alto        |
| Fumador                                 | Subjetiva                 | `smoke`        | Binario                                |
| Consumo de alcohol                     | Subjetiva                 | `alco`         | Binario                                |
| Actividad f√≠sica                       | Subjetiva                 | `active`       | Binario                                |
| Enfermedad cardiovascular              | Variable objetivo         | `cardio`       | Binario                                |

---

## üìä Objetivos del proyecto

Este proyecto tiene como prop√≥sito aplicar y consolidar conocimientos adquiridos en el curso [Python para Data Science ‚Äì Udemy](https://www.udemy.com/course/python-para-data-science/) y en el proyecto [Medical Data Visualizer ‚Äì FreeCodeCamp](https://www.freecodecamp.org/espanol/learn/data-analysis-with-python/data-analysis-with-python-projects/medical-data-visualizer), utilizando un conjunto de datos cl√≠nicos reales.

Los objetivos espec√≠ficos son:

1. **Practicar el uso de librer√≠as clave** para an√°lisis de datos: `pandas`, `NumPy`, `matplotlib` y `seaborn`.
2. **Aplicar funciones modulares en Python** para cargar, transformar y visualizar datos cl√≠nicos.
3. **Explorar y limpiar el dataset** para preparar variables relevantes como edad, IMC, colesterol y glucosa.
4. **Visualizar relaciones cl√≠nicas** mediante gr√°ficos de l√≠nea, barras, histogramas, tortas y dispersi√≥n.
5. **Comparar grupos con y sin enfermedad cardiovascular** en funci√≥n de variables como edad, IMC y presi√≥n arterial.
6. **Estandarizar el estilo gr√°fico** para presentaciones profesionales y facilitar la interpretaci√≥n institucional.
7. **Preparar el entorno para futuros modelos de machine learning**, normalizando variables y entendiendo cor.

fesional.


In [1]:
import pandas as pd

In [2]:
# Cargar y preparar los datos
def cargar_datos(ruta):
    df = pd.read_csv(ruta)
    return df

In [3]:
#  Carga y transformaci√≥n
ruta = "C:/Users/trezz/Desktop/proyectosDeDesarrolloWeb/MedicalExamination/data/medical_examination.csv"
df = cargar_datos(ruta)

In [4]:
# Mostrar exploraci√≥n inicial
def explorar(df):
    print("\nForma:", df.shape)
    print("\nPrimeras filas:\n", df.head())
    print("\nInfo:\n") 
    df.info()
    print("\nNulos:\n", df.isnull().sum())

In [5]:
# Exploraci√≥n inicial
explorar(df)


Forma: (70000, 13)

Primeras filas:
    id    age  sex  height  weight  ap_hi  ap_lo  cholesterol  gluc  smoke  \
0   0  18393    2     168    62.0    110     80            1     1      0   
1   1  20228    1     156    85.0    140     90            3     1      0   
2   2  18857    1     165    64.0    130     70            3     1      0   
3   3  17623    2     169    82.0    150    100            1     1      0   
4   4  17474    1     156    56.0    100     60            1     1      0   

   alco  active  cardio  
0     0       1       0  
1     0       1       1  
2     0       0       1  
3     0       1       1  
4     0       0       0  

Info:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70000 entries, 0 to 69999
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id           70000 non-null  int64  
 1   age          70000 non-null  int64  
 2   sex          70000 non-null  int64  
 3   height     