# **U3 :: Actividad Práctica 1 _ Diagnóstico de Diabetes**

En este proyecto exploraremos datos que analizan cómo ciertos factores de diagnóstico afectan el resultado de la diabetes en pacientes mujeres.

Realizremos un análisis exploratorio de datos que ayude a inspeccionar, limpiar y validar los datos.

**Nota**: Este [conjunto de datos](https://www.kaggle.com/uciml/pima-indians-diabetes-database) proviene del Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales. Su objetivo es predecir diagnósticamente si un paciente padece diabetes, basándose en ciertas mediciones diagnósticas incluidas en el conjunto de datos. Se aplicaron varias restricciones a la selección de estos casos de una base de datos más amplia. En particular, todos los pacientes aquí presentes son mujeres de al menos 21 años de ascendencia indígena pima.


Contiene las siguientes columnas:

- `Embarazos`: Número de veces embarazada
- `Glucosa`: Concentración de glucosa en plasma por 2 horas en una prueba de tolerancia a la glucosa oral
- `PresiónSanguínea`: Presión arterial diastólica
- `GrosorDeLaPiel`: Grosor del pliegue cutáneo del tríceps
- `Insulina`: Insulina sérica de 2 horas
- `IMC`: Índice de masa corporal
- `DiabetesFamiliar`: Factor de herencia familiar de diabetes
- `Edad`: Edad (años)
- `Resultado`: Variable de clase (0 o 1)


<br>¡Empecemos!

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## Inspección Inicial

1. Primero, familiarízate con el conjunto de datos en la [página oficial](https://www.kaggle.com/uciml/pima-indians-diabetes-database).

   Observa cada una de las nueve columnas en la documentación.
   
   ¿Qué tipo de dato esperas que sea cada una? Anótalos "manualmente" a continuación.

2. A continuación, carguemos los datos de diabetes para empezar a explorarlos.

   Carga los datos en una variable llamada `diabetes_data` e imprime las primeras filas.
   
   **Nota**: Los datos están almacenados en un archivo llamado `diabetes.csv`.

In [None]:
import pandas as pd
import numpy as np


3. ¿Cuántas columnas (características) contienen los datos?

4. ¿Cuántas filas (observaciones) contienen los datos?

## Inspección Adicional

5. Examina `diabetes_data` con más detalle (puedes usar el método `.info()`).

   ¿Alguna de las columnas en los datos contiene valores nulos (faltantes)?

6. Si respondiste no a la pregunta anterior, ¡cuidado!

*   Aunque técnicamente es cierto que ninguna de las columnas contiene valores nulos, eso no significa necesariamente que a los datos no les falten valores.
Al explorar datos, siempre debes cuestionar tus suposiciones e intentar profundizar. Para investigar más a fondo, calcula estadísticas de resumen en `diabetes_data` usando el método `.describe()`. ¿Qué aprecias?

7. Al observar las estadísticas de resumen, ¿notas algo extraño en las siguientes columnas?

   - `Glucosa`
   - `PresiónSanguínea`
   - `GrosorDeLaPiel`
   - `Insulina`
   - `IMC`

**Redacta tu respuesta a la pregunta 7 en la siguiente celda**: <br>

8. ¿Detectas algún otro valor atípico en los datos?

**Redacta tu respuesta a la pregunta 8**: <br>

9. Veamos si podemos obtener una vista más precisa de los valores faltantes en los datos.

   Usa el siguiente código para reemplazar las instancias de `0` con `NaN` en las cinco columnas mencionadas:
   
   ```py
   diabetes_data[['Glucosa', 'Presión Arterial', 'GrosorDeLaPiel', 'Insulina', 'IMC']] = diabetes_data[['Glucosa', 'Presión Arterial', 'GrosorDeLaPiel', 'Insulina', 'IMC']].replace(0, np.nan)
   ```

10. A continuación, comprueba si hay valores perdidos (nulos) en todas las columnas.

    ¿Cuántos valores perdidos hay ahora?"

11. Echemos un vistazo más de cerca a estas filas para tener una mejor idea de _por qué_ podrían faltar algunos datos.

    Imprime todas las filas que contengan valores faltantes (nulos).
    **Pista:** Investiga cómo puede hacerse referencia a las filas cuando se usa `.isnull.any()`.

12. Recorre las filas con datos faltantes. ¿Observas algún patrón o superposición entre los datos ausentes?, ¿qué podría haber pasado?

**Redacta tu respuesta a la pregunta 12 en la siguiente celda**: <br>

13. A continuación, examina más de cerca los tipos de datos de cada columna en `diabetes_data`.

    ¿El resultado coincide con lo que esperarías?

14. Para averiguar por qué la columna `Resultado` es de tipo `object` (cadena) en lugar de tipo `int64`, imprime los valores únicos en la columna `Resultado`.

15. ¿Cómo podría resolverse este problema? **(Redacta tu respuesta a la pregunta 15 en la siguiente celda)**:

## Próximos Pasos:

16. En este primer proyecto has podido desarrollar un primer EDA, comprobando cómo puede ayudar con el proceso inicial de inspección y limpieza de datos. Este es un paso importante, ya que ayuda a mantener tus conjuntos de datos limpios y confiables.

    Aquí hay algunas formas en las que podrías extender este proyecto si lo deseas:
    - Usa `.value_counts()` para explorar más a fondo los valores en cada columna.
    - Investiga otros valores atípicos en los datos que puedan pasarse por alto fácilmente.
    - En lugar de cambiar los valores `0` en las cinco columnas a `NaN`, intenta reemplazar los valores con la mediana o la media de cada columna.