#AED: Diagnóstico de diabetes

En este proyecto, usted imaginará que es un científico de datos interesado en explorar datos que analicen cómo ciertos factores de diagnóstico afectan el resultado de la diabetes en pacientes mujeres.

Utilizará sus habilidades de AED para ayudar a inspeccionar, limpiar y validar los datos.

**Nota**: Este [conjunto de datos](https://www.kaggle.com/uciml/pima-indians-diabetes-database) es del Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales. Contiene las siguientes columnas:

- `Pregnancies`: Número de veces embarazada
- `Glucose`: Concentración de glucosa plasmática por 2 horas en una prueba de tolerancia oral a la glucosa
- `BloodPressure`: Presión arterial diastólica
- `SkinThickness`: Grosor del pliegue cutáneo del tríceps
- `Insulin`: Insulina sérica de 2 horas
- `BMI`: Índice de masa corporal
- `DiabetesPedigreeFunction`: Función de pedigrí de diabetes
- `Age`: Edad (en años)
- `Outcome`: Variable de clase (0 o 1)

¡Empecemos!

#Inspección Inicial

1. Primero, familiarícese con el conjunto de datos [aquí](https://www.kaggle.com/uciml/pima-indians-diabetes-database).

    Mire cada una de las nueve columnas en la documentación.
  
    ¿Qué espera que sea cada tipo de datos?

Tipo de datos esperado para cada columna:

- `Pregnancies`: `int64`
- `Glucose`: `int64`
- `BloodPressure`: `int64`
- `SkinThickness`: `int64`
- `Insulin`: `int64`
- `BMI`: `float64`
- `DiabetesPedigreeFunction`: `float64`
- `Age`: `int64`
- `Outcome`: `int64`

2. A continuación, carguemos los datos de diabetes para comenzar a explorar.

    Cargue los datos en una variable llamada `diabetes_data` e imprima las primeras filas.
   
    **Nota**: Los datos se almacenan en un archivo llamado `diabetes.csv`.

In [1]:
import pandas as pd
import numpy as np

# cargar datos
diabetes_data = pd.read_csv('diabetes.csv')
diabetes_data.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


3. ¿Cuántas columnas (características) contienen los datos?

In [5]:
# imprime el numero de columnas
len(diabetes_data.columns)

9

4. ¿Cuántas filas (observaciones) contienen los datos?

In [6]:
# imprime el numero de filas
len(diabetes_data)

768

## Inspección adicional

5. Inspeccionemos más a fondo `diabetes_data`.

    ¿Alguna de las columnas de los datos contiene valores nulos (faltantes)?

In [8]:
# averiguar si las columnas contienen valores nulos
diabetes_data.isnull().sum()

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

6. Si respondiste que no a la pregunta anterior, ¡no tan rápido!

    Si bien es técnicamente cierto que ninguna de las columnas contiene valores nulos, eso no significa necesariamente que a los datos no les falte ningún valor.
   
    Al explorar datos, siempre debe cuestionar sus suposiciones y tratar de profundizar más.
   
    Para investigar más a fondo, calcule las estadísticas de resumen sobre `diabetes_data` utilizando el método `.describe()`.

In [9]:
# realizar estadísticas de resumen
diabetes_data.describe()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0


7. Mirando las estadísticas de resumen, ¿nota algo extraño en las siguientes columnas?

    - `Glucosa`
    - `Presión Arterial`
    - `Espesor de la piel`
    - `insulina`
    - `IMC`

**Su respuesta a la pregunta 7**: Si echa un vistazo a los valores mínimos de estas cinco columnas, notará que todos son `0`.

¿Cómo puede la presión arterial o el IMC ser `0`? ¡Eso no tiene sentido! Estos valores también parecen estar muy lejos de sus respectivas medianas y medias, otro indicador de que algo anda mal.

Una forma de interpretar esto es que faltan valores en los datos.

8. ¿Detecta otros valores atípicos en los datos?

**Su respuesta a la pregunta 8**: Además de los valores `0` que aparecen en las columnas anteriores, parece haber valores atípicos adicionales, como:

- El valor máximo de la columna `Insulina` es `846`, que es anormalmente alto.
- El valor máximo de la columna `Embarazos` es `17`. Si bien tener 17 embarazos no es imposible, este caso podría ser algo para analizar más a fondo para determinar su precisión.

Como puede ver, AED ayuda a informar el proceso de limpieza de datos al ayudar a detectar cosas que no son inmediatamente obvias.

9. Veamos si podemos obtener una vista más precisa de los valores que faltan en los datos.

    Usa el siguiente código para reemplazar las instancias de `0` con `NaN` en las cinco columnas mencionadas:
   
    ```pía
    diabetes_data[['Glucosa', 'Presión arterial', 'Grosor de la piel', 'Insulina', 'IMC']] = diabetes_data[['Glucosa', 'Presión arterial', 'Grosor de la piel', 'Insulina', 'IMC']]. reemplazar (0, np.NaN)
    ```

In [10]:
# reemplazar instancias de 0 con NaN
diabetes_data[['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']] = diabetes_data[['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']].replace(0, np.NaN)

10. A continuación, verifique si faltan valores (nulos) en todas las columnas tal como lo hizo en el Paso 5.

     Ahora, ¿cuántos valores faltantes hay?

In [11]:
# averiguar si las columnas contienen valores nulos después de realizar los reemplazos
diabetes_data.isnull().sum()

Pregnancies                   0
Glucose                       5
BloodPressure                35
SkinThickness               227
Insulin                     374
BMI                          11
DiabetesPedigreeFunction      0
Age                           0
Outcome                       0
dtype: int64

11. Echemos un vistazo más de cerca a estas filas para tener una mejor idea de _por qué_ pueden faltar algunos datos.

     Imprime todas las filas que contienen valores faltantes (nulos).

In [16]:
# imprimir filas con valores faltantes
diabetes_data[diabetes_data.isnull().any(axis=1)]

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148.0,72.0,35.0,,33.6,0.627,50,1
1,1,85.0,66.0,29.0,,26.6,0.351,31,0
2,8,183.0,64.0,,,23.3,0.672,32,1
5,5,116.0,74.0,,,25.6,0.201,30,0
7,10,115.0,,,,35.3,0.134,29,0
...,...,...,...,...,...,...,...,...,...
761,9,170.0,74.0,31.0,,44.0,0.403,43,1
762,9,89.0,62.0,,,22.5,0.142,33,0
764,2,122.0,70.0,27.0,,36.8,0.340,27,0
766,1,126.0,60.0,,,30.1,0.349,47,1


12. Repase las filas con datos faltantes. ¿Observa algún patrón o superposición entre los datos que faltan?

**Su respuesta a la pregunta 12**: Una cosa que puede notar es que la mayoría de las filas con datos faltantes tienen valores faltantes en más de una columna. De hecho, cada fila con al menos un valor faltante también tiene un valor faltante en la columna `Insulina`. ¡Esta es una pista de por qué faltan los datos! Si a los pacientes no se les midió la insulina, ¿por qué no se les habrían tomado estas otras medidas?

Dependiendo de la cantidad de datos que falten, puede optar por eliminar filas específicas o imputar los valores faltantes de alguna manera.

13. A continuación, eche un vistazo más de cerca a los tipos de datos de cada columna en `diabetes_data`.

     ¿Coincide el resultado con lo que cabría esperar?

In [17]:
# imprime tipos de datos usando el método .info()
diabetes_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   763 non-null    float64
 2   BloodPressure             733 non-null    float64
 3   SkinThickness             541 non-null    float64
 4   Insulin                   394 non-null    float64
 5   BMI                       757 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    object 
dtypes: float64(6), int64(2), object(1)
memory usage: 54.1+ KB


14. Para averiguar por qué la columna 'Output' es del tipo 'objeto' (string) en lugar de tipo 'int64', imprima los valores únicos en la columna 'Output'.

In [18]:
# imprimir valores únicos de la columna Outcome
print(diabetes_data.Outcome.unique())

['1' '0' 'O']


15. ¿Cómo podría resolver este problema?

**Su respuesta a la pregunta 15**: Un posible siguiente paso sería reemplazar las instancias de `'O'` con `0` y convertir la columna `Resultado` al tipo `int64`

## Próximos pasos:

16. En este proyecto, vio cómo AED puede ayudar con el proceso inicial de inspección y limpieza de datos. Este es un paso importante ya que ayuda a mantener sus conjuntos de datos limpios y confiables.

     Aquí hay algunas formas en que puede extender este proyecto si lo desea:
     - Utilice `.value_counts()` para explorar más a fondo los valores de cada columna.
     - Investigue otros valores atípicos en los datos que pueden pasarse por alto fácilmente.
     - En lugar de cambiar los valores `0` en las cinco columnas a `NaN`, intente reemplazar los valores con la mediana o la media de cada columna.