# **U3 :: Actividad Práctica 1 _ Diagnóstico de Diabetes**

En este proyecto exploraremos datos que analizan cómo ciertos factores de diagnóstico afectan el resultado de la diabetes en pacientes mujeres.

Realizremos un análisis exploratorio de datos que ayude a inspeccionar, limpiar y validar los datos.

**Nota**: Este [conjunto de datos](https://www.kaggle.com/uciml/pima-indians-diabetes-database) proviene del Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales. Su objetivo es predecir diagnósticamente si un paciente padece diabetes, basándose en ciertas mediciones diagnósticas incluidas en el conjunto de datos. Se aplicaron varias restricciones a la selección de estos casos de una base de datos más amplia. En particular, todos los pacientes aquí presentes son mujeres de al menos 21 años de ascendencia indígena pima.


Contiene las siguientes columnas:

- `Embarazos`: Número de veces embarazada
- `Glucosa`: Concentración de glucosa en plasma por 2 horas en una prueba de tolerancia a la glucosa oral
- `PresiónSanguínea`: Presión arterial diastólica
- `GrosorDeLaPiel`: Grosor del pliegue cutáneo del tríceps
- `Insulina`: Insulina sérica de 2 horas
- `IMC`: Índice de masa corporal
- `DiabetesFamiliar`: Factor de herencia familiar de diabetes
- `Edad`: Edad (años)
- `Resultado`: Variable de clase (0 o 1)


<br>¡Empecemos!

In [22]:
from google.colab import drive
drive.mount('/content/drive')

ModuleNotFoundError: No module named 'google'

## Inspección Inicial

1. Primero, familiarízate con el conjunto de datos en la [página oficial](https://www.kaggle.com/uciml/pima-indians-diabetes-database).

   Observa cada una de las nueve columnas en la documentación.
   
   ¿Qué tipo de dato esperas que sea cada una? Anótalos "manualmente" a continuación.

La columna Embarazo espera un resultado entero (Entre 1 y 20)
La columna Glocusa espera un resultado entre 50 y 200 entero
La columna PresiónArterial es de tipo Integer
La columna GrosorDeLaPiel es de tipo Integer
La columna Insulina es de tipo Integer
La columna IMC es de tipo float
La columna DiabetesFamiliar es de tio float
La columna Edad es de tipo Integer
La columna resultado es de tipo Integer (0 o 1)

2. A continuación, carguemos los datos de diabetes para empezar a explorarlos.

   Carga los datos en una variable llamada `diabetes_data` e imprime las primeras filas.
   
   **Nota**: Los datos están almacenados en un archivo llamado `diabetes.csv`.

In [None]:
import pandas as pd
import numpy as np

diabetes_data = pd.read_csv("diabetes.csv")

diabetes_data.head()


     Embarazos  Glucosa  PresiónArterial  GrosorDeLaPiel  Insulina   IMC  \
0            6      148               72              35         0  33.6   
1            1       85               66              29         0  26.6   
2            8      183               64               0         0  23.3   
3            1       89               66              23        94  28.1   
4            0      137               40              35       168  43.1   
..         ...      ...              ...             ...       ...   ...   
763         10      101               76              48       180  32.9   
764          2      122               70              27         0  36.8   
765          5      121               72              23       112  26.2   
766          1      126               60               0         0  30.1   
767          1       93               70              31         0  30.4   

     DiabetesFamiliar  Edad Resultado  
0               0.627    50         1  
1      

3. ¿Cuántas columnas (características) contienen los datos?

In [None]:
diabetes_data.info()

# Tiene 768 características

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Embarazos         768 non-null    int64  
 1   Glucosa           768 non-null    int64  
 2   PresiónArterial   768 non-null    int64  
 3   GrosorDeLaPiel    768 non-null    int64  
 4   Insulina          768 non-null    int64  
 5   IMC               768 non-null    float64
 6   DiabetesFamiliar  768 non-null    float64
 7   Edad              768 non-null    int64  
 8   Resultado         768 non-null    object 
dtypes: float64(2), int64(6), object(1)
memory usage: 54.1+ KB


(768, 9)

4. ¿Cuántas filas (observaciones) contienen los datos?

In [None]:
diabetes_data.shape

# Tiene 9 filas

## Inspección Adicional

5. Examina `diabetes_data` con más detalle (puedes usar el método `.info()`).

   ¿Alguna de las columnas en los datos contiene valores nulos (faltantes)?

In [None]:
diabetes_data.info()

# No, no existen valores nulos en ninguno de los datos de las columnas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Embarazos         768 non-null    int64  
 1   Glucosa           768 non-null    int64  
 2   PresiónArterial   768 non-null    int64  
 3   GrosorDeLaPiel    768 non-null    int64  
 4   Insulina          768 non-null    int64  
 5   IMC               768 non-null    float64
 6   DiabetesFamiliar  768 non-null    float64
 7   Edad              768 non-null    int64  
 8   Resultado         768 non-null    object 
dtypes: float64(2), int64(6), object(1)
memory usage: 54.1+ KB


6. Si respondiste no a la pregunta anterior, ¡cuidado!

*   Aunque técnicamente es cierto que ninguna de las columnas contiene valores nulos, eso no significa necesariamente que a los datos no les falten valores.
Al explorar datos, siempre debes cuestionar tus suposiciones e intentar profundizar. Para investigar más a fondo, calcula estadísticas de resumen en `diabetes_data` usando el método `.describe()`. ¿Qué aprecias?

In [None]:
diabetes_data.describe()

# Las columnas de Embarazos, Glucosa, PresiónArterial, GrosorDeLaPiel, Insulina e IMC en min salen como 0, eso puede deberse a algún resultado NaN que destruye la operación
# Las columnas de GrosorDeLaPiel, e Insulina en 25% salen como 0, eso puede deberse a algún resultado NaN que destruye la operación


Unnamed: 0,Embarazos,Glucosa,PresiónArterial,GrosorDeLaPiel,Insulina,IMC,DiabetesFamiliar,Edad
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0


7. Al observar las estadísticas de resumen, ¿notas algo extraño en las siguientes columnas?

   - `Glucosa`
   - `PresiónSanguínea`
   - `GrosorDeLaPiel`
   - `Insulina`
   - `IMC`

**Redacta tu respuesta a la pregunta 7 en la siguiente celda**: <br>

# Que hay algunas columnas que no deberían de poder estar a 0, por ejemplo, la glucosa, presión arterial, grosor de la piel, la insulina y el imc, las columnas mencionadas, 
# nunca van a poder estar en 0 

8. ¿Detectas algún otro valor atípico en los datos?

# Si, hay gente que por ejemplo tiene 17 embarazos, o tienen una glucosa en 700, son datos muy altos y muy improbables

**Redacta tu respuesta a la pregunta 8**: <br>

9. Veamos si podemos obtener una vista más precisa de los valores faltantes en los datos.

   Usa el siguiente código para reemplazar las instancias de `0` con `NaN` en las cinco columnas mencionadas:
   
   ```py
   diabetes_data[['Glucosa', 'PresiónArterial', 'GrosorDeLaPiel', 'Insulina', 'IMC']] = diabetes_data[['Glucosa', 'Presión Arterial', 'GrosorDeLaPiel', 'Insulina', 'IMC']].replace(0, np.nan)
   ```

In [25]:
diabetes_data[['Glucosa', 'PresiónArterial', 'GrosorDeLaPiel', 'Insulina', 'IMC']] = diabetes_data[['Glucosa', 'PresiónArterial', 'GrosorDeLaPiel', 'Insulina', 'IMC']].replace(0, np.nan)

10. A continuación, comprueba si hay valores perdidos (nulos) en todas las columnas.

    ¿Cuántos valores perdidos hay ahora?"

In [None]:
diabetes_data.describe()

pd.set_option('display.max_rows', None)  # Muestra todas las filas
pd.set_option('display.max_columns', None)  # Muestra todas las columnas

print(diabetes_data)

# Hay bastantes valores en NaN, tanto en PresiónArterial, como en GrosorDeLaPiel, como en Insulina e IMC, eso si, ahora al hacer describe no sale
# ninguno de los resultados a 0 (excepto los embarazos)

     Embarazos  Glucosa  PresiónArterial  GrosorDeLaPiel  Insulina   IMC  \
0            6    148.0             72.0            35.0       NaN  33.6   
1            1     85.0             66.0            29.0       NaN  26.6   
2            8    183.0             64.0             NaN       NaN  23.3   
3            1     89.0             66.0            23.0      94.0  28.1   
4            0    137.0             40.0            35.0     168.0  43.1   
5            5    116.0             74.0             NaN       NaN  25.6   
6            3     78.0             50.0            32.0      88.0  31.0   
7           10    115.0              NaN             NaN       NaN  35.3   
8            2    197.0             70.0            45.0     543.0  30.5   
9            8    125.0             96.0             NaN       NaN   NaN   
10           4    110.0             92.0             NaN       NaN  37.6   
11          10    168.0             74.0             NaN       NaN  38.0   
12          

11. Echemos un vistazo más de cerca a estas filas para tener una mejor idea de _por qué_ podrían faltar algunos datos.

    Imprime todas las filas que contengan valores faltantes (nulos).
    **Pista:** Investiga cómo puede hacerse referencia a las filas cuando se usa `.isnull.any()`.

In [None]:
filas_con_nulos = diabetes_data[diabetes_data.isnull().any(axis=1)]
print(filas_con_nulos)



     Embarazos  Glucosa  PresiónArterial  GrosorDeLaPiel  Insulina   IMC  \
0            6    148.0             72.0            35.0       NaN  33.6   
1            1     85.0             66.0            29.0       NaN  26.6   
2            8    183.0             64.0             NaN       NaN  23.3   
5            5    116.0             74.0             NaN       NaN  25.6   
7           10    115.0              NaN             NaN       NaN  35.3   
9            8    125.0             96.0             NaN       NaN   NaN   
10           4    110.0             92.0             NaN       NaN  37.6   
11          10    168.0             74.0             NaN       NaN  38.0   
12          10    139.0             80.0             NaN       NaN  27.1   
15           7    100.0              NaN             NaN       NaN  30.0   
17           7    107.0             74.0             NaN       NaN  29.6   
21           8     99.0             84.0             NaN       NaN  35.4   
22          

12. Recorre las filas con datos faltantes. ¿Observas algún patrón o superposición entre los datos ausentes?, ¿qué podría haber pasado?

**Redacta tu respuesta a la pregunta 12 en la siguiente celda**: <br>

# Hay una cosa en común, y es que cuando en una parte de la fila hay un NaN, normalmente esto suele extenderse a las demás columnas de esa fila
# En la insulina salen todos los valores como NaN

13. A continuación, examina más de cerca los tipos de datos de cada columna en `diabetes_data`.

    ¿El resultado coincide con lo que esperarías?

In [None]:
diabetes_data.info()

# Yo veo correcto el tipo de datos de cada cosa, lo que quizás no me cuadra es que el resultado sea un Object

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Embarazos         768 non-null    int64  
 1   Glucosa           763 non-null    float64
 2   PresiónArterial   733 non-null    float64
 3   GrosorDeLaPiel    541 non-null    float64
 4   Insulina          394 non-null    float64
 5   IMC               757 non-null    float64
 6   DiabetesFamiliar  768 non-null    float64
 7   Edad              768 non-null    int64  
 8   Resultado         768 non-null    object 
dtypes: float64(6), int64(2), object(1)
memory usage: 54.1+ KB


14. Para averiguar por qué la columna `Resultado` es de tipo `object` (cadena) en lugar de tipo `int64`, imprime los valores únicos en la columna `Resultado`.

In [None]:
print(diabetes_data['Resultado'])

# Sale como object porque esta entre comillas

0      1
1      0
2      1
3      0
4      1
5      0
6      1
7      0
8      1
9      1
10     0
11     1
12     0
13     1
14     1
15     1
16     1
17     1
18     0
19     1
20     0
21     0
22     1
23     1
24     1
25     1
26     1
27     0
28     0
29     0
30     0
31     1
32     0
33     0
34     0
35     0
36     0
37     1
38     1
39     1
40     0
41     0
42     0
43     1
44     0
45     1
46     0
47     0
48     1
49     0
50     0
51     0
52     0
53     1
54     0
55     0
56     1
57     0
58     0
59     0
60     0
61     1
62     0
63     0
64     1
65     0
66     1
67     O
68     0
69     0
70     1
71     0
72     1
73     0
74     0
75     0
76     0
77     0
78     1
79     0
80     0
81     0
82     0
83     0
84     1
85     0
86     0
87     0
88     1
89     0
90     0
91     0
92     0
93     1
94     0
95     0
96     0
97     0
98     0
99     1
100    1
101    0
102    0
103    0
104    0
105    0
106    0
107    0
108    0
109    1
110    1
1

15. ¿Cómo podría resolverse este problema? **(Redacta tu respuesta a la pregunta 15 en la siguiente celda)**:

In [34]:
# Usando el método to_numeric y ignorando los NaN

diabetes_data['Resultado'] = pd.to_numeric(diabetes_data['Resultado'], errors='coerce')


## Próximos Pasos:

16. En este primer proyecto has podido desarrollar un primer EDA, comprobando cómo puede ayudar con el proceso inicial de inspección y limpieza de datos. Este es un paso importante, ya que ayuda a mantener tus conjuntos de datos limpios y confiables.

    Aquí hay algunas formas en las que podrías extender este proyecto si lo deseas:
    - Usa `.value_counts()` para explorar más a fondo los valores en cada columna.
    - Investiga otros valores atípicos en los datos que puedan pasarse por alto fácilmente.
    - En lugar de cambiar los valores `0` en las cinco columnas a `NaN`, intenta reemplazar los valores con la mediana o la media de cada columna.

In [40]:
# - Usa `.value_counts()` para explorar más a fondo los valores en cada columna.

diabetes_data.value_counts()

#  - Investiga otros valores atípicos en los datos que puedan pasarse por alto fácilmente.
#  - En lugar de cambiar los valores `0` en las cinco columnas a `NaN`, intenta reemplazar los valores con la mediana o la media de cada columna.

cols_to_replace = ['Glucosa', 'PresiónArterial', 'GrosorDeLaPiel', 'Insulina', 'IMC']

for col in cols_to_replace:
    # calcular la mediana ignorando ceros y NaN
    median_val = diabetes_data.loc[diabetes_data[col] != 0, col].median()
    
    # reemplazar ceros y NaN por la mediana
    diabetes_data[col] = diabetes_data[col].replace(0, median_val)
    diabetes_data[col] = diabetes_data[col].fillna(median_val)

print(diabetes_data)

     Embarazos  Glucosa  PresiónArterial  GrosorDeLaPiel  Insulina   IMC  \
0            6    148.0             72.0            35.0     125.0  33.6   
1            1     85.0             66.0            29.0     125.0  26.6   
2            8    183.0             64.0            29.0     125.0  23.3   
3            1     89.0             66.0            23.0      94.0  28.1   
4            0    137.0             40.0            35.0     168.0  43.1   
5            5    116.0             74.0            29.0     125.0  25.6   
6            3     78.0             50.0            32.0      88.0  31.0   
7           10    115.0             72.0            29.0     125.0  35.3   
8            2    197.0             70.0            45.0     543.0  30.5   
9            8    125.0             96.0            29.0     125.0  32.3   
10           4    110.0             92.0            29.0     125.0  37.6   
11          10    168.0             74.0            29.0     125.0  38.0   
12          