------------------------------------------------------------------------------------------------------<br>
<h3 style="background:#87a1c2; color:#ffffff; padding:20px; border-radius:5px;">✍ DIABETES DATASET - PANDAS</h3><br>
------------------------------------------------------------------------------------------------------<br>

<b>BREVE EXPLICACIÓN DEL DATASET:</b><br>
<img src="img/diabetes.png">
<img src="img/diabetes2.png">

In [19]:
import pandas as pd
diabetes = pd.read_csv('dataset/01_diabetes.csv')
diabetes.columns 

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

In [20]:
# Renombrar columnas. Traducir.
newcols={
"Pregnancies":"embarazo",
"Glucose":"glucosa",
"BloodPressure":"presion_sangre",
"SkinThickness":"espesor_piel",
"Insulin":"insulina",
"BMI":"BMI",
"DiabetesPedigreeFunction":"pedigree",
"Age":"edad",
"Outcome":"salida"}
diabetes.rename(columns=newcols,inplace=True)
diabetes.head()

Unnamed: 0,embarazo,glucosa,presion_sangre,espesor_piel,insulina,BMI,pedigree,edad,salida
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [21]:
diabetes.shape

(768, 9)

In [22]:
diabetes.groupby('salida').size()

salida
0    500
1    268
dtype: int64

In [23]:
# ¿Datos inválidos?
diabetes.isnull().sum()

embarazo          0
glucosa           0
presion_sangre    0
espesor_piel      0
insulina          0
BMI               0
pedigree          0
edad              0
salida            0
dtype: int64

In [24]:
''' 
1.- Hay 0 valores para la presión arterial. 
Y es evidente que las lecturas del conjunto de datos parecen incorrectas 
ya que una persona viva no puede tener una presión arterial diastólica de cero.

2.- Incluso después de ayunar, los niveles de glucosa no serían tan bajos como cero. 
Por lo tanto, cero es una lectura inválida.

3.- Grosores de piel
'''

print("Total presión: ", diabetes[diabetes.presion_sangre == 0].shape[0])
print("Total glucosa: ", diabetes[diabetes.glucosa == 0].shape[0])
print("Total piel: ", diabetes[diabetes.espesor_piel == 0].shape[0])
print("Total BMI: ", diabetes[diabetes.BMI == 0].shape[0])
print("Total insulina: ", diabetes[diabetes.insulina == 0].shape[0])

Total presión:  35
Total glucosa:  5
Total piel:  227
Total BMI:  11
Total insulina:  374


In [25]:
# Otro modo
diabetes['presion_sangre'].value_counts()

70     57
74     52
68     45
78     45
72     44
64     43
80     40
76     39
60     37
0      35
62     34
66     30
82     30
88     25
84     23
90     22
86     21
58     21
50     13
56     12
52     11
54     11
92      8
75      8
65      7
94      6
85      6
48      5
44      4
96      4
110     3
100     3
98      3
106     3
108     2
104     2
30      2
55      2
46      2
40      1
38      1
24      1
95      1
61      1
102     1
114     1
122     1
Name: presion_sangre, dtype: int64

------------------------------------------------------------------------------------------------------<br>
<p>Existen varias maneras de manejar los valores de datos no válidos:<br><br>
<b>1.- Ignorar/eliminar estos casos (filas):</b> Esto no es posible en la mayoría de los casos porque significaría perder información valiosa. En este caso las columnas "grosor de la piel" e "insulina" tienen demasiadas filas vacías. Podría funcionar para los puntos de datos de "IMC", "glucosa" y "presión arterial".<br>
<b>2.- Poner valores medios:</b> Esto puede funcionar para algunos conjuntos de datos, pero en nuestro caso poner un valor medio a la columna de presión arterial enviaría una señal errónea al modelo. La interpolación, la moda, etcétera tampoco valdrían.<br>
<b>3.- Evitar el uso de la columna:</b> Es posible no utilizar las características con muchos valores no válidos para el modelo. Esto puede funcionar para el "grosor de la piel" y la "insulina".<br>
    ------------------------------------------------------------------------------------------------------<br>

In [26]:
diabetes = diabetes[(diabetes.presion_sangre != 0) & (diabetes.BMI != 0) & (diabetes.glucosa != 0)]
print(diabetes.shape)

(724, 9)


------------------------------------------------------------------------------------------------------<br>

<p><b>La modificación de la estructura original del dataset se conoce como ingeniería de las características (feature engineering)</b> y es el proceso de transformar los datos recogidos en características que representen mejor el problema que intentamos resolver para el modelo, con el fin de mejorar su rendimiento y precisión.<br><br>

Esta técnica puede crear más características de entrada a partir de los existentes y también combinar varias características para producir rasgos más intuitivos para alimentar el modelo.<br><br>
Permitirá resaltar los rasgos importantes y facilitar la aportación de la experiencia del dominio sobre el problema. También puede permitir evitar el sobreajuste (overfitting) del modelo a pesar de proporcionar muchas características de entrada.<br>
En este Notebook no transformaremos sustancialmente el dataset original y nos ceñiremos a la eliminación de la información no relevante.
Muchas veces el propio conocimiento de campo nos ofrece la visión suficiente como para generar nueva información relevante mediante nuevos features.
    <img src="img/feature.png">
</p>
------------------------------------------------------------------------------------------------------<br>



In [27]:
diabetes.head()

Unnamed: 0,embarazo,glucosa,presion_sangre,espesor_piel,insulina,BMI,pedigree,edad,salida
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [28]:
del diabetes['espesor_piel']
del diabetes['insulina']
diabetes.head()

Unnamed: 0,embarazo,glucosa,presion_sangre,BMI,pedigree,edad,salida
0,6,148,72,33.6,0.627,50,1
1,1,85,66,26.6,0.351,31,0
2,8,183,64,23.3,0.672,32,1
3,1,89,66,28.1,0.167,21,0
4,0,137,40,43.1,2.288,33,1


In [30]:
diabetes.to_csv(r'dataset\01_diabetes_manipulado.csv', index = False)

<h3>👏👏👏 You guys rock !!!</h3>