## Conjunto de dados

- Fonte: https://www.kaggle.com/uciml/pima-indians-diabetes-database
- Proprietários originais: National Institute of Diabetes and Digestive and Kidney Diseases
- Doadores da base de dados: Vincent Sigillito (vgs@aplcen.apl.jhu.edu), 
Research Center, RMI Group Leader, Applied Physics Laboratory, The Johns Hopkins University (1990)

Detalhes sobre o conjunto de dados:

1. Número de instâncias: 768

2. Número de atributos: 8 (mais classe target)

3. Atributos: (todos com valor numérico)
   1. Número de vezes que engravidou (*Pregnancies*)
   2. Concentração de glicose plasmática a 2 horas em um teste de tolerância à glicose oral (*Glucose*)
   3. Pressão arterial diastólica (mm Hg) (*BloodPressure*)
   4. Espessura da dobra da pele do tríceps (mm) (*SkinThickness*)
   5. Insulina sérica de 2 horas (mu U / ml) (*Insulin*)
   6. Índice de massa corporal (peso em kg / (altura em m) ^ 2) (*BMI*)
   7. Função de pedigree de diabetes (*DiabetesPedigreeFunction*)
   8. Idade (anos) (*Age*)
   
4. Variável target (classe): 0 ou 1 (valor de classe 1 é interpretado como "teste positivo para diabetes")

   Classe Valor Número de instâncias
   - 500 => 0
   - 268 => 1

 

## Clona repositório de dados da disciplina hospedado no GitHUb

In [3]:
!git clone "https://github.com/malegopc/DSBD"

Cloning into 'DSBD'...
remote: Enumerating objects: 95, done.[K
remote: Counting objects: 100% (95/95), done.[K
remote: Compressing objects: 100% (76/76), done.[K
remote: Total 95 (delta 8), reused 0 (delta 0), pack-reused 0[K
Unpacking objects: 100% (95/95), done.


## Leitura e preparação dos dados

Vamos começar importando o arquivo CSV bruto usando o Pandas.

In [4]:
import pandas as pd

# lê arquivo de dados, atribue NaN para dados faltantes
diabetes = pd.read_csv('DSBD/Datasets/Indians_Diabetes/diabetes.csv', na_values=['?'])
# imprime as 5 primeiras linhas dos dados montados
diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


## Análise prévia dos dados

Imprime o número de dados non-null (não ausentes) e o tipo de cada atributo.

In [5]:
# Mostra o número de dados non-null (não ausentes) e o tipo de cada atributo
print('Informações sobre os dados:\n')
diabetes.info()
# Soma o número de dados null (ausentes)
print('\n\nSoma de dados null (vazios):\n')
diabetes.isnull().sum()

Informações sobre os dados:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


Soma de dados null (vazios):



Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

## Análise (estatística) descritiva dos dados

Análise descritiva dos dados (resumo).

In [6]:
diabetes.describe()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


## Separa os atributos das classes

Extrai os atributos e as classes (rótulos) colocando-os em duas variáveis separadas (na forma que o Keras espera).

In [7]:
X = diabetes.drop('Outcome', axis=1).values
y = diabetes['Outcome'].values
print(X.shape)
print(y.shape)

(768, 8)
(768,)
