# Classificação de diabetes utilizando dados médicos e demográficos

A Diabetes, também conhecida como diabetes mellitus, é uma condição caracterizada pela produção insuficiente ou má absorção de insulina, um hormônio responsável por regular os níveis de glicose no sangue e fornecer energia ao organismo. De acordo com a [Sociedade Brasileira de Diabetes](https://diabetes.org.br/), aproximadamente 5 a 10% das pessoas afetadas possuem Diabetes Tipo 1, enquanto cerca de 90% apresentam Diabetes Tipo 2. Além dessas formas, existem ainda outros grupos que podem ser diagnosticados com diabetes, como o Diabetes Gestacional e o Pré-diabetes.

O [conjunto de dados](https://www.kaggle.com/datasets/iammustafatz/diabetes-prediction-dataset) consiste em uma coleção de informações médicas e demográficas de pacientes, juntamente com o status em relação à diabetes (positivo ou negativo). Esses dados são valiosos para o desenvolvimento de modelos de aprendizado de máquina, permitindo a criação de algoritmos capazes de prever a ocorrência de diabetes em pacientes com base em seu histórico médico e informações demográficas. Essa abordagem pode fornecer insights importantes para a detecção precoce da doença e o desenvolvimento de estratégias de tratamento mais eficazes.

## Dicionário de dados

A seguir é demonstrado os campos da base de dados e seus respectivos descritivos do que significam cada uma, sendo dados médicos e dados demográficos dos pacientes, como informado anteriormente.

| CAMPO | DESCRIÇÃO |
| :- | :- |
| gender | Sexo biológico do paciente, podendo ser Female (Feminino), Male (Masculino) ou Other (Outros). |
| age | Idade do paciente. |
| hypertension | Hipertensão, flag indicativa se o paciente possui ou não a hispertensão, sendo 0 (não tem hipertensão) e 1 (tem hipertensão). |
| heart_disease | Doença cardíaca, flag indicativa se o paciente possui ou não doença cardíaca, 0 (não tem docença cardíaca) e 1 (tem doença cardíaca). |
| smoking_history | Histórico de tabagismo, 6 categorias que indicam se o paciente possui histório de tabagismo, podendo ser, never (nunca), No Info (sem informação), current (atual/atualmente), former (anterior), ever (sempre), not current (não atual/não atualmente). |
| bmi | BMI ou IMC (Índice de Massa Corporal) medida de gordura corporal com base no peso e na altura. |
| HbA1c_level | HbA1c_level ou nível de Hemoglobina A1c ou Hemoglobina Glicada - A1c, é uma medida do nível médio de açúcar no sangue de uma pessoa nos últimos 2-3 meses. |
| blood_glucose_level | blood_glucose_level ou nível de glicose no sangue, indica a quantidade de glicose na corrente sanguínea em um determinado momento. |
| diabetes | diabetes é a variável alvo (target) ou variável dependente (Y), indica se o paciente possui ou não diabetes, sendo 0 (negativo para diabetes) e 1 (positivo para diabetes). |

## Entendimento dos dados

In [1]:
#Importar bibliotecas

import numpy as np
import pandas as pd
import seaborn as sns

import matplotlib.pyplot as plt
#Apresenta os dados no notebook
%matplotlib inline

In [12]:
#Leitura e tamanho da amostra

df = pd.read_csv("data/diabetes_prediction_dataset.csv")
df.shape

(100000, 9)

In [13]:
#Tipagem dos dados

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 9 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   gender               100000 non-null  object 
 1   age                  100000 non-null  float64
 2   hypertension         100000 non-null  int64  
 3   heart_disease        100000 non-null  int64  
 4   smoking_history      100000 non-null  object 
 5   bmi                  100000 non-null  float64
 6   HbA1c_level          100000 non-null  float64
 7   blood_glucose_level  100000 non-null  int64  
 8   diabetes             100000 non-null  int64  
dtypes: float64(3), int64(4), object(2)
memory usage: 6.9+ MB


In [5]:
#Verificação qtd de nulos

df.isnull().sum()

gender                 0
age                    0
hypertension           0
heart_disease          0
smoking_history        0
bmi                    0
HbA1c_level            0
blood_glucose_level    0
diabetes               0
dtype: int64

In [10]:
#Primeiros dados

df.head()

Unnamed: 0,gender,age,hypertension,heart_disease,smoking_history,bmi,HbA1c_level,blood_glucose_level,diabetes
0,Female,80.0,0,1,never,25.19,6.6,140,0
1,Female,54.0,0,0,No Info,27.32,6.6,80,0
2,Male,28.0,0,0,never,27.32,5.7,158,0
3,Female,36.0,0,0,current,23.45,5.0,155,0
4,Male,76.0,1,1,current,20.14,4.8,155,0


In [11]:
#Últimos dados

df.tail()

Unnamed: 0,gender,age,hypertension,heart_disease,smoking_history,bmi,HbA1c_level,blood_glucose_level,diabetes
99995,Female,80.0,0,0,No Info,27.32,6.2,90,0
99996,Female,2.0,0,0,No Info,17.37,6.5,100,0
99997,Male,66.0,0,0,former,27.83,5.7,155,0
99998,Female,24.0,0,0,never,35.42,4.0,100,0
99999,Female,57.0,0,0,current,22.43,6.6,90,0


In [14]:
#Descrição estatistica

df.describe()

Unnamed: 0,age,hypertension,heart_disease,bmi,HbA1c_level,blood_glucose_level,diabetes
count,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0
mean,41.885856,0.07485,0.03942,27.320767,5.527507,138.05806,0.085
std,22.51684,0.26315,0.194593,6.636783,1.070672,40.708136,0.278883
min,0.08,0.0,0.0,10.01,3.5,80.0,0.0
25%,24.0,0.0,0.0,23.63,4.8,100.0,0.0
50%,43.0,0.0,0.0,27.32,5.8,140.0,0.0
75%,60.0,0.0,0.0,29.58,6.2,159.0,0.0
max,80.0,1.0,1.0,95.69,9.0,300.0,1.0
