# Tratamento de Dados Faltantes com Pandas

In [33]:
# Importando a biblioteca pandas
import pandas as pd

In [34]:
!pip install openpyxl lxml



In [35]:
# Carregando os dados do arquivo Excel
diabetes = pd.read_excel('lidando_com_dados/dados/diabetes.xlsx')

In [41]:
diabetes

Unnamed: 0,pressao arterial,concentracao de glicose,insulina,tipo sanguineo,idade,imc,diabetico
0,72.0,148.0,,A,50,33.6,S
1,66.0,85.0,,O,31,26.6,N
2,64.0,183.0,,A,32,23.3,S
3,66.0,89.0,94.0,A,21,28.1,N
4,40.0,137.0,168.0,O,33,43.1,S
...,...,...,...,...,...,...,...
763,76.0,101.0,180.0,A,63,32.9,N
764,70.0,122.0,,A,27,36.8,N
765,72.0,121.0,112.0,O,30,26.2,N
766,60.0,126.0,,,47,30.1,S


In [62]:
# Exibindo informações gerais sobre os dados (tipo e quantidade de cada coluna)
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   pressao arterial         733 non-null    float64
 1   concentracao de glicose  763 non-null    float64
 2   insulina                 394 non-null    float64
 3   tipo sanguineo           723 non-null    object 
 4   idade                    768 non-null    int64  
 5   imc                      757 non-null    float64
 6   diabetico                768 non-null    object 
dtypes: float64(4), int64(1), object(2)
memory usage: 42.1+ KB


### Quantidade de dados faltantes

In [8]:
# Verificando a quantidade de valores faltantes em cada coluna
diabetes.isna().sum()

pressao arterial            35
concentracao de glicose      5
insulina                   374
tipo sanguineo              45
idade                        0
imc                         11
diabetico                    0
dtype: int64

In [9]:
# Analisando a coluna 'diabetico' para entender a distribuição de valores
diabetes['diabetico'].value_counts()

diabetico
N    500
S    268
Name: count, dtype: int64

### Destacartando linhas com valores faltantes

In [11]:
# Identificando as linhas com valores faltantes nas colunas 'concentracao de glicose' e 'imc'
# Exibindo as linhas que possuem valores ausentes nessas colunas
diabetes[diabetes['concentracao de glicose'].isna() | diabetes['imc'].isna()]

Unnamed: 0,pressao arterial,concentracao de glicose,insulina,tipo sanguineo,idade,imc,diabetico
9,96.0,125.0,,A,54,,S
49,,105.0,,A,24,,N
60,,84.0,,,21,,N
75,48.0,,,A,22,24.7,N
81,,74.0,,A,22,,N
145,75.0,102.0,,A,21,,N
182,74.0,,23.0,O,21,27.7,N
342,68.0,,,A,22,32.0,N
349,80.0,,,O,37,41.0,S
371,64.0,118.0,89.0,O,21,,N


In [12]:
# Removendo as linhas que possuem valores faltantes nas colunas especificadas
diabetes.dropna(axis='index', subset=['concentracao de glicose', 'imc'], inplace=True)

In [13]:
# Verificando novamente as informações após a remoção dos dados faltantes
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 752 entries, 0 to 767
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   pressao arterial         724 non-null    float64
 1   concentracao de glicose  752 non-null    float64
 2   insulina                 392 non-null    float64
 3   tipo sanguineo           709 non-null    object 
 4   idade                    752 non-null    int64  
 5   imc                      752 non-null    float64
 6   diabetico                752 non-null    object 
dtypes: float64(4), int64(1), object(2)
memory usage: 47.0+ KB


### Substituindo Valores

In [15]:
# Verificando novamente a quantidade de valores faltantes
diabetes.isna().sum()

pressao arterial            28
concentracao de glicose      0
insulina                   360
tipo sanguineo              43
idade                        0
imc                          0
diabetico                    0
dtype: int64

In [16]:
# Identificando as linhas em que a coluna 'insulina' possui valores faltantes
diabetes[diabetes['insulina'].isna()].head(20)

Unnamed: 0,pressao arterial,concentracao de glicose,insulina,tipo sanguineo,idade,imc,diabetico
0,72.0,148.0,,A,50,33.6,S
1,66.0,85.0,,O,31,26.6,N
2,64.0,183.0,,A,32,23.3,S
5,74.0,116.0,,A,30,25.6,N
7,,115.0,,A,29,35.3,N
10,92.0,110.0,,O,30,37.6,N
11,74.0,168.0,,,34,38.0,S
12,80.0,139.0,,O,57,27.1,N
15,,100.0,,AB,32,30.0,S
17,74.0,107.0,,AB,31,29.6,S


In [17]:
# Criando uma nova coluna 'leu insulina' para indicar se o valor da coluna 'insulina' está presente (True/False)
diabetes['leu insulina'] = ~diabetes['insulina'].isna()
diabetes

Unnamed: 0,pressao arterial,concentracao de glicose,insulina,tipo sanguineo,idade,imc,diabetico,leu insulina
0,72.0,148.0,,A,50,33.6,S,False
1,66.0,85.0,,O,31,26.6,N,False
2,64.0,183.0,,A,32,23.3,S,False
3,66.0,89.0,94.0,A,21,28.1,N,True
4,40.0,137.0,168.0,O,33,43.1,S,True
...,...,...,...,...,...,...,...,...
763,76.0,101.0,180.0,A,63,32.9,N,True
764,70.0,122.0,,A,27,36.8,N,False
765,72.0,121.0,112.0,O,30,26.2,N,True
766,60.0,126.0,,,47,30.1,S,False


In [18]:
# Removendo a coluna 'insulina' do dataset, pois já temos a informação na nova coluna
diabetes.drop(columns='insulina', inplace=True)

In [19]:
# Exibe as primeiras e últimas linhas do dataframe após as modificações
diabetes

Unnamed: 0,pressao arterial,concentracao de glicose,tipo sanguineo,idade,imc,diabetico,leu insulina
0,72.0,148.0,A,50,33.6,S,False
1,66.0,85.0,O,31,26.6,N,False
2,64.0,183.0,A,32,23.3,S,False
3,66.0,89.0,A,21,28.1,N,True
4,40.0,137.0,O,33,43.1,S,True
...,...,...,...,...,...,...,...
763,76.0,101.0,A,63,32.9,N,True
764,70.0,122.0,A,27,36.8,N,False
765,72.0,121.0,O,30,26.2,N,True
766,60.0,126.0,,47,30.1,S,False


In [20]:
# Selecionando um subconjunto das colunas para manter a análise focada
diabetes = diabetes[[
    'pressao arterial',
    'concentracao de glicose',
    'leu insulina',
    'tipo sanguineo',
    'idade',
    'imc',
    'diabetico'
]]
diabetes

Unnamed: 0,pressao arterial,concentracao de glicose,leu insulina,tipo sanguineo,idade,imc,diabetico
0,72.0,148.0,False,A,50,33.6,S
1,66.0,85.0,False,O,31,26.6,N
2,64.0,183.0,False,A,32,23.3,S
3,66.0,89.0,True,A,21,28.1,N
4,40.0,137.0,True,O,33,43.1,S
...,...,...,...,...,...,...,...
763,76.0,101.0,True,A,63,32.9,N
764,70.0,122.0,False,A,27,36.8,N
765,72.0,121.0,True,O,30,26.2,N
766,60.0,126.0,False,,47,30.1,S


In [21]:
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 752 entries, 0 to 767
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   pressao arterial         724 non-null    float64
 1   concentracao de glicose  752 non-null    float64
 2   leu insulina             752 non-null    bool   
 3   tipo sanguineo           709 non-null    object 
 4   idade                    752 non-null    int64  
 5   imc                      752 non-null    float64
 6   diabetico                752 non-null    object 
dtypes: bool(1), float64(3), int64(1), object(2)
memory usage: 41.9+ KB


In [22]:
diabetes.isna().sum()

pressao arterial           28
concentracao de glicose     0
leu insulina                0
tipo sanguineo             43
idade                       0
imc                         0
diabetico                   0
dtype: int64

In [23]:
# Analisando a coluna 'pressao arterial' com descrições estatísticas
diabetes['pressao arterial']

0      72.0
1      66.0
2      64.0
3      66.0
4      40.0
       ... 
763    76.0
764    70.0
765    72.0
766    60.0
767    70.0
Name: pressao arterial, Length: 752, dtype: float64

In [24]:
# Verificando a distribuição dos valores na coluna 'tipo sanguineo'
diabetes['tipo sanguineo']

0        A
1        O
2        A
3        A
4        O
      ... 
763      A
764      A
765      O
766    NaN
767      A
Name: tipo sanguineo, Length: 752, dtype: object

In [25]:
# Analisando a coluna 'pressao arterial' com descrições estatísticas
diabetes['pressao arterial'].describe()

count    724.000000
mean      72.400552
std       12.379870
min       24.000000
25%       64.000000
50%       72.000000
75%       80.000000
max      122.000000
Name: pressao arterial, dtype: float64

In [26]:
# Verificando a distribuição dos valores na coluna 'tipo sanguineo'
diabetes['tipo sanguineo'].value_counts()

tipo sanguineo
A     390
O     223
B      75
AB     21
Name: count, dtype: int64

In [27]:
# Substituindo os valores faltantes nas colunas 'pressao arterial' e 'tipo sanguineo' com valores definidos
diabetes.fillna({'pressao arterial': 72.4, 'tipo sanguineo': 'A'}, inplace=True)

In [28]:
# Verificando novamente as informações após o preenchimento dos valores faltantes
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 752 entries, 0 to 767
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   pressao arterial         752 non-null    float64
 1   concentracao de glicose  752 non-null    float64
 2   leu insulina             752 non-null    bool   
 3   tipo sanguineo           752 non-null    object 
 4   idade                    752 non-null    int64  
 5   imc                      752 non-null    float64
 6   diabetico                752 non-null    object 
dtypes: bool(1), float64(3), int64(1), object(2)
memory usage: 41.9+ KB


In [29]:
# Confirmando que não há mais valores faltantes
diabetes.isna().sum()

pressao arterial           0
concentracao de glicose    0
leu insulina               0
tipo sanguineo             0
idade                      0
imc                        0
diabetico                  0
dtype: int64

In [30]:
# Exibindo o dataframe final
diabetes

Unnamed: 0,pressao arterial,concentracao de glicose,leu insulina,tipo sanguineo,idade,imc,diabetico
0,72.0,148.0,False,A,50,33.6,S
1,66.0,85.0,False,O,31,26.6,N
2,64.0,183.0,False,A,32,23.3,S
3,66.0,89.0,True,A,21,28.1,N
4,40.0,137.0,True,O,33,43.1,S
...,...,...,...,...,...,...,...
763,76.0,101.0,True,A,63,32.9,N
764,70.0,122.0,False,A,27,36.8,N
765,72.0,121.0,True,O,30,26.2,N
766,60.0,126.0,False,A,47,30.1,S


In [31]:
# Salvando o DataFrame tratado em um novo arquivo Excel
diabetes.to_excel('diabetes_tratado.xlsx', index=False)