In [10]:
import pandas as pd
import numpy as np

In [11]:
df = pd.read_csv("datasets/life-expectancy_data.csv")

In [15]:
# Quantidade de dados nulos em cada coluna, dados nulos podem ser 'NaN' ou 'Null'
df.isnull().sum()

Country                              0
Year                                 0
Status                               0
Life expectancy                     10
Adult Mortality                     10
infant deaths                        0
Alcohol                            194
percentage expenditure               0
Hepatitis B                        553
Measles                              0
 BMI                                34
under-five deaths                    0
Polio                               19
Total expenditure                  226
Diphtheria                          19
 HIV/AIDS                            0
GDP                                448
Population                         652
 thinness  1-19 years               34
 thinness 5-9 years                 34
Income composition of resources    167
Schooling                          163
dtype: int64

In [22]:
total_data = np.product(df.shape) # Total de itens no DataFrame
missing_data = np.product((df.isnull().sum()).sum()) # Total de itens 'perdidos' no DataFrame

percent_missing = (missing_data / total_data) * 100 # % de itens 'perdidos' no DataFrame
percent_missing

3.965282505105514

## Porque os dados se perderam?
É fundamental entender o motivo dos dados serem perdidos, em alguns casos, não faz sentido um valor ali, por exemplo: a altura e peso de um bebê, de um casal que não tem filhos.

In [33]:
df['Country'].loc[df['Alcohol'].isnull() == True].unique()

array(['Algeria', 'Angola', 'Antigua and Barbuda', 'Argentina', 'Armenia',
       'Australia', 'Austria', 'Azerbaijan', 'Bahamas', 'Bahrain',
       'Bangladesh', 'Barbados', 'Belarus', 'Belgium', 'Belize', 'Benin',
       'Bhutan', 'Bolivia (Plurinational State of)',
       'Bosnia and Herzegovina', 'Botswana', 'Brazil',
       'Brunei Darussalam', 'Bulgaria', 'Burkina Faso', 'Burundi',
       "Côte d'Ivoire", 'Cabo Verde', 'Cambodia', 'Cameroon', 'Canada',
       'Central African Republic', 'Chad', 'Chile', 'China', 'Colombia',
       'Comoros', 'Congo', 'Costa Rica', 'Croatia', 'Cuba', 'Cyprus',
       'Czechia', "Democratic People's Republic of Korea",
       'Democratic Republic of the Congo', 'Denmark', 'Djibouti',
       'Dominican Republic', 'Ecuador', 'Egypt', 'El Salvador',
       'Equatorial Guinea', 'Eritrea', 'Estonia', 'Ethiopia', 'Fiji',
       'Finland', 'France', 'Gabon', 'Gambia', 'Georgia', 'Germany',
       'Ghana', 'Greece', 'Grenada', 'Guatemala', 'Guinea',
      

Na Libia é proíbido o consumo de álcool, por esse motivo, faz sentido que o a coluna 'Alcohol' seja NaN, nos anos anteriores a taxa de mortalidade era de 0.01, então é totalmente plausível que depois de muito tempo com uma taxa baixa, ela se reduza à zero

In [47]:
df.loc[(df['Alcohol'].isnull() == True) & (df['Country'] == 'Libya')]

Unnamed: 0,Country,Year,Status,Life expectancy,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,Measles,...,Polio,Total expenditure,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
1506,Libya,2015,Developing,72.7,138.0,1,,0.0,97.0,82,...,97.0,,97.0,0.1,,,5.8,5.5,0.719,13.4


In [61]:
df['Alcohol'].loc[df['Country'] == 'Libya']

1506     NaN
1507    0.01
1508    0.01
1509    0.01
1510    0.01
1511    0.01
1512    0.01
1513    0.01
1514    0.01
1515    0.01
1516    0.01
1517    0.01
1518    0.01
1519    0.01
1520    0.01
1521    0.01
Name: Alcohol, dtype: float64

## Excluindo valores perdidos
Em projetos reais,essa ação não é tão recomendada, o ideal é usar parte do tempo do projeto para realmente entender a motivação da falta dos dados, mesmo assim, vale ressaltar uma maneira de realizar tal ação.

In [75]:
print(f'Com dados faltantes {df.shape}')
print(f'Retirou os linhas com dado faltante {df.dropna().shape}')

Com dados faltantes (2938, 22)
Retirou os linhas com dado faltante (1649, 22)


## Substituindo valores perdidos
Usando o método fillna, substituimos os valores vazios pela parâmetro passado, como exemplo, em um DataFrame com fillna aplicado, procurei linhas com o páis 'Libia' e perdas para o álcool igual a Null, assim como fiz no DataFrame original, dessa vez nada foi encontrado

In [77]:
fill_missing = df.fillna(0)

In [79]:
 fill_missing.loc[(fill_missing['Alcohol'].isnull() == True) & (fill_missing['Country'] == 'Libya')]

Unnamed: 0,Country,Year,Status,Life expectancy,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,Measles,...,Polio,Total expenditure,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
