### Realizando limpeza dos dados
##### Por Adriano Santos

###### Dentre as atividades que um cientista de dados deve realizar, o processo de limpeza e tratamento é uma das mais importantes.

Nesta aula aprenderemos a:

* Remover informações de um DataFrame;


In [1]:
# Carregando módulos 
import pandas as pd

In [5]:
# Importando os dados para manipulação
df = pd.read_csv('../Dados/WHO.csv', delimiter=',')
print (df.head())

       Country                 Region  Population  Under15  Over60  \
0  Afghanistan  Eastern Mediterranean       29825    47.42    3.82   
1      Albania                 Europe        3162    21.33   14.93   
2      Algeria                 Africa       38482    27.42    7.17   
3      Andorra                 Europe          78    15.20   22.86   
4       Angola                 Africa       20821    47.58    3.84   

   FertilityRate  LifeExpectancy  ChildMortality  CellularSubscribers  \
0           5.40              60            98.5                54.26   
1           1.75              74            16.7                96.39   
2           2.83              73            20.0                98.99   
3            NaN              82             3.2                75.49   
4           6.10              51           163.5                48.38   

   LiteracyRate     GNI  PrimarySchoolEnrollmentMale  \
0           NaN  1140.0                          NaN   
1           NaN  8820.0     

##### Verificando a existência de dados missing (NaN)

In [21]:
# O any() possibibilitará saber, coluna a coluna, se qualquer um dos valores é inexistente.
df.isnull().any()


Country                          False
Region                           False
Population                       False
Under15                          False
Over60                           False
FertilityRate                     True
LifeExpectancy                   False
ChildMortality                   False
CellularSubscribers               True
LiteracyRate                      True
GNI                               True
PrimarySchoolEnrollmentMale       True
PrimarySchoolEnrollmentFemale     True
dtype: bool

In [19]:
# Possibilitirá se existe alguma coluna em branco.
print (df.isnull().all())
print ('Número de registros:', df.shape)

Country                          False
Region                           False
Population                       False
Under15                          False
Over60                           False
FertilityRate                    False
LifeExpectancy                   False
ChildMortality                   False
CellularSubscribers              False
LiteracyRate                     False
GNI                              False
PrimarySchoolEnrollmentMale      False
PrimarySchoolEnrollmentFemale    False
dtype: bool
Número de registros: (194, 13)


In [56]:
# O comando dropna() remove do DataFrame qualquer linha que tenha pelo menos um NaN.
df.dropna(inplace=True)  # thresh=2 -> se tiver mais de dois NaN; how='all' se tiver uma linha completa em NaN
print ('Número de registros:', df['Country'].count())
df.isnull().any()

Número de registros: 50


Country                          False
Region                           False
Population                       False
Under15                          False
Over60                           False
FertilityRate                    False
LifeExpectancy                   False
ChildMortality                   False
CellularSubscribers              False
LiteracyRate                     False
GNI                              False
PrimarySchoolEnrollmentMale      False
PrimarySchoolEnrollmentFemale    False
dtype: bool

In [45]:
# Carrega os dados novamente para iniciarmos outras formas de ajustes de dados.
df = pd.read_csv('../Dados/WHO.csv', delimiter=',')
print (df.shape)

(194, 13)


In [46]:
# Caso você queira preencher os valores inexistentes, você deve usar a função fillna()
df.isnull().any()
# Iremos preencher os valores NaN da coluna 
print('Registros:', df['FertilityRate'].count())
df['FertilityRate'].head()

Registros: 183


0    5.40
1    1.75
2    2.83
3     NaN
4    6.10
Name: FertilityRate, dtype: float64

In [47]:
# Preenchendo os valores com os valores da média
df['FertilityRate'].fillna(df['FertilityRate'].mean(),inplace=True)
print('Número de registros:',  df['FertilityRate'].count())
df['FertilityRate'].head()


Número de registros: 194


0    5.400000
1    1.750000
2    2.830000
3    2.940656
4    6.100000
Name: FertilityRate, dtype: float64

###### Comandos para remoção de coluna

In [48]:
# Para remover, faça:
df.drop('CellularSubscribers', axis=1, inplace=True) # axis 1 = coluna; axis 0 = linha.
print (df.columns)


Index(['Country', 'Region', 'Population', 'Under15', 'Over60', 'FertilityRate',
       'LifeExpectancy', 'ChildMortality', 'LiteracyRate', 'GNI',
       'PrimarySchoolEnrollmentMale', 'PrimarySchoolEnrollmentFemale'],
      dtype='object')


In [52]:
# Avaliando se existe duplicata 
print(df.duplicated('Region').head())

0    False
1    False
2    False
3     True
4     True
dtype: bool
