## Vamos trabalhar com o exemplo de Banco

In [1]:
import pandas as pd
data_banco = pd.read_csv('dados_banco.csv') # Comma Separated Values - Valores Separados Por Vírgula

In [2]:
data_banco.head()

Unnamed: 0.1,Unnamed: 0,Cliente,Sexo,Idade,Empresa,Salario,Saldo_cc,Saldo_poupança,Saldo_investimento,Devedor_cartao,Inadimplente
0,1,1,M,33,Privada,6019,108498,0,0,121435,0
1,2,2,F,31,Pública,5134,53209,0,0,166296,0
2,3,3,M,31,Pública,5286,71991,0,0,216797,0
3,4,4,F,32,Privada,5534,54747,0,0,63913,1
4,5,5,F,28,Autônomo,4559,41281,0,0,146696,1


In [3]:
data_banco['Cliente']

0             1
1             2
2             3
3             4
4             5
          ...  
99995     99996
99996     99997
99997     99998
99998     99999
99999    100000
Name: Cliente, Length: 100000, dtype: int64

In [4]:
data_banco['Sexo']

0        M
1        F
2        M
3        F
4        F
        ..
99995    F
99996    M
99997    M
99998    F
99999    M
Name: Sexo, Length: 100000, dtype: object

In [5]:
data_banco['Idade']

0        33
1        31
2        31
3        32
4        28
         ..
99995    31
99996    32
99997    31
99998    30
99999    31
Name: Idade, Length: 100000, dtype: int64

In [6]:
data_banco['Empresa']

0         Privada
1         Pública
2         Pública
3         Privada
4        Autônomo
           ...   
99995    Autônomo
99996     Privada
99997     Pública
99998     Pública
99999    Autônomo
Name: Empresa, Length: 100000, dtype: object

In [13]:
frequencia = data_banco['Inadimplente'].value_counts() #frequencia absoluta
percentual = data_banco['Inadimplente'].value_counts(normalize = True)*100

In [15]:
dist_freq = pd.DataFrame({'Frequência': frequencia, 'Porcentagem(%)': percentual})
dist_freq

Unnamed: 0,Frequência,Porcentagem(%)
0,75641,75.641
1,24359,24.359


In [16]:
dist_freq.rename_axis('Inadimplentes', axis = 'columns', inplace = True)
dist_freq

Inadimplentes,Frequência,Porcentagem(%)
0,75641,75.641
1,24359,24.359


In [11]:
fr = (data_banco['Inadimplente'].value_counts())/len(data_banco)
fr

0    0.75641
1    0.24359
Name: Inadimplente, dtype: float64

In [46]:
data_banco.describe()

Unnamed: 0.1,Unnamed: 0,Cliente,Idade,Salario,Inadimplente
count,100000.0,100000.0,100000.0,100000.0,100000.0
mean,50000.5,50000.5,31.83236,5513.45308,0.24359
std,28867.657797,28867.657797,2.92772,392.083661,0.42925
min,1.0,1.0,21.0,4359.0,0.0
25%,25000.75,25000.75,30.0,5235.0,0.0
50%,50000.5,50000.5,32.0,5530.0,0.0
75%,75000.25,75000.25,34.0,5766.0,0.0
max,100000.0,100000.0,56.0,9080.0,1.0


In [47]:
data_banco.describe(include='O')

Unnamed: 0,Sexo,Empresa,Saldo_cc,Saldo_poupança,Saldo_investimento,Devedor_cartao
count,100000,100000,100000,100000,100000,100000
unique,2,3,60296,13157,13290,77051
top,M,Privada,93052,0,0,0
freq,58155,61624,8,86631,86631,16309


In [48]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   funcionario   36 non-null     int64  
 1   estado_civil  36 non-null     object 
 2   instrucao     36 non-null     object 
 3   nfilhos       20 non-null     float64
 4   salario       36 non-null     float64
 5   idade_anos    36 non-null     int64  
 6   idade_meses   36 non-null     int64  
 7   regiao        36 non-null     object 
dtypes: float64(2), int64(3), object(3)
memory usage: 2.4+ KB


## Trabalhando com dados faltantes

Algoritmos de Machine Learning não são capazes de lidar com valores ausentes (missing data). Se você já tentou rodar, viu que a mensagem de erro é bem clara em relação a isso.

Um valor ausente é facilmente identificado nos campos da sua estrutura de dados como NaN. Para seu modelo rodar sem problemas, você tem que limpar, em uma etapa anterior, os dados (data cleaning). É aí que surge a dúvida: o que eu faço com eles?

Não existe uma resposta 100% correta, pois cada abordagem tem suas vantagens e desvantagens, mas vamos dar uma olhada naquelas que são mais usadas.

A primeira coisa que você tem que saber quando lida com um conjunto de dados novos é a quantidade e proporção dos missing values.

In [49]:
import pandas as pd
data = pd.read_csv('titanic/train.csv') # Comma Separated Values - Valores Separados Por Vírgula
data.columns = ['IdPassageiro', 'Sobreviveu', 'Classe', 'Nome', 'Sexo', 'Idade', 
                'IrmaosConjuge','PaisFilhos', 'Bilhete', 'Tarifa', 'Cabine', 'Embarque']

In [50]:
data.isnull().sum()

IdPassageiro       0
Sobreviveu         0
Classe             0
Nome               0
Sexo               0
Idade            177
IrmaosConjuge      0
PaisFilhos         0
Bilhete            0
Tarifa             0
Cabine           687
Embarque           2
dtype: int64

## Como não existe resposta correta, você deve explorar os dados, verificar o que pode ser realizado com aquelas colunas que possuem dados faltantes

* Possibilidade 1:

### Excluir valores ausentes

Esta é uma decisão mais radical, e deve ser feita apenas em casos em que não haverá impacto significativo no modelo. Ao eliminar uma linha inteira, você joga fora um monte de informação que poderia ser extremamente importante.

Geralmente é usada essa opção apenas quando meu dataset é consideravelmente grande e a quantidade de valores ausentes é relativamente insignificante.

Por exemplo, vamos deletar a Cabine, pois considerando que num modelo preditivo, "pode" que essa coluna não seja interessante para o modelo.


In [51]:
data.drop('Cabine', axis=1, inplace=True)

In [52]:
data.isnull().sum()

IdPassageiro       0
Sobreviveu         0
Classe             0
Nome               0
Sexo               0
Idade            177
IrmaosConjuge      0
PaisFilhos         0
Bilhete            0
Tarifa             0
Embarque           2
dtype: int64

* Possibilidade 2

### Preencher valores ausentes

Esta abordagem é a mais utilizada, pois você não joga fora informação útil. Aqui, a dúvida que você vai ter é em relação a qual valor usar para preencher os dados faltantes.

In [53]:
data.loc[data['Embarque'].isnull()] #verificando quais os dois valores de embarque que estão faltantes

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Embarque
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,


In [54]:
data['Embarque'].unique() #verificar quais os tipos de portão de embarque que existem

array(['S', 'C', 'Q', nan], dtype=object)

In [55]:
data['Embarque'].mode() #verificar o portão de embarque que mais se repete (moda)

0    S
dtype: object

In [56]:
data.describe(include='O')

Unnamed: 0,Nome,Sexo,Bilhete,Embarque
count,891,891,891,889
unique,891,2,681,3
top,"Thayer, Mrs. John Borland (Marian Longstreth M...",male,CA. 2343,S
freq,1,577,7,644


In [57]:
data['Embarque'].fillna('Q', inplace=True)

In [58]:
data['Embarque'].at[61] = 'S'

In [59]:
data['Embarque'].at[61]

'S'

In [60]:
data['Embarque'].at[829] = 'S'

In [61]:
data['Embarque'].at[829]

'S'

In [62]:
data.isnull().sum()

IdPassageiro       0
Sobreviveu         0
Classe             0
Nome               0
Sexo               0
Idade            177
IrmaosConjuge      0
PaisFilhos         0
Bilhete            0
Tarifa             0
Embarque           0
dtype: int64

### Posso verificar os dados novamente


In [63]:
data.head(3)

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S


In [64]:
data.drop([4,3,2]).head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,S


In [65]:
data.drop(['Bilhete','IdPassageiro','Nome'], axis=1).head(3) #posso verificar apenas algumas colunas

Unnamed: 0,Sobreviveu,Classe,Sexo,Idade,IrmaosConjuge,PaisFilhos,Tarifa,Embarque
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
