In [165]:
import pandas as pd

## AF - Exercício: Organização de dados para aplicação de algoritmos de aprendizagem de máquina
Bancos e operadoras de cartões de crédito estão entre os primeiros a usar a aprendizagem de máquina. Eles costumam usar a tecnologia para identificar fraudes, liberações e crédito, oferecer produtos, entre outros.
Imagine que você foi contratado para implementar a análise de dados em um grande banco nacional. O objetivo deste é analisar os dados para conceder ou não crédito para os correntistas. Para tanto, é preciso analisar as principais características dos correntistas, como idade, profissão, estado civil, entre outras.

A coleta de dados no machine learning é realizada a partir da união de diferentes fontes de dados (diferentes planilhas, bases em CSV, Json, SQL, entre outros) em uma única base de dados “minerável”.

Neste caso, os dados foram coletados e enviados para você, mas estão todos bagunçados. O primeiro passo é determinar um padrão de organização para eles, sendo possível aplicar algoritmos de aprendizagem de máquina. Essa organização pode ser aplicada para unir diferentes fontes de dados.

### Obtendo os dados

In [166]:
# Importando planilha excel disponibilizada e fazendo a transposição dele para um formato com os headers nas colunas 
# ao invés de linhas para facilitar a visualização.

# Definindo um dataframe com o nome de df_xls.

df_xls = pd.read_excel('1801_D0046_RA1_EXER01_REV.xlsx')
df_xls = df_xls.set_index('Idade').transpose().rename_axis('Idade').rename_axis(None, 1).reset_index()

### Acessando os dados

Pelo fato do dataset ser pequeno fazer as avaliações sobre o que está errado visualmente.

In [167]:
df_xls.sample(5)

Unnamed: 0,Idade,Emprego,Estado civil,Escolaridade,nan,Saldo em conta,Casa própria,Empréstimos ativos,Contato
3,47.0,blue-collar,casado,desconhecido,,1506,sim,não,desconhecido
5,35.0,administrativo,casado,Ensino superior completo,,231,sim,não,desconhecido
6,28.0,administrativo,solteiro,Ensino superior completo,,447,sim,sim,desconhecido
2,33.0,empresário,casado,Ensino médio completo,,2,sim,sim,desconhecido
8,58.1,aposentado,casado,Ensino fundamental completo,,121,sim,não,desconhecido


In [168]:
df_xls.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 9 columns):
Idade                 9 non-null object
Emprego               9 non-null object
Estado civil          9 non-null object
Escolaridade          9 non-null object
nan                   0 non-null object
Saldo em conta        9 non-null object
Casa própria          9 non-null object
Empréstimos ativos    9 non-null object
Contato               9 non-null object
dtypes: object(9)
memory usage: 728.0+ bytes


##### Problemas de qualidade
**arquivo excel - df_xls**
- Campos `Idade`, e `Saldo em conta` definidos string;
- Algumas `Idades` estão representados como floats;
- Coluna `Contato` sem valores úteis.

##### Problemas de arrumação
- Nomes das colunas com espaços e letras maiuscúlas.
- Coluna com valores nulos em todas linhas

### Limpando os dados

In [170]:
# Realizando copia do dataframe
df_xls_clear = df_xls.copy()
numero_col_xls = df_xls.shape[1]

###### Definir
Coluna com valores nulos em todas linhas
- remover coluna com valores nulos

###### Codificar

In [171]:
# Nota: axis=1 define que estamos atualizando as colunas, e não as linhas
df_xls_clear = df_xls_clear.dropna(axis=1, how='all')

###### Testar

In [172]:
# Verificando se o número de colunas do data_frame limpo é 1 coluna menor que o original.
numero_col_xls = df_xls.shape[1]
assert df_xls_clear.shape[1] == numero_col_xls - 1

###### Definir
Nomes das colunas com espaços e letras maiuscúlas.
- remover os espaços nos campos que estão nesta situação
- padronizar todos os nomes de colunas em caixa baixa.

###### Codificar

In [173]:
df_xls_clear.rename(columns=lambda x: x.replace(' ', '_'), inplace=True)
df_xls_clear.rename(columns=lambda x: x.lower(), inplace=True)

###### Testar

In [174]:
# Testando cada coluna do dataframe e procura com um espaço, o 'contains' retorna uma strin de bools com os resultados. 
df_xls_clear.head(2)
chk_array = df_xls_clear.columns.str.contains(' ')
for item in chk_array:
    assert item == False

###### Definir

campos `Idade` e `Saldo em conta` com tipos inválidos.<br>
algumas `Idades` estão representados como floats;
- `Idade` transformar em inteiro;
- `Saldo em conta` transformar em float.

###### Codificar

In [175]:
df_xls_clear.idade = df_xls_clear.idade.astype('float').astype('int')
df_xls_clear.saldo_em_conta = df_xls_clear.saldo_em_conta.astype('float')

###### Testar

In [176]:
#Testando se os campos idade (int) e o saldo em conta (float) estão no novo formato.
assert df_xls_clear['idade'].dtype.kind == 'i'
assert df_xls_clear['saldo_em_conta'].dtype.kind == 'f'

###### Definir
Coluna `Contato` sem valores úteis.
- remover coluna 'contato'

###### Codificar

In [177]:
# Removendo coluna contato pois ela não tem dados que são interessantes para o estudo
df_xls_clear = df_xls_clear.drop('contato', axis=1)

###### Testar

In [178]:
# Verificando se o número de colunas do data_frame limpo é 2 colunas menor que o original.
assert df_xls_clear.shape[1] == numero_col_xls - 2

### Visualizando e Gravando os dados
Para finalizar vamos visualizar como ficará a nova planilha e vamos salva-la em um novo arquivo xls com os dados limpos.

In [179]:
# Visualizando...
df_xls_clear.head(2)

Unnamed: 0,idade,emprego,estado_civil,escolaridade,saldo_em_conta,casa_própria,empréstimos_ativos
0,58,administrativo,casado,Ensino superior completo,2143.0,sim,não
1,44,técnico,solteiro,Ensino médio completo,29.0,sim,não


In [180]:
df_xls_clear.to_excel('1801_D0046_RA1_EXER01_CLEAN.xlsx')

### AF - Exercício: Agrupamento de dados de diferentes fontes em uma única planilha
Agora que você já organizou a planilha para avaliação de crédito, o departamento de Recursos Humanos enviou outro arquivo, desta vez em CSV, contendo novas informações sobre os correntistas. Esse arquivo consta em anexo. Sua tarefa agora é incorporar esses novos dados à tabela antiga.

Lembre-se: cada linha representa um evento, ou seja, todos os valores contidos na linha são referentes ao mesmo indivíduo; logo, você deve determinar se existe uma maneira de vincular os dois arquivos, mantendo a consistência e evitando características repetidas.

 Ao finalizar esta análise preliminar, clique no botão Não realizado, tenha acesso ao gabarito e faça a autocorreção do exercício.

In [181]:
# Lendo o arquivo CSV e convertendo-o em um dataframe.
# obs: o arquivo não foi lido corretamente na códificação utf-8, 
# por este motivo realizei a leitura no padrão windows-1252.

df_csv = pd.read_csv('xid-7137291_1.csv', encoding='cp1252')

In [182]:
df_csv.sample(5)

Unnamed: 0,Idade,Emprego,Carro próprio,Correntista desde,Ano último registro em carteira
0,58,administrativo,não,1997,2018
8,58,aposentado,sim,1981,1981
6,28,administrativo,não,2010,2014
2,33,empresário,sim,1998,1998
1,44,técnico,não,2001,2017


In [183]:
df_csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 5 columns):
Idade                              9 non-null int64
Emprego                            9 non-null object
Carro próprio                      9 non-null object
Correntista desde                  9 non-null int64
Ano último registro em carteira    9 non-null int64
dtypes: int64(3), object(2)
memory usage: 440.0+ bytes


### Limpando os dados

In [184]:
# Realizando copia do dataframe
df_csv_clear = df_csv.copy()

###### Definir
Nomes das colunas com espaços e letras maiuscúlas.
- remover os espaços nos campos que estão nesta situação
- padronizar todos os nomes de colunas em caixa baixa.

###### Codificar

In [185]:
df_csv_clear.rename(columns=lambda x: x.replace(' ', '_'), inplace=True)
df_csv_clear.rename(columns=lambda x: x.lower(), inplace=True)

###### Testar

In [186]:
# Testando cada coluna do dataframe e procura com um espaço, o 'contains' retorna uma strin de bools com os resultados. 
df_csv_clear.head(2)
chk_array = df_csv_clear.columns.str.contains(' ')
for item in chk_array:
    assert item == False

### Realizar o merge entre os dois dataframes `df_xls` e `df_csv`

In [191]:
df_new = pd.concat([df_csv_clear, df_xls_clear],axis=1)

### Visualizando e Gravando os dados
Para finalizar vamos visualizar como ficará a nova planilha e vamos salva-la em um novo arquivo xls com os dados limpos.

In [192]:
# Visualizando...
df_new

Unnamed: 0,idade,emprego,carro_próprio,correntista_desde,ano_último_registro_em_carteira,idade.1,emprego.1,estado_civil,escolaridade,saldo_em_conta,casa_própria,empréstimos_ativos
0,58,administrativo,não,1997,2018,58,administrativo,casado,Ensino superior completo,2143.0,sim,não
1,44,técnico,não,2001,2017,44,técnico,solteiro,Ensino médio completo,29.0,sim,não
2,33,empresário,sim,1998,1998,33,empresário,casado,Ensino médio completo,2.0,sim,sim
3,47,administrativo,sim,2014,2014,47,blue-collar,casado,desconhecido,1506.0,sim,não
4,33,desconhecido,não,1989,2013,33,desconhecido,solteiro,desconhecido,1.0,não,não
5,35,administrativo,sim,2010,2010,35,administrativo,casado,Ensino superior completo,231.0,sim,não
6,28,administrativo,não,2010,2014,28,administrativo,solteiro,Ensino superior completo,447.0,sim,sim
7,42,empresário,sim,2002,1996,42,empresário,divorciado,Ensino superior completo,2.0,sim,não
8,58,aposentado,sim,1981,1981,58,aposentado,casado,Ensino fundamental completo,121.0,sim,não


In [194]:
df_new.to_excel('1801-Fund-Ing-Anal-Clear.xlsx')