In [3]:
import pandas as pd

### AF - Exercício: Organização de dados para aplicação de algoritmos de aprendizagem de máquina
Bancos e operadoras de cartões de crédito estão entre os primeiros a usar a aprendizagem de máquina. Eles costumam usar a tecnologia para identificar fraudes, liberações e crédito, oferecer produtos, entre outros.
Imagine que você foi contratado para implementar a análise de dados em um grande banco nacional. O objetivo deste é analisar os dados para conceder ou não crédito para os correntistas. Para tanto, é preciso analisar as principais características dos correntistas, como idade, profissão, estado civil, entre outras.

A coleta de dados no machine learning é realizada a partir da união de diferentes fontes de dados (diferentes planilhas, bases em CSV, Json, SQL, entre outros) em uma única base de dados “minerável”.

Neste caso, os dados foram coletados e enviados para você, mas estão todos bagunçados. O primeiro passo é determinar um padrão de organização para eles, sendo possível aplicar algoritmos de aprendizagem de máquina. Essa organização pode ser aplicada para unir diferentes fontes de dados.

#### Obtendo os dados

In [54]:
# Importando planilha excel disponibilizada e fazendo a transposição dele para um formato com os headers nas colunas 
# ao invés de linhas para facilitar a visualização.

# Definindo um dataframe com o nome de df.

df_xls = pd.read_excel('1801_D0046_RA1_EXER01_REV.xlsx', index_col=[0]).transpose()
df_xls

Idade,Emprego,Estado civil,Escolaridade,Escolaridade.1,Saldo em conta,Casa própria,Empréstimos ativos,Contato
58.0,administrativo,casado,Ensino superior completo,,2143,sim,não,desconhecido
44.0,técnico,solteiro,Ensino médio completo,,29,sim,não,desconhecido
33.0,empresário,casado,Ensino médio completo,,2,sim,sim,desconhecido
47.0,blue-collar,casado,desconhecido,,1506,sim,não,desconhecido
33.1,desconhecido,solteiro,desconhecido,,1,não,não,desconhecido
35.0,administrativo,casado,Ensino superior completo,,231,sim,não,desconhecido
28.0,administrativo,solteiro,Ensino superior completo,,447,sim,sim,desconhecido
42.0,empresário,divorciado,Ensino superior completo,,2,sim,não,desconhecido
58.1,aposentado,casado,Ensino fundamental completo,,121,sim,não,desconhecido


### AF - Exercício: Agrupamento de dados de diferentes fontes em uma única planilha
Agora que você já organizou a planilha para avaliação de crédito, o departamento de Recursos Humanos enviou outro arquivo, desta vez em CSV, contendo novas informações sobre os correntistas. Esse arquivo consta em anexo. Sua tarefa agora é incorporar esses novos dados à tabela antiga.

Lembre-se: cada linha representa um evento, ou seja, todos os valores contidos na linha são referentes ao mesmo indivíduo; logo, você deve determinar se existe uma maneira de vincular os dois arquivos, mantendo a consistência e evitando características repetidas.

 Ao finalizar esta análise preliminar, clique no botão Não realizado, tenha acesso ao gabarito e faça a autocorreção do exercício.

In [18]:
# Lendo o arquivo CSV e convertendo-o em um dataframe.
# obs: o arquivo não foi lido corretamente na códificação utf-8, 
# por este motivo realizei a leitura no padrão windows-1252.

df_csv = pd.read_csv('xid-7137291_1.csv', encoding='cp1252')

#### Acessando os dados

Pelo fato do dataset ser pequeno fazer as avaliações sobre o que está errado visualmente.

In [20]:
df_xls

Idade,Emprego,Estado civil,Escolaridade,Escolaridade.1,Saldo em conta,Casa própria,Empréstimos ativos,Contato
58.0,administrativo,casado,Ensino superior completo,,2143,sim,não,desconhecido
44.0,técnico,solteiro,Ensino médio completo,,29,sim,não,desconhecido
33.0,empresário,casado,Ensino médio completo,,2,sim,sim,desconhecido
47.0,blue-collar,casado,desconhecido,,1506,sim,não,desconhecido
33.1,desconhecido,solteiro,desconhecido,,1,não,não,desconhecido
35.0,administrativo,casado,Ensino superior completo,,231,sim,não,desconhecido
28.0,administrativo,solteiro,Ensino superior completo,,447,sim,sim,desconhecido
42.0,empresário,divorciado,Ensino superior completo,,2,sim,não,desconhecido
58.1,aposentado,casado,Ensino fundamental completo,,121,sim,não,desconhecido


In [21]:
df_xls.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, 58 to 58.1
Data columns (total 8 columns):
Emprego               9 non-null object
Estado civil          9 non-null object
Escolaridade          9 non-null object
Escolaridade          0 non-null object
Saldo em conta        9 non-null object
Casa própria          9 non-null object
Empréstimos ativos    9 non-null object
Contato               9 non-null object
dtypes: object(8)
memory usage: 648.0+ bytes


In [14]:
df_csv

Unnamed: 0,Idade,Emprego,Carro próprio,Correntista desde,Ano último registro em carteira
0,58,administrativo,não,1997,2018
1,44,técnico,não,2001,2017
2,33,empresário,sim,1998,1998
3,47,administrativo,sim,2014,2014
4,33,desconhecido,não,1989,2013
5,35,administrativo,sim,2010,2010
6,28,administrativo,não,2010,2014
7,42,empresário,sim,2002,1996
8,58,aposentado,sim,1981,1981


In [22]:
df_csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 5 columns):
Idade                              9 non-null int64
Emprego                            9 non-null object
Carro próprio                      9 non-null object
Correntista desde                  9 non-null int64
Ano último registro em carteira    9 non-null int64
dtypes: int64(3), object(2)
memory usage: 440.0+ bytes


##### Problemas de qualidade

Problemas de qualidade dos dataframes

###### arquivo excel - df_xls

- Campos `Idade`, e `Saldo em conta` definidos string;
- Algumas `Idades` estão representados como floats;
- Coluna `Escolariedade` duplicada;
- Coluna `Contato` sem valores úteis.

###### arquivo csv - df_csv

- Não há problemas de qualidade aparente.

##### Problemas de qualidade

- Realizar o merge entre os dois dataframes `df_xls` e `df_csv`

#### Limpando os dados

In [28]:
# Realizando copias dos dataframes
df_xls_clear = df_xls.copy()
df_csv_clear = df_csv.copy()

###### Define

###### df_xls - Dataframe

campos `Idade` e `Saldo em conta` com tipos inválidos. 
- `Idade` transformar em inteiro;
- `Saldo em conta` transformar em float.

In [44]:
df_xls_clear.columns

Index(['Emprego', 'Estado civil', 'Escolaridade', 'Escolaridade',
       'Saldo em conta', 'Casa própria', 'Empréstimos ativos', 'Contato'],
      dtype='object', name='Idade')

* TO FIX: Ele está listando a coluna Idade como index, e não como coluna, e isso está causando complicacões.