# Limpeza, conversão e integração de dados
---
Temos 3 arquivos do tipo csv contendo dados do quadro societário de um clube. Porém estes arquivos estão com informações desnecessárias, como:
- Cada linha do arquivo onde contém e-mail, cpf e nascimento contém colunas com o usuário que gerou o relatório, com descrição de quais colunas estão descritas, com códigos que referenciam regras de negócio internas ao sistema onde o relatório foi gerado.

### Meu papel neste trabalho é remanejar as informações para que estejam de acordo com seus tipos de informações e que estejam de acordo com a estrutura da qual o banco de dados do novo sistema.

## Começamos importando as bibliotecas necessarias e os arquivos como dataframes do pandas para serem trabalhados

In [126]:
import pandas as pd
import numpy as np

# Titulares
df_titular_com_email = pd.read_csv("titular com e-mail e cpf nascimento.csv", header=0) # Codigo P1
df_admissao_nascimento = pd.read_csv("adimissão e nascimento.csv", header=0) # Codigo P2
df_endereco_associados = pd.read_csv("ENDEREÇO ASSOCIADOS.csv", header=0) # Codigo P3

# Dependentes
df_dependentes_total = pd.read_csv("DEPENDENTES TOTAL.csv", header=0)
df_dependentes_18_a_24 = pd.read_csv(filepath_or_buffer="dependentes 18 a 24 anos.csv", header=0)

## Eliminando colunas

O arquivo contém as colunas especificadas em linhas. O trabalho agora consiste em:
- Eliminar as colunas que não guardam informações, que apenas apresentam as categorias sobre do que se tratam as linhas.

In [127]:
# Titulares
selected_1 = df_titular_com_email.iloc[:, [14, 15, 16, 17, 18, 19, 20, 21]] # P1
selected_2 = df_admissao_nascimento.iloc[:, [12, 14]] # P2
selected_3 = df_endereco_associados.iloc[:, [2, 3, 4, 5, 6, 7]] # P3

# Dependentes
selected_d_1 = df_dependentes_total.iloc[:, [13, 14, 15, 16, 17, 18]]
selected_d_2 = df_dependentes_18_a_24.iloc[:, [12, 13, 14, 15, 16]]

## Dar nome as colunas

In [128]:
# Titulares
selected_1.columns = ['Titulo', 'Nome', 'Email', 'CPF', 'RG', 'Nascimento', 'Telefone1', 'Telefone2'] # P1
selected_2.columns = ['Nome', 'Admissão'] # P2
selected_3.columns = ['Nome', 'Endereço', 'Bairro', 'Cidade', 'CEP', 'UF'] # P3

# Dependentes
selected_d_1.columns = ['Nome', 'Nascimento', 'Idade', 'Categoria', 'Titulo', 'Titular']
selected_d_2.columns = ['Titulo', 'Codigo', 'Nome', 'Nascimento', 'Idade']

## Limpando linhas
Momento de eliminar as linhas que não possuem informação, ou seja, onde todas as colunas são NaN.

In [129]:
# Titulares
selected1_with_no_NaN = selected_1.dropna(subset=['Nome', 'Email', 'CPF', 'RG', 'Nascimento', 'Telefone1', 'Telefone2'])
selected2_with_no_NaN = selected_2.dropna(subset=['Nome'])
selected3_with_no_NaN = selected_3.dropna(subset=['Nome'])

# Dependentes
selected_d_1_with_no_Nan = selected_d_1.dropna(subset=['Nome'])
selected_d_2_with_no_Nan = selected_d_2.dropna(subset=['Nome'])

## Eliminar os valores NaN
Alterar os valores NaN encontrados por NULL

In [130]:
# Titulares
clear_df1 = selected1_with_no_NaN.replace(to_replace=np.nan, value='NULL')
clear_df1 = selected1_with_no_NaN.replace(to_replace=np.NaN, value='NULL')
clear_df2 = selected2_with_no_NaN.replace(to_replace=np.nan, value='NULL')
clear_df3 = selected3_with_no_NaN.replace(to_replace=np.nan, value='NULL')

# Dependentes
clear_df1_d = selected_d_1_with_no_Nan.replace(to_replace="<Formato Padrão>", value=0)
clear_df2_d = selected_d_2_with_no_Nan.replace(to_replace="<Formato Padrão>", value=0)

## Verificando o tipo das colunas

In [131]:
# Titulares
clear_df1.info()
print('-----------')
clear_df2.info()
print('-----------')
clear_df3.info()
print('-----------')

# Dependentes
clear_df1_d.info()
print('-----------')
clear_df2_d.info()

<class 'pandas.core.frame.DataFrame'>
Index: 262 entries, 4 to 506
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Titulo      262 non-null    int64  
 1   Nome        262 non-null    object 
 2   Email       262 non-null    object 
 3   CPF         262 non-null    float64
 4   RG          262 non-null    object 
 5   Nascimento  262 non-null    object 
 6   Telefone1   262 non-null    object 
 7   Telefone2   262 non-null    object 
dtypes: float64(1), int64(1), object(6)
memory usage: 18.4+ KB
-----------
<class 'pandas.core.frame.DataFrame'>
Index: 536 entries, 4 to 539
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Nome      536 non-null    object
 1   Admissão  536 non-null    object
dtypes: object(2)
memory usage: 12.6+ KB
-----------
<class 'pandas.core.frame.DataFrame'>
Index: 535 entries, 0 to 539
Data columns (total 6 columns):
 #   Column  

## Mudando o tipo das colunas
Com exceção da coluna dos titulos, todas as outras estão com seus tipos equivocados.

In [132]:
# Titulares
clear_df1 = clear_df1.astype({'Nome': 'string', 'Email': 'string', 'CPF': 'float64', 'RG': 'string'})
clear_df1 = clear_df1.astype({'CPF': 'string'})
clear_df2 = clear_df2.astype({'Nome': 'string', 'Admissão': 'string'})
clear_df3 = clear_df3.astype({'Nome': 'string', 'Endereço': 'string', 'Bairro': 'string', 'Cidade': 'string', 'CEP': 'string', 'UF': 'string'})

# Dependentes
clear_df1_d = clear_df1_d.astype({'Nome': 'string', 'Nascimento': 'string', 'Idade': 'int64', 'Titulo': 'string', 'Titular': 'string'})
clear_df1_d = clear_df1_d.astype({'Titulo': 'string', 'Nome': 'string', 'Nascimento': 'string'})

## Unificar os dataframes em um único dataframe

- Primeiramente vou trazer os nomes que estão presentes em todos os dataframes através do Outer Join (união)

1) Titulares

In [133]:
join_parcial = pd.merge(clear_df1, clear_df2, how='outer', on='Nome')
join_total = pd.merge(join_parcial, clear_df3, how='outer', on='Nome')

# Eliminar os valores NaN para poder fazer a conversão dos valores de float para int
eliminate_nan = join_total.replace(to_replace={'CPF': np.NaN}, value='0')

# Converter as string para float
dtype_mapping = {'CPF': 'float64'}
string_to_float = eliminate_nan.astype(dtype_mapping)

# Converter as float para int
dtype_mapping = {'CPF': 'int64'}
float_to_int = string_to_float.astype(dtype_mapping)

display(float_to_int)

Unnamed: 0,Titulo,Nome,Email,CPF,RG,Nascimento,Telefone1,Telefone2,Admissão,Endereço,Bairro,Cidade,CEP,UF
0,20421.0,ADHEMARIO CAETANO DA S. FILHO,a.caetano.f@gmail.com,10080015700,02.362.946-2IFP,11/10/1943,2467-1114,9720-8111,17/02/1998,"RUA PRACINHA DIONISIO CHAGAS, 59/203",ILHA DO GOVERNADOR,RIO DE JANEIRO,21930-240,RJ
1,,ADILSON VASCONCELLOS,,0,,,,,13/07/2003,"AV. AMARAL PEIXOTO, 300/1.011",CENTRO,NITERÓI,24020-072,RJ
2,,ADRIANO DOS SANTOS SILVA,,0,,,,,13/12/2023,RUA DOUTOR WALDIR CABRAL,SANTA ROSA,NITEROI,24230-420,RJ
3,20210.0,ADÃO PEIXOTO GOMES,genypetrucio@hotmail.com,97985627715,052501673,01/10/1961,2620-4675,8219-0633,04/11/2008,RUA: CONDE PEREIRA CARNEIRO N°85,PONTA DA AREIA,NITERÓI,24040-110,RJ
4,20353.0,AFONSO DE SOUZA L. GOMES,afonso@algadv.com.br / recepcao@algadv.com.br,9202862753,36223,09/09/1947,2240-5278,9986-5504,26/05/2013,"R. TAVARES DE MACEDO, 41/1302",ICARAI,NITEROI,24220-211,RJ
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
531,,YURI COUTINHO PORTES,,0,,,,,02/03/2023,AV. RUI BARBOSA,SÃO FRANCISCO,NITEROI,24360-440,RJ
532,,YURI DE OLIVEIRA ALENCAR,,0,,,,,30/09/2020,AVENIDA CARLOS ERMELINDO MARINS,JURUJUBA,NITEROI,24370-195,RJ
533,,YURI SOARES LIMA,,0,,,,,01/05/2021,RUA DO FORNO CASA,BRAVA,ARMAÇÃO DOS BÚZIOS,28950-000,RJ
534,20775.0,ZELY ALCANTARA WERMELINGER,helmavie@gmail.com,5143265738,81107259-4,15/06/1952,2711-1430,99622-3689,26/03/1998,"RUA PROF. OCTACILIO, 94/602",SANTA ROSA,NITERÓI,24240-670,RJ


2) Dependentes

In [150]:
join_total_d = pd.merge(clear_df1_d, clear_df2_d, how='outer', on='Nome')

# Selecionar apenas as colunas que interessam
filter_join = join_total_d.iloc[:, [0, 1, 2, 3, 4, 5]]

# Renomear as colunas
filter_join.columns = ['Nome', 'Nascimento', 'Idade', 'Categoria', 'Titulo', 'Titular']

# Eliminar dados equivocados
join_no_nan = filter_join.replace(to_replace={'Idade': np.nan, 'Categoria': np.nan}, value=0)


# Formatar os tipos
format_join = join_no_nan.astype({'Idade': 'int64', 'Categoria': 'int64'})


## Salvar o dataframe final em um arquivo

In [151]:
# Titulares
float_to_int.to_csv('socios.csv', index=False)

# Dependentes
format_join.to_csv('dependentes.csv', index=False)