# PROJETO SUBWAY - LIMPEZA, PREPARAÇÃO E EXPORTAÇÃO DE DADOS

#### Os dados usados nesse script assim como outras informações nos códigos a seguir são dados fictícios, mas os dados usados durante o uso principal foram dados reais coletados a partir da base de dados.

## IMPORTAÇÃO DO PANDAS

In [1]:
import pandas as pd

# removendo a limitação de linhas a serem exibidas
pd.set_option('display.max_rows', None)

## IMPORTAÇÃO DO ARQUIVO

In [2]:
# importar o arquivo
data = pd.read_csv("./data.csv", sep=';', encoding='utf-8')

# verificar dados
data.head(5)

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4,Coluna5,Coluna6,Coluna7,Coluna8,Coluna9,Coluna10,Coluna11
0,387294752983651042689,89356712,12345601234,KK,555,FF,15,9876543,12345.0,20230403070130,20230517
1,987654321098765432156,20987453612,546701234567,LL,444,RR,14,7654321,,20230415210918,20230517
2,123456789012345678901,653197856,780943567890,KK,222,FF,16,3456789,12345.0,20230403120111,20230517
3,098765432156789012345,574612035,98765432109876,LL,333,RR,15,6543210,,20230428140722,20230517
4,345678901234567890123,79865071,321076543210,KK,111,FF,13,8901234,12345.0,20230405180329,20230517


## ALTERAR NOME DAS COLUNAS

In [3]:
# mudar nome das colunas
data.columns = [  'numeroPort', 
                    'cpfCli',
                    'cnpjEmp',
                    'tipoPessoaEmp',
                    'bancoDest',
                    'tipoContaDest',
                    'agDest',
                    'contaCliDest',
                    'contaPgDest',
                    'dataHrReg',
                    'dataSit' 
                   ]

# criar serie para facilitar leitura das novas colunas
name_coluns = pd.Series(data.columns)

# verificar 
name_coluns

0        numeroPort
1            cpfCli
2           cnpjEmp
3     tipoPessoaEmp
4         bancoDest
5     tipoContaDest
6            agDest
7      contaCliDest
8       contaPgDest
9         dataHrReg
10          dataSit
dtype: object

## ALTERAR O TIPO DE DADOS DE ALGUMAS COLUNAS

In [4]:
# alterar o tipo
data['cpfCli']       = data['cpfCli'].astype('str')
data['cnpjEmp']      = data['cnpjEmp'].astype('str')
data['bancoDest']    = data['bancoDest'].astype('Int64')
data['agDest']       = data['agDest'].astype('str')
data['contaCliDest'] = data['contaCliDest'].astype('str')
data['contaPgDest']  = data['contaPgDest'].astype('str')

# verificar
data.dtypes

numeroPort       object
cpfCli           object
cnpjEmp          object
tipoPessoaEmp    object
bancoDest         Int64
tipoContaDest    object
agDest           object
contaCliDest     object
contaPgDest      object
dataHrReg         int64
dataSit           int64
dtype: object

## ADICIONAR NÚMERO '0' NO INÍCIO DOS VALORES DAS COLUNAS 'cpfCli' E 'cnpjEmp'

In [5]:
# adicionar 0 nos valores da coluna cpfCli, respeitando a quantidade de valores total = 11
data['cpfCli'] = data['cpfCli'].str.zfill(11)
# adicionar 0 nos valores da coluna cnpjEmp, respeitando a quantidade de valores total = 14
data['cnpjEmp'] = data['cnpjEmp'].str.zfill(14)

# verificar
data[['cpfCli','cnpjEmp']].head(5)

Unnamed: 0,cpfCli,cnpjEmp
0,89356712,12345601234
1,20987453612,546701234567
2,653197856,780943567890
3,574612035,98765432109876
4,79865071,321076543210


## FORMATAR VALORES DE DATAS DAS COLUNAS 'dataHrReg' E 'dataSit'

In [6]:
# formatar campos
# o campos da coluna 'dataHrReg' será Data e Hora
data['dataHrReg'] = pd.to_datetime(data['dataHrReg'], format='%Y%m%d%H%M%S')
# o campos da coluna 'dataSit' será apenas Data
data['dataSit'] = pd.to_datetime(data['dataSit'], format='%Y%m%d')

# verificar
data[['dataHrReg','dataSit']].head(5)

Unnamed: 0,dataHrReg,dataSit
0,2023-04-03 07:01:30,2023-05-17
1,2023-04-15 21:09:18,2023-05-17
2,2023-04-03 12:01:11,2023-05-17
3,2023-04-28 14:07:22,2023-05-17
4,2023-04-05 18:03:29,2023-05-17


## ADICIONAR VALOR 'NULL' NAS COLUNAS agDest, contaCliDest e contaPgDest

In [7]:
# adicionar o valor NULL nas colunas que estiverem com valor vazio
data['agDest'].fillna('NULL', inplace=True)
data['contaCliDest'].fillna('NULL', inplace=True)
data['contaPgDest'].fillna('NULL', inplace=True)

# verificar
data.head(10)

Unnamed: 0,numeroPort,cpfCli,cnpjEmp,tipoPessoaEmp,bancoDest,tipoContaDest,agDest,contaCliDest,contaPgDest,dataHrReg,dataSit
0,387294752983651042689,89356712,12345601234,KK,555,FF,15,9876543,12345.0,2023-04-03 07:01:30,2023-05-17
1,987654321098765432156,20987453612,546701234567,LL,444,RR,14,7654321,,2023-04-15 21:09:18,2023-05-17
2,123456789012345678901,653197856,780943567890,KK,222,FF,16,3456789,12345.0,2023-04-03 12:01:11,2023-05-17
3,098765432156789012345,574612035,98765432109876,LL,333,RR,15,6543210,,2023-04-28 14:07:22,2023-05-17
4,345678901234567890123,79865071,321076543210,KK,111,FF,13,8901234,12345.0,2023-04-05 18:03:29,2023-05-17
5,876543210987654321098,65781293460,589012345678,LL,555,RR,15,5678901,,2023-04-20 19:03:11,2023-05-17
6,543210987654321098765,341659840,90156789012,KK,444,FF,16,6543210,12345.0,2023-04-06 05:06:49,2023-05-17
7,234567890123456789012,89043217659,234567012345,LL,222,RR,12,987654,,2023-04-09 15:02:35,2023-05-17
8,987654321098765432109,568230192,109876321098,KK,333,FF,15,3456789,12345.0,2023-04-27 01:09:08,2023-05-17
9,098765432109876543210,43789504,76543987654,LL,111,RR,14,7654321,,2023-04-24 20:07:56,2023-05-17


## GERAR ARQUIVO MODIFICADO E PRONTO PARA USO COM BULK INSERT EM T-SQL

In [8]:
# exportar dataframe para arquivo.csv
data.to_csv('./dadosLimpos.csv', index=False)

### O arquivo final gerado, após a limpeza e tratamento, foi usado em uma consulta T-sql para cadastro e geração de relatório.