# Preparing CNPJ to ETL process

This notebook aims to generate an intermediate CNPJ file to feed the ETL process. All the unique non-null CNPJ will be exported to an Excel workbook..

In [1]:
import os
import pandas as pd

## 1- Global variables

Absolute paths and file names, both original and export.

In [2]:
path_abs = 'C:/Users/hbrac/OneDrive/Documentos/GEESC/OSS/Fase 2/Data/Transformed data/'
file_name = 'base_unificada_padronizada.xlsx'
file_export = 'cnpj.xlsx'

## 2- Data loading and visualization

In [3]:
df = pd.read_excel(os.path.join(path_abs, file_name), converters = {'cnpj': str})
df.head()

Unnamed: 0,uf,municipio,cnes,nome_estabelecimento,tipo_estabelecimento,gestao,cnpj,razao_social,tipo_entidade,forma_contratacao,...,inicio_vigencia,termino_vigencia,ano_vigencia,valor_contrato,recurso_federal,recurso_estadual,recurso_municipal,fonte,origem,razao_social_padr
0,35,355410,9128743,SAMU 192 TAUBATE BASE PIRACANGAGUA AVANCADA,997,1,99999999999999,SEM NOME REGISTRADO,1,1,...,,,2016.0,999999999.0,9,9,9,9,0,SEM NOME REGISTRADO
1,35,354230,9133232,SAMU 192 TAUBATE BASE REDENCAO DA SERRA,997,1,99999999999999,SEM NOME REGISTRADO,1,1,...,,,2016.0,999999999.0,9,9,9,9,0,SEM NOME REGISTRADO
2,21,210000,6872174,CENTRO DE MEDICINA ESPECIALIZADA CEMESP,16,2,99999999999999,SEM NOME REGISTRADO,1,1,...,,,9999.0,999999999.0,9,9,9,9,0,SEM NOME REGISTRADO
3,21,210350,2726645,HOSPITAL REGIONAL DR CARLOS MACIEIRA,6,1,99999999999999,SEM NOME REGISTRADO,1,1,...,,,9999.0,999999999.0,9,9,9,9,3,SEM NOME REGISTRADO
4,42,421660,2663651,CENTRO DE SAUDE ROCADO,1,1,99999999999999,SEM NOME REGISTRADO,1,1,...,,,9999.0,999999999.0,9,9,9,9,0,SEM NOME REGISTRADO


## 3- Transformation

The main purpose of this notebbok. The process will be conducted in the following steps.

### 3.1- Data filtering

Data will be filtered, removing repeated entries.

In [4]:
df = df[~((df.razao_social_padr == 'SEM  NOME REGISTRADO')|(df.cnpj == '99999999999999'))]
df = df.drop_duplicates(subset=['cnpj', 'razao_social_padr'], keep = 'first').reset_index(drop = True)

### 3.2- Column dropping

Columns that aren't pertinent to this process will be dropped.

In [5]:
df.drop(columns = ['uf','cnes','inicio_vigencia','ano_vigencia','municipio', 'nome_estabelecimento', 'tipo_estabelecimento', 'gestao', 'razao_social', 'tipo_entidade', 'forma_contratacao', 'termino_vigencia', 'valor_contrato', 'recurso_federal', 'recurso_estadual', 'recurso_municipal', 'fonte', 'origem', 'numero_contrato'], inplace = True)
df.head()

Unnamed: 0,cnpj,razao_social_padr
0,42498717008724,SEM NOME REGISTRADO
1,1476404000119,SEM NOME REGISTRADO
2,13363111000104,ASSOCIAÇÃO ASSISTENCIAL À SAÚDE E EDUCAÇÃO SÃO...
3,43723907000191,ASSOCIAÇÃO BENEFICENTE DE APIAÍ
4,2812043000105,ASSOCIAÇÃO COMUNIDADE LUZ DA VIDA


## 4 - Export

Data will be exported as an Excel workbook.

In [6]:
df.to_excel(os.path.join(path_abs, file_export), index = False)