## Library of Pandas

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html

## Install Pandera

In [None]:
!pip install pandera

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


## Import Library 

In [None]:
import pandas as pd
import pandera as pa
import numpy as np


In [None]:
pd.set_option('display.max_columns', 200)
pd.set_option('display.max_rows', 200)

## Extract dataframe

In [None]:
df = pd.read_csv('https://storage.googleapis.com/bucketdopandas/Dados%20da%20alesp/despesa_alesp.csv')

In [None]:
df.head(10)

Unnamed: 0,cnpj_empresa,fornecedor,valor,tipo,id_deputado,mes,ano,data
0,504970000000.0,AUTO POSTO VANUTRE LTDA,575.53,A - COMBUSTÍVEIS E LUBRIFICANTES,300098,1,2013,1-2013
1,48814500000000.0,S.D.LUIZARI & CIA. LTDA.,1650.76,A - COMBUSTÍVEIS E LUBRIFICANTES,300098,1,2013,1-2013
2,65862910000000.0,AUTO POSTO EXECUTIVO LTDA,1799.29,A - COMBUSTÍVEIS E LUBRIFICANTES,300098,1,2013,1-2013
3,,PEDÁGIO,36.4,C - MATERIAIS E SERVIÇOS DE MANUT E CONSERV DE...,300098,1,2013,1-2013
4,990466000000.0,CROMOGRAF GRAFICA DE PRESIDENTE PRUDENTE LTDA ...,3100.0,"D - MATERIAIS E SERVIÇOS GRÁFICOS, DE CÓPIAS ...",300098,1,2013,1-2013
5,1048525000000.0,CAIO COMERCIO DE EMBALAGENS LTDA - EPP,82.5,E - MATERIAIS DE ESCRITÓRIO E OUTROS MATERIAIS...,300098,1,2013,1-2013
6,10378550000000.0,SORVECON PRODUTOS ALIMENTICIOS LTDA,589.45,E - MATERIAIS DE ESCRITÓRIO E OUTROS MATERIAIS...,300098,1,2013,1-2013
7,13018590000000.0,M.J.FONSECA GUARDIA INFORMATICA LTDA,610.0,E - MATERIAIS DE ESCRITÓRIO E OUTROS MATERIAIS...,300098,1,2013,1-2013
8,55333360000000.0,GRÁFICA PRUDENTINA LTDA.,758.0,E - MATERIAIS DE ESCRITÓRIO E OUTROS MATERIAIS...,300098,1,2013,1-2013
9,8918209000000.0,STETNET TELECOM LTDA-ME,43.4,"G - ASSINATURAS DE PERIÓDICOS, PUBLICAÇÕES, IN...",300098,1,2013,1-2013


23

## Backup

In [None]:
dfback = df.copy()

## Analysis

In [None]:
df.head(1)

Unnamed: 0,cnpj_empresa,fornecedor,valor,tipo,id_deputado,mes,ano,data
0,504970000000.0,AUTO POSTO VANUTRE LTDA,575.53,A - COMBUSTÍVEIS E LUBRIFICANTES,300098,1,2013,1-2013


In [None]:
df.tail(10)

Unnamed: 0,cnpj_empresa,fornecedor,valor,tipo,id_deputado,mes,ano
118407,17009490000000.0,GRAO DO IPIRANGA PAES E DOCES LTDA,16.6,"I - HOSPEDAGEM, ALIMENTAÇÃO E DESPESAS DE LOCO...",300655,9,2022
118408,29191850000000.0,PERSONALITE ADMINISTRADORA DE HOTEIS E CONDOMI...,819.0,"I - HOSPEDAGEM, ALIMENTAÇÃO E DESPESAS DE LOCO...",300655,9,2022
118409,32578570000000.0,BAR E RESTAURANTE POINT SABARA LTDA,41.0,"I - HOSPEDAGEM, ALIMENTAÇÃO E DESPESAS DE LOCO...",300655,9,2022
118410,7288003000000.0,PHT COMERCIO E SERVIÇOS DE MAQUINAS PARA CAFÉ ...,620.0,K - LOCAÇÃO DE BENS MÓVEIS,300655,9,2022
118411,7928244000000.0,STRUTURA DESIGN LOCARADORA DE BENS MOVEIS LTDA...,1636.85,K - LOCAÇÃO DE BENS MÓVEIS,300655,9,2022
118412,15314810000000.0,FYIVAS SOLUÇÕES EM TECNOLOGIA LTDA ME,1250.0,K - LOCAÇÃO DE BENS MÓVEIS,300655,9,2022
118413,67294940000.0,MARIA INES SINISGALLI,2500.0,L - LOCAÇÃO DE BENS IMÓVEIS,300655,9,2022
118414,46392130000000.0,SECRETARIA MUNICIPAL DA FAZENDA,599.29,"M - MANUTENÇÃO DE BENS MÓVEIS, IMÓVEIS, CONDO...",300655,9,2022
118415,61063910000000.0,CONDOMINIO EDIF IBIRAPUERA PLAZA CENTER,1836.13,"M - MANUTENÇÃO DE BENS MÓVEIS, IMÓVEIS, CONDO...",300655,9,2022
118416,2491558000000.0,UNIDAS VEÍCULOS ESPECIAIS S.A.,2835.9,O - LOCAÇÃO DE VEÍCULO,300655,9,2022


In [None]:
df.dtypes

cnpj_empresa    float64
fornecedor       object
valor           float64
tipo             object
id_deputado       int64
mes               int64
ano               int64
dtype: object

# Label

## Clean

In [None]:
df = df[['CNPJ','Fornecedor','Valor','Tipo','Matricula','Mes','Ano']]

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 118417 entries, 0 to 118416
Data columns (total 7 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   CNPJ        116563 non-null  float64
 1   Fornecedor  118417 non-null  object 
 2   Valor       118417 non-null  float64
 3   Tipo        118417 non-null  object 
 4   Matricula   118417 non-null  int64  
 5   Mes         118417 non-null  int64  
 6   Ano         118417 non-null  int64  
dtypes: float64(2), int64(3), object(2)
memory usage: 6.3+ MB


In [None]:
df.rename(columns={'Matricula': 'id_deputado','CNPJ' : 'cnpj_empresa', 'Mes': 'mes', 'Ano': 'ano', 'Valor' : 'valor', 'Fornecedor': 'fornecedor', 'Tipo': 'tipo'}, inplace = True)

In [None]:
df.isna().sum()

cnpj_empresa    1854
fornecedor         0
valor              0
tipo               0
id_deputado        0
mes                0
ano                0
dtype: int64

In [None]:
df['data'] = df['mes'].astype(str) + '-' + df['ano'].astype(str)

In [None]:
df['data'] = df['data'].to_datetime()

AttributeError: ignored

In [None]:
df.dtypes

cnpj_empresa      Int64
fornecedor       object
valor           float64
tipo             object
id_deputado       int64
mes               int64
ano               int64
data             object
dtype: object

In [None]:
df['cnpj_empresa'] = df['cnpj_empresa'].astype('Int64')

In [None]:
# Verificador de letras em numeros
valores_estranhos = []
for i in range(len(df['cnpj_empresa'])):
  try:
    int(df['cnpj_empresa'].loc[i , 'CNPJ'])
  except Exception:
    valores_estranhos.append(df['cnpj_empresa'].loc[i , 'CNPJ'])
print(valores_estranhos)

IndexingError: ignored

In [None]:
pd.unique(df['fornecedor'])

array(['AUTO POSTO VANUTRE LTDA', 'S.D.LUIZARI & CIA. LTDA.',
       'AUTO POSTO EXECUTIVO LTDA', ..., 'RESTAURANTE PAPAGAIUS LTDA',
       'GRAO DO IPIRANGA PAES E DOCES LTDA',
       'BAR E RESTAURANTE POINT SABARA LTDA'], dtype=object)

In [None]:
# Verificador de letras em numeros
valores_estranhos = []
for i in range(len(df_despesas_cnpj)):
  try:
    int(df_despesas_cnpj.loc[i , 'CNPJ'])
  except Exception:
    valores_estranhos.append(df_despesas_cnpj.loc[i , 'CNPJ'])
print(valores_estranhos)

## Filters

In [None]:
df.dtypes

cnpj_empresa    float64
fornecedor       object
valor           float64
tipo             object
id_deputado       int64
mes               int64
ano               int64
dtype: object

In [None]:
df

Unnamed: 0,cnpj_empresa,fornecedor,valor,tipo,id_deputado,mes,ano
0,5.049700e+11,AUTO POSTO VANUTRE LTDA,575.53,A - COMBUSTÍVEIS E LUBRIFICANTES,300098,1,2013
1,4.881450e+13,S.D.LUIZARI & CIA. LTDA.,1650.76,A - COMBUSTÍVEIS E LUBRIFICANTES,300098,1,2013
2,6.586291e+13,AUTO POSTO EXECUTIVO LTDA,1799.29,A - COMBUSTÍVEIS E LUBRIFICANTES,300098,1,2013
3,,PEDÁGIO,36.40,C - MATERIAIS E SERVIÇOS DE MANUT E CONSERV DE...,300098,1,2013
4,9.904660e+11,CROMOGRAF GRAFICA DE PRESIDENTE PRUDENTE LTDA ...,3100.00,"D - MATERIAIS E SERVIÇOS GRÁFICOS, DE CÓPIAS ...",300098,1,2013
...,...,...,...,...,...,...,...
118412,1.531481e+13,FYIVAS SOLUÇÕES EM TECNOLOGIA LTDA ME,1250.00,K - LOCAÇÃO DE BENS MÓVEIS,300655,9,2022
118413,6.729494e+10,MARIA INES SINISGALLI,2500.00,L - LOCAÇÃO DE BENS IMÓVEIS,300655,9,2022
118414,4.639213e+13,SECRETARIA MUNICIPAL DA FAZENDA,599.29,"M - MANUTENÇÃO DE BENS MÓVEIS, IMÓVEIS, CONDO...",300655,9,2022
118415,6.106391e+13,CONDOMINIO EDIF IBIRAPUERA PLAZA CENTER,1836.13,"M - MANUTENÇÃO DE BENS MÓVEIS, IMÓVEIS, CONDO...",300655,9,2022


In [None]:
schema = pa.DataFrameSchema(
    columns = {
    'cnpj_empresa':pa.Column(pa.Float),,
    'fornecedor':pa.Column(pa.String),
    ''
               
        
    }
)

In [None]:
sorted(pd.unique(df['tipo']))

['A - COMBUSTÍVEIS E LUBRIFICANTES',
 'C - MATERIAIS E SERVIÇOS DE MANUT E CONSERV DE VEÍCULOS ; PEDÁGIOS',
 'D - MATERIAIS E SERVIÇOS GRÁFICOS, DE CÓPIAS  E REPRODUÇÃO DE DOCS',
 'E - MATERIAIS DE ESCRITÓRIO E OUTROS MATERIAIS DE CONSUMO',
 'F - SERVIÇOS TÉCNICOS PROFISSIONAIS (CONSULTORIA, PESQUISAS ETC)',
 'G - ASSINATURAS DE PERIÓDICOS, PUBLICAÇÕES, INTERNET E SOFTWARES',
 'H - SERV.UTIL.PÚBLICA (TELEF.MÓVEL/FIXA, ENERGIA, ÁGUA, GÁS ETC)',
 'I - HOSPEDAGEM, ALIMENTAÇÃO E DESPESAS DE LOCOMOÇÃO',
 'J - SERVIÇOS DE COMUNICAÇÃO',
 'K - LOCAÇÃO DE BENS MÓVEIS',
 'L - LOCAÇÃO DE BENS IMÓVEIS',
 'M - MANUTENÇÃO DE BENS MÓVEIS,  IMÓVEIS, CONDOMÍNIOS E OUTROS',
 'N - MORADIA',
 'O - LOCAÇÃO DE VEÍCULO',
 'P - DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR']

In [None]:
filtroc = df.tipo == 'C - MATERIAIS E SERVIÇOS DE MANUT E CONSERV DE VEÍCULOS ; PEDÁGIOS'

In [None]:
sorted(pd.unique(dpedagio['fornecedor']))

['A Z COMERCIO DE COMBUSTIVEIS LTDA',
 'ABA MOTORS COMERCIAL IMPORT. PEÇAS SERVIÇOS LTDA',
 'ABA SUL COML DE VEIC PEÇAS E SERV AUTOMOTIVOS LTDA',
 'ABC PNEUS LIMITADA',
 'ABC PNEUS LTDA',
 'ABSOLUTA DISTRIBUIDORA DE AUTOMÓVEIS LTDA.',
 'ABSOLUTA DISTRIBUIDORADE AUTOMÓVEIS LTDA.',
 'ACCIOLY IMP E COM DE AUTO PEÇAS LTDA',
 'ACCIOLY IMP.E COM.DE AUTO PECAS LTDA',
 'ACCIOLY S/A - IMPORTAÇÃO E COMERCIO',
 'ACESSORIOS POLIDORO LTDA',
 'ADEVALDO DA SILVA FERNANDES',
 'AGNALDO PEREIRA DE PAIVA PNEUS ME',
 'AKS AUTOMOTIVE EIRELI - ME',
 'ALDO BOCCHI E CIA LTDA ME',
 'ALELO S.A',
 'ALFACAR PNEUS LTDA EPP',
 'ALMEIDA PNEUS DE JALES',
 'ALPHANELI PRODUTOS AUTOMOTIVOS EIRELI',
 'ANDREA ELI CUSTODIO ME',
 'ANDREIA BIANCA VENDITTI',
 'ANTONIO APARECIDO DA SILVA-LAVA RAPIDO ME',
 'ANTONIO J. DE MIRANDA BRICH - ME',
 'APRAVEL VEICULOS LTDA',
 'APRAVEL VEICULOS LTDA.',
 'ARAUTO SERVICOS AUTOMOTIVOS LTDA',
 'ARAUTO SERVIÇOS AUTOMOTIVOS LTDA',
 'ARIOVALDO HENRIQUE MAEDA',
 'ARRUDA MORAES CIA LTDA EPP',
 '

In [None]:
dpedagio = df.loc[filtroc]

In [None]:
sorted(pd.unique(dpedagio['fornecedor']))

NameError: ignored

In [None]:
filtroped = dpedagio.fornecedor.str.contains('PEG|PED')

In [None]:
dpedagio = dpedagio.loc[filtroped]

KeyError: ignored