* Criado por: Gabriel Quintella
* Data Criação: 01.01.2023
* Data Última Modificação: 02.01.2023
* Repositório: https://github.com/dbaassists/Python/tree/main/ProjetoPythonKB 

DESCRIÇÃO DO PROJETO

Criar uma base de conhecimento (KB) com comandos básicos de Python usando a biblioteca Pandas para auxiliar no seu aprendizado da linguagem.

* Dia 1 - 01.01.2023 - Lançamento do Projeto;
*  Dia 2 - 02.01.2023 - Aprimoramento do Projeto com melhoria nos exemplos criados;

    ** Nesse dia estaremos abordando técnicas de importação de arquivos do tipo CSV e Excel

Sumário

* 01 - Bibliotecas Usadas
* 02 - Configurações de Exibição de Tela
* 03 - Métodos de Importação de Arquivos CSV

* 3.1 - Importando Arquivo CSV de forma FULL
* 3.2 - Importando Arquivo CSV Definindo Colunas
* 3.3 - Importando Arquivo CSV Definindo e Nomeando as Colunas 
* 3.4 - Importando Arquivo CSV Definindo Colunas e Datatypes

* 04 - Explorando a Estrutura de um DataFrame
* 05 - Removendo Vírgula por Ponto para Colunas do Tipo Float
* 06 - Selecionando TOP N registros de um DataFrame
* 07 - Aplicando o Comando Distinct em uma Coluna do DataFrame (unique())
* 08 - Ordenando um DataFrame (sort_values())
* 09 - Agrupando um DataFrame (groupby())
* 10 - Funções de Agrupamento (Count(), Sum(), Min(), Max() e Mean())
* 11 - Convertendo Datatype de uma Coluna em um DataFrame
* 12 - Renomeando Colunas em um DataFrame
* 13 - Removendo Colunas em um DataFrame
* 14 - Tratando Valores Nulos em Colunas de um DataFrame
* 15 - Comando Contém Valor em uma Coluna de um DataFrame
* 16 - Filtrando Valores em um ou Várias Colunas de um DataFrame
* 17 - Comando Similar ao Left e Right do SQL Server
* 18 - Comando Similar ao Replicate do SQL Server
* 19 - Removendo Duplicidades em um DataFrame
* 20 - Relacionando DataFrames
* 21 - Comando Similar ao Case When do SQL Server
* 22 - Importando Planilha do Excel


# 01 - Bibliotecas Usadas

In [2]:
import warnings
import pandas as pd
from pandas.core.common import SettingWithCopyWarning
import numpy as np
import json

# 02 - Configurações de Exibição de Tela

In [28]:
# CONFIGURANDO A EXIBIÇAO DE REGISTROS NA TELA #

pd.options.display.max_rows = 999
pd.options.display.max_columns=999
warnings.simplefilter(action="ignore", category=SettingWithCopyWarning)


# 03 - Métodos de Importação de Arquivos CSV

## 3.1 - Importando Arquivo CSV de forma FULL

In [8]:
# IMPORTAÇAO SIMPLES DE ARQUIVO CSV #

arquivoCSV = '..\ProjetoPythonKB\Dados\consulta_cand_2022_BRASIL.csv'

dfCandidatos = pd.read_csv(arquivoCSV
                           , sep=';'
                           ,encoding='latin-1'
                           )


## 3.2 - Importando Arquivo CSV Definindo Colunas

In [18]:

arquivoCSV = '..\ProjetoPythonKB\Dados\consulta_cand_2022_BRASIL.csv'

dfCandidatos = pd.read_csv(arquivoCSV
                            , sep=';'
                            ,encoding='latin-1'
                            , usecols=[2,4,5,7,8,10,14,15,18,27,28,48,50])


## 3.3 - Importando Arquivo CSV Definindo e Nomeando as Colunas 

In [22]:

arquivoCSV = '..\ProjetoPythonKB\Dados\consulta_cand_2022_BRASIL.csv'

dfCandidatos = pd.read_csv(arquivoCSV
                            , sep=';'
                            ,encoding='latin-1'
                            , usecols=[2,4,5,7,8,10,14,15,18,27,28,48,50]
                            ,names=['NumAnoEleicao'
                                    ,'NomTpoEleicao'
                                    ,'NumTurno'
                                    ,'DescEleicao'
                                    ,'DtEleicao'
                                    ,'SigUF'
                                    ,'DescCargo'
                                    ,'SeqCandidato'
                                    ,'NomCandidatoUrna'
                                    ,'NumPartido'
                                    ,'SigParido'
                                    ,'DescInstrucao'
                                    ,'DescEstadoCivil']
                            ,header=0)


## 3.4 - Importando Arquivo CSV Definindo Colunas e Datatypes

In [44]:

arquivoCSV = '..\ProjetoPythonKB\Dados\consulta_cand_2022_BRASIL.csv'

dfCandidatos = pd.read_csv(arquivoCSV
                            , sep=';'
                            ,encoding='latin-1'
                            , usecols=[2,4,5,7,8,10,14,15,18,27,28,48,50]
                            ,names=['NumAnoEleicao'
                                    ,'NomTpoEleicao'
                                    ,'NumTurno'
                                    ,'DescEleicao'
                                    ,'DtEleicao'
                                    ,'SigUF'
                                    ,'DescCargo'
                                    ,'SeqCandidato'
                                    ,'NomCandidatoUrna'
                                    ,'NumPartido'
                                    ,'SigParido'
                                    ,'DescInstrucao'
                                    ,'DescEstadoCivil']
                            ,dtype={'NumAnoEleicao':'long'
                                    ,'NomTpoEleicao':'str'
                                    ,'NumTurno':'long'
                                    ,'DescEleicao':'str'
                                    ,'DtEleicao':'str'
                                    ,'SigUF':'str'
                                    ,'DescCargo':'str'
                                    ,'SeqCandidato':'str'
                                    ,'NomCandidatoUrna':'str'
                                    ,'NumPartido':'long'
                                    ,'SigParido':'str'
                                    ,'DescInstrucao':'str'
                                    ,'DescEstadoCivil':'str'}
                            ,parse_dates=[4]
                            ,header=0)


# 04 - Explorando a Estrutura de um DataFrame

In [12]:
dfCandidatos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29262 entries, 0 to 29261
Data columns (total 71 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   DT_GERACAO                     29262 non-null  object 
 1   HH_GERACAO                     29262 non-null  object 
 2   ANO_ELEICAO                    29262 non-null  int64  
 3   CD_TIPO_ELEICAO                29262 non-null  int64  
 4   NM_TIPO_ELEICAO                29262 non-null  object 
 5   NR_TURNO                       29262 non-null  int64  
 6   CD_ELEICAO                     29262 non-null  int64  
 7   DS_ELEICAO                     29262 non-null  object 
 8   DT_ELEICAO                     29262 non-null  object 
 9   TP_ABRANGENCIA                 29262 non-null  object 
 10  SG_UF                          29262 non-null  object 
 11  SG_UE                          29262 non-null  object 
 12  NM_UE                          29262 non-null 

# 05 - Removendo Vírgula por Ponto para Colunas do Tipo Float

In [113]:
arquivoBemCandidato = '../ProjetoPythonKB/Dados/bem_candidato_2022_BRASIL.csv'

dfBemCandidato = pd.read_csv(arquivoBemCandidato
                            ,sep=';'
                            ,encoding='latin-1'
                            ,usecols=[16]
                            ,names=['VlrBem']
                            ,dtype={'VlrBem':'str'
                            }
                            ,header=0)

dfBemCandidato['VlrBem_c'] = dfBemCandidato['VlrBem'].apply(lambda x: str(x).replace(",",".")).astype('float64')

dfBemCandidato

Unnamed: 0,VlrBem,VlrBem_c
0,3350000,33500.00
1,2263200,22632.00
2,4601070,46010.70
3,80000000,800000.00
4,9500000,95000.00
...,...,...
90199,1512956,15129.56
90200,15000000,150000.00
90201,121750,1217.50
90202,170585,1705.85


# 06 - Selecionando TOP N registros de um DataFrame

In [11]:
# SELECIONANDO TOP N REGISTROS DE UM DATAFRAME #

dfCandidatos.head(1)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,DS_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS
0,06/10/2022,13:10:14,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,"6,02E+18",2,DEFERIDO,2,DEFERIDO,SIM,Válido,2,Deferido,S


# 07 - Aplicando o Comando Distinct em uma Coluna do DataFrame (unique())

In [34]:
dfCandidatos['DescCargo'].unique()

array(['DEPUTADO ESTADUAL', 'DEPUTADO FEDERAL', '2º SUPLENTE', 'SENADOR',
       'VICE-GOVERNADOR', 'DEPUTADO DISTRITAL', '1º SUPLENTE',
       'GOVERNADOR', 'PRESIDENTE', 'VICE-PRESIDENTE'], dtype=object)

# 08 - Ordenando um DataFrame (sort_values())

In [39]:
# ORDENANDO UM DATAFRAME #

dfCandidatos.sort_values(by='SigUF'
                         , inplace=True
                         , ascending=True)


# 09 - Agrupando um DataFrame (groupby())

In [47]:
# AGRUPANDO VALORES DENTRO DE UM DATAFRAME #

dfCandidatos_Agrd = dfCandidatos.groupby(['DescCargo']
                                         , as_index=False).agg(QtdCandidato=('SeqCandidato'
                                                                             ,'count'))

dfCandidatos_Agrd.sort_values(by='QtdCandidato'
                                 , inplace=True
                                 , ascending=False
                             )

dfCandidatos_Agrd

Unnamed: 0,DescCargo,QtdCandidato
3,DEPUTADO ESTADUAL,16737
4,DEPUTADO FEDERAL,10630
2,DEPUTADO DISTRITAL,610
1,2º SUPLENTE,276
0,1º SUPLENTE,274
7,SENADOR,243
8,VICE-GOVERNADOR,242
5,GOVERNADOR,224
6,PRESIDENTE,13
9,VICE-PRESIDENTE,13


# 10 - Funções de Agrupamento (Count(), Sum(), Min(), Max() e Mean())

In [172]:
arquivoBemCandidato = '../ProjetoPythonKB/Dados/bem_candidato_2022_BRASIL.csv'

dfBemCandidato = pd.read_csv(arquivoBemCandidato
                            ,sep=';'
                            ,encoding='latin-1'
                            )

dfBemCandidato.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90204 entries, 0 to 90203
Data columns (total 19 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   DT_GERACAO             90204 non-null  object
 1   HH_GERACAO             90204 non-null  object
 2   ANO_ELEICAO            90204 non-null  int64 
 3   CD_TIPO_ELEICAO        90204 non-null  int64 
 4   NM_TIPO_ELEICAO        90204 non-null  object
 5   CD_ELEICAO             90204 non-null  int64 
 6   DS_ELEICAO             90204 non-null  object
 7   DT_ELEICAO             90204 non-null  object
 8   SG_UF                  90204 non-null  object
 9   SG_UE                  90204 non-null  object
 10  NM_UE                  90204 non-null  object
 11  SQ_CANDIDATO           90204 non-null  int64 
 12  NR_ORDEM_CANDIDATO     90204 non-null  int64 
 13  CD_TIPO_BEM_CANDIDATO  90204 non-null  int64 
 14  DS_TIPO_BEM_CANDIDATO  90204 non-null  object
 15  DS_BEM_CANDIDATO   

In [173]:
arquivoBemCandidato = '../ProjetoPythonKB/Dados/bem_candidato_2022_BRASIL.csv'

dfBemCandidato = pd.read_csv(arquivoBemCandidato
                            ,sep=';'
                            ,encoding='latin-1'
                            ,usecols=[8,11,14,16]
                            ,names=['SigUF','SeqCandidato','DescTpoBem','VlrBem']
                            ,dtype={'SigUF':'str'
                                ,'SeqCandidato':'str'
                                ,'DescTpoBem':'str'
                                ,'VlrBem':'str'
                            }
                            ,header=0)

dfBemCandidato['VlrBem'] = dfBemCandidato['VlrBem'].apply(lambda x: str(x).replace(",",".")).astype('float64')

dfBemCandidato_Agrd = dfBemCandidato.groupby(['DescTpoBem'],as_index=True).agg( \
                                                    QtdBem=('DescTpoBem','count')
                                                   ,VltTotalBem=('VlrBem','sum')
                                                   ,VltMenorBem=('VlrBem','min')
                                                   ,VltMaiorBem=('VlrBem','max')
                                                   ,VltMedioBem=('VlrBem','mean'))

dfBemCandidato_Agrd.style.format("{:.2f}")

Unnamed: 0_level_0,QtdBem,VltTotalBem,VltMenorBem,VltMaiorBem,VltMedioBem
DescTpoBem,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Aeronave,95.0,100085320.57,20000.0,10000000.0,1053529.69
Apartamento,6711.0,2297953328.81,0.0,7879197.99,342415.93
"Aplicação de renda fixa (CDB, RDB e outros)",4126.0,707325198.77,0.0,61792857.29,171431.22
Ações (inclusive as provenientes de linha telefônica),2297.0,1011767357.79,0.0,299503939.0,440473.38
Bem relacionado com o exercício da atividade autônoma,111.0,12100496.58,0.0,1830500.0,109013.48
Benfeitorias,160.0,42981548.23,61.81,2680325.0,268634.68
Caderneta de poupança,3166.0,89716190.39,0.0,5832110.0,28337.39
Casa,8644.0,2785069153.07,0.0,24163378.1,322196.8
Construção,203.0,71980386.6,110.0,6099245.28,354583.19
Consórcio não contemplado,759.0,48237244.46,342.6,1250000.0,63553.68


# 11 - Convertendo Datatype de uma Coluna em um DataFrame

In [140]:

AnoMes=['Jan22', 'Fev22', 'Mar22', 'Abr22','Mai22','Jun22','Jul22','Ago22','Set22','Out22','Nov22','Dez22']
Pedidos=['10','20','10','15','10','12','15','11','22','23','9','42']
Valor=['2314,09','22311,90','2421.78','4311.89','123143,49','12331.43','4321,44','54322,56','23421.5','43156,99','123599.65','9943543,99']


df=pd.DataFrame({"AnoMes":AnoMes,
                "QtdPedidos":Pedidos,
                "Vlr":Valor})

df['QtdPedidos_c'] = df['QtdPedidos'].astype(int)

df['Vlr_c'] = df['Vlr'].apply(lambda x: str(x).replace(",",".")).astype('float64')

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   AnoMes        12 non-null     object 
 1   QtdPedidos    12 non-null     object 
 2   Vlr           12 non-null     object 
 3   QtdPedidos_c  12 non-null     int32  
 4   Vlr_c         12 non-null     float64
dtypes: float64(1), int32(1), object(3)
memory usage: 560.0+ bytes


# 12 - Renomeando Colunas em um DataFrame

In [141]:
df.rename(columns = {'Vlr_c':'Vlr_T'
                        , 'QtdPedidos_c':'QtdPedidos_T'}
                        , inplace = True)

df.head(1)

Unnamed: 0,AnoMes,QtdPedidos,Vlr,QtdPedidos_T,Vlr_T
0,Jan22,10,231409,10,2314.09


# 13 - Removendo Colunas em um DataFrame

In [136]:
df.drop('AnoMes', axis=1, inplace=True)

df.head(1)

Unnamed: 0,QtdPedidos,Vlr,QtdPedidos_T,Vlr_T
0,10,231409,10,2314.09


In [138]:
df = df.drop(df.columns[0], axis=1) 

df.head(1)

Unnamed: 0,QtdPedidos_T,Vlr_T
0,10,2314.09


In [142]:
df.drop(['QtdPedidos', 'Vlr'], axis=1, inplace=True)

df.head(1)

Unnamed: 0,AnoMes,QtdPedidos_T,Vlr_T
0,Jan22,10,2314.09


# 14 - Tratando Valores Nulos em Colunas de um DataFrame

In [152]:

arquivoCSV = '..\ProjetoPythonKB\Dados\consulta_cand_2022_BRASIL.csv'

dfCandidatos = pd.read_csv(arquivoCSV
                            , sep=';'
                            ,encoding='latin-1'
                            , usecols=[2,4,5,7,8,10,14,15,18,27,28,43,48,50]
                            ,names=['NumAnoEleicao'
                                    ,'NomTpoEleicao'
                                    ,'NumTurno'
                                    ,'DescEleicao'
                                    ,'DtEleicao'
                                    ,'SigUF'
                                    ,'DescCargo'
                                    ,'SeqCandidato'
                                    ,'NomCandidatoUrna'
                                    ,'NumPartido'
                                    ,'SigParido'
                                    ,'NumIdadePosse'
                                    ,'DescInstrucao'
                                    ,'DescEstadoCivil']
                            ,dtype={'NumAnoEleicao':'long'
                                    ,'NomTpoEleicao':'str'
                                    ,'NumTurno':'long'
                                    ,'DescEleicao':'str'
                                    ,'DtEleicao':'str'
                                    ,'SigUF':'str'
                                    ,'DescCargo':'str'
                                    ,'SeqCandidato':'str'
                                    ,'NomCandidatoUrna':'str'
                                    ,'NumPartido':'long'
                                    ,'SigParido':'str'
                                    ,'NumIdadePosse':'str'
                                    ,'DescInstrucao':'str'
                                    ,'DescEstadoCivil':'str'}
                            ,parse_dates=[4]
                            ,header=0)

dfCandidatos['NumIdadePosse'].fillna('0',inplace=True)

dfCandidatos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29262 entries, 0 to 29261
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   NumAnoEleicao     29262 non-null  int32         
 1   NomTpoEleicao     29262 non-null  object        
 2   NumTurno          29262 non-null  int32         
 3   DescEleicao       29262 non-null  object        
 4   DtEleicao         29262 non-null  datetime64[ns]
 5   SigUF             29262 non-null  object        
 6   DescCargo         29262 non-null  object        
 7   SeqCandidato      29262 non-null  object        
 8   NomCandidatoUrna  29262 non-null  object        
 9   NumPartido        29262 non-null  int32         
 10  SigParido         29262 non-null  object        
 11  NumIdadePosse     29262 non-null  object        
 12  DescInstrucao     29262 non-null  object        
 13  DescEstadoCivil   29262 non-null  object        
dtypes: datetime64[ns](1), 

# 15 - Comando Contém Valor em uma Coluna de um DataFrame

# 16 - Filtrando Valores em um ou Várias Colunas de um DataFrame

# 17 - Comando Similar ao Left e Right do SQL Server

In [167]:
# COMANDO LEFT E RIGHT DO SQL SERVER #


AnoMes=['Jan2022', 'Fev2022', 'Mar2022', 'Abr2022','Mai2022','Jun2022','Jul2022','Ago2022','Set2022','Out2022','Nov2022','Dez2022']
Pedidos=['10','20','10','15','10','12','15','11','22','23','9','42']
Valor=['2314,09','22311,90','2421.78','4311.89','123143,49','12331.43','4321,44','54322,56','23421.5','43156,99','123599.65','9943543,99']


df=pd.DataFrame({"AnoMes":AnoMes,
                "QtdPedidos":Pedidos,
                "Vlr":Valor})

df['QtdPedidos_c'] = df['QtdPedidos'].astype(int)

df['Vlr_c'] = df['Vlr'].apply(lambda x: str(x).replace(",",".")).astype('float64')

df['Ano'] = df['AnoMes'].str[3:]

df['Mes'] = df['AnoMes'].str[:3]

df


Unnamed: 0,AnoMes,Loja,QtdPedidos,Vlr,QtdPedidos_c,Vlr_c,Ano,Mes
0,Jan2022,AB,10,231409.0,10,2314.09,2022,Jan
1,Fev2022,BC,20,2231190.0,20,22311.9,2022,Fev
2,Mar2022,CD,10,2421.78,10,2421.78,2022,Mar
3,Abr2022,DE,15,4311.89,15,4311.89,2022,Abr
4,Mai2022,EF,10,12314349.0,10,123143.49,2022,Mai
5,Jun2022,FG,12,12331.43,12,12331.43,2022,Jun
6,Jul2022,GH,15,432144.0,15,4321.44,2022,Jul
7,Ago2022,HI,11,5432256.0,11,54322.56,2022,Ago
8,Set2022,IJ,22,23421.5,22,23421.5,2022,Set
9,Out2022,JK,23,4315699.0,23,43156.99,2022,Out


# 18 - Comando Similar ao Replicate do SQL Server

In [168]:
# COMPLETANDO COM ZERO A ESQUERDA #




AnoMes=['Jan2022', 'Fev2022', 'Mar2022', 'Abr2022','Mai2022','Jun2022','Jul2022','Ago2022','Set2022','Out2022','Nov2022','Dez2022']
Loja=['ABCDE','BCDE','CD','DEFGH','EFG','FGIJK','GHIJ','HI','IJ','JKL','KL','LMNOPQ']
Pedidos=['10','20','10','15','10','12','15','11','22','23','9','42']
Valor=['2314,09','22311,90','2421.78','4311.89','123143,49','12331.43','4321,44','54322,56','23421.5','43156,99','123599.65','9943543,99']


df=pd.DataFrame({"AnoMes":AnoMes,
                 "Loja":Loja,
                "QtdPedidos":Pedidos,
                "Vlr":Valor})

df['QtdPedidos_c'] = df['QtdPedidos'].astype(int)

df['Vlr_c'] = df['Vlr'].apply(lambda x: str(x).replace(",",".")).astype('float64')

df['Ano'] = df['AnoMes'].str[3:]

df['Mes'] = df['AnoMes'].str[:3]

df['Loja'] = pd.Series(df['Loja']).astype(str).str.zfill(10) 

df


Unnamed: 0,AnoMes,Loja,QtdPedidos,Vlr,QtdPedidos_c,Vlr_c,Ano,Mes
0,Jan2022,00000ABCDE,10,231409.0,10,2314.09,2022,Jan
1,Fev2022,000000BCDE,20,2231190.0,20,22311.9,2022,Fev
2,Mar2022,00000000CD,10,2421.78,10,2421.78,2022,Mar
3,Abr2022,00000DEFGH,15,4311.89,15,4311.89,2022,Abr
4,Mai2022,0000000EFG,10,12314349.0,10,123143.49,2022,Mai
5,Jun2022,00000FGIJK,12,12331.43,12,12331.43,2022,Jun
6,Jul2022,000000GHIJ,15,432144.0,15,4321.44,2022,Jul
7,Ago2022,00000000HI,11,5432256.0,11,54322.56,2022,Ago
8,Set2022,00000000IJ,22,23421.5,22,23421.5,2022,Set
9,Out2022,0000000JKL,23,4315699.0,23,43156.99,2022,Out


# 19 - Removendo Duplicidades em um DataFrame

In [None]:
# REMOVENDO DUPLICIDADES DE UM DATAFRAME #

arquivo_Alex_NE = 'C:\\Temp\\Frete_Rodrigo\\INDICADORES_FRETE_2021_COMPLETO_zerados.xlsx'

dfANE = pd.read_excel(arquivo_Alex_NE
                      , sheet_name='Não encontrados'
                      , usecols=[0]
                      , names=['CodDocVenda']
                      , dtype={'CodDocVenda':'str'})

dfANE = dfANE.drop_duplicates(
  subset = ['CodDocVenda'],
  keep = 'last').reset_index(drop = True)

dfANE.info()

# 20 - Relacionando DataFrames

In [175]:
# RELACIONANDO DOIS DATAFRAMES #

resultCandidatoBem = pd.merge(left=dfCandidatos
                              , right=dfBemCandidato
                              , left_on='SeqCandidato'
                              , right_on='SeqCandidato'                                                                                              
                                    )[['SeqCandidato'
                                       , 'NomCandidatoUrna'
                                       , 'DescCargo'
                                       , 'SigUF_y'
                                       , 'DescTpoBem'
                                       , 'VlrBem']]

resultCandidatoBem

Unnamed: 0,SeqCandidato,NomCandidatoUrna,DescCargo,SigUF_y,DescTpoBem,VlrBem
0,90001675157,CYNTHIA OLIVEIRA,DEPUTADO FEDERAL,GO,"Veículo automotor terrestre: caminhão, automóv...",1000.00
1,40001671799,CIMARA CAVALCANTE,DEPUTADO FEDERAL,AM,Dinheiro em espécie - moeda nacional,3000.00
2,90001652975,MAURICIO COMUNICATIVO LESTE,DEPUTADO ESTADUAL,GO,"Veículo automotor terrestre: caminhão, automóv...",15000.00
3,80001648791,PROFESSOR GEDAYAS DAYA,DEPUTADO ESTADUAL,ES,Casa,78000.00
4,60001619178,JOÃO JAIME,DEPUTADO ESTADUAL,CE,"Fundos: Ações, Mútuos de Privatização, Invest....",9140.29
...,...,...,...,...,...,...
20347,80001719429,HELDER SALOMÃO,DEPUTADO FEDERAL,ES,"Veículo automotor terrestre: caminhão, automóv...",50364.48
20348,80001719429,HELDER SALOMÃO,DEPUTADO FEDERAL,ES,VGBL - Vida Gerador de Benefício Livre,7171.68
20349,80001719429,HELDER SALOMÃO,DEPUTADO FEDERAL,ES,Sala ou conjunto,138547.87
20350,80001719429,HELDER SALOMÃO,DEPUTADO FEDERAL,ES,Apartamento,26000.00


# 21 - Comando Similar ao Case When do SQL Server

In [23]:
# APLICANDO O COMANDO CASE DO SQL SERVER #

resultAmostra.loc[resultAmostra['AnoMes'] >= '202201', 'Comparacao'] = 'REGISTRO NOVO'
resultAmostra.loc[resultAmostra['AnoMes'] < '202201', 'Comparacao'] = 'REGISTRO VELHO'

resultAmostra.groupby('Comparacao').agg(Qtd=('Comparacao','count'))


Unnamed: 0_level_0,Qtd
Comparacao,Unnamed: 1_level_1
REGISTRO NOVO,99
REGISTRO VELHO,60501


# 22 - Importando Planilha do Excel

In [16]:
# IMPORTAÇÃO SIMPLES DE PLANILHA EXCEL #

arquivo_Alex_NE = 'C:\\Temp\\Frete_Rodrigo\\INDICADORES_FRETE_2021_COMPLETO_zerados.xlsx'

dfANE = pd.read_excel(arquivo_Alex_NE
                      , sheet_name='Não encontrados'
                      , usecols=[0]
                      , names=['CodDocVenda']
                      , dtype={'CodDocVenda':'str'})