* Criado por: Gabriel Quintella
* Data Criação: 01.01.2023
* Data Última Modificação: 03.01.2023
* Repositório: https://github.com/dbaassists/Python/tree/main/ProjetoPythonKB 

DESCRIÇÃO DO PROJETO

Criar uma base de conhecimento (KB) com comandos básicos de Python usando a biblioteca Pandas para auxiliar no seu aprendizado da linguagem.

* Dia 1 - 01.01.2023 - Lançamento do Projeto;
*  Dia 2 - 02.01.2023 - Aprimoramento do Projeto com melhoria nos exemplos criados;
*  Dia 3 - 03.01.2023 - Melhoria nos exemplos do notebook;

    ** Nesse dia estaremos abordando técnicas de importação de arquivos do tipo CSV e Excel

Sumário

* 01 - Bibliotecas Usadas
* 02 - Configurações de Exibição de Tela
* 03 - Métodos de Importação de Arquivos CSV

* 03.1 - Importando Arquivo CSV de forma FULL
* 03.2 - Importando Arquivo CSV Definindo Colunas
* 03.3 - Importando Arquivo CSV Definindo e Nomeando as Colunas 
* 03.4 - Importando Arquivo CSV Definindo Colunas e Datatypes

* 04 - Explorando a Estrutura de um DataFrame
* 05 - Removendo Vírgula por Ponto para Colunas do Tipo Float
* 06 - Selecionando TOP N registros de um DataFrame
* 07 - Aplicando o Comando Distinct em uma Coluna do DataFrame (unique())
* 08 - Ordenando um DataFrame (sort_values())
* 09 - Agrupando um DataFrame (groupby())
* 10 - Funções de Agrupamento (Count(), Sum(), Min(), Max() e Mean())
* 11 - Convertendo Datatype de uma Coluna em um DataFrame
* 12 - Renomeando Colunas em um DataFrame
* 13 - Removendo Colunas em um DataFrame
* 14 - Tratando Valores Nulos em Colunas de um DataFrame
* 15 - Comando Contém (isin) Valor em uma Coluna de um DataFrame
* 16 - Filtrando Valores em um ou Várias Colunas de um DataFrame
* 17 - Comando Similar ao Left e Right do SQL Server
* 18 - Comando Similar ao Replicate (zfill()) do SQL Server
* 19 - Removendo Duplicidades em um DataFrame
* 20 - Relacionando DataFrames
* 21 - Comando Similar ao Case When do SQL Server
* 22 - Importando Grandes Arquivos (chunksize)
* 23 - Importandos Vários Arquivos (For e Biblioteca OS)
* 24 - Compactar (Zipar) um arquivo
* 25 - Descompactar (Zipar) um arquivo
* 26 - Métodos de Importação Planilha do Excel
* 26.1 - Importando Planilha do Excel de forma FULL
* 26.2 - Importando Planilha do Excel Definindo Colunas e Datatypes


# 01 - Bibliotecas Usadas

In [1]:
import warnings
import pandas as pd
from pandas.core.common import SettingWithCopyWarning
import numpy as np
import json

# 02 - Configurações de Exibição de Tela

In [2]:
# CONFIGURANDO A EXIBIÇAO DE REGISTROS NA TELA #

pd.options.display.max_rows = 999
pd.options.display.max_columns=999
warnings.simplefilter(action="ignore", category=SettingWithCopyWarning)


# 03 - Métodos de Importação de Arquivos CSV

## 03.1 - Importando Arquivo CSV de forma FULL

In [3]:
# IMPORTAÇAO SIMPLES DE ARQUIVO CSV #

arquivoCSV = '..\ProjetoPythonKB\Dados\Candidato\consulta_cand_2022_BRASIL.csv'

dfCandidatos = pd.read_csv(arquivoCSV
                           , sep=';'
                           ,encoding='latin-1'
                           )


## 03.2 - Importando Arquivo CSV Definindo Colunas

In [4]:

arquivoCSV = '..\ProjetoPythonKB\Dados\Candidato\consulta_cand_2022_BRASIL.csv'

dfCandidatos = pd.read_csv(arquivoCSV
                            , sep=';'
                            ,encoding='latin-1'
                            , usecols=[2,4,5,7,8,10,14,15,18,27,28,48,50])


## 03.3 - Importando Arquivo CSV Definindo e Nomeando as Colunas 

In [5]:

arquivoCSV = '..\ProjetoPythonKB\Dados\Candidato\consulta_cand_2022_BRASIL.csv'

dfCandidatos = pd.read_csv(arquivoCSV
                            , sep=';'
                            ,encoding='latin-1'
                            , usecols=[2,4,5,7,8,10,14,15,18,27,28,48,50]
                            ,names=['NumAnoEleicao'
                                    ,'NomTpoEleicao'
                                    ,'NumTurno'
                                    ,'DescEleicao'
                                    ,'DtEleicao'
                                    ,'SigUF'
                                    ,'DescCargo'
                                    ,'SeqCandidato'
                                    ,'NomCandidatoUrna'
                                    ,'NumPartido'
                                    ,'SigParido'
                                    ,'DescInstrucao'
                                    ,'DescEstadoCivil']
                            ,header=0)


## 03.4 - Importando Arquivo CSV Definindo Colunas e Datatypes

In [6]:

arquivoCSV = '..\ProjetoPythonKB\Dados\Candidato\consulta_cand_2022_BRASIL.csv'

dfCandidatos = pd.read_csv(arquivoCSV
                            , sep=';'
                            ,encoding='latin-1'
                            , usecols=[2,4,5,7,8,10,14,15,18,27,28,48,50]
                            ,names=['NumAnoEleicao'
                                    ,'NomTpoEleicao'
                                    ,'NumTurno'
                                    ,'DescEleicao'
                                    ,'DtEleicao'
                                    ,'SigUF'
                                    ,'DescCargo'
                                    ,'SeqCandidato'
                                    ,'NomCandidatoUrna'
                                    ,'NumPartido'
                                    ,'SigParido'
                                    ,'DescInstrucao'
                                    ,'DescEstadoCivil']
                            ,dtype={'NumAnoEleicao':'long'
                                    ,'NomTpoEleicao':'str'
                                    ,'NumTurno':'long'
                                    ,'DescEleicao':'str'
                                    ,'DtEleicao':'str'
                                    ,'SigUF':'str'
                                    ,'DescCargo':'str'
                                    ,'SeqCandidato':'str'
                                    ,'NomCandidatoUrna':'str'
                                    ,'NumPartido':'long'
                                    ,'SigParido':'str'
                                    ,'DescInstrucao':'str'
                                    ,'DescEstadoCivil':'str'}
                            ,parse_dates=[4]
                            ,header=0)


# 04 - Explorando a Estrutura de um DataFrame

In [7]:
dfCandidatos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29262 entries, 0 to 29261
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   NumAnoEleicao     29262 non-null  int32         
 1   NomTpoEleicao     29262 non-null  object        
 2   NumTurno          29262 non-null  int32         
 3   DescEleicao       29262 non-null  object        
 4   DtEleicao         29262 non-null  datetime64[ns]
 5   SigUF             29262 non-null  object        
 6   DescCargo         29262 non-null  object        
 7   SeqCandidato      29262 non-null  object        
 8   NomCandidatoUrna  29262 non-null  object        
 9   NumPartido        29262 non-null  int32         
 10  SigParido         29262 non-null  object        
 11  DescInstrucao     29262 non-null  object        
 12  DescEstadoCivil   29262 non-null  object        
dtypes: datetime64[ns](1), int32(3), object(9)
memory usage: 2.6+ MB


# 05 - Removendo Vírgula por Ponto para Colunas do Tipo Float

In [8]:
arquivoBemCandidato = '../ProjetoPythonKB/Dados/BemCandidato/bem_candidato_2022_BRASIL.csv'

dfBemCandidato = pd.read_csv(arquivoBemCandidato
                            ,sep=';'
                            ,encoding='latin-1'
                            ,usecols=[16]
                            ,names=['VlrBem']
                            ,dtype={'VlrBem':'str'
                            }
                            ,header=0)

dfBemCandidato['VlrBem_c'] = dfBemCandidato['VlrBem'].apply(lambda x: str(x).replace(",",".")).astype('float64')

dfBemCandidato

Unnamed: 0,VlrBem,VlrBem_c
0,3350000,33500.00
1,2263200,22632.00
2,4601070,46010.70
3,80000000,800000.00
4,9500000,95000.00
...,...,...
90199,1512956,15129.56
90200,15000000,150000.00
90201,121750,1217.50
90202,170585,1705.85


# 06 - Selecionando TOP N registros de um DataFrame

In [9]:
# SELECIONANDO TOP N REGISTROS DE UM DATAFRAME #

dfCandidatos.head(1)

Unnamed: 0,NumAnoEleicao,NomTpoEleicao,NumTurno,DescEleicao,DtEleicao,SigUF,DescCargo,SeqCandidato,NomCandidatoUrna,NumPartido,SigParido,DescInstrucao,DescEstadoCivil
0,2022,ELEIÇÃO ORDINÁRIA,1,Eleições Gerais Estaduais 2022,2022-02-10,PR,DEPUTADO ESTADUAL,160002000000,PROFESSOR MARCELINO ANTUNES,14,PTB,SUPERIOR COMPLETO,DIVORCIADO(A)


# 07 - Aplicando o Comando Distinct em uma Coluna do DataFrame (unique())

In [10]:
dfCandidatos['DescCargo'].unique()

array(['DEPUTADO ESTADUAL', 'DEPUTADO FEDERAL', '2º SUPLENTE', 'SENADOR',
       'VICE-GOVERNADOR', 'DEPUTADO DISTRITAL', '1º SUPLENTE',
       'GOVERNADOR', 'PRESIDENTE', 'VICE-PRESIDENTE'], dtype=object)

# 08 - Ordenando um DataFrame (sort_values())

In [11]:
# ORDENANDO UM DATAFRAME #

dfCandidatos.sort_values(by='SigUF'
                         , inplace=True
                         , ascending=True)


# 09 - Agrupando um DataFrame (groupby())

In [12]:
# AGRUPANDO VALORES DENTRO DE UM DATAFRAME #

dfCandidatos_Agrd = dfCandidatos.groupby(['DescCargo']
                                         , as_index=False).agg(QtdCandidato=('SeqCandidato'
                                                                             ,'count'))

dfCandidatos_Agrd.sort_values(by='QtdCandidato'
                                 , inplace=True
                                 , ascending=False
                             )

dfCandidatos_Agrd

Unnamed: 0,DescCargo,QtdCandidato
3,DEPUTADO ESTADUAL,16737
4,DEPUTADO FEDERAL,10630
2,DEPUTADO DISTRITAL,610
1,2º SUPLENTE,276
0,1º SUPLENTE,274
7,SENADOR,243
8,VICE-GOVERNADOR,242
5,GOVERNADOR,224
6,PRESIDENTE,13
9,VICE-PRESIDENTE,13


# 10 - Funções de Agrupamento (Count(), Sum(), Min(), Max() e Mean())

In [13]:
arquivoBemCandidato = '../ProjetoPythonKB/Dados/BemCandidato/bem_candidato_2022_BRASIL.csv'

dfBemCandidato = pd.read_csv(arquivoBemCandidato
                            ,sep=';'
                            ,encoding='latin-1'
                            )

dfBemCandidato.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90204 entries, 0 to 90203
Data columns (total 19 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   DT_GERACAO             90204 non-null  object
 1   HH_GERACAO             90204 non-null  object
 2   ANO_ELEICAO            90204 non-null  int64 
 3   CD_TIPO_ELEICAO        90204 non-null  int64 
 4   NM_TIPO_ELEICAO        90204 non-null  object
 5   CD_ELEICAO             90204 non-null  int64 
 6   DS_ELEICAO             90204 non-null  object
 7   DT_ELEICAO             90204 non-null  object
 8   SG_UF                  90204 non-null  object
 9   SG_UE                  90204 non-null  object
 10  NM_UE                  90204 non-null  object
 11  SQ_CANDIDATO           90204 non-null  int64 
 12  NR_ORDEM_CANDIDATO     90204 non-null  int64 
 13  CD_TIPO_BEM_CANDIDATO  90204 non-null  int64 
 14  DS_TIPO_BEM_CANDIDATO  90204 non-null  object
 15  DS_BEM_CANDIDATO   

In [14]:
arquivoBemCandidato = '../ProjetoPythonKB/Dados/BemCandidato/bem_candidato_2022_BRASIL.csv'

dfBemCandidato = pd.read_csv(arquivoBemCandidato
                            ,sep=';'
                            ,encoding='latin-1'
                            ,usecols=[8,11,14,16]
                            ,names=['SigUF','SeqCandidato','DescTpoBem','VlrBem']
                            ,dtype={'SigUF':'str'
                                ,'SeqCandidato':'str'
                                ,'DescTpoBem':'str'
                                ,'VlrBem':'str'
                            }
                            ,header=0)

dfBemCandidato['VlrBem'] = dfBemCandidato['VlrBem'].apply(lambda x: str(x).replace(",",".")).astype('float64')

dfBemCandidato_Agrd = dfBemCandidato.groupby(['DescTpoBem'],as_index=True).agg( \
                                                    QtdBem=('DescTpoBem','count')
                                                   ,VltTotalBem=('VlrBem','sum')
                                                   ,VltMenorBem=('VlrBem','min')
                                                   ,VltMaiorBem=('VlrBem','max')
                                                   ,VltMedioBem=('VlrBem','mean'))

dfBemCandidato_Agrd.style.format("{:.2f}")

Unnamed: 0_level_0,QtdBem,VltTotalBem,VltMenorBem,VltMaiorBem,VltMedioBem
DescTpoBem,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Aeronave,95.0,100085320.57,20000.0,10000000.0,1053529.69
Apartamento,6711.0,2297953328.81,0.0,7879197.99,342415.93
"Aplicação de renda fixa (CDB, RDB e outros)",4126.0,707325198.77,0.0,61792857.29,171431.22
Ações (inclusive as provenientes de linha telefônica),2297.0,1011767357.79,0.0,299503939.0,440473.38
Bem relacionado com o exercício da atividade autônoma,111.0,12100496.58,0.0,1830500.0,109013.48
Benfeitorias,160.0,42981548.23,61.81,2680325.0,268634.68
Caderneta de poupança,3166.0,89716190.39,0.0,5832110.0,28337.39
Casa,8644.0,2785069153.07,0.0,24163378.1,322196.8
Construção,203.0,71980386.6,110.0,6099245.28,354583.19
Consórcio não contemplado,759.0,48237244.46,342.6,1250000.0,63553.68


# 11 - Convertendo Datatype de uma Coluna em um DataFrame

In [15]:

AnoMes=['Jan22', 'Fev22', 'Mar22', 'Abr22','Mai22','Jun22','Jul22','Ago22','Set22','Out22','Nov22','Dez22']
Pedidos=['10','20','10','15','10','12','15','11','22','23','9','42']
Valor=['2314,09','22311,90','2421.78','4311.89','123143,49','12331.43','4321,44','54322,56','23421.5','43156,99','123599.65','9943543,99']


df=pd.DataFrame({"AnoMes":AnoMes,
                "QtdPedidos":Pedidos,
                "Vlr":Valor})

df['QtdPedidos_c'] = df['QtdPedidos'].astype(int)

df['Vlr_c'] = df['Vlr'].apply(lambda x: str(x).replace(",",".")).astype('float64')

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   AnoMes        12 non-null     object 
 1   QtdPedidos    12 non-null     object 
 2   Vlr           12 non-null     object 
 3   QtdPedidos_c  12 non-null     int32  
 4   Vlr_c         12 non-null     float64
dtypes: float64(1), int32(1), object(3)
memory usage: 560.0+ bytes


# 12 - Renomeando Colunas em um DataFrame

In [16]:
df.rename(columns = {'Vlr_c':'Vlr_T'
                        , 'QtdPedidos_c':'QtdPedidos_T'}
                        , inplace = True)

df.head(1)

Unnamed: 0,AnoMes,QtdPedidos,Vlr,QtdPedidos_T,Vlr_T
0,Jan22,10,231409,10,2314.09


# 13 - Removendo Colunas em um DataFrame

In [17]:
df.drop('AnoMes', axis=1, inplace=True)

df.head(1)

Unnamed: 0,QtdPedidos,Vlr,QtdPedidos_T,Vlr_T
0,10,231409,10,2314.09


In [18]:
df = df.drop(df.columns[3], axis=1) 

df.head(1)

Unnamed: 0,QtdPedidos,Vlr,QtdPedidos_T
0,10,231409,10


In [19]:
df.drop(['QtdPedidos', 'Vlr'], axis=1, inplace=True)

df.head(1)

Unnamed: 0,QtdPedidos_T
0,10


# 14 - Tratando Valores Nulos em Colunas de um DataFrame

In [20]:

arquivoCSV = '..\ProjetoPythonKB\Dados\Candidato\consulta_cand_2022_BRASIL.csv'

dfCandidatos = pd.read_csv(arquivoCSV
                            , sep=';'
                            ,encoding='latin-1'
                            , usecols=[2,4,5,7,8,10,14,15,18,27,28,43,48,50]
                            ,names=['NumAnoEleicao'
                                    ,'NomTpoEleicao'
                                    ,'NumTurno'
                                    ,'DescEleicao'
                                    ,'DtEleicao'
                                    ,'SigUF'
                                    ,'DescCargo'
                                    ,'SeqCandidato'
                                    ,'NomCandidatoUrna'
                                    ,'NumPartido'
                                    ,'SigParido'
                                    ,'NumIdadePosse'
                                    ,'DescInstrucao'
                                    ,'DescEstadoCivil']
                            ,dtype={'NumAnoEleicao':'long'
                                    ,'NomTpoEleicao':'str'
                                    ,'NumTurno':'long'
                                    ,'DescEleicao':'str'
                                    ,'DtEleicao':'str'
                                    ,'SigUF':'str'
                                    ,'DescCargo':'str'
                                    ,'SeqCandidato':'str'
                                    ,'NomCandidatoUrna':'str'
                                    ,'NumPartido':'long'
                                    ,'SigParido':'str'
                                    ,'NumIdadePosse':'str'
                                    ,'DescInstrucao':'str'
                                    ,'DescEstadoCivil':'str'}
                            ,parse_dates=[4]
                            ,header=0)

dfCandidatos['NumIdadePosse'].fillna('0',inplace=True)

dfCandidatos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29262 entries, 0 to 29261
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   NumAnoEleicao     29262 non-null  int32         
 1   NomTpoEleicao     29262 non-null  object        
 2   NumTurno          29262 non-null  int32         
 3   DescEleicao       29262 non-null  object        
 4   DtEleicao         29262 non-null  datetime64[ns]
 5   SigUF             29262 non-null  object        
 6   DescCargo         29262 non-null  object        
 7   SeqCandidato      29262 non-null  object        
 8   NomCandidatoUrna  29262 non-null  object        
 9   NumPartido        29262 non-null  int32         
 10  SigParido         29262 non-null  object        
 11  NumIdadePosse     29262 non-null  object        
 12  DescInstrucao     29262 non-null  object        
 13  DescEstadoCivil   29262 non-null  object        
dtypes: datetime64[ns](1), 

# 15 - Comando Contém (isin) Valor em uma Coluna de um DataFrame

In [21]:

arquivoCSV = '..\ProjetoPythonKB\Dados\Candidato\consulta_cand_2022_BRASIL.csv'

dfCandidatos = pd.read_csv(arquivoCSV
                            , sep=';'
                            ,encoding='latin-1'
                            , usecols=[2,4,5,7,8,10,14,15,18,27,28,43,48,50]
                            ,names=['NumAnoEleicao'
                                    ,'NomTpoEleicao'
                                    ,'NumTurno'
                                    ,'DescEleicao'
                                    ,'DtEleicao'
                                    ,'SigUF'
                                    ,'DescCargo'
                                    ,'SeqCandidato'
                                    ,'NomCandidatoUrna'
                                    ,'NumPartido'
                                    ,'SigParido'
                                    ,'NumIdadePosse'
                                    ,'DescInstrucao'
                                    ,'DescEstadoCivil']
                            ,dtype={'NumAnoEleicao':'long'
                                    ,'NomTpoEleicao':'str'
                                    ,'NumTurno':'long'
                                    ,'DescEleicao':'str'
                                    ,'DtEleicao':'str'
                                    ,'SigUF':'str'
                                    ,'DescCargo':'str'
                                    ,'SeqCandidato':'str'
                                    ,'NomCandidatoUrna':'str'
                                    ,'NumPartido':'long'
                                    ,'SigParido':'str'
                                    ,'NumIdadePosse':'str'
                                    ,'DescInstrucao':'str'
                                    ,'DescEstadoCivil':'str'}
                            ,parse_dates=[4]
                            ,header=0)

dfCandidatos['NumIdadePosse'].fillna('0',inplace=True)

dfCandidatos[dfCandidatos['SigUF'].isin(['RJ','SP'])]['SigUF'].unique()

array(['SP', 'RJ'], dtype=object)

# 16 - Filtrando Valores em um ou Várias Colunas de um DataFrame

In [22]:

arquivoCSV = '..\ProjetoPythonKB\Dados\Candidato\consulta_cand_2022_BRASIL.csv'

dfCandidatos = pd.read_csv(arquivoCSV
                            , sep=';'
                            ,encoding='latin-1'
                            , usecols=[2,4,5,7,8,10,14,15,18,27,28,43,48,50]
                            ,names=['NumAnoEleicao'
                                    ,'NomTpoEleicao'
                                    ,'NumTurno'
                                    ,'DescEleicao'
                                    ,'DtEleicao'
                                    ,'SigUF'
                                    ,'DescCargo'
                                    ,'SeqCandidato'
                                    ,'NomCandidatoUrna'
                                    ,'NumPartido'
                                    ,'SigParido'
                                    ,'NumIdadePosse'
                                    ,'DescInstrucao'
                                    ,'DescEstadoCivil']
                            ,dtype={'NumAnoEleicao':'long'
                                    ,'NomTpoEleicao':'str'
                                    ,'NumTurno':'long'
                                    ,'DescEleicao':'str'
                                    ,'DtEleicao':'str'
                                    ,'SigUF':'str'
                                    ,'DescCargo':'str'
                                    ,'SeqCandidato':'str'
                                    ,'NomCandidatoUrna':'str'
                                    ,'NumPartido':'long'
                                    ,'SigParido':'str'
                                    ,'NumIdadePosse':'str'
                                    ,'DescInstrucao':'str'
                                    ,'DescEstadoCivil':'str'}
                            ,parse_dates=[4]
                            ,header=0)

dfCandidatos['NumIdadePosse'].fillna('0',inplace=True)


In [23]:
dfCandidatos[dfCandidatos['SigUF']=='RJ'].head(3)

Unnamed: 0,NumAnoEleicao,NomTpoEleicao,NumTurno,DescEleicao,DtEleicao,SigUF,DescCargo,SeqCandidato,NomCandidatoUrna,NumPartido,SigParido,NumIdadePosse,DescInstrucao,DescEstadoCivil
22,2022,ELEIÇÃO ORDINÁRIA,1,Eleições Gerais Estaduais 2022,2022-02-10,RJ,DEPUTADO FEDERAL,190002000000,RENÊ FREITAS,30,NOVO,39,SUPERIOR COMPLETO,SOLTEIRO(A)
38,2022,ELEIÇÃO ORDINÁRIA,1,Eleições Gerais Estaduais 2022,2022-02-10,RJ,DEPUTADO ESTADUAL,190002000000,PROFESSORA ADRIANA DE MORAES,51,PATRIOTA,44,SUPERIOR COMPLETO,SOLTEIRO(A)
85,2022,ELEIÇÃO ORDINÁRIA,1,Eleições Gerais Estaduais 2022,2022-02-10,RJ,DEPUTADO ESTADUAL,190002000000,MARQUINHO OI,44,UNIÃO,61,ENSINO MÉDIO COMPLETO,CASADO(A)


In [24]:
dfCandidatos[(dfCandidatos['SigUF']=='RJ') & (dfCandidatos['DescCargo']=='DEPUTADO FEDERAL')]

Unnamed: 0,NumAnoEleicao,NomTpoEleicao,NumTurno,DescEleicao,DtEleicao,SigUF,DescCargo,SeqCandidato,NomCandidatoUrna,NumPartido,SigParido,NumIdadePosse,DescInstrucao,DescEstadoCivil
22,2022,ELEIÇÃO ORDINÁRIA,1,Eleições Gerais Estaduais 2022,2022-02-10,RJ,DEPUTADO FEDERAL,190002000000,RENÊ FREITAS,30,NOVO,39,SUPERIOR COMPLETO,SOLTEIRO(A)
101,2022,ELEIÇÃO ORDINÁRIA,1,Eleições Gerais Estaduais 2022,2022-02-10,RJ,DEPUTADO FEDERAL,190002000000,ARIEL MARTINS,14,PTB,30,SUPERIOR COMPLETO,SOLTEIRO(A)
148,2022,ELEIÇÃO ORDINÁRIA,1,Eleições Gerais Estaduais 2022,2022-02-10,RJ,DEPUTADO FEDERAL,190002000000,EDUARDO BADU,10,REPUBLICANOS,41,SUPERIOR COMPLETO,CASADO(A)
166,2022,ELEIÇÃO ORDINÁRIA,1,Eleições Gerais Estaduais 2022,2022-02-10,RJ,DEPUTADO FEDERAL,190002000000,BISPO JOÃO LEITE,15,MDB,54,ENSINO FUNDAMENTAL COMPLETO,DIVORCIADO(A)
177,2022,ELEIÇÃO ORDINÁRIA,1,Eleições Gerais Estaduais 2022,2022-02-10,RJ,DEPUTADO FEDERAL,190002000000,KEREM,19,PODE,46,SUPERIOR INCOMPLETO,CASADO(A)
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29123,2022,ELEIÇÃO ORDINÁRIA,1,Eleições Gerais Estaduais 2022,2022-02-10,RJ,DEPUTADO FEDERAL,190002000000,MAJOR JOYCE,14,PTB,41,SUPERIOR COMPLETO,CASADO(A)
29129,2022,ELEIÇÃO ORDINÁRIA,1,Eleições Gerais Estaduais 2022,2022-02-10,RJ,DEPUTADO FEDERAL,190002000000,DRA SARITA PAIVA,28,PRTB,58,SUPERIOR COMPLETO,CASADO(A)
29176,2022,ELEIÇÃO ORDINÁRIA,1,Eleições Gerais Estaduais 2022,2022-02-10,RJ,DEPUTADO FEDERAL,190002000000,NELSON JUNIOR,40,PSB,45,ENSINO MÉDIO COMPLETO,CASADO(A)
29179,2022,ELEIÇÃO ORDINÁRIA,1,Eleições Gerais Estaduais 2022,2022-02-10,RJ,DEPUTADO FEDERAL,190002000000,LETICIA CABRAL,28,PRTB,34,ENSINO MÉDIO COMPLETO,CASADO(A)


In [25]:

dfCandidatos.where(dfCandidatos['SigUF'] !='SP')

Unnamed: 0,NumAnoEleicao,NomTpoEleicao,NumTurno,DescEleicao,DtEleicao,SigUF,DescCargo,SeqCandidato,NomCandidatoUrna,NumPartido,SigParido,NumIdadePosse,DescInstrucao,DescEstadoCivil
0,2022.0,ELEIÇÃO ORDINÁRIA,1.0,Eleições Gerais Estaduais 2022,2022-02-10,PR,DEPUTADO ESTADUAL,160002000000,PROFESSOR MARCELINO ANTUNES,14.0,PTB,62,SUPERIOR COMPLETO,DIVORCIADO(A)
1,2022.0,ELEIÇÃO ORDINÁRIA,1.0,Eleições Gerais Estaduais 2022,2022-02-10,MS,DEPUTADO FEDERAL,120002000000,LOURDES MONTEIRO,15.0,MDB,68,SUPERIOR COMPLETO,CASADO(A)
2,2022.0,ELEIÇÃO ORDINÁRIA,1.0,Eleições Gerais Estaduais 2022,2022-02-10,GO,DEPUTADO FEDERAL,90001675157,CYNTHIA OLIVEIRA,18.0,REDE,36,SUPERIOR COMPLETO,CASADO(A)
3,2022.0,ELEIÇÃO ORDINÁRIA,1.0,Eleições Gerais Estaduais 2022,2022-02-10,RN,DEPUTADO FEDERAL,200002000000,GIDEON ISMAIAS,23.0,CIDADANIA,41,ENSINO MÉDIO COMPLETO,CASADO(A)
4,,,,,NaT,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29257,2022.0,ELEIÇÃO ORDINÁRIA,1.0,Eleições Gerais Estaduais 2022,2022-02-10,ES,DEPUTADO FEDERAL,80001719429,HELDER SALOMÃO,13.0,PT,58,SUPERIOR COMPLETO,CASADO(A)
29258,2022.0,ELEIÇÃO ORDINÁRIA,1.0,Eleições Gerais Estaduais 2022,2022-02-10,MG,DEPUTADO FEDERAL,130002000000,ROSSY DA AUTO ESCOLA,14.0,PTB,58,SUPERIOR COMPLETO,DIVORCIADO(A)
29259,2022.0,ELEIÇÃO ORDINÁRIA,1.0,Eleições Gerais Estaduais 2022,2022-02-10,TO,DEPUTADO ESTADUAL,270002000000,LUANA RIBEIRO,65.0,PC do B,44,SUPERIOR COMPLETO,DIVORCIADO(A)
29260,2022.0,ELEIÇÃO ORDINÁRIA,1.0,Eleições Gerais Estaduais 2022,2022-02-10,MA,DEPUTADO FEDERAL,100002000000,MAGRADO,44.0,UNIÃO,49,SUPERIOR INCOMPLETO,DIVORCIADO(A)


# 17 - Comando Similar ao Left e Right do SQL Server

In [26]:
# COMANDO LEFT E RIGHT DO SQL SERVER #


AnoMes=['Jan2022', 'Fev2022', 'Mar2022', 'Abr2022','Mai2022','Jun2022','Jul2022','Ago2022','Set2022','Out2022','Nov2022','Dez2022']
Pedidos=['10','20','10','15','10','12','15','11','22','23','9','42']
Valor=['2314,09','22311,90','2421.78','4311.89','123143,49','12331.43','4321,44','54322,56','23421.5','43156,99','123599.65','9943543,99']


df=pd.DataFrame({"AnoMes":AnoMes,
                "QtdPedidos":Pedidos,
                "Vlr":Valor})

df['QtdPedidos_c'] = df['QtdPedidos'].astype(int)

df['Vlr_c'] = df['Vlr'].apply(lambda x: str(x).replace(",",".")).astype('float64')

df['Ano'] = df['AnoMes'].str[3:]

df['Mes'] = df['AnoMes'].str[:3]

df


Unnamed: 0,AnoMes,QtdPedidos,Vlr,QtdPedidos_c,Vlr_c,Ano,Mes
0,Jan2022,10,231409.0,10,2314.09,2022,Jan
1,Fev2022,20,2231190.0,20,22311.9,2022,Fev
2,Mar2022,10,2421.78,10,2421.78,2022,Mar
3,Abr2022,15,4311.89,15,4311.89,2022,Abr
4,Mai2022,10,12314349.0,10,123143.49,2022,Mai
5,Jun2022,12,12331.43,12,12331.43,2022,Jun
6,Jul2022,15,432144.0,15,4321.44,2022,Jul
7,Ago2022,11,5432256.0,11,54322.56,2022,Ago
8,Set2022,22,23421.5,22,23421.5,2022,Set
9,Out2022,23,4315699.0,23,43156.99,2022,Out


# 18 - Comando Similar ao Replicate "zfill()" do SQL Server

In [27]:
# COMPLETANDO COM ZERO A ESQUERDA #

AnoMes=['Jan2022', 'Fev2022', 'Mar2022', 'Abr2022','Mai2022','Jun2022','Jul2022','Ago2022','Set2022','Out2022','Nov2022','Dez2022']
Loja=['ABCDE','BCDE','CD','DEFGH','EFG','FGIJK','GHIJ','HI','IJ','JKL','KL','LMNOPQ']
Pedidos=['10','20','10','15','10','12','15','11','22','23','9','42']
Valor=['2314,09','22311,90','2421.78','4311.89','123143,49','12331.43','4321,44','54322,56','23421.5','43156,99','123599.65','9943543,99']


df=pd.DataFrame({"AnoMes":AnoMes,
                 "Loja":Loja,
                "QtdPedidos":Pedidos,
                "Vlr":Valor})

df['QtdPedidos_c'] = df['QtdPedidos'].astype(int)

df['Vlr_c'] = df['Vlr'].apply(lambda x: str(x).replace(",",".")).astype('float64')

df['Ano'] = df['AnoMes'].str[3:]

df['Mes'] = df['AnoMes'].str[:3]

df['Loja'] = pd.Series(df['Loja']).astype(str).str.zfill(10) 

df


Unnamed: 0,AnoMes,Loja,QtdPedidos,Vlr,QtdPedidos_c,Vlr_c,Ano,Mes
0,Jan2022,00000ABCDE,10,231409.0,10,2314.09,2022,Jan
1,Fev2022,000000BCDE,20,2231190.0,20,22311.9,2022,Fev
2,Mar2022,00000000CD,10,2421.78,10,2421.78,2022,Mar
3,Abr2022,00000DEFGH,15,4311.89,15,4311.89,2022,Abr
4,Mai2022,0000000EFG,10,12314349.0,10,123143.49,2022,Mai
5,Jun2022,00000FGIJK,12,12331.43,12,12331.43,2022,Jun
6,Jul2022,000000GHIJ,15,432144.0,15,4321.44,2022,Jul
7,Ago2022,00000000HI,11,5432256.0,11,54322.56,2022,Ago
8,Set2022,00000000IJ,22,23421.5,22,23421.5,2022,Set
9,Out2022,0000000JKL,23,4315699.0,23,43156.99,2022,Out


# 19 - Removendo Duplicidades em um DataFrame

In [28]:

arquivoCSV = '..\ProjetoPythonKB\Dados\Candidato\consulta_cand_2022_BRASIL.csv'

dfSigUFFiltrado = pd.DataFrame()

dfSigUFFiltrado.info()

dfCandidatos = pd.read_csv(arquivoCSV
                            , sep=';'
                            ,encoding='latin-1'
                            , usecols=[2,4,5,7,8,10,14,15,18,27,28,43,48,50]
                            ,names=['NumAnoEleicao'
                                    ,'NomTpoEleicao'
                                    ,'NumTurno'
                                    ,'DescEleicao'
                                    ,'DtEleicao'
                                    ,'SigUF'
                                    ,'DescCargo'
                                    ,'SeqCandidato'
                                    ,'NomCandidatoUrna'
                                    ,'NumPartido'
                                    ,'SigParido'
                                    ,'NumIdadePosse'
                                    ,'DescInstrucao'
                                    ,'DescEstadoCivil']
                            ,dtype={'NumAnoEleicao':'long'
                                    ,'NomTpoEleicao':'str'
                                    ,'NumTurno':'long'
                                    ,'DescEleicao':'str'
                                    ,'DtEleicao':'str'
                                    ,'SigUF':'str'
                                    ,'DescCargo':'str'
                                    ,'SeqCandidato':'str'
                                    ,'NomCandidatoUrna':'str'
                                    ,'NumPartido':'long'
                                    ,'SigParido':'str'
                                    ,'NumIdadePosse':'str'
                                    ,'DescInstrucao':'str'
                                    ,'DescEstadoCivil':'str'}
                            ,parse_dates=[4]
                            ,header=0)


dfCandidatos.groupby(['SigUF']).agg(Qtd=('SigUF','count'))

dfSigUFFiltrado = pd.DataFrame(dfCandidatos['SigUF'])

dfSigUFFiltrado = dfSigUFFiltrado.drop_duplicates(['SigUF'] , keep='first').reset_index(drop = True)

dfSigUFFiltrado


<class 'pandas.core.frame.DataFrame'>
Index: 0 entries
Empty DataFrame

Unnamed: 0,SigUF
0,PR
1,MS
2,GO
3,RN
4,SP
5,AL
6,PI
7,MT
8,RO
9,SC


# 20 - Relacionando DataFrames

In [29]:
# RELACIONANDO DOIS DATAFRAMES #

resultCandidatoBem = pd.merge(left=dfCandidatos
                              , right=dfBemCandidato
                              , left_on='SeqCandidato'
                              , right_on='SeqCandidato'                                                                                              
                                    )[['SeqCandidato'
                                       , 'NomCandidatoUrna'
                                       , 'DescCargo'
                                       , 'SigUF_y'
                                       , 'DescTpoBem'
                                       , 'VlrBem']]

resultCandidatoBem

Unnamed: 0,SeqCandidato,NomCandidatoUrna,DescCargo,SigUF_y,DescTpoBem,VlrBem
0,90001675157,CYNTHIA OLIVEIRA,DEPUTADO FEDERAL,GO,"Veículo automotor terrestre: caminhão, automóv...",1000.00
1,40001671799,CIMARA CAVALCANTE,DEPUTADO FEDERAL,AM,Dinheiro em espécie - moeda nacional,3000.00
2,90001652975,MAURICIO COMUNICATIVO LESTE,DEPUTADO ESTADUAL,GO,"Veículo automotor terrestre: caminhão, automóv...",15000.00
3,80001648791,PROFESSOR GEDAYAS DAYA,DEPUTADO ESTADUAL,ES,Casa,78000.00
4,60001619178,JOÃO JAIME,DEPUTADO ESTADUAL,CE,"Fundos: Ações, Mútuos de Privatização, Invest....",9140.29
...,...,...,...,...,...,...
20347,80001719429,HELDER SALOMÃO,DEPUTADO FEDERAL,ES,"Veículo automotor terrestre: caminhão, automóv...",50364.48
20348,80001719429,HELDER SALOMÃO,DEPUTADO FEDERAL,ES,VGBL - Vida Gerador de Benefício Livre,7171.68
20349,80001719429,HELDER SALOMÃO,DEPUTADO FEDERAL,ES,Sala ou conjunto,138547.87
20350,80001719429,HELDER SALOMÃO,DEPUTADO FEDERAL,ES,Apartamento,26000.00


# 21 - Comando Similar ao Case When do SQL Server

In [30]:
# APLICANDO O COMANDO CASE DO SQL SERVER #

arquivoCSV = '..\ProjetoPythonKB\Dados\Candidato\consulta_cand_2022_BRASIL.csv'

dfSigUFFiltrado = pd.DataFrame()

dfSigUFFiltrado.info()

dfCandidatos = pd.read_csv(arquivoCSV
                            , sep=';'
                            ,encoding='latin-1'
                            , usecols=[2,4,5,7,8,10,14,15,18,27,28,43,48,50]
                            ,names=['NumAnoEleicao'
                                    ,'NomTpoEleicao'
                                    ,'NumTurno'
                                    ,'DescEleicao'
                                    ,'DtEleicao'
                                    ,'SigUF'
                                    ,'DescCargo'
                                    ,'SeqCandidato'
                                    ,'NomCandidatoUrna'
                                    ,'NumPartido'
                                    ,'SigParido'
                                    ,'NumIdadePosse'
                                    ,'DescInstrucao'
                                    ,'DescEstadoCivil']
                            ,dtype={'NumAnoEleicao':'long'
                                    ,'NomTpoEleicao':'str'
                                    ,'NumTurno':'long'
                                    ,'DescEleicao':'str'
                                    ,'DtEleicao':'str'
                                    ,'SigUF':'str'
                                    ,'DescCargo':'str'
                                    ,'SeqCandidato':'str'
                                    ,'NomCandidatoUrna':'str'
                                    ,'NumPartido':'long'
                                    ,'SigParido':'str'
                                    ,'NumIdadePosse':'str'
                                    ,'DescInstrucao':'str'
                                    ,'DescEstadoCivil':'str'}
                            ,parse_dates=[4]
                            ,header=0)


dfCandidatos.groupby(['SigUF']).agg(Qtd=('SigUF','count'))

dfSigUFFiltrado = pd.DataFrame(dfCandidatos['SigUF'])

dfSigUFFiltrado = dfSigUFFiltrado.drop_duplicates(['SigUF'] , keep='first').reset_index(drop = True)

dfSigUFFiltrado.loc[dfSigUFFiltrado['SigUF'].isin(['AC','AP','AM','PA','TO','RR','RO']), 'NomRegiaoBrasil'] = 'Região Norte'

dfSigUFFiltrado.loc[dfSigUFFiltrado['SigUF'].isin(['AL','BA','CE','MA','PB','PE','PI','RN','SE']), 'NomRegiaoBrasil'] = 'Região Nordeste'

dfSigUFFiltrado.loc[dfSigUFFiltrado['SigUF'].isin(['GO','MS','MT','DF']), 'NomRegiaoBrasil'] = 'Região Centro-Oeste'

dfSigUFFiltrado.loc[dfSigUFFiltrado['SigUF'].isin(['ES','MG','RJ','SP']), 'NomRegiaoBrasil'] = 'Região Sudeste'

dfSigUFFiltrado.loc[dfSigUFFiltrado['SigUF'].isin(['PR','SC','RS']), 'NomRegiaoBrasil'] = 'Região Sul'

dfSigUFFiltrado.loc[dfSigUFFiltrado['SigUF'].isin(['BR']), 'NomRegiaoBrasil'] = 'Brasil'

dfSigUFFiltrado.sort_values(by=(['NomRegiaoBrasil','SigUF']),inplace=True,ignore_index=True)

dfSigUFFiltrado


<class 'pandas.core.frame.DataFrame'>
Index: 0 entries
Empty DataFrame

Unnamed: 0,SigUF,NomRegiaoBrasil
0,BR,Brasil
1,DF,Região Centro-Oeste
2,GO,Região Centro-Oeste
3,MS,Região Centro-Oeste
4,MT,Região Centro-Oeste
5,AL,Região Nordeste
6,BA,Região Nordeste
7,CE,Região Nordeste
8,MA,Região Nordeste
9,PB,Região Nordeste


# 22 - Importando Grandes Arquivos (chunksize)

# 23 - Importandos Vários Arquivos (For e Biblioteca OS)

In [31]:
import os

diretorioCSV = '..\ProjetoPythonKB\Dados\Candidato'

dfCandidato = pd.DataFrame()

for arquivoCSV in os.listdir(diretorioCSV):

    diretorioArquivoCSV = diretorioCSV + '\\' + arquivoCSV

    print(diretorioArquivoCSV)
    
    df = pd.read_csv(diretorioArquivoCSV
                    , sep=';'
                    , encoding='latin-1')
    
    df['ArquivoImportado'] = arquivoCSV
    
    dfCandidato = dfCandidato.append(df)
    
dfCandidato.groupby(['ArquivoImportado']).agg(Qtd=('ArquivoImportado','count'))

..\ProjetoPythonKB\Dados\Candidato\consulta_cand_2014_BRASIL.csv


  dfCandidato = dfCandidato.append(df)


..\ProjetoPythonKB\Dados\Candidato\consulta_cand_2018_BRASIL.csv


  df = pd.read_csv(diretorioArquivoCSV
  dfCandidato = dfCandidato.append(df)


..\ProjetoPythonKB\Dados\Candidato\consulta_cand_2022_BRASIL.csv


  dfCandidato = dfCandidato.append(df)


Unnamed: 0_level_0,Qtd
ArquivoImportado,Unnamed: 1_level_1
consulta_cand_2014_BRASIL.csv,26271
consulta_cand_2018_BRASIL.csv,29180
consulta_cand_2022_BRASIL.csv,29262


# 24 - Compactar (Zipar) um arquivo 

In [32]:
import os
import zipfile

arquivoZip = 'arquivo.zip'
diretorio = '..\ProjetoPythonKB\Dados\Candidato'

zf = zipfile.ZipFile(arquivoZip, "w")

for dirname, subdirs, files in os.walk(diretorio):
    zf.write(dirname)

    for filename in files:
        zf.write(os.path.join(dirname, filename))

zf.close()

In [33]:
import shutil

arquivoZip = 'arquivo2'
diretorio = '..\ProjetoPythonKB\Dados\Candidato'

shutil.make_archive(arquivoZip, 'zip', diretorio)

'C:\\Temp\\ProjetoPythonKB\\arquivo2.zip'

# 25 - Descompactar (Zipar) um arquivo 

In [34]:
from zipfile import ZipFile

diretorio = '..\\ProjetoPythonKB\\arquivo2.zip'

with ZipFile(diretorio, 'r') as zipObj:
   
   zipObj.extractall()

In [35]:
from zipfile import ZipFile

diretorioRaiz = '..\\ProjetoPythonKB\\arquivo2.zip'
diretorioUnZip = '..\\ProjetoPythonKB\\unzip' ## CASO NÃO EXISTE O DIRETÓRIO SERÁ CRIADO

with ZipFile(diretorio, 'r') as zipObj:
   
   zipObj.extractall(diretorioUnZip)

# 26 - Métodos de Importação Planilha do Excel

## 26.1 - Importando Planilha do Excel de forma FULL

In [36]:

arquivoXLSX = '..\ProjetoPythonKB\Dados\IndicadorSegurancaPublica\indicadoressegurancapublicauf.xlsx'


dfIndicadorSegurancaPublica = pd.read_excel(arquivoXLSX
                                           ,sheet_name='Vítimas')


dfIndicadorSegurancaPublica


Unnamed: 0,UF,Tipo Crime,Ano,Mês,Sexo da Vítima,Vítimas
0,Acre,Homicídio doloso,2022,janeiro,Feminino,2
1,Acre,Homicídio doloso,2022,janeiro,Masculino,8
2,Acre,Homicídio doloso,2022,janeiro,Sexo NI,0
3,Acre,Homicídio doloso,2022,fevereiro,Feminino,0
4,Acre,Homicídio doloso,2022,fevereiro,Masculino,10
...,...,...,...,...,...,...
18535,Tocantins,Roubo seguido de morte (latrocínio),2015,junho,Masculino,1
18536,Tocantins,Roubo seguido de morte (latrocínio),2015,julho,Masculino,1
18537,Tocantins,Roubo seguido de morte (latrocínio),2015,agosto,Masculino,1
18538,Tocantins,Roubo seguido de morte (latrocínio),2015,outubro,Masculino,2


## 26.2 - Importando Planilha do Excel Definindo Colunas e Datatypes

In [37]:
# IMPORTAÇÃO SIMPLES DE PLANILHA EXCEL #

arquivoXLSX = '..\ProjetoPythonKB\Dados\IndicadorSegurancaPublica\indicadoressegurancapublicauf.xlsx'


dfIndicadorSegurancaPublica = pd.read_excel(arquivoXLSX
                                           ,sheet_name='Vítimas'
                                            , usecols=[0,1,2,3,4,5]
                      , names=['CodUf'
                               , 'TpoCrime'
                               , 'NumAno'
                               , 'NumMes'
                               , 'CodSexo'
                               , 'NumVitima']
                      , dtype={'CodUf':'str'
                               , 'TpoCrime':'str'
                               , 'NumAno':'int'
                               , 'NumMes':'str'
                               , 'CodSexo':'str'
                               , 'NumVitima':'int'}
                      ,header=0)


dfIndicadorSegurancaPublica


Unnamed: 0,CodUf,TpoCrime,NumAno,NumMes,CodSexo,NumVitima
0,Acre,Homicídio doloso,2022,janeiro,Feminino,2
1,Acre,Homicídio doloso,2022,janeiro,Masculino,8
2,Acre,Homicídio doloso,2022,janeiro,Sexo NI,0
3,Acre,Homicídio doloso,2022,fevereiro,Feminino,0
4,Acre,Homicídio doloso,2022,fevereiro,Masculino,10
...,...,...,...,...,...,...
18535,Tocantins,Roubo seguido de morte (latrocínio),2015,junho,Masculino,1
18536,Tocantins,Roubo seguido de morte (latrocínio),2015,julho,Masculino,1
18537,Tocantins,Roubo seguido de morte (latrocínio),2015,agosto,Masculino,1
18538,Tocantins,Roubo seguido de morte (latrocínio),2015,outubro,Masculino,2
