# Pandas - Exemplos de consultas diversas

### Importação de Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import pandera as pa

### Configuração do ambiente

In [2]:
pd.options.display.float_format = '{:20,.2f}'.format
pd.option_context('display.precision', 2)

<pandas._config.config.option_context at 0x1b4e5a1f880>

## Dataframes para os exemplos

### Criação de um Dataframe do zero

In [3]:
# Criando o numpy.array (data) bidimensional
data = np.array([['Analista de Contabilidade', 'Contabilidade', 10000.00],
                ['Analista de Contabilidade', 'Contabilidade', 10000.00],
                ['Engenheiro Civil', 'Engenharia', 15000.00],
                ['Desenvolvedor', 'TI', 11000.00],
                ['Gerente de TI', 'TI',  15000.0],
                ['Analista de BI', 'TI', 13000.0],
                ['DBA', 'TI', 10500.00],
                ['Analista Financeiro', 'Finanças', 10500.00]])

#Criando o DataFrame com o np.array (data) com as colunas ('Cargo', 'Area', 'Salario'), indexado de 100 até 108
dfc = pd.DataFrame(data, index=range(100,108),columns=['Cargo', 'Area', 'Salario'])
dfc

Unnamed: 0,Cargo,Area,Salario
100,Analista de Contabilidade,Contabilidade,10000.0
101,Analista de Contabilidade,Contabilidade,10000.0
102,Engenheiro Civil,Engenharia,15000.0
103,Desenvolvedor,TI,11000.0
104,Gerente de TI,TI,15000.0
105,Analista de BI,TI,13000.0
106,DBA,TI,10500.0
107,Analista Financeiro,Finanças,10500.0


### Carga de arquivo Excel

In [4]:
dfa = pd.read_excel('Datasets/AdventureWorks.xlsx')
dfa

Unnamed: 0,Data Venda,Data Envio,ID Loja,ID Produto,ID Cliente,No. Venda,Custo Unitário,Preço Unitário,Quantidade,Valor Desconto,Valor Venda,Produto,Fabricante,Marca,Classe,Cor
0,2008-05-09,2008-05-29,199,384,18839,200805093CS607,348.58,758.00,6,0.00,4548.00,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
1,2008-05-12,2008-05-17,306,384,19051,200805123CS567,348.58,758.00,6,0.00,4548.00,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
2,2008-05-14,2008-05-20,306,384,19052,200805143CS576,348.58,758.00,6,0.00,4548.00,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
3,2008-05-21,2008-05-27,306,384,19052,200805213CS576,348.58,758.00,6,0.00,4548.00,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
4,2008-06-20,2008-06-27,306,384,19053,200806203CS586,348.58,758.00,6,0.00,4548.00,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
899,2008-03-22,2008-04-04,306,1226,19049,200803224CS555,330.99,999.00,6,419.58,5574.42,Fabrikam Trendsetter 1/3'' 8.5mm X200 Black,"Fabrikam, Inc.",Fabrikam,Regular,Black
900,2008-10-04,2008-10-15,306,1155,19057,200810044CS636,324.69,980.00,6,1176.00,4704.00,Fabrikam Trendsetter 2/3'' 17mm X100 Black,"Fabrikam, Inc.",Fabrikam,Regular,Black
901,2008-12-11,2008-12-15,306,1155,19060,200812114CS676,324.69,980.00,6,1176.00,4704.00,Fabrikam Trendsetter 2/3'' 17mm X100 Black,"Fabrikam, Inc.",Fabrikam,Regular,Black
902,2008-12-17,2008-12-21,306,1226,19060,200812174CS676,330.99,999.00,6,1198.80,4795.20,Fabrikam Trendsetter 1/3'' 8.5mm X200 Black,"Fabrikam, Inc.",Fabrikam,Regular,Black


### Carga de Arquivo CSV - Com validações
 - sep = Separador
 - parse_dates = Avalia e transforma em um campo data
 - dayfirst = Informa que os campos datas tem na primeira parte o valor do dia
 - na_values = Trasforma os valores identificados nesta lista em valores nulos
 - decimal = Caracter para reconhecer o ponto decimal 
 
 e validação do schema com a biblioteca **Pandera**

In [5]:
valores_ausentes = ['**','***','###!','####','****','*****','NULL'] 
dfo = pd.read_csv("Datasets\ocorrencia_2010_2020.csv", sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes) 
schema = pa.DataFrameSchema( 
    columns = { 
        "codigo_ocorrencia": pa.Column(pa.Int), 
        "codigo_ocorrencia2": pa.Column(pa.Int), 
        "ocorrencia_classificacao": pa.Column(pa.String), 
        "ocorrencia_cidade": pa.Column(pa.String), 
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True), 
        "ocorrencia_aerodromo": pa.Column(pa.String, nullable=True), 
        "ocorrencia_dia": pa.Column(pa.DateTime), 
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches( 
               r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True), 
        "total_recomendacoes": pa.Column(pa.Int), 
        "obs": pa.Column(pa.String, required=False) 
    }    
)

schema.validate(dfo)


Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5747,79804,79804,79804,79804,79804,INCIDENTE,-23.0069444444,-47.1344444444,CAMPINAS,SP,...,2020-12-29,19:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5748,79757,79757,79757,79757,79757,INCIDENTE GRAVE,-10.804722,-49.756389,LAGOA DA CONFUSÃO,TO,...,2020-12-30,18:30:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5749,79802,79802,79802,79802,79802,INCIDENTE,-22.81,-43.25055555555,RIO DE JANEIRO,RJ,...,2020-12-30,00:54:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5750,79756,79756,79756,79756,79756,INCIDENTE GRAVE,-22.507222,-54.364167,VICENTINA,MS,...,2020-12-31,09:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


### Carga de Arquivo CSV

#### Com data e hora

In [6]:
dfr = pd.read_csv('Datasets/reviews.csv',parse_dates=['review_creation_date','review_answer_timestamp'])
dfr

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17,2018-02-18 14:36:24
3,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21,2017-04-21 22:02:06
4,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01,2018-03-02 10:26:53
...,...,...,...,...,...,...,...
99995,f3897127253a9592a73be9bdfdf4ed7a,22ec9f0669f784db00fa86d035cf8602,5,,,2017-12-09,2017-12-11 20:06:42
99996,b3de70c89b1510c4cd3d0649fd302472,55d4004744368f5571d1f590031933e4,5,,"Excelente mochila, entrega super rápida. Super...",2018-03-22,2018-03-23 09:10:43
99997,1adeb9d84d72fe4e337617733eb85149,7725825d039fc1f0ceb7635e3f7d9206,4,,,2018-07-01,2018-07-02 12:59:13
99998,be360f18f5df1e0541061c87021e6d93,f8bd3f2000c28c5342fedeb5e50f2e75,1,,Solicitei a compra de uma capa de retrovisor c...,2017-12-15,2017-12-16 01:29:43


#### Com casas decimais

In [7]:
ds = pd.read_csv('Datasets\Arquivo_Salarios_Colaboradores_2020.csv',sep=';', decimal=',')
ds.head()

Unnamed: 0,Ordem,salario,idade,tempocasa,escolar,qproj_estra,proj_sustent,proj_6sigma,proj_social,notaavalia
0,1,8000.8,25,4,11,1,1,1,0,79.38
1,2,8500.17,24,5,11,0,0,1,0,84.13
2,3,3350.59,22,1,12,0,0,0,0,46.15
3,4,9500.24,28,4,14,1,0,0,1,83.85
4,5,1500.63,12,2,12,0,0,0,1,73.64


## Informações do Dataframe

### Quantidade de linhas e colunas

In [8]:
ds.shape

(180, 10)

### Tipos das colunas

In [9]:
ds.dtypes

Ordem             int64
salario         float64
idade             int64
tempocasa         int64
escolar           int64
qproj_estra       int64
proj_sustent      int64
proj_6sigma       int64
proj_social       int64
notaavalia      float64
dtype: object

### Estatística do Dataframe

In [10]:
ds.describe()

Unnamed: 0,Ordem,salario,idade,tempocasa,escolar,qproj_estra,proj_sustent,proj_6sigma,proj_social,notaavalia
count,180.0,180.0,180.0,180.0,180.0,180.0,180.0,180.0,180.0,180.0
mean,90.5,8539.49,31.04,9.07,12.58,1.27,0.28,0.55,0.5,71.74
std,52.11,4729.51,9.4,5.61,2.57,1.22,0.45,0.5,0.5,15.99
min,1.0,1500.63,12.0,1.0,7.0,0.0,0.0,0.0,0.0,34.48
25%,45.75,5491.23,24.0,5.0,11.0,1.0,0.0,0.0,0.0,60.41
50%,90.5,7551.12,28.0,7.0,13.0,1.0,0.0,1.0,0.5,72.08
75%,135.25,10584.68,36.0,13.0,14.0,1.0,1.0,1.0,1.0,83.85
max,180.0,25329.91,65.0,25.0,19.0,7.0,1.0,1.0,1.0,98.96


## Consultas no Dataframe

### Retorna os primeiros registros. Padrão 5 registros.

In [11]:
ds.head()

Unnamed: 0,Ordem,salario,idade,tempocasa,escolar,qproj_estra,proj_sustent,proj_6sigma,proj_social,notaavalia
0,1,8000.8,25,4,11,1,1,1,0,79.38
1,2,8500.17,24,5,11,0,0,1,0,84.13
2,3,3350.59,22,1,12,0,0,0,0,46.15
3,4,9500.24,28,4,14,1,0,0,1,83.85
4,5,1500.63,12,2,12,0,0,0,1,73.64


### Retorna os últimos registros. Padrão 5 registros.

In [12]:
ds.tail()

Unnamed: 0,Ordem,salario,idade,tempocasa,escolar,qproj_estra,proj_sustent,proj_6sigma,proj_social,notaavalia
175,176,7896.7,36,14,13,0,1,1,1,88.87
176,177,10575.13,26,15,14,1,0,1,1,85.45
177,178,6309.66,36,3,14,1,0,0,1,76.72
178,179,2100.68,28,11,12,0,1,0,1,76.22
179,180,4059.13,21,3,15,1,1,0,1,79.4


### Retorna registros aleatórios.

In [13]:
ds.sample(5)

Unnamed: 0,Ordem,salario,idade,tempocasa,escolar,qproj_estra,proj_sustent,proj_6sigma,proj_social,notaavalia
56,57,4000.19,25,4,11,1,1,1,0,79.38
15,16,8190.01,29,4,8,1,0,1,0,68.65
53,54,6249.58,36,4,13,1,0,0,0,81.35
153,154,4205.35,36,5,15,1,0,1,0,78.81
113,114,10107.15,43,10,13,1,0,1,0,67.42


### Acessando o conteúdo de uma coluna do DataFrame

In [14]:
ds.salario

0                 8,000.80
1                 8,500.17
2                 3,350.59
3                 9,500.24
4                 1,500.63
              ...         
175               7,896.70
176              10,575.13
177               6,309.66
178               2,100.68
179               4,059.13
Name: salario, Length: 180, dtype: float64

### Acessando o conteúdo de uma coluna do DataFrame pelo Dicionário

In [15]:
ds['salario']

0                 8,000.80
1                 8,500.17
2                 3,350.59
3                 9,500.24
4                 1,500.63
              ...         
175               7,896.70
176              10,575.13
177               6,309.66
178               2,100.68
179               4,059.13
Name: salario, Length: 180, dtype: float64

### Se quiser fazer um drill down naquela coluna e especificar o registro, basta colocar o [ ] e informar o registro

In [16]:
ds['salario'][177]

6309.66

### Selecionar os maiores valores de um determinado campo

In [17]:
ds.nlargest(3, "salario")

Unnamed: 0,Ordem,salario,idade,tempocasa,escolar,qproj_estra,proj_sustent,proj_6sigma,proj_social,notaavalia
161,162,25329.91,51,21,17,2,0,1,0,63.03
108,109,24660.55,58,20,17,6,0,1,1,98.96
162,163,24567.23,46,16,15,2,1,1,0,63.44


### Selecionar os menores valores de um determinado campo

In [18]:
ds.nsmallest(3, "salario")

Unnamed: 0,Ordem,salario,idade,tempocasa,escolar,qproj_estra,proj_sustent,proj_6sigma,proj_social,notaavalia
4,5,1500.63,12,2,12,0,0,0,1,73.64
30,31,1750.18,20,6,12,0,0,1,0,48.75
88,89,1750.84,23,7,8,0,1,0,1,75.73


### Exibe os valores únicos de Área

In [19]:
dfc["Area"].unique()

array(['Contabilidade', 'Engenharia', 'TI', 'Finanças'], dtype=object)

### Contar a quantidade de valores do campo

In [20]:
ds.proj_sustent.value_counts()

0    130
1     50
Name: proj_sustent, dtype: int64

### Conta a quantidade de valores de cada LojaID e ordena do maior para o menor

In [21]:
dfa["ID Loja"].value_counts(ascending=False)

307    319
199    307
306    278
Name: ID Loja, dtype: int64

### Podemos utilizar o Dataframe com o método query para selecionar registros

In [22]:
 ds.query('idade >= 18')[['salario','idade']]

Unnamed: 0,salario,idade
0,8000.80,25
1,8500.17,24
2,3350.59,22
3,9500.24,28
5,5500.22,26
...,...,...
175,7896.70,36
176,10575.13,26
177,6309.66,36
178,2100.68,28


## Ulizamo copy para criar um Dataframe novo com base em um dataframe existente

In [23]:
salario_semout =  ds.query('idade >= 18').copy()

### Localizando Registros através do índice

In [24]:
ds.iloc[0] # Pega todo o registro 0

Ordem                          1.00
salario                    8,000.80
idade                         25.00
tempocasa                      4.00
escolar                       11.00
qproj_estra                    1.00
proj_sustent                   1.00
proj_6sigma                    1.00
proj_social                    0.00
notaavalia                    79.38
Name: 0, dtype: float64

In [25]:
ds.iloc[:, 0] # Pega todas as linas da coluna 0

0        1
1        2
2        3
3        4
4        5
      ... 
175    176
176    177
177    178
178    179
179    180
Name: Ordem, Length: 180, dtype: int64

In [26]:
ds.iloc[:3, 0] # Pega os 3 primeiros registros da coluna 0

0    1
1    2
2    3
Name: Ordem, dtype: int64

In [27]:
ds.iloc[-5:] # Pega os últimos cinco elementos do conjunto de dados

Unnamed: 0,Ordem,salario,idade,tempocasa,escolar,qproj_estra,proj_sustent,proj_6sigma,proj_social,notaavalia
175,176,7896.7,36,14,13,0,1,1,1,88.87
176,177,10575.13,26,15,14,1,0,1,1,85.45
177,178,6309.66,36,3,14,1,0,0,1,76.72
178,179,2100.68,28,11,12,0,1,0,1,76.22
179,180,4059.13,21,3,15,1,1,0,1,79.4


### Localizando registros com base em uma determinada condição

Retorna os campos 'ID Produto','ID Cliente','Data Venda', que satisfaçam a condição.
Neste exemplo a condição era pegar os sete primeiros valores do campo 'Produto' e comparar com os sete primeiros valores do campo 'Fabricante' 

In [28]:
dfa.loc[(dfa.Produto.str.slice(0, 7) == dfa.Fabricante.str.slice(0, 7)), ['ID Produto','ID Cliente','Data Venda']]

Unnamed: 0,ID Produto,ID Cliente,Data Venda
0,384,18839,2008-05-09
1,384,19051,2008-05-12
2,384,19052,2008-05-14
3,384,19052,2008-05-21
4,384,19053,2008-06-20
...,...,...,...
899,1226,19049,2008-03-22
900,1155,19057,2008-10-04
901,1155,19060,2008-12-11
902,1226,19060,2008-12-17


### Para localizar registros com valores nulos

In [29]:
dfo.loc[dfo.ocorrencia_latitude.isnull()]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5,39807,39807,39807,39807,39807,INCIDENTE,,,SALVADOR,BA,...,2010-01-06,17:53:00,,,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5201,79022,79022,79022,79022,79022,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2019-11-30,01:49:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5206,79025,79025,79025,79025,79025,INCIDENTE GRAVE,,,VERA,MT,...,2019-12-04,20:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5216,79030,79030,79030,79030,79030,INCIDENTE GRAVE,,,BRAGANÇA PAULISTA,SP,...,2019-12-16,09:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5302,79331,79331,79331,79331,79331,INCIDENTE,,,PONTES E LACERDA,MT,...,2020-02-03,00:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


### Para localizar registros com valores não nulos

In [30]:
dfo.loc[(dfo.ocorrencia_classificacao != 'INCIDENTE') & (dfo.ocorrencia_latitude.notnull())]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
7,39707,39707,39707,39707,39707,INCIDENTE GRAVE,-6.5319444444,-64.3805555556,CANUTAMA,AM,...,2010-01-09,12:30:00,SIM,FINALIZADA,IG-028/CENIPA/2011,SIM,2011-07-21,3,1,NÃO
8,39156,39156,39156,39156,39156,INCIDENTE GRAVE,-15.2402777778,-59.3541666667,CASCAVEL,PR,...,2010-01-10,23:15:00,SIM,FINALIZADA,I-004/CENIPA/2011,SIM,2011-06-30,2,1,NÃO
11,40069,40069,40069,40069,40069,ACIDENTE,-23.5069444444,-46.6341666667,SÃO PAULO,SP,...,2010-01-10,14:50:00,SIM,FINALIZADA,A-121/CENIPA/2012,SIM,2012-11-19,8,1,NÃO
13,39507,39507,39507,39507,39507,ACIDENTE,-15.5588888889,-54.3047222222,PRIMAVERA DO LESTE,MT,...,2010-01-11,17:00:00,SIM,FINALIZADA,A-016/CENIPA/2011,SIM,2011-06-30,2,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5744,79753,79753,79753,79753,79753,INCIDENTE GRAVE,-18.045000,-49.966944,GOIATUBA,GO,...,2020-12-29,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,SIM
5745,79755,79755,79755,79755,79755,ACIDENTE,-24.659729,-52.289648,MATO RICO,PR,...,2020-12-29,10:30:00,NÃO,ATIVA,A-160/CENIPA/2020,NÃO,,0,1,NÃO
5746,79769,79769,79769,79769,79769,INCIDENTE GRAVE,-8.849167,-69.266389,MANOEL URBANO,AC,...,2020-12-29,18:30:00,SIM,FINALIZADA,,NÃO,,0,1,SIM
5748,79757,79757,79757,79757,79757,INCIDENTE GRAVE,-10.804722,-49.756389,LAGOA DA CONFUSÃO,TO,...,2020-12-30,18:30:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


### Diferenças de uso entre o loc e o iloc

In [31]:
ds.iloc[10:15] # o iloc irá trazer 10 a 15 não incluindo o 15 - 5 registros

Unnamed: 0,Ordem,salario,idade,tempocasa,escolar,qproj_estra,proj_sustent,proj_6sigma,proj_social,notaavalia
10,11,8750.38,26,5,10,0,1,0,1,74.58
11,12,5500.8,24,13,10,1,0,0,0,65.1
12,13,5750.83,26,18,11,1,0,0,0,43.44
13,14,16284.13,47,7,14,2,0,1,1,66.15
14,15,18120.84,65,9,14,2,0,1,1,76.56


In [32]:
ds.loc[10:15] # irá trazer o 10 a 15 inclusive o 15 - 6 registros

Unnamed: 0,Ordem,salario,idade,tempocasa,escolar,qproj_estra,proj_sustent,proj_6sigma,proj_social,notaavalia
10,11,8750.38,26,5,10,0,1,0,1,74.58
11,12,5500.8,24,13,10,1,0,0,0,65.1
12,13,5750.83,26,18,11,1,0,0,0,43.44
13,14,16284.13,47,7,14,2,0,1,1,66.15
14,15,18120.84,65,9,14,2,0,1,1,76.56
15,16,8190.01,29,4,8,1,0,1,0,68.65


## Consulta com vários filtros e operadores lógicos ( & == and ) ( | == or )

In [33]:
filtro1 = (dfo.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (dfo.ocorrencia_classificacao == 'INCIDENTE') 
filtro2 = (dfo.total_recomendacoes > 0) & (dfo.ocorrencia_cidade.isin(['SÃO PAULO', 'GUARULHOS', 'CAMPINAS'])) 
dfo.loc[filtro1 & filtro2, ['codigo_ocorrencia', 'ocorrencia_classificacao', 'ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_cidade,total_recomendacoes
219,41411,INCIDENTE GRAVE,SÃO PAULO,2
1024,45553,INCIDENTE GRAVE,SÃO PAULO,5
1532,46451,INCIDENTE GRAVE,CAMPINAS,1
2615,51027,INCIDENTE GRAVE,GUARULHOS,3
3932,66444,INCIDENTE GRAVE,SÃO PAULO,1
3966,66544,INCIDENTE,SÃO PAULO,1
4849,78590,INCIDENTE GRAVE,CAMPINAS,3


### Consulta por data

In [34]:
filtro1 = (dfo.ocorrencia_dia.dt.year == 2015) 
filtro2 = (dfo.ocorrencia_dia.dt.month == 12) 
filtro3 = (dfo.ocorrencia_dia.dt.day > 2) & (dfo.ocorrencia_dia.dt.day < 9) 
dfo.loc[filtro1 & filtro2 & filtro3, ['codigo_ocorrencia', 'ocorrencia_classificacao', 'ocorrencia_cidade', 'ocorrencia_dia']]

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_dia
3432,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,2015-12-03
3433,60637,INCIDENTE,BELO HORIZONTE,2015-12-03
3434,53625,ACIDENTE,TRINDADE,2015-12-06
3435,53626,ACIDENTE,AMERICANA,2015-12-06
3436,53628,ACIDENTE,AGUAÍ,2015-12-08
3437,53629,ACIDENTE,JALES,2015-12-08
3438,53631,INCIDENTE,CAMPINAS,2015-12-08
3439,60636,INCIDENTE,CAXIAS DO SUL,2015-12-08


### Consulta por data e hora

In [35]:
filtro1 = (dfr.review_answer_timestamp >= '2018-04-14 13:00:00')
filtro2 = (dfr.review_answer_timestamp <= '2018-04-17 14:12:00')
dfr.loc[filtro1 & filtro2, ['order_id', 'review_answer_timestamp']]

Unnamed: 0,order_id,review_answer_timestamp
5,b18dcdf73be66366873cd26c5724d1dc,2018-04-16 00:39:37
426,b296bc0dc4e73e99c3f6196a1b97b9aa,2018-04-15 16:12:13
650,bdf7cbcf2a174866c15ade0d9a55bf7d,2018-04-16 12:34:37
1124,f2e503ec5863ccf71c41fbe188c1879f,2018-04-16 11:22:19
1241,75c838929fc9fdc534736298de895cf0,2018-04-15 22:56:33
...,...,...
99163,d41eaefcbf24537ea6d79847d02a02f7,2018-04-16 03:05:25
99179,f23809a318245a674bc438904349ec63,2018-04-15 13:11:58
99619,a4bc6ee8a0b10b9362660438b786cdaf,2018-04-15 01:47:15
99826,29762256baa078e5ee816868b0224ae4,2018-04-15 20:52:35


### Retornando a data mais antiga

In [36]:
dfr['review_creation_date'].min()

Timestamp('2016-10-02 00:00:00')

## Para pesquisar um determinado registro, com texto, tipo LIKE

### O parametro "case" se True, case sensitive.

In [37]:
dfa.loc[dfa['Produto'].str.contains("red", case=False)]

Unnamed: 0,Data Venda,Data Envio,ID Loja,ID Produto,ID Cliente,No. Venda,Custo Unitário,Preço Unitário,Quantidade,Valor Desconto,Valor Venda,Produto,Fabricante,Marca,Classe,Cor
0,2008-05-09,2008-05-29,199,384,18839,200805093CS607,348.58,758.00,6,0.00,4548.00,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
1,2008-05-12,2008-05-17,306,384,19051,200805123CS567,348.58,758.00,6,0.00,4548.00,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
2,2008-05-14,2008-05-20,306,384,19052,200805143CS576,348.58,758.00,6,0.00,4548.00,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
3,2008-05-21,2008-05-27,306,384,19052,200805213CS576,348.58,758.00,6,0.00,4548.00,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
4,2008-06-20,2008-06-27,306,384,19053,200806203CS586,348.58,758.00,6,0.00,4548.00,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,2009-03-17,2009-03-29,307,384,19118,200903173CS708,348.58,758.00,6,909.60,3638.40,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
814,2009-06-07,2009-06-16,307,384,19125,200906073CS715,348.58,758.00,6,454.80,4093.20,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
815,2009-10-12,2009-10-21,306,384,19075,200910123CS765,348.58,758.00,6,909.60,3638.40,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
816,2009-11-08,2009-11-12,307,384,19140,200911083CS730,348.58,758.00,6,682.20,3865.80,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red


### Pode recuperar somente campos com valores válidos, excluindo os nulos

In [38]:
dfo.loc[dfo['investigacao_status'].str.contains("FINALIZADA", case=False).fillna(False)].count()

codigo_ocorrencia                 4911
codigo_ocorrencia1                4911
codigo_ocorrencia2                4911
codigo_ocorrencia3                4911
codigo_ocorrencia4                4911
ocorrencia_classificacao          4911
ocorrencia_latitude               2839
ocorrencia_longitude              2837
ocorrencia_cidade                 4911
ocorrencia_uf                     4910
ocorrencia_pais                   4911
ocorrencia_aerodromo              3057
ocorrencia_dia                    4911
ocorrencia_hora                   4910
investigacao_aeronave_liberada    2840
investigacao_status               4911
divulgacao_relatorio_numero       1641
divulgacao_relatorio_publicado    4911
divulgacao_dia_publicacao         1494
total_recomendacoes               4911
total_aeronaves_envolvidas        4911
ocorrencia_saida_pista            4911
dtype: int64

### Pode usar dois textos, como se fosse um "or"

In [39]:
dfo.loc[dfo['ocorrencia_cidade'].str.contains("CAMPINAS|GUARULHOS", case=False)]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
27,39768,39768,39768,39768,39768,INCIDENTE,,,CAMPINAS,SP,...,2010-01-21,20:45:00,,,,NÃO,,0,1,NÃO
33,39848,39848,39848,39848,39848,INCIDENTE,,,GUARULHOS,SP,...,2010-01-25,17:05:00,,,,NÃO,,0,1,NÃO
55,39178,39178,39178,39178,39178,INCIDENTE,,,CAMPINAS,SP,...,2010-02-08,12:33:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
76,40331,40331,40331,40331,40331,INCIDENTE,,,CAMPINAS,SP,...,2010-02-28,09:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
79,39910,39910,39910,39910,39910,INCIDENTE,,,GUARULHOS,SP,...,2010-03-08,00:49:00,,,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5623,79588,79588,79588,79588,79588,INCIDENTE,-23.00694444444,-47.13333333333,CAMPINAS,SP,...,2020-10-02,10:50:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5661,79649,79649,79649,79649,79649,INCIDENTE,-23.0069,-47.1344,CAMPINAS,SP,...,2020-11-04,22:39:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5681,79679,79679,79679,79679,79679,INCIDENTE,-23.4355555555,-46.4730555555,GUARULHOS,SP,...,2020-11-17,16:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5700,79699,79699,79699,79699,79699,INCIDENTE,-23.4355555555,-46.4730555555,GUARULHOS,SP,...,2020-11-30,17:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


### Para pesquisar um determinado registro, com o texto no inicio

In [40]:
dfo[dfo['ocorrencia_cidade'].str.startswith('GUA').fillna(False)]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
33,39848,39848,39848,39848,39848,INCIDENTE,,,GUARULHOS,SP,...,2010-01-25,17:05:00,,,,NÃO,,0,1,NÃO
79,39910,39910,39910,39910,39910,INCIDENTE,,,GUARULHOS,SP,...,2010-03-08,00:49:00,,,,NÃO,,0,1,NÃO
87,41986,41986,41986,41986,41986,INCIDENTE,,,GUARULHOS,SP,...,2010-03-11,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
91,40320,40320,40320,40320,40320,INCIDENTE,,,GUARULHOS,SP,...,2010-03-15,09:57:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
97,41999,41999,41999,41999,41999,INCIDENTE,,,GUARULHOS,SP,...,2010-03-18,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5525,79457,79457,79457,79457,79457,ACIDENTE,-27.08722222222,-48.97222222222,GUABIRUBA,SC,...,2020-07-25,13:30:00,SIM,ATIVA,A-092/CENIPA/2020,NÃO,,0,1,NÃO
5527,79471,79471,79471,79471,79471,INCIDENTE,-23.43194444444,-46.46944444444,GUARULHOS,SP,...,2020-07-26,13:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5565,79505,79505,79505,79505,79505,ACIDENTE,-22.791667,-45.204444,GUARATINGUETÁ,SP,...,2020-08-26,17:10:00,SIM,ATIVA,A-101/CENIPA/2020,NÃO,,0,1,SIM
5681,79679,79679,79679,79679,79679,INCIDENTE,-23.4355555555,-46.4730555555,GUARULHOS,SP,...,2020-11-17,16:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


## Para tratar a ordem, tipo orderby

In [41]:
filtro1 = (dfr.review_answer_timestamp >= '2018-04-14 13:00:00')
filtro2 = (dfr.review_answer_timestamp <= '2018-04-17 14:12:00')
dfr.loc[filtro1 & filtro2, [ 'order_id', 'review_answer_timestamp']].sort_values(['review_answer_timestamp'], ascending=False)

Unnamed: 0,order_id,review_answer_timestamp
79982,5ec8f4e8fe5ee3fd5460b244d0804f9e,2018-04-17 14:11:11
5352,7f6d16fab3bed015ec202cc66b21283f,2018-04-17 14:08:27
90070,eca3f5e429027f406b64f21754673030,2018-04-17 14:08:24
19269,88daafa15ce9145c1cc5d0a5b4fcaab1,2018-04-17 13:22:13
37148,c45725810993c33b0e77b1fb8262692b,2018-04-17 13:18:38
...,...,...
58744,a56a8219728fdbdc71a20c07b77f1328,2018-04-14 13:02:08
72121,11bae3be28f0706705a8ea753466a1e2,2018-04-14 13:01:22
55378,ab292f6c11a661dd97feca37ffe7b162,2018-04-14 13:00:37
59184,d79c75050fb130c942055bff27c1be5a,2018-04-14 13:00:19


## Agrupando Valores - Group By

In [42]:
dfa.groupby(['Fabricante'])['Preço Unitário'].agg([len, min, max])

Unnamed: 0_level_0,len,min,max
Fabricante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adventure Works,238.0,758.0,758.0
"Contoso, Ltd",172.0,9.99,9.99
"Fabrikam, Inc.",494.0,980.0,999.0


In [43]:
dfa.groupby(['Fabricante','Data Venda'])['Data Venda'].count()

Fabricante       Data Venda
Adventure Works  2008-01-16    1
                 2008-01-17    1
                 2008-01-23    1
                 2008-01-30    1
                 2008-02-01    1
                              ..
Fabrikam, Inc.   2009-12-21    1
                 2009-12-23    1
                 2009-12-26    1
                 2009-12-27    1
                 2009-12-28    3
Name: Data Venda, Length: 700, dtype: int64

In [44]:
dfa.groupby('ID Loja').Produto.agg([len])

Unnamed: 0_level_0,len
ID Loja,Unnamed: 1_level_1
199,307
306,278
307,319


### Agrupa por ID Loja e exibe os valores diferentes para cada Produto

In [45]:
dfa.groupby("ID Loja")["Produto"].nunique()

ID Loja
199    9
306    9
307    9
Name: Produto, dtype: int64

### Agrupa por Ano

In [46]:
dfr.groupby(dfr["review_creation_date"].dt.year)["review_score"].sum()

review_creation_date
2016      1162
2017    176383
2018    229544
Name: review_score, dtype: int64

### Com GroupBy é melhor as vezes usar o size do que o count, pois o count ele pode não contar todos os registros se o valor for nulo, conforme exemplos abaixo

In [47]:
dfo.groupby(['ocorrencia_classificacao']).divulgacao_dia_publicacao.size()

ocorrencia_classificacao
ACIDENTE           1844
INCIDENTE          3171
INCIDENTE GRAVE     737
Name: divulgacao_dia_publicacao, dtype: int64

In [48]:
dfo.groupby(['ocorrencia_classificacao']).divulgacao_dia_publicacao.count()

ocorrencia_classificacao
ACIDENTE           1100
INCIDENTE            19
INCIDENTE GRAVE     375
Name: divulgacao_dia_publicacao, dtype: int64

### Outro cuidado com o GroupBy é que se o campo que está agrupando possuir valores nulos ele trará as linhas por default, tem que especificar a necessidade ou não do retorno, conforme exemplos abaixo

In [49]:
dfo.groupby(['ocorrencia_aerodromo']).total_recomendacoes.sum()

ocorrencia_aerodromo
5JTI    2
9PAA    0
9PFC    0
9PFX    0
9PHD    0
       ..
SWVZ    0
SWXQ    0
SWXV    1
SWYH    0
SWYV    0
Name: total_recomendacoes, Length: 511, dtype: int64

In [50]:
dfo.groupby(['ocorrencia_aerodromo'], dropna=True ).total_recomendacoes.sum()

ocorrencia_aerodromo
5JTI    2
9PAA    0
9PFC    0
9PFX    0
9PHD    0
       ..
SWVZ    0
SWXQ    0
SWXV    1
SWYH    0
SWYV    0
Name: total_recomendacoes, Length: 511, dtype: int64

### Pode também combinar com filtro e agrupar por campo e data ao mesmo tempo

In [51]:
filtro = dfo.total_recomendacoes > 0
dfo.loc[(filtro)].groupby(['ocorrencia_cidade', dfo.ocorrencia_dia.dt.month]).total_recomendacoes.sum()


ocorrencia_cidade  ocorrencia_dia
ACREÚNA            9                 1
AFUÁ               7                 6
AGUAÍ              12                1
AGUDO              3                 1
ALEGRETE           1                 1
                                    ..
ÁGUA BOA           12                1
ÁGUA CLARA         5                 6
                   8                 2
ÂNGULO             9                 2
ÓBIDOS             7                 5
Name: total_recomendacoes, Length: 609, dtype: int64

## Join

## Para fazer um left join entre duas tabelas

In [52]:
dfitems = pd.read_csv('Datasets/olist_order_items_dataset.csv')
dfprod = pd.read_csv('Datasets/olist_products_dataset.csv')

In [53]:
dfmerge = pd.merge(
    dfitems, # dataframe 1
    dfprod,  # dataframe 2
    how='left', # tipo left, inner, etc.
    on=['product_id'], # coluna para join caso sejam iguais nos dois Dataframes
    validate='m:1')
dfmerge.loc[:,['order_id','price','product_category_name']]

Unnamed: 0,order_id,price,product_category_name
0,00010242fe8c5a6d1ba2dd792cb16214,58.90,cool_stuff
1,00018f77f2f0320c557190d7a144bdd3,239.90,pet_shop
2,000229ec398224ef6ca0657da4fc703e,199.00,moveis_decoracao
3,00024acbcdf0a6daa1e931b038114c75,12.99,perfumaria
4,00042b26cf59d7ce69dfabb4e55b4fd9,199.90,ferramentas_jardim
...,...,...,...
112645,fffc94f6ce00a00581880bf54a75a037,299.99,utilidades_domesticas
112646,fffcd46ef2263f404302a634eb57f7eb,350.00,informatica_acessorios
112647,fffce4705a9662cd70adb13d4a31832d,99.90,esporte_lazer
112648,fffe18544ffabc95dfada21779c9644f,55.99,informatica_acessorios


In [54]:
# Para exemplificar com colunas de nomes diferentes
dfprod['p1'] = dfprod['product_id']

## Caso as colunas para join tenham nomes diferentes

In [55]:
dfmerge = pd.merge(
    dfitems, # dataframe 1
    dfprod,  # dataframe 2
    how='left', # tipo left, inner, etc.
    left_on='product_id',  # coluna para join caso sejam sejam diferentes nos Dataframes
    right_on='p1',         # coluna para join caso sejam sejam diferentes nos Dataframes
    validate='m:1')
dfmerge.loc[:,['order_id','price','product_category_name']]

Unnamed: 0,order_id,price,product_category_name
0,00010242fe8c5a6d1ba2dd792cb16214,58.90,cool_stuff
1,00018f77f2f0320c557190d7a144bdd3,239.90,pet_shop
2,000229ec398224ef6ca0657da4fc703e,199.00,moveis_decoracao
3,00024acbcdf0a6daa1e931b038114c75,12.99,perfumaria
4,00042b26cf59d7ce69dfabb4e55b4fd9,199.90,ferramentas_jardim
...,...,...,...
112645,fffc94f6ce00a00581880bf54a75a037,299.99,utilidades_domesticas
112646,fffcd46ef2263f404302a634eb57f7eb,350.00,informatica_acessorios
112647,fffce4705a9662cd70adb13d4a31832d,99.90,esporte_lazer
112648,fffe18544ffabc95dfada21779c9644f,55.99,informatica_acessorios
