# DataFrame

Antes de carregar os dados disponibilizados pela empresa Fast Delivery vamos testar alguns comandos e criar e manipular DataFrames desde o inicio.

In [None]:
import pandas as pd

Para criar um DataFrame vazio, podemos utilizar o comando abaixo.

In [None]:
df = pd.DataFrame() #vc vai passar um objeto que irá virar um dataframe
df

O DataFrame é mutável ou seja, podemos adicionar e remover colunas e linhas.

Por exemplo para adicionar uma nova coluna com três linhas, precisamos criar o nome da coluna e adicionar os elementos utilizando uma estruturada de dados como uma lista.

In [None]:
df['nome'] =  ['Catarina', 'Pedro', 'Maria'] #isso é uma lista
df

Unnamed: 0,nome
0,Catarina
1,Pedro
2,Maria


Também podemos criar um DataFrame passando os dados por parâmetro.

In [None]:
dados = {
    'nome': ['Catarina', 'Pedro', 'Maria'], #isso é um dicionario
    'idade': [25, 35, 45],
    'altura': [1.75, 1.85, 1.82]
}

df = pd.DataFrame(dados)
df

Unnamed: 0,nome,idade,altura
0,Catarina,25,1.75
1,Pedro,35,1.85
2,Maria,45,1.82


Nesse caso, a chaves do dicionário serão as colunas e as linhas são os elementos que estão dentro da lista.

Cada posição das listas, refere-se a linha no DataFrame.

## Operações do DataFrame

### Seleção

Uma coluna específica pode ser obtida como uma Series.

In [None]:
df

Note que o retorno é um Series que é uma estrutura de dados, onde os valores são nomeados.

Caso a seleção seja realizada em mais de uma coluna, o retorno será um DataFrame.

In [None]:
df[['nome', 'altura']]

KeyError: "None of [Index(['nome', 'altura'], dtype='object')] are in the [columns]"

Para selecionar linhas, podemos utilizar os índices. Olhando no DataFrame, podemos ver os índices de 0 até 2, esse é o índice **EXPLICITO**, que pode ser sequencial ou podemos setar manualmente. O mesmo vale para colunas.

Nesse caso, utilizamos o comando `.loc` para selecionar linha e coluna.

Vamos definir o indice das linhas para serem os nomes.

In [None]:
df.set_index('nome')

Unnamed: 0_level_0,idade,altura
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Catarina,25,1.75
Pedro,35,1.85
Maria,45,1.82


Note que esse comando retornou um valor, ou seja, ele não alterou o DataFrame original, para isso precisamos adicionar o parâmetro `inplace=True`.

In [None]:
df.set_index('nome', inplace=True)

In [None]:
df

Unnamed: 0_level_0,idade,altura
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Catarina,25,1.75
Pedro,35,1.85
Maria,45,1.82


Note que o indice agora virou o nome e podemos utilizar o `.loc` para selecionar elementos.

In [None]:
# Seleciona a linha Catarina e coluna idade, retorna o valor
df.loc['Catarina', 'idade']

25

In [None]:
# Seleciona linha Catarina e as colunas alutra e idade, retorna uma Serie
df.loc['Catarina', ['idade', 'altura']]

idade     25.00
altura     1.75
Name: Catarina, dtype: float64

In [None]:
# Seleciona as linhas Catarina e Maria e todas as colunas, retorna um DataFrame
df.loc[['Catarina', 'Maria']]

Unnamed: 0_level_0,idade,altura
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Catarina,25,1.75
Maria,45,1.82


In [None]:
# Seleciona as linhas Catarina e Maria e as colunas altura e idade, retorna um DataFrame
df.loc[['Catarina', 'Maria'], ['idade', 'altura']]

Unnamed: 0_level_0,idade,altura
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Catarina,25,1.75
Maria,45,1.82


Podemos utilizar o `.iloc` para selecionar os elementos utilizando o índice **IMPLICITO**.

In [None]:
# Seleciona a linha 0 e coluna 0, retorna o valor
df.iloc[0, 0]

25

In [None]:
# Seleciona linha 0 e as colunas 0 e 1, retorna uma Serie
df.iloc[0, [0, 1]]

idade     25.00
altura     1.75
Name: Catarina, dtype: float64

In [None]:
# Seleciona as linhas 0 e 1 e todas as colunas, retorna um DataFrame
df.iloc[[0, 1]]

Unnamed: 0_level_0,idade,altura
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Catarina,25,1.75
Pedro,35,1.85


In [None]:
# Seleciona as linhas 0 e 2 e as colunas 1 e 0, retorna um DataFrame
df.iloc[[0, 2], [1, 0]]

Unnamed: 0_level_0,altura,idade
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Catarina,1.75,25
Maria,1.82,45


### Atribuição

Uma coluna pode ser adicionada via atribuição

In [None]:
df['peso'] = 100
df

Unnamed: 0_level_0,idade,altura,peso
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Catarina,25,1.75,100
Pedro,35,1.85,100
Maria,45,1.82,100


Note que todas as linhas tiveram o mesmo valor.

Importante: Para adicionar valores diferentes, é necessário passar uma lista com a quantidade total de linhas, caso contrário um erro será gerado.

In [None]:
df['peso'] = [70, 85]

ValueError: Length of values (2) does not match length of index (3)

In [None]:
df['peso'] = [70, 85, 78]
df

Unnamed: 0_level_0,idade,altura,peso
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Catarina,25,1.75,70
Pedro,35,1.85,85
Maria,45,1.82,78


Também podemos alterar um valor específico, utilizado o `.loc` ou `.iloc`.

In [None]:
df.loc['Catarina', 'idade'] = 30 # Alterando a idade da Catarina para 30

In [None]:
df

Unnamed: 0_level_0,idade,altura,peso
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Catarina,30,1.75,70
Pedro,35,1.85,85
Maria,45,1.82,78


In [None]:
df.iloc[1, 1] = 1.90 # Alterando a altura do Pedro para 1.90
df

Unnamed: 0_level_0,idade,altura,peso
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Catarina,30,1.75,70
Pedro,35,1.9,85
Maria,45,1.82,78


### Remoção

Uma coluna pode ser deletada utilizando o nome (rótudo) e a função ```del``` conforme visto em dicionários.

In [None]:
del df['peso'] # Altera o objeto em memória

In [None]:
df

Unnamed: 0_level_0,idade,altura
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Catarina,30,1.75
Pedro,35,1.9
Maria,45,1.82


É possível utilizar o comando **```drop```**. Esse comando permite remover colunas ou linhas.

**Para remover colunas**

In [None]:
df.drop(['idade', 'altura'], axis=1)

Catarina
Pedro
Maria


**Para remover linhas**

In [None]:
df.drop(['Pedro'], axis=0)

Unnamed: 0_level_0,idade,altura
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Catarina,30,1.75
Maria,45,1.82


In [None]:
df.drop(['Catarina', 'Maria'], axis=0)

Unnamed: 0_level_0,idade,altura
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Pedro,35,1.9


É importante salientar que o método drop, por padrão, não remove no próprio DataFrame, ele devolve um novo objeto DataFrame que deve ser armazenado em uma nova variável.

Para contornar esse problema, podemos utilizar o parâmetro ```inplace=True```.

In [None]:
df.drop(['Maria'], axis=0, inplace=True)

In [None]:
df

Unnamed: 0_level_0,idade,altura
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Catarina,30,1.75
Pedro,35,1.9


### Inserção

Basicamente, um DataFrame pode ser tratado como se fosse um dicionário de Series. Colunas são inseridas no final. Para inserir uma coluna em um local específico podemos utilizar a função ```insert```.

In [None]:
df.insert(0, 'peso', [72, 78])
df

Unnamed: 0_level_0,peso,idade,altura
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Catarina,72,30,1.75
Pedro,78,35,1.9


Para adicionar uma nova linha, podemos utilizar o comando `.loc`.

In [None]:
df.loc['Maria'] = [71, 25, 1.80]
df

Unnamed: 0_level_0,peso,idade,altura
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Catarina,72.0,30.0,1.75
Pedro,78.0,35.0,1.9
Maria,71.0,25.0,1.8


### Operações matemáticas

In [None]:
df.dtypes

peso      float64
idade     float64
altura    float64
dtype: object

In [None]:
df * 2

Unnamed: 0_level_0,peso,idade,altura
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Catarina,144.0,60.0,3.5
Pedro,156.0,70.0,3.8
Maria,142.0,50.0,3.6


In [None]:
df['peso'] * df['altura']

nome
Catarina    126.0
Pedro       148.2
Maria       127.8
dtype: float64

In [None]:
df['idade'] + 100

nome
Catarina    130.0
Pedro       135.0
Maria       125.0
Name: idade, dtype: float64

In [None]:
df.describe()

Unnamed: 0,peso,idade,altura
count,3.0,3.0,3.0
mean,73.666667,30.0,1.816667
std,3.785939,5.0,0.076376
min,71.0,25.0,1.75
25%,71.5,27.5,1.775
50%,72.0,30.0,1.8
75%,75.0,32.5,1.85
max,78.0,35.0,1.9


## Principais funcionalidades

### Load dataset

In [13]:
from google.colab import drive
drive.mount('/content/drive')

MessageError: Error: credential propagation was unsuccessful

In [None]:
df = pd.read_csv('/content/drive/MyDrive/datasets/delivery_pedidos.csv')
df.head()

Unnamed: 0,id_pedido,numero_pedido,timestamp_local_pedido,total_pedido,credito,total_pago,tipo_entrega,versao_do_app,tipo_dispositivo,plataforma_dispositivo,metodo_pagamento,cidade_restaurante,bairro_restaurante,tipo_prato_restaurante,qtde_itens_normais,qtde_itens_promocionais,id_cliente
0,630e2af0-b456-4b3a-b964-4d66ce5cc5df,1290139943,2022-12-11T13:22:06.497Z,28.9,14.0,24.9,DELIVERY,9.29.1,MOBILE,ANDROID,CC_ONLINE,NATAL,PONTA NEGRA,Comida Brasileira,2.0,0.0,48b6d81407646ca61163f064a426ce38ac08bed2ce84f0...
1,66f8163d-f081-4fbd-adb8-cfbbff9213f7,1141271215,2022-11-06T17:57:17.967Z,56.35,7.9,50.4,DELIVERY,webapp_6.2.0,SITE,DESKTOP,CC_ONLINE,LONDRINA,Gleba Fazenda Palhano,Lanches,0.0,1.0,b3f74186880f5f9a79e0865ad8beab47e22b785b8b3bc0...
2,e8c55557-81d4-4159-bd2b-c144e5fbabe3,694742752,2022-06-11T20:42:32.058Z,53.8,4.0,49.8,DELIVERY,iOS_iFood_9.2.1,MOBILE,IOS,CC_ONLINE,SAO PAULO,Parque Bristol,Comida Brasileira,2.0,0.0,c4f8999d4cb83cac8134b2051ffc611d5d660c049c3744...
3,34a60e0d-0042-49af-9aa8-4dc526a998c2,679245732,2022-06-05T19:16:42.111Z,58.9,4.0,54.9,DELIVERY,iOS_iFood_9.2.1,MOBILE,IOS,CC_ONLINE,LONDRINA,Centro,Lanches,1.0,0.0,ac89a3eb35853705a09d54f1e5988ad876628b986045cd...
4,998f6d97-f884-40ba-a7a3-e9691930a642,1052187003,2022-10-15T21:01:23.973Z,54.8,14.0,50.8,DELIVERY,Android_iFood_9.22.1,MOBILE,ANDROID,CC_ONLINE,SAO PAULO,Jardim Santo Elias,Comida Japonesa,0.0,2.0,fdef6bf0530b1f6507f175167aa442ade79b6e6fa085c9...


In [None]:
df.dtypes

id_pedido                   object
numero_pedido                int64
timestamp_local_pedido      object
total_pedido               float64
credito                    float64
total_pago                 float64
tipo_entrega                object
versao_do_app               object
tipo_dispositivo            object
plataforma_dispositivo      object
metodo_pagamento            object
cidade_restaurante          object
bairro_restaurante          object
tipo_prato_restaurante      object
qtde_itens_normais         float64
qtde_itens_promocionais    float64
id_cliente                  object
dtype: object

In [None]:
df.shape

(492138, 17)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 492138 entries, 0 to 492137
Data columns (total 17 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   id_pedido                492138 non-null  object 
 1   numero_pedido            492138 non-null  int64  
 2   timestamp_local_pedido   492138 non-null  object 
 3   total_pedido             492138 non-null  float64
 4   credito                  492138 non-null  float64
 5   total_pago               492138 non-null  float64
 6   tipo_entrega             492138 non-null  object 
 7   versao_do_app            489585 non-null  object 
 8   tipo_dispositivo         492137 non-null  object 
 9   plataforma_dispositivo   492138 non-null  object 
 10  metodo_pagamento         492138 non-null  object 
 11  cidade_restaurante       492138 non-null  object 
 12  bairro_restaurante       492138 non-null  object 
 13  tipo_prato_restaurante   492138 non-null  object 
 14  qtde

In [None]:
df.columns

Index(['id_pedido', 'numero_pedido', 'timestamp_local_pedido', 'total_pedido',
       'credito', 'total_pago', 'tipo_entrega', 'versao_do_app',
       'tipo_dispositivo', 'plataforma_dispositivo', 'metodo_pagamento',
       'cidade_restaurante', 'bairro_restaurante', 'tipo_prato_restaurante',
       'qtde_itens_normais', 'qtde_itens_promocionais', 'id_cliente'],
      dtype='object')

In [None]:
df.describe()

Unnamed: 0,numero_pedido,total_pedido,credito,total_pago,qtde_itens_normais,qtde_itens_promocionais
count,492138.0,492138.0,492138.0,492138.0,492137.0,492137.0
mean,964311600.0,55.816997,6.258059,50.326789,1.583831,0.471227
std,206417200.0,31.489082,4.443247,32.239552,2.155416,1.356803
min,667742600.0,13.0,4.0,9.0,0.0,0.0
25%,777858400.0,35.9,4.0,30.0,1.0,0.0
50%,928689600.0,47.7,4.0,42.5,1.0,0.0
75%,1138138000.0,66.0,4.0,61.5,2.0,1.0
max,1373961000.0,1641.0,84.0,1637.0,233.0,105.0


In [None]:
df.isnull().sum()

id_pedido                     0
numero_pedido                 0
timestamp_local_pedido        0
total_pedido                  0
credito                       0
total_pago                    0
tipo_entrega                  0
versao_do_app              2553
tipo_dispositivo              1
plataforma_dispositivo        0
metodo_pagamento              0
cidade_restaurante            0
bairro_restaurante            0
tipo_prato_restaurante        0
qtde_itens_normais            1
qtde_itens_promocionais       1
id_cliente                    0
dtype: int64

In [None]:
100 * (df.isnull().sum() / len(df))

id_pedido                  0.000000
numero_pedido              0.000000
timestamp_local_pedido     0.000000
total_pedido               0.000000
credito                    0.000000
total_pago                 0.000000
tipo_entrega               0.000000
versao_do_app              0.518757
tipo_dispositivo           0.000203
plataforma_dispositivo     0.000000
metodo_pagamento           0.000000
cidade_restaurante         0.000000
bairro_restaurante         0.000000
tipo_prato_restaurante     0.000000
qtde_itens_normais         0.000203
qtde_itens_promocionais    0.000203
id_cliente                 0.000000
dtype: float64

In [None]:
df[['id_pedido', 'credito', 'total_pago']].head()

Unnamed: 0,id_pedido,credito,total_pago
0,630e2af0-b456-4b3a-b964-4d66ce5cc5df,14.0,24.9
1,66f8163d-f081-4fbd-adb8-cfbbff9213f7,7.9,50.4
2,e8c55557-81d4-4159-bd2b-c144e5fbabe3,4.0,49.8
3,34a60e0d-0042-49af-9aa8-4dc526a998c2,4.0,54.9
4,998f6d97-f884-40ba-a7a3-e9691930a642,14.0,50.8


In [None]:
df.sort_values('total_pago').head(3)

Unnamed: 0,id_pedido,numero_pedido,timestamp_local_pedido,total_pedido,credito,total_pago,tipo_entrega,versao_do_app,tipo_dispositivo,plataforma_dispositivo,metodo_pagamento,cidade_restaurante,bairro_restaurante,tipo_prato_restaurante,qtde_itens_normais,qtde_itens_promocionais,id_cliente
15528,fe47b7a7-8a29-41c7-b8bb-ece801dbd153,1059553879,2022-10-18T11:50:00.000Z,27.99,18.99,9.0,DELIVERY,Android_iFood_9.22.1,MOBILE,ANDROID,MEAL_VOUCHER_ONLINE,OSASCO,Km 18,Comida Brasileira,0.0,1.0,260c07ea8d9a3e12c9b1eeeaf31a2323329b5be950c88f...
210657,0e3f705d-242a-465a-8ccd-d72770fc6e73,1141568590,2022-11-07T11:00:00.000Z,21.99,12.99,9.0,DELIVERY,Android_iFood_9.24.2,MOBILE,ANDROID,MEAL_VOUCHER_ONLINE,BRASILIA,Aguas Claras,Comida Brasileira,0.0,1.0,92b2aeace7d890197b8af41c32b2bcb137ff70c439a5d6...
172240,9aa718cb-0faa-4e6d-ae90-73bb82daba3d,859559299,2022-08-15T20:58:58.245Z,37.0,28.0,9.0,TAKEOUT,Android_iFood_9.12.0,MOBILE,ANDROID,CC_ONLINE,SUMARE,Jardim Paulistano,Pizza,3.0,0.0,70dc2ba1f6bbf68dbc868d030c98dbc76968613d211c30...


In [None]:
df.sort_values('total_pago', ascending=False).head(3)

Unnamed: 0,id_pedido,numero_pedido,timestamp_local_pedido,total_pedido,credito,total_pago,tipo_entrega,versao_do_app,tipo_dispositivo,plataforma_dispositivo,metodo_pagamento,cidade_restaurante,bairro_restaurante,tipo_prato_restaurante,qtde_itens_normais,qtde_itens_promocionais,id_cliente
397661,ca830d92-51b0-4864-b63e-9e76252e6d12,1280972296,2022-12-08T21:58:30.856Z,1641.0,4.0,1637.0,DELIVERY,9.29.1,MOBILE,ANDROID,CC_OFFLINE,IMPERATRIZ,Cinco Irmãos,Bebidas,9.0,0.0,84da9b360bf44ed10b3bdcb21fb77a9dd1e675c878cf1a...
478640,ff8e5592-c33d-490a-b4fc-48edfad240dd,1281072397,2022-12-08T22:34:55.203Z,1509.0,4.0,1505.0,DELIVERY,9.29.1,MOBILE,ANDROID,CC_OFFLINE,IMPERATRIZ,Cinco Irmãos,Bebidas,31.0,0.0,84da9b360bf44ed10b3bdcb21fb77a9dd1e675c878cf1a...
26399,a26ad980-ef89-429f-869d-fd2b9c425265,1280966645,2022-12-08T21:56:46.841Z,1461.0,4.0,1457.0,DELIVERY,9.29.1,MOBILE,ANDROID,CC_OFFLINE,IMPERATRIZ,Cinco Irmãos,Bebidas,8.0,0.0,84da9b360bf44ed10b3bdcb21fb77a9dd1e675c878cf1a...


In [None]:
df.sort_values(['credito', 'total_pago'], ascending=False).head(4)

Unnamed: 0,id_pedido,numero_pedido,timestamp_local_pedido,total_pedido,credito,total_pago,tipo_entrega,versao_do_app,tipo_dispositivo,plataforma_dispositivo,metodo_pagamento,cidade_restaurante,bairro_restaurante,tipo_prato_restaurante,qtde_itens_normais,qtde_itens_promocionais,id_cliente
48265,f12dc6dd-cc38-43d1-b58b-7f7ec93df506,865182626,2022-08-17T21:48:25.602Z,124.4,84.0,40.4,DELIVERY,Android_iFood_9.14.1,MOBILE,ANDROID,CC_ONLINE,SAO PAULO,Santana,Comida Chinesa,1.0,0.0,0e1a609fcc0358101345e365db4acd7e720480f8ba52be...
131780,d07202c5-5cf5-49a5-9f75-c3849ccdde33,852797437,2022-08-12T19:03:17.079Z,107.7,84.0,23.7,DELIVERY,Android_iFood_9.12.0,MOBILE,ANDROID,CC_ONLINE,CAMPINAS,Conj. Hab. Padre Anchieta,Comida Japonesa,2.0,1.0,70dc2ba1f6bbf68dbc868d030c98dbc76968613d211c30...
428761,4026d4a6-24e6-4598-ae7e-98fd13a3c5d4,977859174,2022-09-25T22:02:48.258Z,77.87,66.93,36.97,DELIVERY,Android_iFood_9.20.0,MOBILE,ANDROID,CC_ONLINE,SAO PAULO,Cerqueira Cesar,Comida Mexicana,0.0,3.0,f5ddcc2007f7965392d626e5197ad51251e96379e18ace...
381708,681a74f3-fdcb-411d-9392-cbcd585142f8,1185819331,2022-11-16T20:01:07.493Z,186.7,64.0,122.7,DELIVERY,iOS_iFood_9.25.0,MOBILE,IOS,CC_ONLINE,SAO PAULO,Casa Verde,Frutos do Mar,0.0,1.0,0e6531a24f42a5172be06875bd3e44ebd006506f9f37fc...


In [None]:
# Usando o parametro how='any', se ALGUM dos valores são missing, remova a linha ou coluna.
df_aux = df.dropna() # Nesse caso, how='any' é o valor padrão do parâmetro.

In [None]:
df_aux.isnull().sum()

id_pedido                  0
numero_pedido              0
timestamp_local_pedido     0
total_pedido               0
credito                    0
total_pago                 0
tipo_entrega               0
versao_do_app              0
tipo_dispositivo           0
plataforma_dispositivo     0
metodo_pagamento           0
cidade_restaurante         0
bairro_restaurante         0
tipo_prato_restaurante     0
qtde_itens_normais         0
qtde_itens_promocionais    0
id_cliente                 0
dtype: int64

In [None]:
# Usando o parametro how='all', se TODOS os valores são missing, remova a linha ou coluna.
df_aux = df.dropna(how='all')

In [None]:
df_aux.isnull().sum()

id_pedido                     0
numero_pedido                 0
timestamp_local_pedido        0
total_pedido                  0
credito                       0
total_pago                    0
tipo_entrega                  0
versao_do_app              2553
tipo_dispositivo              1
plataforma_dispositivo        0
metodo_pagamento              0
cidade_restaurante            0
bairro_restaurante            0
tipo_prato_restaurante        0
qtde_itens_normais            1
qtde_itens_promocionais       1
id_cliente                    0
dtype: int64

In [None]:
df_aux['qtde_itens_normais'] = df_aux['qtde_itens_normais'].fillna(df['qtde_itens_normais'].median())

In [None]:
df_aux.isnull().sum()

id_pedido                     0
numero_pedido                 0
timestamp_local_pedido        0
total_pedido                  0
credito                       0
total_pago                    0
tipo_entrega                  0
versao_do_app              2553
tipo_dispositivo              1
plataforma_dispositivo        0
metodo_pagamento              0
cidade_restaurante            0
bairro_restaurante            0
tipo_prato_restaurante        0
qtde_itens_normais            0
qtde_itens_promocionais       1
id_cliente                    0
dtype: int64

Podemos criar uma coluna baseado em uma condição. Por exemplo, criar uma Flag informando que o preço total do pedido é alto ou baixo.

Se for maior que R$ 80 é alto, caso contrário é baixo.

Para isso podemos utilizar a biblioteca chamada [NumPY](https://numpy.org/) que tem uma funcionalidade chamada [np.where](https://numpy.org/doc/stable/reference/generated/numpy.where.html).


`np.where(condition, True, False)`

In [None]:
import numpy as np

In [None]:
df['total_pedido'] > 80 # Essa é a condição e retorna False ou True.

0         False
1         False
2         False
3         False
4         False
          ...  
492133     True
492134    False
492135    False
492136     True
492137    False
Name: total_pedido, Length: 492138, dtype: bool

Utilizando o np.where para criar a flag.

In [None]:
np.where(df['total_pedido'] > 80, 'alto', 'baixo')

array(['baixo', 'baixo', 'baixo', ..., 'baixo', 'alto', 'baixo'],
      dtype='<U5')

O retorno será um array que contém os resultados, basta salvar em uma nova coluna.

In [None]:
df['flag'] = np.where(df['total_pedido'] > 80, 'alto', 'baixo')

In [None]:
df.head(3)

Unnamed: 0,id_pedido,numero_pedido,timestamp_local_pedido,total_pedido,credito,total_pago,tipo_entrega,versao_do_app,tipo_dispositivo,plataforma_dispositivo,metodo_pagamento,cidade_restaurante,bairro_restaurante,tipo_prato_restaurante,qtde_itens_normais,qtde_itens_promocionais,id_cliente,flag
0,630e2af0-b456-4b3a-b964-4d66ce5cc5df,1290139943,2022-12-11T13:22:06.497Z,28.9,14.0,24.9,DELIVERY,9.29.1,MOBILE,ANDROID,CC_ONLINE,NATAL,PONTA NEGRA,Comida Brasileira,2.0,0.0,48b6d81407646ca61163f064a426ce38ac08bed2ce84f0...,baixo
1,66f8163d-f081-4fbd-adb8-cfbbff9213f7,1141271215,2022-11-06T17:57:17.967Z,56.35,7.9,50.4,DELIVERY,webapp_6.2.0,SITE,DESKTOP,CC_ONLINE,LONDRINA,Gleba Fazenda Palhano,Lanches,0.0,1.0,b3f74186880f5f9a79e0865ad8beab47e22b785b8b3bc0...,baixo
2,e8c55557-81d4-4159-bd2b-c144e5fbabe3,694742752,2022-06-11T20:42:32.058Z,53.8,4.0,49.8,DELIVERY,iOS_iFood_9.2.1,MOBILE,IOS,CC_ONLINE,SAO PAULO,Parque Bristol,Comida Brasileira,2.0,0.0,c4f8999d4cb83cac8134b2051ffc611d5d660c049c3744...,baixo


In [None]:
df['flag'].value_counts().to_frame()

Unnamed: 0,flag
baixo,420602
alto,71536


### Filtragem

In [None]:
df.shape

(492138, 18)

In [None]:
df['flag'] == 'alto'

0         False
1         False
2         False
3         False
4         False
          ...  
492133     True
492134    False
492135    False
492136     True
492137    False
Name: flag, Length: 492138, dtype: bool

In [None]:
df[df['flag'] == 'alto'].shape

(71536, 18)

In [None]:
df[df['flag'] == 'baixo'].shape

(420602, 18)

Tambem podemos combinar diferentes condições de filtragem.

In [None]:
df['flag'] == 'baixo'

0          True
1          True
2          True
3          True
4          True
          ...  
492133    False
492134     True
492135     True
492136    False
492137     True
Name: flag, Length: 492138, dtype: bool

In [None]:
df['total_pedido'] > 200

0         False
1         False
2         False
3         False
4         False
          ...  
492133    False
492134    False
492135    False
492136    False
492137    False
Name: total_pedido, Length: 492138, dtype: bool

In [None]:
df[(df['flag'] == 'alto') & (df['total_pedido'] > 300)].shape

(438, 18)

In [None]:
df.query('flag == "alto"').shape

(71536, 18)

In [None]:
df.query('flag == "alto" and total_pedido > 300').shape

(438, 18)

### Agrupamentos

In [None]:
df['timestamp_local_pedido'].min()

'2022-06-01T00:00:15.369Z'

In [None]:
df['timestamp_local_pedido'].max()

'2022-12-31T23:31:59.972Z'

In [None]:
df['timestamp_local_pedido'].agg(('min', 'max')).to_frame()

Unnamed: 0,timestamp_local_pedido
min,2022-06-01T00:00:15.369Z
max,2022-12-31T23:31:59.972Z


In [None]:
df.groupby('flag').mean()

  df.groupby('flag').mean()


Unnamed: 0_level_0,numero_pedido,total_pedido,credito,total_pago,qtde_itens_normais,qtde_itens_promocionais
flag,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
alto,973189200.0,113.011607,4.9668,108.376658,2.760107,0.493374
baixo,962801700.0,46.089336,6.477677,40.453666,1.38377,0.46746


In [None]:
pd.options.display.float_format = '{:.2f}'.format

In [None]:
df.groupby('flag').mean()

  df.groupby('flag').mean()


Unnamed: 0_level_0,numero_pedido,total_pedido,credito,total_pago,qtde_itens_normais,qtde_itens_promocionais
flag,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
alto,973189194.44,113.01,4.97,108.38,2.76,0.49
baixo,962801693.27,46.09,6.48,40.45,1.38,0.47


In [None]:
df.groupby(['flag']).agg(
    min_total=('total_pedido', 'min'),
    max_total=('total_pedido', 'max')
)

Unnamed: 0_level_0,min_total,max_total
flag,Unnamed: 1_level_1,Unnamed: 2_level_1
alto,80.01,1641.0
baixo,13.0,80.0


In [None]:
(
    df
    .groupby(['flag'])
    .agg(
        min_total_pedido=('total_pedido', 'min'),
        max_total_pedido=('total_pedido', 'max'),
        min_total_pago=('total_pago', 'min'),
        max_total_pago=('total_pago', 'max')
    )
    .reset_index()
)

Unnamed: 0,flag,min_total_pedido,max_total_pedido,min_total_pago,max_total_pago
0,alto,80.01,1641.0,23.7,1637.0
1,baixo,13.0,80.0,9.0,76.0


### Operações entre Tabelas

In [None]:
import pandas as pd

In [None]:
df_pedidos = pd.read_csv('/content/drive/MyDrive/datasets/delivery_pedidos.csv')
df_pedidos.head(3)

Unnamed: 0,id_pedido,numero_pedido,timestamp_local_pedido,total_pedido,credito,total_pago,tipo_entrega,versao_do_app,tipo_dispositivo,plataforma_dispositivo,metodo_pagamento,cidade_restaurante,bairro_restaurante,tipo_prato_restaurante,qtde_itens_normais,qtde_itens_promocionais,id_cliente
0,630e2af0-b456-4b3a-b964-4d66ce5cc5df,1290139943,2022-12-11T13:22:06.497Z,28.9,14.0,24.9,DELIVERY,9.29.1,MOBILE,ANDROID,CC_ONLINE,NATAL,PONTA NEGRA,Comida Brasileira,2.0,0.0,48b6d81407646ca61163f064a426ce38ac08bed2ce84f0...
1,66f8163d-f081-4fbd-adb8-cfbbff9213f7,1141271215,2022-11-06T17:57:17.967Z,56.35,7.9,50.4,DELIVERY,webapp_6.2.0,SITE,DESKTOP,CC_ONLINE,LONDRINA,Gleba Fazenda Palhano,Lanches,0.0,1.0,b3f74186880f5f9a79e0865ad8beab47e22b785b8b3bc0...
2,e8c55557-81d4-4159-bd2b-c144e5fbabe3,694742752,2022-06-11T20:42:32.058Z,53.8,4.0,49.8,DELIVERY,iOS_iFood_9.2.1,MOBILE,IOS,CC_ONLINE,SAO PAULO,Parque Bristol,Comida Brasileira,2.0,0.0,c4f8999d4cb83cac8134b2051ffc611d5d660c049c3744...


In [None]:
df_clientes = pd.read_csv('/content/drive/MyDrive/datasets/delivery_clientes.csv')
df_clientes.head(3)

Unnamed: 0,customer_id,estado,cidade,bairro
0,ebeb208d1be66bb9a0a5037671b9e6f16d9ec8380b7152...,RJ,RIO DE JANEIRO,Botafogo
1,542b6d66775ba20aaa8d56afa5cfa064e4696ace462c1c...,SP,SAO PAULO,Vila Zulmira
2,9f0dccf2a0b2f2e854fd8120bb4d2e3e739fc74afeb5f4...,GO,GOIANIA,St. Perim


In [None]:
df_clientes.shape

(30079, 4)

##### Left Join
<img src="http://www.dinomagri.com/imgs/joins/left.png" alt="LEFT JOIN" width="250"/>

In [None]:
esq = {1, 2, 3, 4, 10}
dir = {3, 4, 5}

dir.difference(esq) # a chave 5 não existe na esquerda, logo não será filtrada.

{5}

In [None]:
df_pedidos.shape, df_clientes.shape

((492138, 17), (30079, 4))

In [None]:
df_pedidos.merge(df_clientes, how='left', left_on='id_cliente', right_on='customer_id')

Unnamed: 0,id_pedido,numero_pedido,timestamp_local_pedido,total_pedido,credito,total_pago,tipo_entrega,versao_do_app,tipo_dispositivo,plataforma_dispositivo,...,cidade_restaurante,bairro_restaurante,tipo_prato_restaurante,qtde_itens_normais,qtde_itens_promocionais,id_cliente,customer_id,estado,cidade,bairro
0,630e2af0-b456-4b3a-b964-4d66ce5cc5df,1290139943,2022-12-11T13:22:06.497Z,28.90,14.00,24.90,DELIVERY,9.29.1,MOBILE,ANDROID,...,NATAL,PONTA NEGRA,Comida Brasileira,2.00,0.00,48b6d81407646ca61163f064a426ce38ac08bed2ce84f0...,48b6d81407646ca61163f064a426ce38ac08bed2ce84f0...,RN,PARNAMIRIM,Nova Parnamirim
1,66f8163d-f081-4fbd-adb8-cfbbff9213f7,1141271215,2022-11-06T17:57:17.967Z,56.35,7.90,50.40,DELIVERY,webapp_6.2.0,SITE,DESKTOP,...,LONDRINA,Gleba Fazenda Palhano,Lanches,0.00,1.00,b3f74186880f5f9a79e0865ad8beab47e22b785b8b3bc0...,b3f74186880f5f9a79e0865ad8beab47e22b785b8b3bc0...,PR,LONDRINA,GLEBA FAZENDA PALHANO
2,e8c55557-81d4-4159-bd2b-c144e5fbabe3,694742752,2022-06-11T20:42:32.058Z,53.80,4.00,49.80,DELIVERY,iOS_iFood_9.2.1,MOBILE,IOS,...,SAO PAULO,Parque Bristol,Comida Brasileira,2.00,0.00,c4f8999d4cb83cac8134b2051ffc611d5d660c049c3744...,c4f8999d4cb83cac8134b2051ffc611d5d660c049c3744...,SP,SAO PAULO,Americanopolis
3,34a60e0d-0042-49af-9aa8-4dc526a998c2,679245732,2022-06-05T19:16:42.111Z,58.90,4.00,54.90,DELIVERY,iOS_iFood_9.2.1,MOBILE,IOS,...,LONDRINA,Centro,Lanches,1.00,0.00,ac89a3eb35853705a09d54f1e5988ad876628b986045cd...,ac89a3eb35853705a09d54f1e5988ad876628b986045cd...,PR,LONDRINA,Centro
4,998f6d97-f884-40ba-a7a3-e9691930a642,1052187003,2022-10-15T21:01:23.973Z,54.80,14.00,50.80,DELIVERY,Android_iFood_9.22.1,MOBILE,ANDROID,...,SAO PAULO,Jardim Santo Elias,Comida Japonesa,0.00,2.00,fdef6bf0530b1f6507f175167aa442ade79b6e6fa085c9...,fdef6bf0530b1f6507f175167aa442ade79b6e6fa085c9...,SP,SAO PAULO,Vila Siqueira (zona Norte)
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
492133,40ef2f26-41e4-4dd1-97f4-8d06da9ce344,783879321,2022-07-17T19:56:53.967Z,86.80,4.00,82.80,DELIVERY,iOS_iFood_9.9.0,MOBILE,IOS,...,SAO CARLOS,Jardim Botafogo 1,Lanches,2.00,0.00,c9155b72411d95712a46efb2aaa99bcca59fe1d3388c89...,c9155b72411d95712a46efb2aaa99bcca59fe1d3388c89...,SP,SAO CARLOS,Parque Santa Monica
492134,43c3f696-c21c-4866-97e2-a1edd9703248,796075379,2022-07-24T11:16:54.546Z,25.90,4.00,21.90,DELIVERY,iOS_iFood_8.51.0,MOBILE,IOS,...,CURITIBA,Centro,Comida Brasileira,0.00,1.00,e0c9002cf5cb0cb7d82bf3aa45693dec3a0af15f79be4e...,e0c9002cf5cb0cb7d82bf3aa45693dec3a0af15f79be4e...,PR,CURITIBA,Centro
492135,be646cfe-5717-4810-a872-8c29617ca34a,960478804,2022-09-20T12:51:49.390Z,35.00,4.00,31.00,DELIVERY,Android_iFood_9.18.2,MOBILE,ANDROID,...,RIO DE JANEIRO,Cordovil,Marmita,1.00,0.00,6f3bcdd94a18419074813dd691aaeeff9458451e469fac...,6f3bcdd94a18419074813dd691aaeeff9458451e469fac...,RJ,RIO DE JANEIRO,Parada De Lucas
492136,949a643f-0767-4570-8503-4fa3927f7411,902054854,2022-08-31T19:39:06.589Z,88.60,4.00,84.60,DELIVERY,Android_iFood_9.16.0,MOBILE,ANDROID,...,ARARAQUARA,Centro,Comida Japonesa,0.00,1.00,e3108a6e4e8e73e6856e32f45ed462720514a87378305b...,e3108a6e4e8e73e6856e32f45ed462720514a87378305b...,SP,ARARAQUARA,Jardim California


##### Inner Join

<img src="http://www.dinomagri.com/imgs/joins/inner.png" alt="LEFT JOIN" width="250"/>

In [None]:
esq = {1, 2, 3, 4, 10}
dir = {3, 4, 5}

esq.intersection(dir)

{3, 4}

In [None]:
df = df_pedidos.merge(df_clientes, how='inner', left_on='id_cliente', right_on='customer_id')

In [None]:
df.head(3)

Unnamed: 0,id_pedido,numero_pedido,timestamp_local_pedido,total_pedido,credito,total_pago,tipo_entrega,versao_do_app,tipo_dispositivo,plataforma_dispositivo,...,cidade_restaurante,bairro_restaurante,tipo_prato_restaurante,qtde_itens_normais,qtde_itens_promocionais,id_cliente,customer_id,estado,cidade,bairro
0,630e2af0-b456-4b3a-b964-4d66ce5cc5df,1290139943,2022-12-11T13:22:06.497Z,28.9,14.0,24.9,DELIVERY,9.29.1,MOBILE,ANDROID,...,NATAL,PONTA NEGRA,Comida Brasileira,2.0,0.0,48b6d81407646ca61163f064a426ce38ac08bed2ce84f0...,48b6d81407646ca61163f064a426ce38ac08bed2ce84f0...,RN,PARNAMIRIM,Nova Parnamirim
1,bc9d6acf-a929-4220-8d36-e699eae40e54,909199593,2022-09-03T13:24:47.337Z,25.0,4.0,21.0,DELIVERY,Android_iFood_9.16.1,MOBILE,ANDROID,...,NATAL,Neopolis,Pizza,1.0,0.0,48b6d81407646ca61163f064a426ce38ac08bed2ce84f0...,48b6d81407646ca61163f064a426ce38ac08bed2ce84f0...,RN,PARNAMIRIM,Nova Parnamirim
2,30a8995d-82f3-49a2-b8e9-196b13b061e2,1099584517,2022-10-27T13:25:14.417Z,30.0,9.0,21.0,DELIVERY,Android_iFood_9.24.0,MOBILE,ANDROID,...,NATAL,Planalto,Marmita,1.0,0.0,48b6d81407646ca61163f064a426ce38ac08bed2ce84f0...,48b6d81407646ca61163f064a426ce38ac08bed2ce84f0...,RN,PARNAMIRIM,Nova Parnamirim


In [None]:
df_pedidos.shape

(492138, 17)

In [None]:
df.shape

(492138, 21)

### Operaçao com datas

In [None]:
df.dtypes

id_pedido                   object
numero_pedido                int64
timestamp_local_pedido      object
total_pedido               float64
credito                    float64
total_pago                 float64
tipo_entrega                object
versao_do_app               object
tipo_dispositivo            object
plataforma_dispositivo      object
metodo_pagamento            object
cidade_restaurante          object
bairro_restaurante          object
tipo_prato_restaurante      object
qtde_itens_normais         float64
qtde_itens_promocionais    float64
id_cliente                  object
customer_id                 object
estado                      object
cidade                      object
bairro                      object
dtype: object

In [None]:
df['data_pedido'] = pd.to_datetime(df['timestamp_local_pedido'])

In [None]:
df['data_pedido'].dt.year[:5]

0    2022
1    2022
2    2022
3    2022
4    2022
Name: data_pedido, dtype: int64

In [None]:
df['data_pedido'].dt.month[:5]

0    12
1     9
2    10
3     6
4     8
Name: data_pedido, dtype: int64

In [None]:
df['data_pedido'].dt.weekday[:5]

0    6
1    5
2    3
3    2
4    1
Name: data_pedido, dtype: int64

In [None]:
df['data_pedido'].dt.month_name()[:5]

0     December
1    September
2      October
3         June
4       August
Name: data_pedido, dtype: object