In [1]:
import pandas as pd

In [2]:
# Criando o dataframe "compras"
compras = pd.DataFrame({
'id_cliente': ['AA00', 'AA00', 'BB01', 'BB01', 'BB01', 'CC02', 'CC02', 'CC02', 'CC02', 'CC02'],
'data_compra': ['2023-01-01', '2023-01-05', '2023-01-10', '2023-01-15', '2023-01-20',
'2023-01-25', '2023-01-30', '2023-02-01', '2023-02-05', '2023-02-10'],
'valor_compra': [100, 150, 200, 250, 300, 350, 400, 450, 500, 550]
})

# Criando o dataframe "geolocalizacao"
geolocalizacao = pd.DataFrame({
'id_cliente': ['AA00', 'BB01', 'CC02', 'DD03', 'EE04'],
'estado': ['São Paulo', 'São Paulo', 'Minas Gerais', 'Bahia', 'Pernambuco']
})

In [3]:
compras

Unnamed: 0,id_cliente,data_compra,valor_compra
0,AA00,2023-01-01,100
1,AA00,2023-01-05,150
2,BB01,2023-01-10,200
3,BB01,2023-01-15,250
4,BB01,2023-01-20,300
5,CC02,2023-01-25,350
6,CC02,2023-01-30,400
7,CC02,2023-02-01,450
8,CC02,2023-02-05,500
9,CC02,2023-02-10,550


In [8]:
geolocalizacao

Unnamed: 0,id_cliente,estado
0,AA00,São Paulo
1,BB01,São Paulo
2,CC02,Minas Gerais
3,DD03,Bahia
4,EE04,Pernambuco


In [13]:
compras_group = compras.groupby('id_cliente')['valor_compra'].sum().reset_index()
compras_group
#reset_index reseta o índice e mantém o formato de DataFrame

Unnamed: 0,id_cliente,valor_compra
0,AA00,250
1,BB01,750
2,CC02,2250


In [14]:
compras_group_geo = compras_group.merge(geolocalizacao, on='id_cliente', how='left')
compras_group_geo

Unnamed: 0,id_cliente,valor_compra,estado
0,AA00,250,São Paulo
1,BB01,750,São Paulo
2,CC02,2250,Minas Gerais


In [15]:
compras_group_geo = compras_group_geo.groupby('estado')['valor_compra'].sum().reset_index()
compras_group_geo

Unnamed: 0,estado,valor_compra
0,Minas Gerais,2250
1,São Paulo,1000


In [16]:
#Função merge: 
#Interface gráfica mais generica para combinar DataFrames com base em colunas ou indices comuns
#how: left, right, inner, outer
#sintaxe: pd.merge(df1,df2, how='inner', on='coluna_chave')
#usada quando você deseja combinar DataFrames com base em colunas específicas.

In [17]:
#Funcao join:
#Combina dataframes usando seus índices
#Permite especificar o tipo de juncao, usado para juncoes baseadas em indice
#Sintaxe: df1.join(df2, on='coluna_chave')

1. Left (Junção à Esquerda):
- A junção à esquerda usa apenas as chaves do DataFrame à esquerda.
- O resultado conterá todas as linhas do DataFrame à esquerda e as linhas correspondentes do DataFrame à direita. Se não houver correspondência para uma linha do DataFrame à esquerda, os valores nas colunas do DataFrame à direita serão 'NaN'.

2. Right (Junção à Direita):
- A junção à direita usa apenas as chaves do DataFrame à direita.
- O resultado conterá todas as linhas do DataFrame à direita e as linhas correspondentes do DataFrame à esquerda. Se não houver correspondência para uma linha do DataFrame à direita, os valores nas colunas do DataFrame à esquerda serão 'NaN'.

3. Inner (Junção Interna):
- A junção interna usa apenas as chaves comuns aos dois DataFrames.
- O resultado conterá apenas as linhas para as quais há chaves correspondentes em ambos os DataFrames. Linhas em ambos os DataFrames que não têm correspondências serão excluídas.

4. Outer (Junção Externa ou Full Outer Join):
- A junção externa usa todas as chaves presentes em ambos os DataFrames.
- O resultado conterá todas as linhas de ambos os DataFrames. Para as linhas que não têm correspondências no outro DataFrame, os valores nas colunas desse DataFrame serão 'NaN'.

In [18]:
# Criando o DataFrame de compras de junho e julho
jun_jul = pd.DataFrame({
'id_cliente': ['AA01', 'BB02', 'AA01', 'CC03', 'BB02', 'DD04'],
'dt_compra': ['2023-06-05', '2023-06-15', '2023-06-25', '2023-07-05', '2023-07-15', '2023-07-25'],
'vl_compra': [200.50, 155.75, 333.60, 450.00, 300.10, 250.00]
})


# Criando o DataFrame de compras de agosto e setembro
ago_set = pd.DataFrame({
'id_cliente': ['EE05', 'EE05', 'FF06', 'GG07'],
'dt_compra': ['2023-08-05', '2023-08-15', '2023-08-25', '2023-09-05'],
'vl_compra': [205.55, 233.75, 550.65, 320.82]
})

In [19]:
jun_jul

Unnamed: 0,id_cliente,dt_compra,vl_compra
0,AA01,2023-06-05,200.5
1,BB02,2023-06-15,155.75
2,AA01,2023-06-25,333.6
3,CC03,2023-07-05,450.0
4,BB02,2023-07-15,300.1
5,DD04,2023-07-25,250.0


In [20]:
ago_set

Unnamed: 0,id_cliente,dt_compra,vl_compra
0,EE05,2023-08-05,205.55
1,EE05,2023-08-15,233.75
2,FF06,2023-08-25,550.65
3,GG07,2023-09-05,320.82


In [21]:
#Para unir os dois: 
df_concat = pd.concat([jun_jul, ago_set])
df_concat

Unnamed: 0,id_cliente,dt_compra,vl_compra
0,AA01,2023-06-05,200.5
1,BB02,2023-06-15,155.75
2,AA01,2023-06-25,333.6
3,CC03,2023-07-05,450.0
4,BB02,2023-07-15,300.1
5,DD04,2023-07-25,250.0
0,EE05,2023-08-05,205.55
1,EE05,2023-08-15,233.75
2,FF06,2023-08-25,550.65
3,GG07,2023-09-05,320.82


In [31]:
df = pd.DataFrame({'value': [1, 2, 3, 4, 5]})
df['bin'] = pd.cut(df['value'], bins=[0, 3, 5], labels=['Low', 'High'])
df

Unnamed: 0,value,bin
0,1,Low
1,2,Low
2,3,Low
3,4,High
4,5,High


In [33]:
df = pd.DataFrame({'value': [1, 2, 3, 4, 5]})
df['equal_bins'] = pd.cut(df['value'], bins=3)
df

Unnamed: 0,value,equal_bins
0,1,"(0.996, 2.333]"
1,2,"(0.996, 2.333]"
2,3,"(2.333, 3.667]"
3,4,"(3.667, 5.0]"
4,5,"(3.667, 5.0]"


In [34]:
df = pd.DataFrame({'value': [1, 2, 3, 4, 5]})
df['quantile_bins'] = pd.qcut(df['value'], q=2)
df

Unnamed: 0,value,quantile_bins
0,1,"(0.999, 3.0]"
1,2,"(0.999, 3.0]"
2,3,"(0.999, 3.0]"
3,4,"(3.0, 5.0]"
4,5,"(3.0, 5.0]"


In [35]:
df = pd.DataFrame({'value': [1, 2, 3, 4, 5]})
df['quantile_bins'] = pd.qcut(df['value'], q=2, labels=['Low', 'High'])
df

Unnamed: 0,value,quantile_bins
0,1,Low
1,2,Low
2,3,Low
3,4,High
4,5,High


In [37]:
#A funcao qcut divide os dados em quantis. Podemos especificar o numero de quantis que queremos usar
df = pd.DataFrame({'value': [1, 2, 3, 4, 5, 6, 7, 8, 9 ,10]})
df['custom_bins'] = pd.qcut(df['value'], q=[0, 0.1, 0.5, 1])
df

Unnamed: 0,value,custom_bins
0,1,"(0.999, 1.9]"
1,2,"(1.9, 5.5]"
2,3,"(1.9, 5.5]"
3,4,"(1.9, 5.5]"
4,5,"(1.9, 5.5]"
5,6,"(5.5, 10.0]"
6,7,"(5.5, 10.0]"
7,8,"(5.5, 10.0]"
8,9,"(5.5, 10.0]"
9,10,"(5.5, 10.0]"


In [38]:
#Dessa forma, você pode usar qcut para fazer coisas como: pegar os 10% clientes que mais consomem na sua loja e transformarem eles em clientes Premium, pegar os 10% devedores com dívidas mais baixas e oferecer o famoso "perdão de dívida", dentre outras estratégias que muitas empresas adotam.