# Vendas Clientes

In [85]:
import pandas as pd
import numpy as np
import re

In [86]:
df = pd.read_json('dados_vendas_clientes.json')
df

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [87]:
df = pd.json_normalize(df['dados_vendas'])
df

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


## Tratando os dados

In [88]:
# Remover os dados em listas dentro do DataFrame;

colunas = list(df.columns)
colunas

['Data de venda', 'Cliente', 'Valor da compra']

In [89]:
df = df.explode(colunas[1:]).reset_index(drop=True)
df

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"
5,07/06/2022,Isabely JOanes 738,"R$ 168,07"
6,07/06/2022,Isabely JOanes 738,"R$ 339,18"
7,07/06/2022,Isabely JOanes 738,"R$ 314,69"
8,08/06/2022,Isabely JOanes 738,"R$ 682,05"
9,08/06/2022,JOãO Gabriel 671,"R$ 386,34"


In [90]:
# Verificar os tipos de dados;

df.dtypes

Data de venda      object
Cliente            object
Valor da compra    object
dtype: object

In [91]:
# Identificar colunas numéricas;

df['Valor da compra']

0      R$ 836,5
1     R$ 573,33
2      R$ 392,8
3     R$ 512,34
4     R$ 825,31
5     R$ 168,07
6     R$ 339,18
7     R$ 314,69
8     R$ 682,05
9     R$ 386,34
10    R$ 622,65
11    R$ 630,79
12     R$ 390,3
13    R$ 759,16
14    R$ 334,47
15    R$ 678,78
16    R$ 314,24
17    R$ 311,15
18    R$ 899,16
19    R$ 885,24
Name: Valor da compra, dtype: object

In [92]:
# Transformar a coluna numérica para o tipo numérico.

df['Valor da compra'] = df['Valor da compra'].apply(lambda x: float(x.replace('R$ ', '').replace('.', '').replace(',', '.')))
df['Valor da compra']

0     836.50
1     573.33
2     392.80
3     512.34
4     825.31
5     168.07
6     339.18
7     314.69
8     682.05
9     386.34
10    622.65
11    630.79
12    390.30
13    759.16
14    334.47
15    678.78
16    314.24
17    311.15
18    899.16
19    885.24
Name: Valor da compra, dtype: float64

In [93]:
df.dtypes

Data de venda       object
Cliente             object
Valor da compra    float64
dtype: object

## Manipulando texto

In [84]:
df['Cliente']

0        @ana _lucia 321
1     diego armandiu 210
2     diego armandiu 210
3     diego armandiu 210
4     isabely joanes 738
5     isabely joanes 738
6     isabely joanes 738
7     isabely joanes 738
8     isabely joanes 738
9       joão gabriel 671
10    julya meireles 914
11    julya meireles 914
12    julya meireles 914
13       maria julia 444
14       maria julia 444
15       maria julia 444
16       maria julia 444
17       pedro pasco 812
18      paulo castro 481
19     thiago fritzz 883
Name: Cliente, dtype: object

In [100]:
# Remover os caracteres especiais, acentos e transformar em letras minúsculas.

df['Cliente'] = df['Cliente'].apply(lambda x: re.sub(r'[^a-zA-Zãõ ~]+', '', x.replace('ã', 'a').replace('õ', 'o'))).str.lower().str.strip()
df['Cliente']

0          ana lucia
1     diego armandiu
2     diego armandiu
3     diego armandiu
4     isabely joanes
5     isabely joanes
6     isabely joanes
7     isabely joanes
8     isabely joanes
9       joao gabriel
10    julya meireles
11    julya meireles
12    julya meireles
13       maria julia
14       maria julia
15       maria julia
16       maria julia
17       pedro pasco
18      paulo castro
19     thiago fritzz
Name: Cliente, dtype: object

In [101]:
df

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.33
2,06/06/2022,diego armandiu,392.8
3,06/06/2022,diego armandiu,512.34
4,07/06/2022,isabely joanes,825.31
5,07/06/2022,isabely joanes,168.07
6,07/06/2022,isabely joanes,339.18
7,07/06/2022,isabely joanes,314.69
8,08/06/2022,isabely joanes,682.05
9,08/06/2022,joao gabriel,386.34


## Manipulando datas

In [115]:
# converter a coluna de data para o tipo datetime

df['Data de venda'] = pd.to_datetime(df['Data de venda'], format='%d/%m/%Y')
df['Data de venda']

0    2022-06-06
1    2022-06-06
2    2022-06-06
3    2022-06-06
4    2022-06-07
5    2022-06-07
6    2022-06-07
7    2022-06-07
8    2022-06-08
9    2022-06-08
10   2022-06-08
11   2022-06-08
12   2022-06-09
13   2022-06-09
14   2022-06-09
15   2022-06-09
16   2022-06-10
17   2022-06-10
18   2022-06-10
19   2022-06-10
Name: Data de venda, dtype: datetime64[ns]

In [116]:
df.info()   

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Cliente          20 non-null     object        
 2   Valor da compra  20 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 608.0+ bytes


In [117]:
# Calcular o total arrecadado em compras por cada cliente

total_compras = df.groupby('Cliente')['Valor da compra'].sum().reset_index()
total_compras

Unnamed: 0,Cliente,Valor da compra
0,ana lucia,836.5
1,diego armandiu,1478.47
2,isabely joanes,2329.3
3,joao gabriel,386.34
4,julya meireles,1643.74
5,maria julia,2086.65
6,paulo castro,899.16
7,pedro pasco,311.15
8,thiago fritzz,885.24


# Locação Imóveis

In [52]:
df2 = pd.read_json('dados_locacao_imoveis.json')
df2

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."
5,"{'apartamento': 'C302 (blocoAP)', 'datas_combi..."
6,"{'apartamento': 'D401 (blocoAP)', 'datas_combi..."
7,"{'apartamento': 'D402 (blocoAP)', 'datas_combi..."
8,"{'apartamento': 'E501 (blocoAP)', 'datas_combi..."
9,"{'apartamento': 'E502 (blocoAP)', 'datas_combi..."


In [53]:
df2 = pd.json_normalize(df2['dados_locacao'])
df2

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"
5,C302 (blocoAP),"[06/06/2022, 06/07/2022]","[08/06/2022, 12/07/2022]","[$ 1500,0 reais, $ 1200,0 reais]"
6,D401 (blocoAP),"[07/06/2022, 07/07/2022]","[07/06/2022, 09/07/2022]","[$ 1600,0 reais, $ 1300,0 reais]"
7,D402 (blocoAP),"[08/06/2022, 08/07/2022]","[10/06/2022, 14/07/2022]","[$ 1700,0 reais, $ 1400,0 reais]"
8,E501 (blocoAP),"[09/06/2022, 09/07/2022]","[10/06/2022, 09/07/2022]","[$ 1800,0 reais, $ 1500,0 reais]"
9,E502 (blocoAP),"[10/06/2022, 10/07/2022]","[16/06/2022, 12/07/2022]","[$ 1900,0 reais, $ 1600,0 reais]"


## Tratando os dados

In [54]:
# Remover os dados em listas dentro do DataFrame;

colunas = list(df2.columns) 
colunas

['apartamento',
 'datas_combinadas_pagamento',
 'datas_de_pagamento',
 'valor_aluguel']

In [55]:
df2 = df2.explode(colunas[1:]).reset_index(drop=True)
df2

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
1,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
2,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
3,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
4,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"
5,B201 (blocoAP),03/07/2022,03/07/2022,"$ 2700,0 reais"
6,B202 (blocoAP),04/06/2022,07/06/2022,"$ 1300,0 reais"
7,B202 (blocoAP),04/07/2022,05/07/2022,"$ 2800,0 reais"
8,C301 (blocoAP),05/06/2022,10/06/2022,"$ 1400,0 reais"
9,C301 (blocoAP),05/07/2022,09/07/2022,"$ 2900,0 reais"


In [56]:
# Verificar os tipos de dados;

df2.dtypes

apartamento                   object
datas_combinadas_pagamento    object
datas_de_pagamento            object
valor_aluguel                 object
dtype: object

In [58]:
# Identificar colunas numéricas;

df2['valor_aluguel']

0     $ 1000,0 reais
1     $ 2500,0 reais
2     $ 1100,0 reais
3     $ 2600,0 reais
4     $ 1200,0 reais
5     $ 2700,0 reais
6     $ 1300,0 reais
7     $ 2800,0 reais
8     $ 1400,0 reais
9     $ 2900,0 reais
10    $ 1500,0 reais
11    $ 1200,0 reais
12    $ 1600,0 reais
13    $ 1300,0 reais
14    $ 1700,0 reais
15    $ 1400,0 reais
16    $ 1800,0 reais
17    $ 1500,0 reais
18    $ 1900,0 reais
19    $ 1600,0 reais
20    $ 2000,0 reais
21    $ 1000,0 reais
22    $ 2100,0 reais
23    $ 1100,0 reais
24    $ 2200,0 reais
25    $ 1200,0 reais
26    $ 2300,0 reais
27    $ 2100,0 reais
28    $ 2400,0 reais
29    $ 2200,0 reais
Name: valor_aluguel, dtype: object

In [68]:
# Transformar a coluna numérica para o tipo numérico.

df2['valor_aluguel'] = df2['valor_aluguel'].apply(lambda x: float(x.replace('$ ', '').replace(' reais', '').replace(',','.').strip()))
df2['valor_aluguel']

0     1000.0
1     2500.0
2     1100.0
3     2600.0
4     1200.0
5     2700.0
6     1300.0
7     2800.0
8     1400.0
9     2900.0
10    1500.0
11    1200.0
12    1600.0
13    1300.0
14    1700.0
15    1400.0
16    1800.0
17    1500.0
18    1900.0
19    1600.0
20    2000.0
21    1000.0
22    2100.0
23    1100.0
24    2200.0
25    1200.0
26    2300.0
27    2100.0
28    2400.0
29    2200.0
Name: valor_aluguel, dtype: float64

In [69]:
df2.dtypes

apartamento                    object
datas_combinadas_pagamento     object
datas_de_pagamento             object
valor_aluguel                 float64
dtype: object

## Manipulando texto

In [103]:
df2['apartamento']

0     A101 (blocoAP)
1     A101 (blocoAP)
2     A102 (blocoAP)
3     A102 (blocoAP)
4     B201 (blocoAP)
5     B201 (blocoAP)
6     B202 (blocoAP)
7     B202 (blocoAP)
8     C301 (blocoAP)
9     C301 (blocoAP)
10    C302 (blocoAP)
11    C302 (blocoAP)
12    D401 (blocoAP)
13    D401 (blocoAP)
14    D402 (blocoAP)
15    D402 (blocoAP)
16    E501 (blocoAP)
17    E501 (blocoAP)
18    E502 (blocoAP)
19    E502 (blocoAP)
20    F601 (blocoAP)
21    F601 (blocoAP)
22    F602 (blocoAP)
23    F602 (blocoAP)
24    G701 (blocoAP)
25    G701 (blocoAP)
26    G702 (blocoAP)
27    G702 (blocoAP)
28    H801 (blocoAP)
29    H801 (blocoAP)
Name: apartamento, dtype: object

In [105]:
# remover (blocoAP)

df2['apartamento'] = df2['apartamento'].apply(lambda x: x.replace('(blocoAP)', '').strip())
df2['apartamento']

0     A101
1     A101
2     A102
3     A102
4     B201
5     B201
6     B202
7     B202
8     C301
9     C301
10    C302
11    C302
12    D401
13    D401
14    D402
15    D402
16    E501
17    E501
18    E502
19    E502
20    F601
21    F601
22    F602
23    F602
24    G701
25    G701
26    G702
27    G702
28    H801
29    H801
Name: apartamento, dtype: object

In [106]:
df2

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,01/06/2022,05/06/2022,1000.0
1,A101,01/07/2022,03/07/2022,2500.0
2,A102,02/06/2022,02/06/2022,1100.0
3,A102,02/07/2022,06/07/2022,2600.0
4,B201,03/06/2022,07/06/2022,1200.0
5,B201,03/07/2022,03/07/2022,2700.0
6,B202,04/06/2022,07/06/2022,1300.0
7,B202,04/07/2022,05/07/2022,2800.0
8,C301,05/06/2022,10/06/2022,1400.0
9,C301,05/07/2022,09/07/2022,2900.0


## Manipulacao de datas

In [119]:
# convertendo as colunas datas_combinadas_pagamento	datas_de_pagamento para o tipo datetime

df2['datas_combinadas_pagamento'] = pd.to_datetime(df2['datas_combinadas_pagamento'], format='%d/%m/%Y')
df2['datas_de_pagamento'] = pd.to_datetime(df2['datas_de_pagamento'], format='%d/%m/%Y')
df2[['datas_combinadas_pagamento', 'datas_de_pagamento']].head()

Unnamed: 0,datas_combinadas_pagamento,datas_de_pagamento
0,2022-06-01,2022-06-05
1,2022-07-01,2022-07-03
2,2022-06-02,2022-06-02
3,2022-07-02,2022-07-06
4,2022-06-03,2022-06-07


In [120]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   apartamento                 30 non-null     object        
 1   datas_combinadas_pagamento  30 non-null     datetime64[ns]
 2   datas_de_pagamento          30 non-null     datetime64[ns]
 3   valor_aluguel               30 non-null     float64       
dtypes: datetime64[ns](2), float64(1), object(1)
memory usage: 1.1+ KB


In [123]:
# criar uma coluna atraso_pagamento

df2['atraso_pagamento'] = (df2['datas_de_pagamento'] - df2['datas_combinadas_pagamento']).dt.days

df2.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel,atraso_pagamento
0,A101,2022-06-01,2022-06-05,1000.0,4
1,A101,2022-07-01,2022-07-03,2500.0,2
2,A102,2022-06-02,2022-06-02,1100.0,0
3,A102,2022-07-02,2022-07-06,2600.0,4
4,B201,2022-06-03,2022-06-07,1200.0,4


In [124]:
# Calcular a média de tempo de atraso por apartamentos

media_atraso = df2.groupby('apartamento')['atraso_pagamento'].mean().reset_index()
media_atraso

Unnamed: 0,apartamento,atraso_pagamento
0,A101,3.0
1,A102,2.0
2,B201,2.0
3,B202,2.0
4,C301,4.5
5,C302,4.0
6,D401,1.0
7,D402,4.0
8,E501,0.5
9,E502,4.0


# Outros exercícios

In [35]:
import pandas as pd
import numpy as np

# dados da firma
dados = {
    'cargo': ['Gerencia', 'Coordenação', 'Supervisão', 'Analista', 'Assistente', 'Operação', 'Auxiliar', 'Estágio', 'Assessoria', 'Consultoria'],
    'quantidade': ['2 pessoas', '1 pessoa', '3 pessoas', '4 pessoas', '5 pessoas', '3 pessoas', '2 pessoas', '1 pessoa', '1 pessoa', '1 pessoa'],
    'salario': ['$10.000 reais', '$8.000 reais', '$7.000 reais', '$5.000 reais', '$4.000 reais', '$3.500 reais', '$3.000 reais', '$1.500 reais', '$2.500 reais', '$6.000 reais']
}

# transformando o dicionário em DataFrame
df = pd.DataFrame(dados)

# df é o DataFrame com os dados da firma
df

Unnamed: 0,cargo,quantidade,salario
0,Gerencia,2 pessoas,$10.000 reais
1,Coordenação,1 pessoa,$8.000 reais
2,Supervisão,3 pessoas,$7.000 reais
3,Analista,4 pessoas,$5.000 reais
4,Assistente,5 pessoas,$4.000 reais
5,Operação,3 pessoas,$3.500 reais
6,Auxiliar,2 pessoas,$3.000 reais
7,Estágio,1 pessoa,$1.500 reais
8,Assessoria,1 pessoa,$2.500 reais
9,Consultoria,1 pessoa,$6.000 reais


In [29]:
df['quantidade'] = df['quantidade'].apply(lambda x: x.replace(' pessoas', '').replace(' pessoa', ''))
df['salario'] = df['salario'].str.replace(r'\$|reais', '', regex=True).str.strip()

In [30]:
df['quantidade'] = df['quantidade'].astype(np.int64)
df['salario'] = df['salario'].astype(np.float64)

In [31]:
df

Unnamed: 0,cargo,quantidade,salario
0,Gerencia,2,10.0
1,Coordenação,1,8.0
2,Supervisão,3,7.0
3,Analista,4,5.0
4,Assistente,5,4.0
5,Operação,3,3.5
6,Auxiliar,2,3.0
7,Estágio,1,1.5
8,Assessoria,1,2.5
9,Consultoria,1,6.0


In [110]:
import pandas as pd

# Criando o DataFrame com as informações
dados = pd.DataFrame({
    'Data de venda': ['01/01/2022', '05/02/2022', '10/03/2022', '15/04/2022','18/04/2022','20/04/2022'],
    'Valor': [100, 150, 200, 250,80,180]
})

# Exibindo o DataFrame
dados

Unnamed: 0,Data de venda,Valor
0,01/01/2022,100
1,05/02/2022,150
2,10/03/2022,200
3,15/04/2022,250
4,18/04/2022,80
5,20/04/2022,180


In [111]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Data de venda  6 non-null      object
 1   Valor          6 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 224.0+ bytes


In [112]:
# Transformando a coluna 'Data de venda' em datetime

dados['Data de venda'] = pd.to_datetime(dados['Data de venda'], format='%d/%m/%Y')
dados

Unnamed: 0,Data de venda,Valor
0,2022-01-01,100
1,2022-02-05,150
2,2022-03-10,200
3,2022-04-15,250
4,2022-04-18,80
5,2022-04-20,180


In [113]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Data de venda  6 non-null      datetime64[ns]
 1   Valor          6 non-null      int64         
dtypes: datetime64[ns](1), int64(1)
memory usage: 224.0 bytes
