In [1]:
## Projeto Desafio 1: Vendas Online
## Etapas 1 a 4: Transformações Completas

import pandas as pd
import json
import re
from google.colab import files

In [2]:
# Carregar o arquivo JSON - Vendas Online
uploaded = files.upload()

Saving dados_locacao_imoveis.json to dados_locacao_imoveis.json
Saving dados_vendas_clientes.json to dados_vendas_clientes.json


In [3]:
# Ler o arquivo de vendas
with open('dados_vendas_clientes.json', 'r') as file:
    dados_vendas = json.load(file)

In [4]:
# Processar os dados
rows = []
for venda in dados_vendas['dados_vendas']:
    data_venda = venda['Data de venda']
    for cliente, valor in zip(venda['Cliente'], venda['Valor da compra']):
        rows.append({'Cliente': cliente, 'Valor da compra': valor, 'Data de venda': data_venda})

In [5]:
# Criar DataFrame
df_vendas = pd.DataFrame(rows)

In [6]:
# Transformar a coluna 'Valor da compra' para numérico
df_vendas['Valor da compra'] = df_vendas['Valor da compra'].str.replace('R$', '').str.replace(',', '.').astype(float)

In [7]:
# Manipular os textos na coluna 'Cliente'
def clean_client_name(name):
    name = name.lower()  # Transformar em letras minúsculas
    name = re.sub(r'[^a-z\s]', '', name)  # Remover caracteres especiais e números
    return name.strip()

In [8]:
df_vendas['Cliente'] = df_vendas['Cliente'].apply(clean_client_name)

In [9]:
# Transformar a coluna 'Data de venda' para datetime
df_vendas['Data de venda'] = pd.to_datetime(df_vendas['Data de venda'], format='%d/%m/%Y')

In [11]:
print("Dados de Vendas Online:")
print(df_vendas.head())

Dados de Vendas Online:
          Cliente  Valor da compra Data de venda
0       ana lucia           836.50    2022-06-06
1  diego armandiu           573.33    2022-06-06
2  diego armandiu           392.80    2022-06-06
3  diego armandiu           512.34    2022-06-06
4  isabely joanes           825.31    2022-06-07


In [12]:
# Análise de subconjunto - Identificar o cliente com a maior compra na semana
cliente_top = df_vendas.groupby('Cliente')['Valor da compra'].sum().idxmax()
valor_top = df_vendas.groupby('Cliente')['Valor da compra'].sum().max()
print(f'\nCliente com a maior compra na semana: {cliente_top}, Valor total gasto: R$ {valor_top:.2f}')


Cliente com a maior compra na semana: isabely joanes, Valor total gasto: R$ 2329.30


In [14]:
## Projeto Desafio 2: Administração de Condomínios
## Etapas 1 a 4: Transformações Completas

# Ler o arquivo de locação
with open('dados_locacao_imoveis.json', 'r') as file:
    dados_locacao = json.load(file)

In [15]:
# Processar os dados
rows = []
for locacao in dados_locacao['dados_locacao']:
    apartamento = locacao['apartamento']
    for data_combinada, data_pagamento, valor in zip(locacao['datas_combinadas_pagamento'], locacao['datas_de_pagamento'], locacao['valor_aluguel']):
        rows.append({'Apartamento': apartamento, 'Data combinada de pagamento': data_combinada, 'Data de pagamento': data_pagamento, 'Valor do aluguel': valor})

In [16]:
# Criar DataFrame
df_locacao = pd.DataFrame(rows)

In [17]:
# Transformar a coluna 'Valor do aluguel' para numérico
df_locacao['Valor do aluguel'] = df_locacao['Valor do aluguel'].str.replace('$', '').str.replace(' reais', '').str.replace(',', '').astype(float)

In [22]:
# Manipular os textos na coluna 'Apartamento'
df_locacao['Apartamento'] = df_locacao['Apartamento'].str.replace(r'\(blocoAP\)', '', regex=True).str.strip()

In [23]:
# Transformar as colunas 'Data combinada de pagamento' e 'Data de pagamento' para datetime
df_locacao['Data combinada de pagamento'] = pd.to_datetime(df_locacao['Data combinada de pagamento'], format='%d/%m/%Y')
df_locacao['Data de pagamento'] = pd.to_datetime(df_locacao['Data de pagamento'], format='%d/%m/%Y')

In [24]:
print("\nDados de Administração de Condomínios (Após Transformação Completa):")
print(df_locacao.head())


Dados de Administração de Condomínios (Após Transformação Completa):
  Apartamento Data combinada de pagamento Data de pagamento  Valor do aluguel  \
0        A101                  2022-06-01        2022-06-05           10000.0   
1        A101                  2022-07-01        2022-07-03           25000.0   
2        A102                  2022-06-02        2022-06-02           11000.0   
3        A102                  2022-07-02        2022-07-06           26000.0   
4        B201                  2022-06-03        2022-06-07           12000.0   

   Atraso  
0       4  
1       2  
2       0  
3       4  
4       4  


In [25]:
# Análise de subconjunto - Calcular o atraso no pagamento
df_locacao['Atraso'] = (df_locacao['Data de pagamento'] - df_locacao['Data combinada de pagamento']).dt.days
print("\nAnálise de Atraso no Pagamento:")
print(df_locacao[['Apartamento', 'Data combinada de pagamento', 'Data de pagamento', 'Atraso']])


Análise de Atraso no Pagamento:
   Apartamento Data combinada de pagamento Data de pagamento  Atraso
0         A101                  2022-06-01        2022-06-05       4
1         A101                  2022-07-01        2022-07-03       2
2         A102                  2022-06-02        2022-06-02       0
3         A102                  2022-07-02        2022-07-06       4
4         B201                  2022-06-03        2022-06-07       4
5         B201                  2022-07-03        2022-07-03       0
6         B202                  2022-06-04        2022-06-07       3
7         B202                  2022-07-04        2022-07-05       1
8         C301                  2022-06-05        2022-06-10       5
9         C301                  2022-07-05        2022-07-09       4
10        C302                  2022-06-06        2022-06-08       2
11        C302                  2022-07-06        2022-07-12       6
12        D401                  2022-06-07        2022-06-07       0
1