In [51]:
import pandas as pd
import json

In [52]:
# Lendo o arquivo JSON
with open('pet.json', 'r') as file:
    data = json.load(file) # carregando conteúdo do json na variável data

In [53]:
# Transformação 1: criação da coluna do agendamento
# Extraindo os dados de "agendamento" e combinando data e hora
agendamentos = [{'agendamento': f"{item['agendamento']['data']} {item['agendamento']['hora']}"} for item in data['agendamentos']]

In [54]:
# Criando o DataFrame
df = pd.DataFrame(agendamentos)


In [55]:
print(df.dtypes)
df.head()

agendamento    object
dtype: object


Unnamed: 0,agendamento
0,2023-12-01 10:00
1,2023-12-01 14:00
2,2023-12-02 15:30
3,2023-12-03 09:00
4,2023-12-03 11:00


In [56]:
# Transformação 2: criação da coluna turno
# Criando função ('def') chamada 'determinar_turno' para determinar o turno baseado na hora
def determinar_turno(hora):
    hora_int = int(hora.split(':')[0]) # pegando o primeiro elemento do split (divisao) por ':', que é a hora, e convertendo para INT
    if 7 <= hora_int < 12:
        return 'manhã'
    elif 12 <= hora_int < 18:
        return 'tarde'
    else:
        return 'noite'

# Extraindo apenas a hora da data e hora combinadas(do df criado anteriormente)
df['hora'] = df['agendamento'].str.split().str[1] # pegando o segundo elemento do split por espaço em branco, que é a hora

# Aplicando a função ao DataFrame para criar a coluna 'turno'
df['turno'] = df['hora'].apply(determinar_turno)

df.head()


Unnamed: 0,agendamento,hora,turno
0,2023-12-01 10:00,10:00,manhã
1,2023-12-01 14:00,14:00,tarde
2,2023-12-02 15:30,15:30,tarde
3,2023-12-03 09:00,09:00,manhã
4,2023-12-03 11:00,11:00,manhã


In [57]:

# Removendo a coluna 'hora', já que não é mais necessária
df.drop('hora', axis=1, inplace=True)

df.head()

Unnamed: 0,agendamento,turno
0,2023-12-01 10:00,manhã
1,2023-12-01 14:00,tarde
2,2023-12-02 15:30,tarde
3,2023-12-03 09:00,manhã
4,2023-12-03 11:00,manhã


In [58]:
# Tranformação 3: criação da coluna servico
# Função para formatar o serviço com as transformações especificadas
def formatar_servico(servico):
    # Substituindo ' + ' por '&' e capitalizando cada palavra
    servico_formatado = servico.replace(' + ', '&').title()
    return servico_formatado

# Extraindo e formatando a coluna 'servico' a partir dos dados JSON
df['servico'] = [formatar_servico(item['agendamento']['servico']) for item in data['agendamentos']]

df.head()  

Unnamed: 0,agendamento,turno,servico
0,2023-12-01 10:00,manhã,Banho
1,2023-12-01 14:00,tarde,Tosa
2,2023-12-02 15:30,tarde,Banho&Tosa
3,2023-12-03 09:00,manhã,Banho
4,2023-12-03 11:00,manhã,Tosa


In [59]:
# Tranformação 4: criação da coluna nome_pet
# Criando a coluna 'nome_pet' com as primeiras letras em maiúsculas.
df['nome_pet'] = [pet['pet']['nome'].title() for pet in data['agendamentos']]

df.head()

Unnamed: 0,agendamento,turno,servico,nome_pet
0,2023-12-01 10:00,manhã,Banho,Bolinha
1,2023-12-01 14:00,tarde,Tosa,Mingau
2,2023-12-02 15:30,tarde,Banho&Tosa,Rex
3,2023-12-03 09:00,manhã,Banho,Luna
4,2023-12-03 11:00,manhã,Tosa,Ziggy


In [60]:
# Tranformação 5: criação da coluna tipo
# Criando a coluna 'tipo' com os valores em maiúsculas diretamente
df['tipo'] = [item['pet']['informacoes'].split('.')[0].upper() for item in data['agendamentos']]

df.head()

Unnamed: 0,agendamento,turno,servico,nome_pet,tipo
0,2023-12-01 10:00,manhã,Banho,Bolinha,CACHORRO
1,2023-12-01 14:00,tarde,Tosa,Mingau,GATO
2,2023-12-02 15:30,tarde,Banho&Tosa,Rex,CACHORRO
3,2023-12-03 09:00,manhã,Banho,Luna,CACHORRO
4,2023-12-03 11:00,manhã,Tosa,Ziggy,GATO


In [61]:
# Tranformação 6: criação da coluna raca
# Criando a coluna 'raca' com os valores formatados
df['raca'] = [item['pet']['informacoes'].split('.')[1].replace(' ', '_').title() for item in data['agendamentos']]

df['raca'].value_counts()


raca
Poodle              1
Siames              1
Labrador            1
Beagle              1
Persa               1
Yorkshire           1
Rottweiler          1
Maine_Coon          1
Golden_Retriever    1
Bengal              1
Name: count, dtype: int64

In [62]:
# Tranformação 7: criação da coluna cor
# Criando a coluna 'cor' com os valores em maiúsculas conforme solicitado
df['cor'] = [item['pet']['informacoes'].split('.')[2].upper() for item in data['agendamentos']]

df['cor'].value_counts()

cor
BRANCO             2
CINZA              2
AMARELO            1
TRICOLOR           1
PRETO_E_DOURADO    1
PRETO_E_MARROM     1
DOURADO            1
MALHADO            1
Name: count, dtype: int64

In [63]:
# Tranformação 8: criação da coluna cor
# Criando a coluna 'genero' com os valores 'F' para femea e 'M' para macho
df['genero'] = [item['pet']['informacoes'].split('.')[3][0].upper() for item in data['agendamentos']] # seleciona a quarta parte do split "[3]", e então pega a primeira letra "[0]" dessa string e a converte para maiúscula
df['genero'].value_counts()

genero
M    5
F    5
Name: count, dtype: int64

In [64]:
# Tranformação 9: criação da coluna peso_kg
# Adicionando a coluna 'peso_kg' com os valores de peso em float
df['peso_kg'] = [float(item['pet']['peso']) for item in data['agendamentos']]

df.head()

Unnamed: 0,agendamento,turno,servico,nome_pet,tipo,raca,cor,genero,peso_kg
0,2023-12-01 10:00,manhã,Banho,Bolinha,CACHORRO,Poodle,BRANCO,M,5.5
1,2023-12-01 14:00,tarde,Tosa,Mingau,GATO,Siames,CINZA,F,3.2
2,2023-12-02 15:30,tarde,Banho&Tosa,Rex,CACHORRO,Labrador,AMARELO,M,30.0
3,2023-12-03 09:00,manhã,Banho,Luna,CACHORRO,Beagle,TRICOLOR,F,10.0
4,2023-12-03 11:00,manhã,Tosa,Ziggy,GATO,Persa,BRANCO,M,4.0


In [66]:
df.dtypes

agendamento     object
turno           object
servico         object
nome_pet        object
tipo            object
raca            object
cor             object
genero          object
peso_kg        float64
dtype: object

In [67]:
# Tranformação 10: criação da coluna porte
# Função para determinar o porte baseado no peso
def determinar_porte(peso):
    if peso < 5:
        return 'PEQ'
    elif 5 <= peso < 10:
        return 'MED'
    else:
        return 'GRAN'

# Aplicando a função ao DataFrame para criar a coluna 'porte'
df['porte'] = df['peso_kg'].apply(determinar_porte)

In [68]:
df['porte'].value_counts()

porte
PEQ     4
GRAN    4
MED     2
Name: count, dtype: int64

In [69]:
# Tranformação 11: criação da coluna nome_tutor
# Criando a coluna 'nome_tutor' com os nomes dos donos formatados
df['nome_tutor'] = [item['dono']['nome'].title() for item in data['agendamentos']] # .title() capitaliza a primeira letra de cada palavra da string

df['nome_tutor'].value_counts()

nome_tutor
Joao Silva         1
Maria Oliveira     1
Carlos Pereira     1
Fernanda Costa     1
Beatriz Gomes      1
Ricardo Nunes      1
Juliana Menezes    1
Lucas Ferreira     1
Patricia Rocha     1
Andre Santos       1
Name: count, dtype: int64

In [72]:
# Tranformação 12: criação da coluna endereco
# Criando a coluna 'endereco' com os endereços dos donos conforme estão no arquivo de origem
df['endereco'] = [item['dono']['endereco'] for item in data['agendamentos']]

df.head()

Unnamed: 0,agendamento,turno,servico,nome_pet,tipo,raca,cor,genero,peso_kg,porte,nome_tutor,endereco
0,2023-12-01 10:00,manhã,Banho,Bolinha,CACHORRO,Poodle,BRANCO,M,5.5,MED,Joao Silva,"Rua das Laranjeiras, 100, Rio de Janeiro, RJ"
1,2023-12-01 14:00,tarde,Tosa,Mingau,GATO,Siames,CINZA,F,3.2,PEQ,Maria Oliveira,"Av. Atlantica, 456, Rio de Janeiro, RJ"
2,2023-12-02 15:30,tarde,Banho&Tosa,Rex,CACHORRO,Labrador,AMARELO,M,30.0,GRAN,Carlos Pereira,"Rua do Catete, 789, Rio de Janeiro, RJ"
3,2023-12-03 09:00,manhã,Banho,Luna,CACHORRO,Beagle,TRICOLOR,F,10.0,GRAN,Fernanda Costa,"Praca da Bandeira, 1234, Rio de Janeiro, RJ"
4,2023-12-03 11:00,manhã,Tosa,Ziggy,GATO,Persa,BRANCO,M,4.0,PEQ,Beatriz Gomes,"Av. Rio Branco, 567, Rio de Janeiro, RJ"


In [73]:
# Tranformação 13: criação da coluna email
df['email'] = [item['dono']['email'] for item in data['agendamentos']]

df.head()

Unnamed: 0,agendamento,turno,servico,nome_pet,tipo,raca,cor,genero,peso_kg,porte,nome_tutor,endereco,email
0,2023-12-01 10:00,manhã,Banho,Bolinha,CACHORRO,Poodle,BRANCO,M,5.5,MED,Joao Silva,"Rua das Laranjeiras, 100, Rio de Janeiro, RJ",joaosilva@email.com
1,2023-12-01 14:00,tarde,Tosa,Mingau,GATO,Siames,CINZA,F,3.2,PEQ,Maria Oliveira,"Av. Atlantica, 456, Rio de Janeiro, RJ",mariaoliveira@email.com
2,2023-12-02 15:30,tarde,Banho&Tosa,Rex,CACHORRO,Labrador,AMARELO,M,30.0,GRAN,Carlos Pereira,"Rua do Catete, 789, Rio de Janeiro, RJ",carlospereira@email.com
3,2023-12-03 09:00,manhã,Banho,Luna,CACHORRO,Beagle,TRICOLOR,F,10.0,GRAN,Fernanda Costa,"Praca da Bandeira, 1234, Rio de Janeiro, RJ",fernandacosta@email.com
4,2023-12-03 11:00,manhã,Tosa,Ziggy,GATO,Persa,BRANCO,M,4.0,PEQ,Beatriz Gomes,"Av. Rio Branco, 567, Rio de Janeiro, RJ",beatrizgomes@email.com


In [74]:
# Tranformação 14: criação da coluna telefone
# Função para formatar o telefone removendo parênteses, espaços e traços
def formatar_telefone(telefone):
    return telefone.replace('(', '').replace(')', '').replace(' ', '').replace('-', '')

# Criando a coluna 'telefone' com os telefones formatados
df['telefone'] = [formatar_telefone(item['dono']['telefone']) for item in data['agendamentos']]

df.head()

Unnamed: 0,agendamento,turno,servico,nome_pet,tipo,raca,cor,genero,peso_kg,porte,nome_tutor,endereco,email,telefone
0,2023-12-01 10:00,manhã,Banho,Bolinha,CACHORRO,Poodle,BRANCO,M,5.5,MED,Joao Silva,"Rua das Laranjeiras, 100, Rio de Janeiro, RJ",joaosilva@email.com,21999999999
1,2023-12-01 14:00,tarde,Tosa,Mingau,GATO,Siames,CINZA,F,3.2,PEQ,Maria Oliveira,"Av. Atlantica, 456, Rio de Janeiro, RJ",mariaoliveira@email.com,21888888888
2,2023-12-02 15:30,tarde,Banho&Tosa,Rex,CACHORRO,Labrador,AMARELO,M,30.0,GRAN,Carlos Pereira,"Rua do Catete, 789, Rio de Janeiro, RJ",carlospereira@email.com,21777777777
3,2023-12-03 09:00,manhã,Banho,Luna,CACHORRO,Beagle,TRICOLOR,F,10.0,GRAN,Fernanda Costa,"Praca da Bandeira, 1234, Rio de Janeiro, RJ",fernandacosta@email.com,21666666666
4,2023-12-03 11:00,manhã,Tosa,Ziggy,GATO,Persa,BRANCO,M,4.0,PEQ,Beatriz Gomes,"Av. Rio Branco, 567, Rio de Janeiro, RJ",beatrizgomes@email.com,21555555555


In [84]:
import pandas as pd
import json

# Extraido os dados do arquivo json
print('Extraindo dados...')
with open('pet.json', 'r') as file:
    data_cloud = json.load(file)

dados_json = data_cloud['agendamentos']
print('Dados extraidos com sucesso')

# Funções auxiliares
print('Carregando funcoes auxiliares...')
def determinar_turno(hora):
    hora_int = int(hora.split(':')[0]) 
    if 7 <= hora_int < 12:
        return 'manhã'
    elif 12 <= hora_int < 18:
        return 'tarde'
    else:
        return 'noite'

def formatar_servico(servico):
    servico_formatado = servico.replace(' + ', '&').title()
    return servico_formatado

def determinar_porte(peso):
    if peso < 5:
        return 'PEQ'
    elif 5 <= peso < 10:
        return 'MED'
    else:
        return 'GRAN'
    
def formatar_telefone(telefone):
    return telefone.replace('(', '').replace(')', '').replace(' ', '').replace('-', '')
print('Funcoes auxiliares carregadas com sucesso')

# Transformando os dados
print('Iniciando as transformacoes dos dados...')
df2 = pd.DataFrame({
    'agendamento': [f"{item['agendamento']['data']} {item['agendamento']['hora']}" for item in dados_json],
    'turno': [determinar_turno(item['agendamento']['hora']) for item in dados_json],
    'servico': [formatar_servico(item['agendamento']['servico']) for item in dados_json],
    'nome_pet': [item['pet']['nome'].title() for item in dados_json],
    'tipo': [item['pet']['informacoes'].split('.')[0].upper() for item in dados_json],
    'raca': [item['pet']['informacoes'].split('.')[1].replace('_', ' ').title() for item in dados_json],
    'cor': [item['pet']['informacoes'].split('.')[2].upper() for item in dados_json],
    'genero': [item['pet']['informacoes'].split('.')[3][0].upper() for item in dados_json],
    'peso_kg': [float(item['pet']['peso']) for item in dados_json],
    'porte': [determinar_porte(float(item['pet']['peso'])) for item in dados_json],
    'nome_tutor': [item['dono']['nome'].title() for item in dados_json],
    'endereco': [item['dono']['endereco'] for item in dados_json],
    'email': [item['dono']['email'] for item in dados_json],
    'telefone': [formatar_telefone(item['dono']['telefone']) for item in dados_json]
})
print("Dados tranformados com sucesso")

print('Salvando os dados em um arquivo csv')
# Salvando o df2 em um arquivo CSV
df2.to_csv('resultado_etl.csv', index=False)
print('Dados salvos com sucesso')

Extraindo dados...
Dados extraidos com sucesso
Carregando funcoes auxiliares...
Funcoes auxiliares carregadas com sucesso
Iniciando as transformacoes dos dados...
Dados tranformados com sucesso
Salvando os dados em um arquivo csv
Dados salvos com sucesso
