# **Extração e Tratamento de Dados**

## Preparo de ambiente

_Preparo de ferramentas e documentos que serão utilizados_

In [33]:
# Importar bibliotecas

import pandas as pd
import numpy as np


# Ler base de dados e salvar em dataFrames na instância

tabela_Amenities = pd.read_csv("https://raw.githubusercontent.com/pa-pcosta/Resolucao-de-Desafio-Tecnico-Programa-de-Estagio-Seazone/main/dados/BD%20-%20Amenities.csv")
tabela_Itens_x_Peso = pd.read_csv("https://raw.githubusercontent.com/pa-pcosta/Resolucao-de-Desafio-Tecnico-Programa-de-Estagio-Seazone/main/dados/BD%20-%20Itens%20x%20Peso.csv")
tabela_Material_de_Limpeza = pd.read_csv("https://raw.githubusercontent.com/pa-pcosta/Resolucao-de-Desafio-Tecnico-Programa-de-Estagio-Seazone/main/dados/BD%20-%20Material%20de%20Limpeza.csv")
tabela_Valor_Lavanderia_por_Item = pd.read_csv("https://raw.githubusercontent.com/pa-pcosta/Resolucao-de-Desafio-Tecnico-Programa-de-Estagio-Seazone/main/dados/BD%20-%20Valor%20Lavanderia%20Por%20Item.csv")
tabela_Valor_Limpeza_Diarista = pd.read_csv("https://raw.githubusercontent.com/pa-pcosta/Resolucao-de-Desafio-Tecnico-Programa-de-Estagio-Seazone/main/dados/BD%20-%20Valor%20Limpeza%20Diarista.csv")
tabela_Configuracao_Imovel = pd.read_csv("https://raw.githubusercontent.com/pa-pcosta/Resolucao-de-Desafio-Tecnico-Programa-de-Estagio-Seazone/main/dados/Configuracao-Imovel.csv")
tabela_Estoque_Imovel = pd.read_csv("https://raw.githubusercontent.com/pa-pcosta/Resolucao-de-Desafio-Tecnico-Programa-de-Estagio-Seazone/main/dados/Estoque-Imovel.csv")
tabela_Taxa_Limpeza_Atual = pd.read_csv("https://raw.githubusercontent.com/pa-pcosta/Resolucao-de-Desafio-Tecnico-Programa-de-Estagio-Seazone/main/dados/TaxaLimpeza%20(Atual).csv")
# tabela_Calculo_Taxa_Total = pd.read_csv("/content/Calculo_Taxa_Total.csv")

In [34]:
# tabela_Calculo_Taxa_Total.head()

## Inspeção de tabelas

_Verificar se número de linhas e colunas dos dataFrames correspondem aos das planilhas para garantir que conversão foi feita._

In [35]:
# Dimensão esperada (6, 5)
tabela_Amenities.shape

(6, 5)

In [36]:
# Dimensão esperada (20, 2)
tabela_Itens_x_Peso.shape

(20, 2)

In [37]:
# Dimensão esperada (7, 4)
tabela_Material_de_Limpeza.shape

(7, 4)

In [38]:
# Dimensão esperada (53, 22)
tabela_Valor_Lavanderia_por_Item.shape

(53, 22)

In [39]:
# Dimensão esperada (8, 2)
tabela_Valor_Limpeza_Diarista.shape

(8, 2)

In [40]:
# Dimensão esperada (20, 16)
tabela_Configuracao_Imovel.shape

(20, 16)

In [41]:
# Dimensão esperada (20, 29)
tabela_Estoque_Imovel.shape

(20, 29)

In [42]:
# Dimensão esperada (31, 2)
tabela_Taxa_Limpeza_Atual.shape

(31, 2)

## Limpeza dos dataFrames

_Padronização de tipos e formas de dados e tratamento de inconsistências_

### tabela_Valor_Limpeza_Diarista

In [43]:
# Extrair apenas números da coluna "Numero de Quartos"
tabela_Valor_Limpeza_Diarista["Numero de Quartos"] = tabela_Valor_Limpeza_Diarista["Numero de Quartos"].str.extract('(\d+)')

# Converter coluna "Numero de Quartos" para inteiro
tabela_Valor_Limpeza_Diarista["Numero de Quartos"] = tabela_Valor_Limpeza_Diarista["Numero de Quartos"].astype(int)

# Extrair apenas números da coluna "Valor"
tabela_Valor_Limpeza_Diarista["Valor"] = tabela_Valor_Limpeza_Diarista["Valor"].str.extract('(\d+)')

# Converter coluna "Numero de Quartos" para decimal
tabela_Valor_Limpeza_Diarista["Valor"] = tabela_Valor_Limpeza_Diarista["Valor"].astype(float)


In [44]:
tabela_Valor_Limpeza_Diarista.dtypes

Numero de Quartos      int64
Valor                float64
dtype: object

In [45]:
tabela_Valor_Limpeza_Diarista.head()

Unnamed: 0,Numero de Quartos,Valor
0,1,220.0
1,2,250.0
2,3,250.0
3,4,320.0
4,5,250.0


### tabela_Configuracao_Imovel

In [46]:
# Converter código id para string
tabela_Configuracao_Imovel["code"] = tabela_Configuracao_Imovel["code"].astype(str)

In [47]:
tabela_Configuracao_Imovel.head()

Unnamed: 0,code,neighborhood,city,state,status,Camas de solteiro,Cama de casal,Cama Queen,Cama King,Sofa Cama Solteiro,Sofa Cama Casal,Travesseiros,Numero Quartos,Numero Banheiros,Numero Lavabos,Numero Hóspedes
0,OKA101,Campeche,Florianópolis,SC,Active,0,1,0,0,1,0,4,1,1,0,3
1,OKA102,Campeche,Florianópolis,SC,Active,1,1,0,0,0,0,4,1,1,0,3
2,OKA105,Campeche,Florianópolis,SC,Active,0,1,0,0,1,0,4,1,1,0,3
3,OKA106,Campeche,Florianópolis,SC,Active,0,0,1,0,1,0,2,1,1,0,3
4,OKA110,Campeche,Florianópolis,SC,Active,0,1,0,0,1,0,4,1,1,0,3


In [48]:
tabela_Configuracao_Imovel.dtypes

code                  object
neighborhood          object
city                  object
state                 object
status                object
Camas de solteiro      int64
Cama de casal          int64
Cama Queen             int64
Cama King              int64
Sofa Cama Solteiro     int64
Sofa Cama Casal        int64
Travesseiros           int64
Numero Quartos         int64
Numero Banheiros       int64
Numero Lavabos         int64
Numero Hóspedes        int64
dtype: object

### tabela_Estoque_Imovel

In [49]:
# Converter quantidade de cada tecido para inteiro
tecidos = ['Toalha de rosto' , 'Toalha de piso' , 'Toalha de maquiagem' , 'Toalha de banho' , 'Pano de prato' , 'Pano de pia' , 'Manta queen size' , 'Lençol solteiro' , 'Lençol queen size' , 'Lençol king size' , 'Lençol casal' , 'Fronha' , 'Edredom solteiro' , 'Edredom queen size' , 'Edredom king size' , 'Edredom casal' , 'Colcha solteiro' , 'Colcha queen size' , 'Colcha casal' , 'Cobertor queen size' , 'Capa edredom solteiro' , 'Capa edredom queen size' , 'Capa edredom king size' , 'Capa edredom casal']

for tecido in tecidos:
  tabela_Estoque_Imovel[tecido] = tabela_Estoque_Imovel[tecido].astype(int)

In [50]:
tabela_Estoque_Imovel.head()

Unnamed: 0,code,neighborhood,city,state,status,Toalha de rosto,Toalha de piso,Toalha de maquiagem,Toalha de banho,Pano de prato,...,Edredom king size,Edredom casal,Colcha solteiro,Colcha queen size,Colcha casal,Cobertor queen size,Capa edredom solteiro,Capa edredom queen size,Capa edredom king size,Capa edredom casal
0,OKA101,Campeche,Florianópolis,SC,Active,2,2,0,7,0,...,0,3,0,0,0,0,0,0,0,3
1,OKA102,Campeche,Florianópolis,SC,Active,1,1,0,4,0,...,0,0,0,0,0,0,0,2,0,0
2,OKA105,Campeche,Florianópolis,SC,Active,3,3,0,5,0,...,0,2,0,0,0,0,0,0,0,2
3,OKA106,Campeche,Florianópolis,SC,Active,2,2,0,7,0,...,0,0,0,0,0,0,0,2,0,0
4,OKA110,Campeche,Florianópolis,SC,Active,2,2,0,7,0,...,0,1,0,0,0,0,0,0,0,1


In [51]:
tabela_Estoque_Imovel.dtypes

code                       object
neighborhood               object
city                       object
state                      object
status                     object
Toalha de rosto             int64
Toalha de piso              int64
Toalha de maquiagem         int64
Toalha de banho             int64
Pano de prato               int64
Pano de pia                 int64
Manta queen size            int64
Lençol solteiro             int64
Lençol queen size           int64
Lençol king size            int64
Lençol casal                int64
Fronha                      int64
Edredom solteiro            int64
Edredom queen size          int64
Edredom king size           int64
Edredom casal               int64
Colcha solteiro             int64
Colcha queen size           int64
Colcha casal                int64
Cobertor queen size         int64
Capa edredom solteiro       int64
Capa edredom queen size     int64
Capa edredom king size      int64
Capa edredom casal          int64
dtype: object

### tabela_Itens_x_Peso

In [52]:
# Substituir vírgulas por pontos para tornar a conversão da coluna "Peso aprox (kg)" possível
tabela_Itens_x_Peso["Peso aprox (kg)"] = tabela_Itens_x_Peso["Peso aprox (kg)"].str.replace(',', '.')
tabela_Itens_x_Peso["Peso aprox (kg)"] = tabela_Itens_x_Peso["Peso aprox (kg)"].astype(float)

In [53]:
tabela_Itens_x_Peso.head()

Unnamed: 0,Item,Peso aprox (kg)
0,Toalha de rosto,0.24
1,Toalha de piso,0.16
2,Toalha de maquiagem,0.0
3,Toalha de banho,0.39
4,Pano de prato,0.1


In [54]:
tabela_Itens_x_Peso.dtypes

Item                object
Peso aprox (kg)    float64
dtype: object

### tabela_Valor_Lavanderia_Por_Item

In [55]:
tabela_Valor_Lavanderia_por_Item.dtypes

Cidade                     object
Toalha de rosto            object
Toalha de piso             object
Toalha de banho            object
Fronha                     object
Lençol solteiro            object
Lençol casal               object
Lençol queen size          object
Lençol king size           object
Manta queen size           object
Edredom solteiro           object
Edredom casal              object
Edredom queen size         object
Edredom king size          object
Capa edredom solteiro      object
Capa edredom casal         object
Capa edredom queen size    object
Capa edredom king size     object
Cobertor queen size        object
Pano de prato              object
Pano de pia                object
Toalha de maquiagem        object
dtype: object

In [56]:
# Percorrer as colunas com informações de preço por tipo de tecido
# colunas com preços de tecidos que não estão presentes nos imóveis serão ignoradas por falta de necessidade
for tecido in tecidos:
  # ignora colunas com tecidos que estão listados na tabela_Estoque_Imovel mas que não estão informados na tabela_Valor_Lavanderia_por_Item
  if tecido not in tabela_Valor_Lavanderia_por_Item.columns:
    continue
  # transformar valores em decimais
  tabela_Valor_Lavanderia_por_Item[tecido] = tabela_Valor_Lavanderia_por_Item[tecido].str.replace('R$ ', '')
  tabela_Valor_Lavanderia_por_Item[tecido] = tabela_Valor_Lavanderia_por_Item[tecido].str.replace(',', '.')
  tabela_Valor_Lavanderia_por_Item[tecido] = tabela_Valor_Lavanderia_por_Item[tecido].astype(float)
  # Se for NaN na coluna substituir por 0
  tabela_Valor_Lavanderia_por_Item[tecido] = tabela_Valor_Lavanderia_por_Item[tecido].replace(np.nan, 0)

In [57]:
tabela_Valor_Lavanderia_por_Item.tail()

Unnamed: 0,Cidade,Toalha de rosto,Toalha de piso,Toalha de banho,Fronha,Lençol solteiro,Lençol casal,Lençol queen size,Lençol king size,Manta queen size,...,Edredom queen size,Edredom king size,Capa edredom solteiro,Capa edredom casal,Capa edredom queen size,Capa edredom king size,Cobertor queen size,Pano de prato,Pano de pia,Toalha de maquiagem
48,Porto Alegre,3.25,3.5,5.25,3.25,6.0,8.5,8.5,9.0,18.5,...,27.0,30.5,14.5,16.75,18.25,20.25,0.0,0.0,0.0,0.0
49,Campos do Jordão,3.0,3.0,6.0,3.0,6.0,6.0,6.0,6.0,25.0,...,50.0,85.0,15.0,15.0,15.0,15.0,0.0,0.0,0.0,0.0
50,Guarapari,3.67,3.67,7.67,3.0,7.17,8.0,8.83,9.67,27.33,...,47.33,51.0,13.0,15.33,16.0,16.5,0.0,0.0,0.0,0.0
51,Curitiba,2.76,3.71,5.97,3.14,7.67,9.37,12.01,13.45,17.9,...,44.3,45.24,16.02,23.74,24.74,28.51,0.0,0.0,0.0,0.0
52,Recife,3.17,3.17,5.0,2.37,6.13,7.8,9.75,9.75,23.67,...,24.67,27.0,12.6,14.93,16.27,17.6,0.0,0.0,0.0,0.0


In [58]:
tabela_Valor_Lavanderia_por_Item.dtypes

Cidade                      object
Toalha de rosto            float64
Toalha de piso             float64
Toalha de banho            float64
Fronha                     float64
Lençol solteiro            float64
Lençol casal               float64
Lençol queen size          float64
Lençol king size           float64
Manta queen size           float64
Edredom solteiro           float64
Edredom casal              float64
Edredom queen size         float64
Edredom king size          float64
Capa edredom solteiro      float64
Capa edredom casal         float64
Capa edredom queen size    float64
Capa edredom king size     float64
Cobertor queen size        float64
Pano de prato              float64
Pano de pia                float64
Toalha de maquiagem        float64
dtype: object

### tabela_Amenities

In [59]:
for coluna in tabela_Amenities.columns:
  # converter colunas "valor" e "total" para decimais
  if coluna in ["valor", "total"]:
    tabela_Amenities[coluna] = tabela_Amenities[coluna].str.replace('R$ ', '')
    tabela_Amenities[coluna] = tabela_Amenities[coluna].str.replace(',', '.')
    tabela_Amenities[coluna] = tabela_Amenities[coluna].astype(float)


In [60]:
tabela_Amenities.head()

Unnamed: 0,local,iten,valor,quantidade por banheiro/lavabo,total
0,Banheiro,Sabonete,0.5,1,0.5
1,Banheiro,Papel Higiênico,2.0,2,4.0
2,Banheiro,shampoo,1.5,1,1.5
3,Banheiro,condicionador,1.5,1,1.5
4,Lavabo,Sabonete,0.5,1,0.5


In [61]:
tabela_Amenities.dtypes

local                              object
iten                               object
valor                             float64
quantidade por banheiro/lavabo      int64
total                             float64
dtype: object

### tabela_Material_Limpeza

In [62]:
for coluna in tabela_Material_de_Limpeza.columns:
  # transformar colunas "valor" e "total" em decimais
  if coluna in ["valor", "total"]:
    tabela_Material_de_Limpeza[coluna] = tabela_Material_de_Limpeza[coluna].str.replace('R$ ', '')
    tabela_Material_de_Limpeza[coluna] = tabela_Material_de_Limpeza[coluna].str.replace(',', '.')
    tabela_Material_de_Limpeza[coluna] = tabela_Material_de_Limpeza[coluna].astype(float)

# **Cálculo de Taxa de Limpeza**

In [63]:
codeImovel = "OKA233"

### Cálculo de custo_pessoa_diarista

In [64]:
# selecionar na tabela_Configuracao_Imovel informações do imóvel com código correspondente
tupla_configuracao_imovel_correspondente = tabela_Configuracao_Imovel[tabela_Configuracao_Imovel["code"]==codeImovel]
# conferir quantos quartos há no imóvel
numero_quartos_no_imovel = tupla_configuracao_imovel_correspondente["Numero Quartos"].iloc[0]

# selecionar na tabela_Valor_Limpeza_Diarista apenas preço correspondente ao número de quartos
tupla_valor_limpeza_diarista_correspondente = tabela_Valor_Limpeza_Diarista.loc[tabela_Valor_Limpeza_Diarista["Numero de Quartos"]==numero_quartos_no_imovel]
custo_pessoa_diarista = tupla_valor_limpeza_diarista_correspondente["Valor"].iloc[0]

print(f'Custo diarista para imóvel {codeImovel} com {numero_quartos_no_imovel} quarto: R$ {custo_pessoa_diarista:.2f}')

Custo diarista para imóvel OKA233 com 1 quarto: R$ 220.00


### Cálculo custo_lavagem_de_roupa_de_cama_e_toalhas

In [65]:
custo_lavagem_de_roupa_de_cama_e_toalhas = 0.00

# selecionar na tabela_Estoque_Imovel informações do imóvel com código correspondente
tupla_estoque_imovel_correspondente = tabela_Estoque_Imovel[tabela_Estoque_Imovel["code"]==codeImovel]
# Verificar preço de serviços de acordo com a localização do imóvel
cidade_do_imovel = tupla_estoque_imovel_correspondente.iloc[0]["city"]
tupla_precos_lavanderia_na_cidade_do_imovel = tabela_Valor_Lavanderia_por_Item[tabela_Valor_Lavanderia_por_Item["Cidade"]==cidade_do_imovel]

# Verificar na tabela_Itens_x_Peso o peso de cada tipo de tecido presente no imovel e multiplicar pela quantidade
for tecido in tecidos:
  # ignorar colunas com tecidos que estão listados na tabela_Estoque_Imovel mas que não estão informados na tabela_Valor_Lavanderia_por_Item
  if tecido not in tabela_Valor_Lavanderia_por_Item.columns:
    continue
  # ignorar execução de busca por tecidos que não estão no imóvel
  unidades_de_tecido_no_imovel = tupla_estoque_imovel_correspondente[tecido].iloc[0]
  if unidades_de_tecido_no_imovel > 0:
    # consultar tabela_Itens_x_Peso e retornar valor do peso unitario aproximado do tecido especifico
    tabela_peso_do_tecido = tabela_Itens_x_Peso[tabela_Itens_x_Peso["Item"] == tecido]
    peso_do_tecido = tabela_peso_do_tecido.iloc[0]["Peso aprox (kg)"]
    # consultar tabela_Valor_Lavanderia_por_Item para verificar preço por kg do tecido
    preco_do_tecido = tupla_precos_lavanderia_na_cidade_do_imovel[tecido].iloc[0]
    # multiplicar unidades de cada tecido por seu peso e valor correspondentes e acrescentar ao custo_lavagem_de_roupa_de_cama_e_toalhas
    custo_lavagem_de_roupa_de_cama_e_toalhas += (unidades_de_tecido_no_imovel * peso_do_tecido * preco_do_tecido)
print(f'Custo total lavagem de roupas no imóvel {codeImovel} = R$ {custo_lavagem_de_roupa_de_cama_e_toalhas:.2f}')


Custo total lavagem de roupas no imóvel OKA233 = R$ 99.57


### custo_reposicao_de_amenities

In [66]:
# reposicao_de_amenities
custo_reposicao_de_amenities = 0.00

# Conferir quantos banheiros e lavabos o imovel tem
numero_banheiros_no_imovel = tupla_configuracao_imovel_correspondente["Numero Banheiros"].iloc[0]
numero_lavabos_no_imovel = tupla_configuracao_imovel_correspondente["Numero Lavabos"].iloc[0]

# Verificar se há banheiros no imóvel para não fazer cálculos desnecessários
if numero_banheiros_no_imovel > 0:
  # somar total gasto em amenities somente de banheiro
  tabela_amenities_de_banheiro = tabela_Amenities[tabela_Amenities["local"]=="Banheiro"]
  total_amenities_de_banheiro = tabela_amenities_de_banheiro["total"].sum()
  # Multiplicar quantidade de banheiros por total em R$ e acrescentar ao custo_reposicao_de_amenities total
  custo_reposicao_de_amenities += numero_banheiros_no_imovel * total_amenities_de_banheiro

# Verificar se há lavabos no imóvel para não fazer cálculos desnecessários
if numero_lavabos_no_imovel > 0:
  # verificar quais amenities são de lavabo e somar total
  tabela_amenities_de_lavabo = tabela_Amenities[tabela_Amenities["local"]=="Lavabo"]
  total_amenities_de_lavabo = tabela_amenities_de_lavabo["total"].sum()
  # multiplicar preco total de amenities de lavabo por numero de lavabos e acrescentar ao custo_reposicao_de_amenities total
  custo_reposicao_de_amenities += numero_lavabos_no_imovel * total_amenities_de_lavabo

print(f'Custo total de reposicao de amenities do imóvel {codeImovel}= R$ {custo_reposicao_de_amenities:.2f}')

Custo total de reposicao de amenities do imóvel OKA233= R$ 7.50


### custo_material_limpeza

In [67]:
# Somar custos de todos os produtos de limpeza que serão utilizados
custo_material_limpeza = tabela_Material_de_Limpeza["total"].sum()

print(f'Custo total de material de limpeza do imóvel {codeImovel} = R$ {custo_material_limpeza:.2f}')

Custo total de material de limpeza do imóvel OKA233 = R$ 9.00


### TaxaLimpeza


In [68]:
valor_taxa_limpeza_total = (custo_pessoa_diarista + custo_lavagem_de_roupa_de_cama_e_toalhas + custo_reposicao_de_amenities + custo_material_limpeza)

print(f'Taxa de limpeza do imóvel {codeImovel} = R${valor_taxa_limpeza_total:.2f}')

Taxa de limpeza do imóvel OKA233 = R$336.07
