#**Preparação, tratamento e manipulação de base de dados para precificação inteligente de acomodações:**

**Precificação inteligente para acomodações:** é uma estratégia baseada em dados que ajusta os preços de hospedagem de forma dinâmica para maximizar ocupação e receita.

Fatores que são levados em conta para um sistema de precificação inteligente para acomodações:

1. `Demanda e sazonalidade` – Preços sobem em alta temporada e caem em baixa;
2. `Concorrência` – Ajuste de tarifas com base nos preços praticados por concorrentes diretos;
3. `Dia da semana e eventos locais` – Tarifas mais altas em feriados, festivais ou eventos esportivos;
4. `Taxas de cancelamento e ocupação` – Se muitas reservas forem canceladas ou a ocupação estiver baixa, os preços podem diminuir para atrair hóspedes;
5. `Duração da estadia` – Descontos para reservas mais longas ou preços mais altos para estadias curtas.

##Importando os dados e conhecendo o DataFrame:

Links para extração de dados brutos:

https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_hospedagem.json

https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/moveis_disponiveis.json

Importação da biblioteca Pandas, Json e Requests:

In [None]:
import pandas as pd
import json
import requests

Incorporando as URLs com os dados brutos:

In [None]:
url_hopedagem = 'https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_hospedagem.json'


Importação de dados no formato .json utilizando o `get` e o `requests`.

Geração de DataFrame através do `pd.DataFrame( )`.

In [None]:
response = requests.get(url_hopedagem)

dados_hospedagem = pd.DataFrame(response.json())
dados_hospedagem.head()

Unnamed: 0,info_moveis
0,"{'avaliacao_geral': '10.0', 'experiencia_local..."
1,"{'avaliacao_geral': '10.0', 'experiencia_local..."
2,"{'avaliacao_geral': '10.0', 'experiencia_local..."
3,"{'avaliacao_geral': '10.0', 'experiencia_local..."
4,"{'avaliacao_geral': '10.0', 'experiencia_local..."


O arquivo .json lido contém dados aninhados, portanto será necessário a "normalização" dos mesmos, através do `json_normalize( )`, passando como parâmetro a coluna a ser normalizada.

A "normalização" consiste na melhor estruturação dos dados presentes no arquivo, possibilitando uma melhor visualização.

In [None]:
dados_hospedagem = pd.json_normalize(dados_hospedagem['info_moveis'])

In [None]:
dados_hospedagem

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]
3,10.0,--,12,[Our NW style home is 3200+ sq ft with 3 level...,[The Views from our top floor! Wallingford ha...,"[3, 3, 3, 3, 3, 3, 3, 3]","[6, 6, 5, 5, 5, 5, 4, 4]","[6, 6, 7, 8, 7, 7, 6, 6]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$500.00, $500.00, $500.00, $500.00, $500.00, ...","[$225.00, $300.00, $250.00, $250.00, $250.00, ...","[$490.00, $550.00, $350.00, $350.00, $350.00, ..."
4,10.0,--,14,"[Perfect for groups. 2 bedrooms, full bathroom...",[Safeway grocery store within walking distance...,"[2, 3]","[2, 6]","[3, 9]","[Real Bed, Real Bed]","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$300.00, $2,000.00]","[$40.00, $150.00]","[$200.00, $545.00]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
65,,--,5,[Our cozy little bungalow is the perfect place...,[The Queen Anne neighborhood is one of the mos...,"[1, 3, 2, 2, 2, 1, 2, 1, 1, 1, 2, 3, 2, 2, 2, ...","[2, 2, 2, 3, 2, 2, 2, 2, 2, 2, 2, 3, 2, 2, 2, ...","[3, 2, 2, 3, 3, 2, 3, 2, 2, 3, 3, 3, 2, 3, 2, ...","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{""Cable TV"",""Wireless Internet"",Kitchen,""Free...","[$250.00, $200.00, $0, $0, $0, $200.00, $350.0...","[$35.00, $50.00, $100.00, $100.00, $0, $30.00,...","[$150.00, $200.00, $143.00, $150.00, $350.00, ..."
66,,--,6,[Bright clean 2 bedroom 1 bath appartment in t...,[Ballard is the most interesting and ecclectic...,"[1, 1, 3, 2, 1, 3, 2, 2, 1, 2, 2, 2, 1, 2, 1, ...","[2, 3, 3, 2, 2, 3, 2, 3, 2, 2, 2, 2, 4, 3, 3, ...","[3, 3, 2, 3, 3, 3, 2, 3, 3, 3, 2, 2, 4, 4, 3, ...","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,""Cable TV"",Internet,""Wireless Internet"",K...","[$200.00, $200.00, $100.00, $0, $0, $750.00, $...","[$0, $0, $100.00, $0, $75.00, $140.00, $112.00...","[$99.00, $185.00, $250.00, $200.00, $275.00, $..."
67,,--,7,[Beautiful end-unit townhome with lots of dayl...,"[Cherry blossoms (Sakura) in the spring, every...","[4, 3, 1, 2, 2, 1, 2, 1, 2, 2]","[3, 4, 3, 3, 3, 3, 3, 3, 3, 4]","[3, 5, 1, 5, 3, 2, 3, 4, 4, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$750.00, $350.00, $500.00, $500.00, $0, $200....","[$300.00, $90.00, $250.00, $100.00, $109.00, $...","[$218.00, $350.00, $450.00, $149.00, $99.00, $..."
68,,--,8,[Heart of Ballard new townhome with 4 BRs + ba...,"[--, --, The suite is conveniently located off...","[2, 2, 3, 1, 1, 2, 1, 3, 2, 1, 2, 1, 2, 2, 2, ...","[4, 2, 3, 4, 3, 3, 4, 4, 3, 5, 2, 3, 3, 4, 5, ...","[4, 4, 3, 3, 5, 5, 5, 5, 3, 5, 4, 5, 5, 4, 1, ...","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",""Air Conditi...","[$500.00, $150.00, $250.00, $800.00, $0, $500....","[$50.00, $85.00, $150.00, $75.00, $100.00, $80...","[$275.00, $199.00, $400.00, $325.00, $300.00, ..."


Nota-se que existem dados agrupados em lista dentro de algumas colunas, porém para as colunas "avaliacao_geral", "experiencia_local" e "max_hospedes", não temos agrupamento.

Criação de lista com os nomes das colunas do DataFrame

In [None]:
colunas = list(dados_hospedagem.columns)
colunas

['avaliacao_geral',
 'experiencia_local',
 'max_hospedes',
 'descricao_local',
 'descricao_vizinhanca',
 'quantidade_banheiros',
 'quantidade_quartos',
 'quantidade_camas',
 'modelo_cama',
 'comodidades',
 'taxa_deposito',
 'taxa_limpeza',
 'preco']

Utilização do método `.explode( )` para separação das listas em linhas no DataFrame / desagrupamento dos dados, desconsiderando as três primeiras colunas que nãp possuem dados agrupados.

In [None]:
dados_hospedagem = dados_hospedagem.explode(colunas[3:])
dados_hospedagem

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
0,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
0,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
0,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
0,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
68,,--,8,Beautiful craftsman home in the historic Wedgw...,--,3,4,5,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$178.00,$299.00
68,,--,8,Located in a very easily accessible area of Se...,"Quiet, dead end street near I-5. The proximity...",2,4,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki...",$0,$99.00,$199.00
68,,--,8,This home is fully furnished and available wee...,--,1,3,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",$0,$0,$400.00
69,,--,9,This business-themed modern home features: *H...,Your hosts made Madison Valley their home when...,2,3,6,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$150.00,$250.00


É válido observar que os índices se repetem inúmeras vezes após a aplicação do .`explode( )`, sendo necessário o reset para orientação através do método `reset_index( )`.

Serão utilizados como parâmetros do método `reset_index( )`:

1. inplace = True -> Com o objetivo de atribuir as mudanças ao DataFrame original sem a necessidade da atribuição manual
2. drop = True -> Com o objetivo de remover a coluna index com as numerações repetidas (antes tratada como índice).

In [None]:
dados_hospedagem.reset_index(inplace=True, drop=True)
dados_hospedagem

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3813,,--,8,Beautiful craftsman home in the historic Wedgw...,--,3,4,5,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$178.00,$299.00
3814,,--,8,Located in a very easily accessible area of Se...,"Quiet, dead end street near I-5. The proximity...",2,4,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki...",$0,$99.00,$199.00
3815,,--,8,This home is fully furnished and available wee...,--,1,3,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",$0,$0,$400.00
3816,,--,9,This business-themed modern home features: *H...,Your hosts made Madison Valley their home when...,2,3,6,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$150.00,$250.00


Verificando os tipos de dados através do método `.info( )`.

In [None]:
dados_hospedagem.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   object
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   object
 6   quantidade_quartos    3818 non-null   object
 7   quantidade_camas      3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: object(13)
memory usage: 387.9+ KB


É válido observar que para todas as colunas possuímos dados do tipo "object", que são:

1. os mais diversos tipos de dados dentro da mesma coluna (números, strings etc). Dessa forma a biblioeca não consegue identificar um tipo padrão, definindo-a como tipo "object";
2. Tipo específico de dado não identificado;
3. Todos os dados são strings.

Seguindo com a conversão dos dados, será utilizado a biblioteca NumPy para tipos de dados int e float com precisão de 64 bits.  

Importando a biblioteca NumPy:

In [None]:
import numpy as np

Convertendo dados numéricos para tipo inteiro utilizando o método `.astype( )`

Colunas que serão convertidas:
1. max_hospedes;
2. quantidade_banheiros;
3. quantidade_quartos;
4. quantidade_camas.

In [None]:
colunas_numericas_int = ['max_hospedes', 'quantidade_banheiros', 'quantidade_quartos', 'quantidade_camas']

Atribuição do tipo int64 para as colunas numéricas.

In [None]:
dados_hospedagem[colunas_numericas_int] = dados_hospedagem[colunas_numericas_int].astype(np.int64)

Verificando os tipos de dados novamente, temos:

In [None]:
dados_hospedagem.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   int64 
 6   quantidade_quartos    3818 non-null   int64 
 7   quantidade_camas      3818 non-null   int64 
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: int64(4), object(9)
memory usage: 387.9+ KB


Convertendo dados numéricos para tipo float (ponto flutuante/decimal) utilizando o método `.astype( )`

Colunas que serão convertidas:

1. avaliacao_geral;
2. taxa_deposito;
3. taxa_limpeza;
4. preco.

Como as colunas "taxa_deposito", "taxa_limpeza" e "preco" contém outros elementos além dos números (cifrão e vírgulas), elas serão tratadas posteriormente. Iniciaremos o tratamento pela coluna "avaliacao_geral"

In [None]:
colunas_numericas_float1 = ['avaliacao_geral']

Atribuição do tipo float64 para a coluna com dados do tipo decimal.

In [None]:
dados_hospedagem[colunas_numericas_float1] = dados_hospedagem[colunas_numericas_float1].astype(np.float64)

Verificando os tipos de dados:

In [None]:
dados_hospedagem.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   object 
 11  taxa_limpeza          3818 non-null   object 
 12  preco                 3818 non-null   object 
dtypes: float64(1), int64(4), object(8)
memory usage: 387.9+ KB


Seguindo com o tratamento das colunas:

1. taxa_deposito;
2. taxa_limpeza;
3. preco.

In [None]:
colunas_numericas_float2 = ['taxa_deposito', 'taxa_limpeza', 'preco']

Utilizando o método `.map( )` em conjunto com a função lambda para aplicação do método `.replace( )` em cada elemento das colunas, substituindo o "$" e a "," por " " (vazio) e o método `.strip( )` para eliminar espaços em branco no início e final de uma string.

In [None]:
dados_hospedagem[colunas_numericas_float2] = dados_hospedagem[colunas_numericas_float2].map(lambda x: x.replace('$', '').replace(',', '').strip())

Verificando os dados das colunas transformadas:

In [None]:
dados_hospedagem[['taxa_deposito', 'taxa_limpeza', 'preco']]

Unnamed: 0,taxa_deposito,taxa_limpeza,preco
0,0,0,110.00
1,0,0,45.00
2,0,0,55.00
3,0,20.00,52.00
4,0,15.00,85.00
...,...,...,...
3813,1000.00,178.00,299.00
3814,0,99.00,199.00
3815,0,0,400.00
3816,1000.00,150.00,250.00


Aplicando o método `.astype( )` para conversão do tipo "object" para o tipo "float64":

In [None]:
dados_hospedagem[colunas_numericas_float2] = dados_hospedagem[colunas_numericas_float2].astype(np.float64)

Consultando os tipos de dados novamente:

In [None]:
dados_hospedagem.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   float64
 11  taxa_limpeza          3818 non-null   float64
 12  preco                 3818 non-null   float64
dtypes: float64(4), int64(4), object(5)
memory usage: 387.9+ KB


Aplicando o conceito de tokenização nas colunas descricao_local e descricao_vizinhanca.

***Conceito de tokenização em Python: Dividir textos em partes menores***.

In [None]:
colunas_descritivas = ['descricao_local', 'descricao_vizinhanca']

Aplicação do método `.lower( )` para tornar toda a string em letras minúsculas:

In [None]:
dados_hospedagem[colunas_descritivas] = dados_hospedagem[colunas_descritivas].map(lambda x: x.lower())

Verificando as primeiras linhas do DataFrame:

In [None]:
dados_hospedagem.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,this clean and comfortable one bedroom sits ri...,lower queen anne is near the seattle center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,our century old upper queen anne house is loca...,"upper queen anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,cozy room in two-bedroom apartment along the l...,the convenience of being in seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0
3,10.0,--,1,very lovely and cozy room for one. convenientl...,"ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,20.0,52.0
4,10.0,--,1,the “studio at mibbett hollow' is in a beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",0.0,15.0,85.0


Aplicação do `regex` para remoção de caracteres que não agregam informação para análise.


***OBS.: Como os dados descritivos estão na língua inglesa, não removeremos os apóstrofos e os hífens de palavras compostas para não desestrurar as frases.***

Significado do argumento ^a-zA-Z0-9\\-\\' -> Deconsiderar/negar, por conta do "^" no início do argumento, de a até z, de A até Z, de 0 até 9, hífens e apóstrofos (as barras invertidas antes dos símbolos indicam ao interpretador que são caracteres especiais).

In [None]:
dados_hospedagem[colunas_descritivas] = dados_hospedagem[colunas_descritivas].apply(lambda x: x.replace('[^a-zA-Z0-9\-\']', ' ', regex=True))

Substituindo hífens que não fazer parte de palavras compostas:

Significado do argumento `(?<!\w)-(?!\w)` -> Verificar se existe algum caracter antes ou depois do hífen.

In [None]:
dados_hospedagem[colunas_descritivas] = dados_hospedagem[colunas_descritivas].apply(lambda x: x.replace('(?<!\w)-(?!\w)', ' ', regex=True))

In [None]:
dados_hospedagem

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,this clean and comfortable one bedroom sits ri...,lower queen anne is near the seattle center s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,our century old upper queen anne house is loca...,upper queen anne is a really pleasant unique ...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,cozy room in two-bedroom apartment along the l...,the convenience of being in seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0
3,10.0,--,1,very lovely and cozy room for one convenientl...,ballard is lovely vibrant and one of the most...,1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,20.0,52.0
4,10.0,--,1,the studio at mibbett hollow' is in a beautif...,,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",0.0,15.0,85.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3813,,--,8,beautiful craftsman home in the historic wedgw...,,3,4,5,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",1000.0,178.0,299.0
3814,,--,8,located in a very easily accessible area of se...,quiet dead end street near i-5 the proximity...,2,4,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki...",0.0,99.0,199.0
3815,,--,8,this home is fully furnished and available wee...,,1,3,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",0.0,0.0,400.0
3816,,--,9,this business-themed modern home features h...,your hosts made madison valley their home when...,2,3,6,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",1000.0,150.0,250.0


Aplicando a tokenização com o método `.split( )`.

In [None]:
dados_hospedagem[colunas_descritivas] = dados_hospedagem[colunas_descritivas].map(lambda x: x.split())

Verificando as primeiras linhas do DataFrame:

In [None]:
dados_hospedagem.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...","[lower, queen, anne, is, near, the, seattle, c...",1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","[upper, queen, anne, is, a, really, pleasant, ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...","[the, convenience, of, being, in, seattle, but...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","[ballard, is, lovely, vibrant, and, one, of, t...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",[],1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",0.0,15.0,85.0


Tratando a coluna "comodidades".
Removendo as chaves { } e as aspas duplas.

Significado do argumento `\ { | } | \ "` -> Eliminar "{", "}" e " (aspas duplas).

In [None]:
dados_hospedagem['comodidades'] = dados_hospedagem['comodidades'].str.replace('\{|}|\"','', regex=True)

Aplicando o método `.split( )` para tokenização:

In [None]:
dados_hospedagem['comodidades'] = dados_hospedagem['comodidades'].str.split(',')

Verificando as primeiras linhas do DataFrame:

In [None]:
dados_hospedagem.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...","[lower, queen, anne, is, near, the, seattle, c...",1,1,1,Real Bed,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","[upper, queen, anne, is, a, really, pleasant, ...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...","[the, convenience, of, being, in, seattle, but...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","[ballard, is, lovely, vibrant, and, one, of, t...",1,1,1,Pull-out Sofa,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",[],1,1,1,Real Bed,"[Wireless Internet, Kitchen, Free Parking on P...",0.0,15.0,85.0


##Tratamento de dados temporais

Incorporando a URL com os dados brutos para tratamento:

In [None]:
url_moveis = 'https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/moveis_disponiveis.json'

Importação de dados no formato .json utilizando o get e o requests.

Geração de DataFrame através do pd.DataFrame( ).

In [None]:
resp = requests.get(url_moveis)
dados_disponibilidade = pd.DataFrame(resp.json())

Verificando o DataFrame:

In [None]:
dados_disponibilidade

Unnamed: 0,id,data,vaga_disponivel,preco
0,857,2016-01-04,False,
1,857,2016-01-05,False,
2,857,2016-01-06,False,
3,857,2016-01-07,False,
4,857,2016-01-08,False,
...,...,...,...,...
364995,3279,2016-12-29,True,$140.00
364996,3279,2016-12-30,True,$140.00
364997,3279,2016-12-31,True,$140.00
364998,3279,2017-01-01,True,$140.00


In [None]:
dados_disponibilidade.info()

<class 'pandas.core.frame.DataFrame'>
Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   id               365000 non-null  int64 
 1   data             365000 non-null  object
 2   vaga_disponivel  365000 non-null  bool  
 3   preco            270547 non-null  object
dtypes: bool(1), int64(1), object(2)
memory usage: 11.5+ MB


Convertendo dados "object" da coluna "data" para dados temporais "date time":

In [None]:
dados_disponibilidade['data'] = pd.to_datetime(dados_disponibilidade['data'])

Verificando os tipos de dados:

In [None]:
dados_disponibilidade.info()

<class 'pandas.core.frame.DataFrame'>
Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column           Non-Null Count   Dtype         
---  ------           --------------   -----         
 0   id               365000 non-null  int64         
 1   data             365000 non-null  datetime64[ns]
 2   vaga_disponivel  365000 non-null  bool          
 3   preco            270547 non-null  object        
dtypes: bool(1), datetime64[ns](1), int64(1), object(1)
memory usage: 11.5+ MB


Alteração do formato da coluna "data" para string (Ano-mês):

In [None]:
datas_agrupadas = dados_disponibilidade['data'].dt.strftime('%Y-%m')

Aplicando o método `.groupby( )` para para agrupar as datas (ano-mês) e a soma `.sum( )` da quantidadede de imóveis disponíveis para locação:

In [None]:
qtd_imoveis_disp_por_mes = dados_disponibilidade.groupby(datas_agrupadas)['vaga_disponivel'].sum()

Verificando o agrupamento:

In [None]:
qtd_imoveis_disp_por_mes

Unnamed: 0_level_0,vaga_disponivel
data,Unnamed: 1_level_1
2016-01,16543
2016-02,20128
2016-03,23357
2016-04,22597
2016-05,23842
2016-06,23651
2016-07,22329
2016-08,22529
2016-09,22471
2016-10,23765


Tratando a coluna "preco".

Convertendo vazios/None em "0.0":

In [None]:
dados_disponibilidade['preco'] = dados_disponibilidade['preco'].fillna('0.0')

Removendo cifrão e vírgula dos dados:

In [None]:
dados_disponibilidade['preco'] = dados_disponibilidade['preco'].str.replace('$','').str.replace(',','')

Convertendo o tipo para float64:

In [None]:
dados_disponibilidade['preco'] = dados_disponibilidade['preco'].astype(np.float64)

Verificando o tipo dos dados presentes no DataFrame:

In [None]:
dados_disponibilidade.info()

<class 'pandas.core.frame.DataFrame'>
Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column           Non-Null Count   Dtype         
---  ------           --------------   -----         
 0   id               365000 non-null  int64         
 1   data             365000 non-null  datetime64[ns]
 2   vaga_disponivel  365000 non-null  bool          
 3   preco            365000 non-null  float64       
dtypes: bool(1), datetime64[ns](1), float64(1), int64(1)
memory usage: 19.5+ MB
