### Para saber mais: precificação inteligente

A precificação inteligente para hospedagem é uma estratégia de estimação de preços de forma automatizada e dinâmica, que considera fatores como oferta e demanda, sazonalidade, eventos locais, características do local, entre outros. Com base nessas informações, um algoritmo pode ajustar os preços para maximizar a receita e a rentabilidade da pessoa proprietária.

Normalmente essa estratégia é aplicada a um modelo de inteligência artificial que ajusta automaticamente os preços das diárias. Por exemplo, se a demanda por hospedagem em um determinado destino aumentar, a precificação inteligente ajustará automaticamente os preços das diárias para cima, com o fim de maximizar a receita da propriedade. Da mesma forma, se a demanda diminuir, a precificação inteligente ajustará os preços para baixo para manter a ocupação da propriedade e evitar perdas financeiras.

Embora o machine learning seja frequentemente usado em sistemas de precificação inteligente, existem outras abordagens que podem ser usadas para implementar esses sistemas. Por exemplo, pode-se usar um modelo de regras baseado em lógica e heurísticas para definir as condições e regras de precificação.

Mesmo assim, é importante ressaltar que o uso de machine learning pode oferecer benefícios adicionais, como a capacidade de analisar grandes volumes de dados, identificar padrões de comportamento do consumidor e ajustar os preços de forma mais precisa e dinâmica.

In [93]:
import pandas as pd
import numpy as np
import requests
import io

json_hospedagem = 'https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_hospedagem.json'

json_moveis_disponiveis = 'https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/moveis_disponiveis.json'

response_hospedagem = requests.get(json_hospedagem)
response_moveis_disponiveis= requests.get(json_moveis_disponiveis)



In [94]:
# O modelo de transformação de json em .text será descontinuado, sendo necessário a utilização da biblioteca IO no método io.StringIO(response_hospedagem.text)
json_data_hospedagem = io.StringIO(response_hospedagem.text)
json_data_moveis_disponiveis = io.StringIO(response_moveis_disponiveis.text)

In [95]:
info_moveis = pd.read_json(json_data_hospedagem)['info_moveis']

In [96]:
info_moveis

0     {'avaliacao_geral': '10.0', 'experiencia_local...
1     {'avaliacao_geral': '10.0', 'experiencia_local...
2     {'avaliacao_geral': '10.0', 'experiencia_local...
3     {'avaliacao_geral': '10.0', 'experiencia_local...
4     {'avaliacao_geral': '10.0', 'experiencia_local...
                            ...                        
65    {'avaliacao_geral': 'nan', 'experiencia_local'...
66    {'avaliacao_geral': 'nan', 'experiencia_local'...
67    {'avaliacao_geral': 'nan', 'experiencia_local'...
68    {'avaliacao_geral': 'nan', 'experiencia_local'...
69    {'avaliacao_geral': 'nan', 'experiencia_local'...
Name: info_moveis, Length: 70, dtype: object

In [97]:
pd.read_json(json_data_moveis_disponiveis)

Unnamed: 0,id,data,vaga_disponivel,preco
0,857,2016-01-04,False,
1,857,2016-01-05,False,
2,857,2016-01-06,False,
3,857,2016-01-07,False,
4,857,2016-01-08,False,
...,...,...,...,...
364995,3279,2016-12-29,True,$140.00
364996,3279,2016-12-30,True,$140.00
364997,3279,2016-12-31,True,$140.00
364998,3279,2017-01-01,True,$140.00


#### Compreendendo os Dados

Normalização dos dados

In [98]:
dados = pd.json_normalize(info_moveis)
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70 entries, 0 to 69
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       70 non-null     object
 1   experiencia_local     70 non-null     object
 2   max_hospedes          70 non-null     object
 3   descricao_local       70 non-null     object
 4   descricao_vizinhanca  70 non-null     object
 5   quantidade_banheiros  70 non-null     object
 6   quantidade_quartos    70 non-null     object
 7   quantidade_camas      70 non-null     object
 8   modelo_cama           70 non-null     object
 9   comodidades           70 non-null     object
 10  taxa_deposito         70 non-null     object
 11  taxa_limpeza          70 non-null     object
 12  preco                 70 non-null     object
dtypes: object(13)
memory usage: 7.2+ KB


In [99]:
dados.sample(5)

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
3,10.0,--,12,[Our NW style home is 3200+ sq ft with 3 level...,[The Views from our top floor! Wallingford ha...,"[3, 3, 3, 3, 3, 3, 3, 3]","[6, 6, 5, 5, 5, 5, 4, 4]","[6, 6, 7, 8, 7, 7, 6, 6]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$500.00, $500.00, $500.00, $500.00, $500.00, ...","[$225.00, $300.00, $250.00, $250.00, $250.00, ...","[$490.00, $550.00, $350.00, $350.00, $350.00, ..."
18,5.0,--,2,[Mid-sized one bedroom apartment situated just...,[--],[1],[1],[1],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",K...",[$0],[$0],[$110.00]
32,7.0,--,8,"[A 3 BD, 2 BA house in an excellent location i...",[Wedgwood is north of downtown and located nea...,"[2, 2]","[3, 3]","[4, 3]","[Real Bed, Real Bed]","[{TV,Internet,""Wireless Internet"",""Air Conditi...","[$500.00, $150.00]","[$100.00, $100.00]","[$175.00, $325.00]"
58,,--,1,"[By Special Request Only, This clean bedroom h...","[--, --, --, --, This area is right on the str...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Pull-out Sofa, Real Bed, Real Bed, Real Bed, ...","[{TV,Internet,""Wireless Internet"",Kitchen,Esse...","[$0, $500.00, $0, $0, $0, $350.00, $350.00, $3...","[$0, $10.00, $0, $0, $15.00, $35.00, $35.00, $...","[$25.00, $50.00, $50.00, $75.00, $40.00, $40.0..."
41,8.0,--,5,"[This home is full of light, art and comfort. ...",[Queen Anne is a charming and very safe neighb...,"[1, 2, 1, 2, 2, 1, 2, 2, 1, 2, 2, 1, 1, 1, 1]","[2, 2, 2, 2, 2, 2, 3, 2, 2, 2, 2, 2, 1, 1, 2]","[2, 2, 2, 3, 2, 2, 2, 2, 4, 2, 4, 3, 2, 3, 3]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,""Cable TV"",Internet,Kitchen,""Free Parking...","[$0, $600.00, $400.00, $200.00, $200.00, $0, $...","[$89.00, $75.00, $100.00, $100.00, $95.00, $85...","[$109.00, $400.00, $300.00, $150.00, $145.00, ..."


#### Para saber mais: descrição dos dados
 
Quando trabalhamos com um conjunto de dados qualquer, precisamos saber quais informações esses dados estão trazendo, pois só assim conseguiremos estudá-lo e analisá-lo para desenvolver uma solução de análise e tratamento de dados para ele.

Nesse curso, vamos trabalhar com o conjunto de dados presentes no arquivo dados_hospedagem.json e, para que seja possível avançar nos estudos quanto aos dados fornecidos por esse arquivo, vamos entender o que cada coluna traz de informação.

* **avaliacao_geral**: refere-se à média de notas dadas para a avaliação da hospedagem no imóvel.
* **experiencia_local**: descreve as experiências oferecidas durante a hospedagem no imóvel.
* **max_hospedes**: informa a quantidade máxima de hóspedes que o local permite.
* **descricao_local**: descreve o imóvel.
* **descricao_vizinhanca**: descreve a vizinhança ao redor do imóvel.
* **quantidade_banheiros**: informa a quantidade de banheiros disponíveis.
* **quantidade_quartos**: informa a quantidade de quartos disponíveis.
* **quantidade_camas**: informa a quantidade de camas disponíveis.
* **modelo_cama**: informa o modelo de cama oferecido.
* **comodidades**: informa as comodidades oferecidas pelo imóvel.
* **taxa_deposito**: informa a taxa de depósito mínima para segurança de hospedagem.
* **taxa_limpeza**: informa a taxa cobrada para o serviço de limpeza.
* **preco**: refere-se ao preço base a ser cobrado pela diária no imóvel.

In [100]:
# Conhecendo os nomes das colunas do df
list(dados.columns)

['avaliacao_geral',
 'experiencia_local',
 'max_hospedes',
 'descricao_local',
 'descricao_vizinhanca',
 'quantidade_banheiros',
 'quantidade_quartos',
 'quantidade_camas',
 'modelo_cama',
 'comodidades',
 'taxa_deposito',
 'taxa_limpeza',
 'preco']

#### Usando explode para tratar os dados 

In [101]:
# Selecionando as colunas que precisam ser tratadas com o método explode

columns = list(dados.columns)[3:]
columns

['descricao_local',
 'descricao_vizinhanca',
 'quantidade_banheiros',
 'quantidade_quartos',
 'quantidade_camas',
 'modelo_cama',
 'comodidades',
 'taxa_deposito',
 'taxa_limpeza',
 'preco']

In [102]:
dados = dados.explode(column=columns)
dados

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
0,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
0,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
0,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
0,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
68,,--,8,Beautiful craftsman home in the historic Wedgw...,--,3,4,5,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$178.00,$299.00
68,,--,8,Located in a very easily accessible area of Se...,"Quiet, dead end street near I-5. The proximity...",2,4,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki...",$0,$99.00,$199.00
68,,--,8,This home is fully furnished and available wee...,--,1,3,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",$0,$0,$400.00
69,,--,9,This business-themed modern home features: *H...,Your hosts made Madison Valley their home when...,2,3,6,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$150.00,$250.00


In [103]:
# Formatando a coluna comodidades

# dados['comodidades'] = dados['comodidades'].map(lambda x: x.replace('{', '').replace('}', ''))  
# dados

In [104]:
# Resetendo os indíces

dados.reset_index(inplace=True, drop=True)
dados

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3813,,--,8,Beautiful craftsman home in the historic Wedgw...,--,3,4,5,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$178.00,$299.00
3814,,--,8,Located in a very easily accessible area of Se...,"Quiet, dead end street near I-5. The proximity...",2,4,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki...",$0,$99.00,$199.00
3815,,--,8,This home is fully furnished and available wee...,--,1,3,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",$0,$0,$400.00
3816,,--,9,This business-themed modern home features: *H...,Your hosts made Madison Valley their home when...,2,3,6,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$150.00,$250.00


In [105]:
# Verificando os tipos das colunas
dados.dtypes

avaliacao_geral         object
experiencia_local       object
max_hospedes            object
descricao_local         object
descricao_vizinhanca    object
quantidade_banheiros    object
quantidade_quartos      object
quantidade_camas        object
modelo_cama             object
comodidades             object
taxa_deposito           object
taxa_limpeza            object
preco                   object
dtype: object

#### Convertendo dados numéricos
Alterando o tipos de dados das colunas

In [106]:
dados['comodidades'][0]#.head(1)

'{Internet,"Wireless Internet",Kitchen,"Free Parking on Premises","Pets Allowed","Elevator in Building",Heating,"Smoke Detector","Carbon Monoxide Detector",Essentials,Shampoo}'

In [107]:
col_int = ['max_hospedes','quantidade_banheiros','quantidade_quartos','quantidade_camas']
col_float = ['avaliacao_geral']
col_float_char = ['taxa_deposito','taxa_limpeza','preco']

dados[col_int] = dados[col_int].astype(np.int64)
dados[col_float] = dados[col_float].astype(np.float64)

In [108]:
# Verificando os tipos das colunas
dados.dtypes

avaliacao_geral         float64
experiencia_local        object
max_hospedes              int64
descricao_local          object
descricao_vizinhanca     object
quantidade_banheiros      int64
quantidade_quartos        int64
quantidade_camas          int64
modelo_cama              object
comodidades              object
taxa_deposito            object
taxa_limpeza             object
preco                    object
dtype: object

05
#### Para saber mais: precisão de valores numéricos


Em geral, quando os dados são muito grandes e temos pouca memória disponível, é comum utilizar tipos de dados mais compactos para reduzir o consumo de memória. Mas, é sempre importante garantir que a escolha do tipo de dados não prejudique a precisão ou a acurácia dos resultados.

Quando trabalhamos com números inteiros com Python, podemos ter diversos tipos de dados, cada um com suas limitações e características. Durante as aulas, trabalhamos com o int64, um inteiro com precisão de 64 bits. Para entender o significado dessa precisão, é importante conhecer alguns termos técnicos, como byte e bit:

* **Byte**: é uma unidade de medida de informação, que representa um conjunto de 8 bits.
* **Bit**: é a menor unidade de informação utilizada em sistemas digitais, podendo assumir os valores de 0 ou 1.


#### Tipo Inteiro
Com os conceitos de bit e byte claros, podemos, então, entender melhor o significado do int64, que é o tipo inteiro que utiliza 8 bytes de armazenamento - 8 bits em cada byte, resultando em 64 bits ao total. Esse tipo inteiro é capaz de representar números muito grandes, que podem variar de -9.223.372.036.854.775.808 a 9.223.372.036.854.775.807.

Além dele, temos outros inteiros que podem ter sua precisão definida, como o int32, um tipo de dado inteiro que utiliza 4 bytes - 8 bits em cada byte, resultando em 32 bits ao total. Ele é capaz de representar números inteiros menores do que os representados pelo int64, com um máximo de -2.147.483.648 a 2.147.483.647.

Pode ser mais comum encontrar os tipos int64 e int32, mas pode ser necessário, em algumas situações, utilizar outros tipos de dados inteiros, como o int8 ou o int16. Tipos de dados como esses são úteis quando é preciso economizar mais memória e não se está trabalhando com grandes valores. Você pode conferir os tipos de inteiros na tabela abaixo:

Tipo de dado	Quantidade de bits	Valor mínimo	Valor máximo
int8	8	-128	127
int16	16	-32768	32767
int32	32	-2.147.483.648	2.147.483.647
int64	64	-9.223.372.036.854.775.808	9.223.372.036.854.775.807


A escolha de qual valor de precisão vai depender da situação e da natureza dos dados sendo manipulados. Se os valores que estão sendo analisados são relativamente pequenos, o uso do int32, por exemplo, pode ser o suficiente, podendo economizar espaço em memória. Entretanto, se tivéssemos trabalhando com dados científicos, por exemplo, que precisam de valores bem grandes, precisaríamos talvez utilizar o int64.

#### Tipo float
Além dos inteiros, outros tipos de dados, como o float, também utilizam essa opção de precisão como opção de controle de espaço na memória. De maneira semelhante aos números inteiros, o tipo float também apresenta opções de precisão: entre os tipos mais comuns estão o float32e o float64.

O tipo float64 é um número de ponto flutuante com 64 bits de precisão, que representa um número decimal com até 15 dígitos. Por outro lado, o 'float32' é menor tanto em sua capacidade de bits, com 32 ao total, quanto em sua capacidade de precisão de casas decimais, com a capacidade de precisão até 7 dígitos.

### Números em Strings

In [109]:
dados['preco']

0       $110.00
1        $45.00
2        $55.00
3        $52.00
4        $85.00
         ...   
3813    $299.00
3814    $199.00
3815    $400.00
3816    $250.00
3817    $350.00
Name: preco, Length: 3818, dtype: object

In [110]:
# Removendo $ com apply lambda
# Fazer em casa, mudar todas as colunas com um comando

# for colu in col_float_char:
#     dados[colu] = dados[colu].apply(lambda x: x.replace('$', '').replace(',', '').strip())

In [111]:
dados[col_float_char] = dados[col_float_char].map(lambda x: x.replace('$', '').replace(',', '').strip())

In [112]:
# applymap sera removido futuramente, usando-se apenas o map()
dados[col_float_char].applymap(lambda x: x.replace('$', '').replace(',', '').strip())

  dados[col_float_char].applymap(lambda x: x.replace('$', '').replace(',', '').strip())


Unnamed: 0,taxa_deposito,taxa_limpeza,preco
0,0,0,110.00
1,0,0,45.00
2,0,0,55.00
3,0,20.00,52.00
4,0,15.00,85.00
...,...,...,...
3813,1000.00,178.00,299.00
3814,0,99.00,199.00
3815,0,0,400.00
3816,1000.00,150.00,250.00


In [113]:
dados[col_float_char]

Unnamed: 0,taxa_deposito,taxa_limpeza,preco
0,0,0,110.00
1,0,0,45.00
2,0,0,55.00
3,0,20.00,52.00
4,0,15.00,85.00
...,...,...,...
3813,1000.00,178.00,299.00
3814,0,99.00,199.00
3815,0,0,400.00
3816,1000.00,150.00,250.00


In [114]:
# Convertendo para float as colunas monetárias
dados[col_float_char] = dados[col_float_char].astype(np.float64)

In [115]:
dados.dtypes

avaliacao_geral         float64
experiencia_local        object
max_hospedes              int64
descricao_local          object
descricao_vizinhanca     object
quantidade_banheiros      int64
quantidade_quartos        int64
quantidade_camas          int64
modelo_cama              object
comodidades              object
taxa_deposito           float64
taxa_limpeza            float64
preco                   float64
dtype: object

#### Dados Textuais

toke

In [116]:
# Transformando dados textuais em minúsculas
dados['descricao_local'] = dados['descricao_local'].str.lower()

#### Removendo caracteres com regex

In [117]:
dados['descricao_local'][3169]

"built, run and supported by seattle tech and start up veterans, grokhome's focus is to create a supportive environment for smart people working on interesting projects, start ups and more. this listing is an upper bunk, in a 2-person shared room. *note: this fall, there will be major renovations happening on one kitchen and bathroom at a time. there will always be two other working kitchens and two working bathrooms in the house. we'll work to minimize the impact these renovations have on your stay. **this listing is only available to those working in the tech/science space. live in a hacker house, and immerse yourself in the seattle tech scene. you can expect to be surrounded by smart people solving big problems or working on something fun. we have frequent demo nights, and love when our guests share something they are passionate about. if you're new to the city, our deep ties to the seattle tech scene can help you get involved. expand your network, develop your ideas, and learn some

In [118]:
dados['descricao_local'] = dados['descricao_local'].str.replace('[^a-zA-Z0-9\-\']', ' ', regex=True)

  dados['descricao_local'] = dados['descricao_local'].str.replace('[^a-zA-Z0-9\-\']', ' ', regex=True)


In [119]:
dados['descricao_local'] = dados['descricao_local'].str.replace('(?<!\w)-(?!\w)', ' ', regex=True)

  dados['descricao_local'] = dados['descricao_local'].str.replace('(?<!\w)-(?!\w)', ' ', regex=True)


#### Para saber mais: aprofundando em regex


Regex (ou expressão regular) é uma sequência de caracteres que define um padrão de busca em um texto. Ele é uma ferramenta poderosa e versátil que permite encontrar, substituir e manipular padrões de texto de forma eficiente. O regex é amplamente utilizado em diferentes áreas, incluindo programação, ciência de dados e processamento de texto.

Em ciência de dados, o regex é frequentemente usado para processar dados de texto brutos. Algumas dessas aplicações incluem a limpeza de dados, onde o regex pode ser usado para encontrar e substituir certos caracteres. Também pode ser usado em projetos de classificação; um exemplo é usar o regex como auxílio para encontrar padrões no texto de e-mails, o que ajuda a classificar se eles são spam ou não spam.

De maneira geral, o regex permite que os cientistas de dados processem, analisem e classifiquem grandes volumes de dados de texto de forma eficiente e automatizada. O uso adequado do regex pode ajudar a extrair informações valiosas de dados de texto, além de facilitar a limpeza e organização desses dados.

Você pode construir um regex com a ajuda do site [regex101.com](https://regex101.com/). Caso deseje conhecer mais sobre regex e uma aplicação em banco de dados, vale a pena ler o artigo [Principais casos de uso de Regex para tratamento de dados](https://www.alura.com.br/artigos/principais-casos-uso-regex-para-tratamento-dados), que mostra uma aplicação de regex em bancos de dados.

Você pode estudar regex e aprender algumas de suas regras básicas, como as apresentadas no curso, e à medida que você se familiariza com o uso de regex, pode começar a explorar outras funcionalidades e recursos mais avançados para criar padrões mais complexos em seus códigos.

#### Tokenização de strings

In [120]:
dados['descricao_local'] = dados['descricao_local'].str.split()

In [125]:
# Tratando a coluna comodidades
dados['comodidades'] = dados['comodidades'].str.replace('\{|}|\"', '', regex=True)

  dados['comodidades'] = dados['comodidades'].str.replace('\{|}|\"', '', regex=True)


In [127]:
dados['comodidades'] = dados['comodidades'].str.split(',')
dados['comodidades']

0       [Internet, Wireless Internet, Kitchen, Free Pa...
1       [TV, Internet, Wireless Internet, Kitchen, Fre...
2       [TV, Internet, Wireless Internet, Kitchen, Fre...
3       [Internet, Wireless Internet, Kitchen, Free Pa...
4       [Wireless Internet, Kitchen, Free Parking on P...
                              ...                        
3813    [TV, Cable TV, Internet, Wireless Internet, Ai...
3814    [TV, Cable TV, Internet, Wireless Internet, Ki...
3815    [TV, Cable TV, Internet, Wireless Internet, Ai...
3816    [TV, Cable TV, Internet, Wireless Internet, Ai...
3817    [TV, Internet, Wireless Internet, Kitchen, Fre...
Name: comodidades, Length: 3818, dtype: object

#### 07 Desafio: faça você mesmo


Aprendemos a manipular os elementos textuais com o comando str. Depois, utilizamos de regex para limpar elementos indesejados no texto e, por fim, transformamos o texto tratado em uma lista, construindo um token.

Durante as aulas, transformamos duas colunas, descricao_local e comodidades, buscando a tokenização. Mas ainda falta a coluna **descricao_vizinhanca**, que também vale ser transformada.

Portanto, nessa atividade, proponho que você faça o processo de tokenização para a coluna **descricao_vizinhanca** presente no conjunto de **dados dados_hospedagem.json**.

Fique à vontade para seguir com os mesmos passos dados em aula ou, se preferir, realizar outros aprimoramentos, como a remoção de algum caractere ou de stopwords. Na seção “Opinião da pessoa instrutora”, você vai encontrar uma possibilidade de resolução para essa atividade.

In [128]:
# Transformamos o texto em letras minúsculas
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.lower()
# Substituimos os caractere especiais
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace('[^a-zA-Z0-9\-\']', ' ', regex=True)
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace('(?<!\w)-(?!\w)', '', regex=True)
# Transformamos o texto em lista, formando o token
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.split()
dados.head()

  dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace('[^a-zA-Z0-9\-\']', ' ', regex=True)
  dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace('(?<!\w)-(?!\w)', '', regex=True)


Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...","[lower, queen, anne, is, near, the, seattle, c...",1,1,1,Real Bed,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","[upper, queen, anne, is, a, really, pleasant, ...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...","[the, convenience, of, being, in, seattle, but...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","[ballard, is, lovely, vibrant, and, one, of, t...",1,1,1,Pull-out Sofa,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",[],1,1,1,Real Bed,"[Wireless Internet, Kitchen, Free Parking on P...",0.0,15.0,85.0
