In [1]:
import pandas as pd
import numpy as np

# Explicação de Regex: Remoção de Caracteres Especiais

## Padrão


In [None]:
[^a-zA-Z0-9\-\']



## Componentes do Padrão

| Componente | Descrição |
|------------|-----------|
| `r'...'` | Prefixo de string bruta (raw string) - interpreta barras invertidas literalmente |
| `[...]` | Define uma classe de caracteres - qualquer caractere dentro dos colchetes |
| `^` | Quando primeiro caractere na classe, indica negação - "qualquer caractere que NÃO seja..." |
| `a-zA-Z0-9` | Representa todas as letras (minúsculas e maiúsculas) e números |
| `\-` | O hífen escapado (necessário dentro da classe para não ser interpretado como intervalo) |
| `\'` | O apóstrofo/aspas simples escapado |

## Funcionamento

Quando usado em `str.replace(r'[^a-zA-Z0-9\-\']', ' ', regex=True)`, este padrão:
> "Substitui por um espaço qualquer caractere que não seja letra, número, hífen ou apóstrofo"

## Exemplos

### Caracteres que são substituídos:
- ✓ `"Olá!"` → o ponto de exclamação vira espaço
- ✓ `"texto@email.com"` → @ e . são substituídos por espaços
- ✓ `"R$ 50,00"` → R$, espaço e vírgula são substituídos

### Caracteres que são preservados:
- ✗ `"Palavra123"` → letras e números são mantidos
- ✗ `"pré-vestibular"` → hífens são mantidos
- ✗ `"o'clock"` → apóstrofos são mantidos

## Utilidade

Esta expressão regular é particularmente útil para:
- Limpeza de texto em análise de dados
- Remoção de símbolos de pontuação e caracteres especiais
- Normalização de texto preservando palavras compostas com hífen e apóstrofos
- Simplificação de strings para processamento posterior

In [2]:
dados = pd.read_json("dados_hospedagem.json")
dados.head()

Unnamed: 0,info_moveis
0,"{'avaliacao_geral': '10.0', 'experiencia_local..."
1,"{'avaliacao_geral': '10.0', 'experiencia_local..."
2,"{'avaliacao_geral': '10.0', 'experiencia_local..."
3,"{'avaliacao_geral': '10.0', 'experiencia_local..."
4,"{'avaliacao_geral': '10.0', 'experiencia_local..."


In [3]:
dados = pd.json_normalize(dados['info_moveis'])
dados

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]
3,10.0,--,12,[Our NW style home is 3200+ sq ft with 3 level...,[The Views from our top floor! Wallingford ha...,"[3, 3, 3, 3, 3, 3, 3, 3]","[6, 6, 5, 5, 5, 5, 4, 4]","[6, 6, 7, 8, 7, 7, 6, 6]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$500.00, $500.00, $500.00, $500.00, $500.00, ...","[$225.00, $300.00, $250.00, $250.00, $250.00, ...","[$490.00, $550.00, $350.00, $350.00, $350.00, ..."
4,10.0,--,14,"[Perfect for groups. 2 bedrooms, full bathroom...",[Safeway grocery store within walking distance...,"[2, 3]","[2, 6]","[3, 9]","[Real Bed, Real Bed]","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$300.00, $2,000.00]","[$40.00, $150.00]","[$200.00, $545.00]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
65,,--,5,[Our cozy little bungalow is the perfect place...,[The Queen Anne neighborhood is one of the mos...,"[1, 3, 2, 2, 2, 1, 2, 1, 1, 1, 2, 3, 2, 2, 2, ...","[2, 2, 2, 3, 2, 2, 2, 2, 2, 2, 2, 3, 2, 2, 2, ...","[3, 2, 2, 3, 3, 2, 3, 2, 2, 3, 3, 3, 2, 3, 2, ...","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{""Cable TV"",""Wireless Internet"",Kitchen,""Free...","[$250.00, $200.00, $0, $0, $0, $200.00, $350.0...","[$35.00, $50.00, $100.00, $100.00, $0, $30.00,...","[$150.00, $200.00, $143.00, $150.00, $350.00, ..."
66,,--,6,[Bright clean 2 bedroom 1 bath appartment in t...,[Ballard is the most interesting and ecclectic...,"[1, 1, 3, 2, 1, 3, 2, 2, 1, 2, 2, 2, 1, 2, 1, ...","[2, 3, 3, 2, 2, 3, 2, 3, 2, 2, 2, 2, 4, 3, 3, ...","[3, 3, 2, 3, 3, 3, 2, 3, 3, 3, 2, 2, 4, 4, 3, ...","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,""Cable TV"",Internet,""Wireless Internet"",K...","[$200.00, $200.00, $100.00, $0, $0, $750.00, $...","[$0, $0, $100.00, $0, $75.00, $140.00, $112.00...","[$99.00, $185.00, $250.00, $200.00, $275.00, $..."
67,,--,7,[Beautiful end-unit townhome with lots of dayl...,"[Cherry blossoms (Sakura) in the spring, every...","[4, 3, 1, 2, 2, 1, 2, 1, 2, 2]","[3, 4, 3, 3, 3, 3, 3, 3, 3, 4]","[3, 5, 1, 5, 3, 2, 3, 4, 4, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$750.00, $350.00, $500.00, $500.00, $0, $200....","[$300.00, $90.00, $250.00, $100.00, $109.00, $...","[$218.00, $350.00, $450.00, $149.00, $99.00, $..."
68,,--,8,[Heart of Ballard new townhome with 4 BRs + ba...,"[--, --, The suite is conveniently located off...","[2, 2, 3, 1, 1, 2, 1, 3, 2, 1, 2, 1, 2, 2, 2, ...","[4, 2, 3, 4, 3, 3, 4, 4, 3, 5, 2, 3, 3, 4, 5, ...","[4, 4, 3, 3, 5, 5, 5, 5, 3, 5, 4, 5, 5, 4, 1, ...","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",""Air Conditi...","[$500.00, $150.00, $250.00, $800.00, $0, $500....","[$50.00, $85.00, $150.00, $75.00, $100.00, $80...","[$275.00, $199.00, $400.00, $325.00, $300.00, ..."


In [4]:
colunas = list(dados.columns)
colunas

['avaliacao_geral',
 'experiencia_local',
 'max_hospedes',
 'descricao_local',
 'descricao_vizinhanca',
 'quantidade_banheiros',
 'quantidade_quartos',
 'quantidade_camas',
 'modelo_cama',
 'comodidades',
 'taxa_deposito',
 'taxa_limpeza',
 'preco']

In [5]:
dados = dados.explode(colunas[3:])
dados

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
0,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
0,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
0,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
0,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
68,,--,8,Beautiful craftsman home in the historic Wedgw...,--,3,4,5,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$178.00,$299.00
68,,--,8,Located in a very easily accessible area of Se...,"Quiet, dead end street near I-5. The proximity...",2,4,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki...",$0,$99.00,$199.00
68,,--,8,This home is fully furnished and available wee...,--,1,3,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",$0,$0,$400.00
69,,--,9,This business-themed modern home features: *H...,Your hosts made Madison Valley their home when...,2,3,6,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$150.00,$250.00


In [6]:
dados.reset_index(inplace = True, drop = True)
dados

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3813,,--,8,Beautiful craftsman home in the historic Wedgw...,--,3,4,5,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$178.00,$299.00
3814,,--,8,Located in a very easily accessible area of Se...,"Quiet, dead end street near I-5. The proximity...",2,4,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki...",$0,$99.00,$199.00
3815,,--,8,This home is fully furnished and available wee...,--,1,3,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",$0,$0,$400.00
3816,,--,9,This business-themed modern home features: *H...,Your hosts made Madison Valley their home when...,2,3,6,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$150.00,$250.00


In [7]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   object
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   object
 6   quantidade_quartos    3818 non-null   object
 7   quantidade_camas      3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: object(13)
memory usage: 387.9+ KB


In [8]:
dados['max_hospedes'] = dados['max_hospedes'].astype(np.int64)

In [9]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   object
 6   quantidade_quartos    3818 non-null   object
 7   quantidade_camas      3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: int64(1), object(12)
memory usage: 387.9+ KB


In [10]:
col_numericas = ['quantidade_banheiros', 'quantidade_quartos', 'quantidade_camas']

In [11]:
dados[col_numericas] = dados[col_numericas].astype(np.int64)

In [12]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   int64 
 6   quantidade_quartos    3818 non-null   int64 
 7   quantidade_camas      3818 non-null   int64 
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: int64(4), object(9)
memory usage: 387.9+ KB


In [13]:
dados['avaliacao_geral'] = dados['avaliacao_geral'].astype(np.float64)

In [14]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   object 
 11  taxa_limpeza          3818 non-null   object 
 12  preco                 3818 non-null   object 
dtypes: float64(1), int64(4), object(8)
memory usage: 387.9+ KB


In [15]:
dados['preco'] = dados['preco'].apply(lambda x: x.replace('$', '').replace(',', '').strip()).astype(np.float64)

In [16]:
dados['preco'] = dados['preco'].astype(np.float64)

In [17]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   object 
 11  taxa_limpeza          3818 non-null   object 
 12  preco                 3818 non-null   float64
dtypes: float64(2), int64(4), object(7)
memory usage: 387.9+ KB


> Como o metodo applymap foi depreciado(ficou obsoleto) no pandas, entao usamos map para aplicar a funcao em cada coluna separadamente.
```python
dados['taxa_deposito'] = dados['taxa_deposito'].map(lambda x: x.replace('$', '').replace(',', '').strip()).astype(np.float64)

dados['taxa_limpeza'] = dados['taxa_limpeza'].map(lambda x: x.replace('$', '').replace(',', '').strip()).astype(np.float64)
```

In [18]:
dados[['taxa_deposito', 'taxa_limpeza']] = dados[['taxa_deposito', 'taxa_limpeza']].applymap(lambda x: x.replace('$', '').replace(',', '').strip()).astype(np.float64)


  dados[['taxa_deposito', 'taxa_limpeza']] = dados[['taxa_deposito', 'taxa_limpeza']].applymap(lambda x: x.replace('$', '').replace(',', '').strip()).astype(np.float64)


In [19]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   float64
 11  taxa_limpeza          3818 non-null   float64
 12  preco                 3818 non-null   float64
dtypes: float64(4), int64(4), object(5)
memory usage: 387.9+ KB


In [20]:
dados['descricao_local'] = dados['descricao_local'].str.lower()

In [21]:
dados['descricao_local'][3169]

"built, run and supported by seattle tech and start up veterans, grokhome's focus is to create a supportive environment for smart people working on interesting projects, start ups and more. this listing is an upper bunk, in a 2-person shared room. *note: this fall, there will be major renovations happening on one kitchen and bathroom at a time. there will always be two other working kitchens and two working bathrooms in the house. we'll work to minimize the impact these renovations have on your stay. **this listing is only available to those working in the tech/science space. live in a hacker house, and immerse yourself in the seattle tech scene. you can expect to be surrounded by smart people solving big problems or working on something fun. we have frequent demo nights, and love when our guests share something they are passionate about. if you're new to the city, our deep ties to the seattle tech scene can help you get involved. expand your network, develop your ideas, and learn some

>> Explicação de Regex: Remoção de Caracteres Especiais

> Padrão

[^a-zA-Z0-9\-\']

> Componentes do Padrão

| Componente | Descrição |
|------------|-----------|
| `r'...'` | Prefixo de string bruta (raw string) - interpreta barras invertidas literalmente |
| `[...]` | Define uma classe de caracteres - qualquer caractere dentro dos colchetes |
| `^` | Quando primeiro caractere na classe, indica negação - "qualquer caractere que NÃO seja..." |
| `a-zA-Z0-9` | Representa todas as letras (minúsculas e maiúsculas) e números |
| `\-` | O hífen escapado (necessário dentro da classe para não ser interpretado como intervalo) |
| `\'` | O apóstrofo/aspas simples escapado |

> Funcionamento

Quando usado em `str.replace(r'[^a-zA-Z0-9\-\']', ' ', regex=True)`, este padrão:
>> "Substitui por um espaço qualquer caractere que não seja letra, número, hífen ou apóstrofo"

> Exemplos

> Caracteres que são substituídos:
- ✓ `"Olá!"` → o ponto de exclamação vira espaço
- ✓ `"texto@email.com"` → @ e . são substituídos por espaços
- ✓ `"R$ 50,00"` → R$, espaço e vírgula são substituídos

> Caracteres que são preservados:
- ✗ `"Palavra123"` → letras e números são mantidos
- ✗ `"pré-vestibular"` → hífens são mantidos
- ✗ `"o'clock"` → apóstrofos são mantidos

> Utilidade

Esta expressão regular é particularmente útil para:
- Limpeza de texto em análise de dados
- Remoção de símbolos de pontuação e caracteres especiais
- Normalização de texto preservando palavras compostas com hífen e apóstrofos
- Simplificação de strings para processamento posterior

In [22]:
dados['descricao_local'] = dados['descricao_local'].str.replace(r'[^a-zA-Z0-9\-\']', ' ', regex=True)

In [23]:
dados['descricao_local']

0       this clean and comfortable one bedroom sits ri...
1       our century old upper queen anne house is loca...
2       cozy room in two-bedroom apartment along the l...
3       very lovely and cozy room for one  convenientl...
4       the  studio at mibbett hollow' is in a beautif...
                              ...                        
3813    beautiful craftsman home in the historic wedgw...
3814    located in a very easily accessible area of se...
3815    this home is fully furnished and available wee...
3816    this business-themed modern home features    h...
3817    this welcoming home is in the quiet residentia...
Name: descricao_local, Length: 3818, dtype: object

>> Explicação de Regex: Remoção de Hífens Isolados

>  Padrão

* (?<!\w)-(?!\w)

> Componentes do Padrão

| Componente | Descrição |
|------------|-----------|
| `r'...'` | Prefixo de string bruta (raw string) - interpreta barras invertidas literalmente |
| `(?<!\w)` | Negative lookbehind - verifica que não há caractere de palavra antes do hífen |
| `-` | O caractere hífen literal que estamos buscando |
| `(?!\w)` | Negative lookahead - verifica que não há caractere de palavra após o hífen |

* Funcionamento

Quando usado em `str.replace(r'(?<!\w)-(?!\w)', ' ', regex=True)`, este padrão:
> "Substitui por um espaço qualquer hífen que esteja isolado (não conectado a palavras)"

* Exemplos

> Hífens que são substituídos:
- ✓ `"palavra - palavra"` → hífen isolado entre espaços
- ✓ `"texto- início"` → hífen sem palavra conectada depois
- ✓ `" -palavra"` → hífen sem palavra conectada antes

> Hífens que são preservados:
- ✗ `"palavra-composta"` → hífen conecta palavras
- ✗ `"pré-vestibular"` → hífen como parte integral da palavra

* Utilidade

Esta expressão regular é especialmente útil para limpeza de texto quando se deseja:
- Remover hífens usados como marcadores ou separadores
- Manter intactas palavras compostas e termos com hífen significativo


In [24]:
dados['descricao_local'] = dados['descricao_local'].str.replace(r'(?<!\w)-(?!\w)', ' ', regex=True)

In [25]:
dados['descricao_local']

0       this clean and comfortable one bedroom sits ri...
1       our century old upper queen anne house is loca...
2       cozy room in two-bedroom apartment along the l...
3       very lovely and cozy room for one  convenientl...
4       the  studio at mibbett hollow' is in a beautif...
                              ...                        
3813    beautiful craftsman home in the historic wedgw...
3814    located in a very easily accessible area of se...
3815    this home is fully furnished and available wee...
3816    this business-themed modern home features    h...
3817    this welcoming home is in the quiet residentia...
Name: descricao_local, Length: 3818, dtype: object

In [26]:
dados['descricao_local'] = dados['descricao_local'].str.split()
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...",Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...",The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",0.0,15.0,85.0


> Explicação do Regex para Remover Caracteres JSON

A expressão regular `r'\{|}|\"`' é usada para limpar texto que contém formatação JSON, removendo caracteres específicos da notação.

Análise detalhada:

* `r'...'` - O prefixo r indica uma string bruta (raw string), onde as barras invertidas são interpretadas literalmente

* `\{` - Corresponde ao caractere de chave aberta `{` (escapado porque tem significado especial em regex)

* `|` - Operador OR, significa "ou" na expressão regular

* `}` - Corresponde ao caractere de chave fechada `}`

* `|` - Outro operador OR

* `\"` - Corresponde ao caractere de aspas duplas `"` (escapado)

Em conjunto, `r'\{|}|\"`', ' ', regex=True` significa: "Substitua por um espaço qualquer ocorrência de chave aberta, chave fechada ou aspas duplas".

Esta expressão é particularmente útil para limpar dados estruturados em formato JSON, removendo os delimitadores de objetos (`{}`) e as aspas que cercam as strings (`"`), deixando apenas o conteúdo textual.

In [27]:
dados['comodidades'] = dados['comodidades'].str.replace(r'\{|}|\"', '', regex=True)

In [28]:
dados['comodidades'] = dados['comodidades'].str.split(',')

In [29]:
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...",Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...",The convenience of being in Seattle but on the...,1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",--,1,1,1,Real Bed,"[Wireless Internet, Kitchen, Free Parking on P...",0.0,15.0,85.0


In [30]:
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.lower()

In [31]:
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace(r'[^a-zA-Z0-9\-\']', ' ', regex=True)

In [32]:
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace(r'(?<!\w)-(?!\w)', '', regex=True)

In [33]:
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.split()

In [34]:
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...","[lower, queen, anne, is, near, the, seattle, c...",1,1,1,Real Bed,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","[upper, queen, anne, is, a, really, pleasant, ...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...","[the, convenience, of, being, in, seattle, but...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","[ballard, is, lovely, vibrant, and, one, of, t...",1,1,1,Pull-out Sofa,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",[],1,1,1,Real Bed,"[Wireless Internet, Kitchen, Free Parking on P...",0.0,15.0,85.0


In [35]:
dt_data = pd.read_json("moveis_disponiveis.json")

In [36]:
dt_data.head()

Unnamed: 0,id,data,vaga_disponivel,preco
0,857,2016-01-04,False,
1,857,2016-01-05,False,
2,857,2016-01-06,False,
3,857,2016-01-07,False,
4,857,2016-01-08,False,


In [37]:
dt_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   id               365000 non-null  int64 
 1   data             365000 non-null  object
 2   vaga_disponivel  365000 non-null  bool  
 3   preco            270547 non-null  object
dtypes: bool(1), int64(1), object(2)
memory usage: 11.5+ MB


In [40]:
dt_data['data'] = pd.to_datetime(dt_data['data'])

In [41]:
dt_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column           Non-Null Count   Dtype         
---  ------           --------------   -----         
 0   id               365000 non-null  int64         
 1   data             365000 non-null  datetime64[ns]
 2   vaga_disponivel  365000 non-null  bool          
 3   preco            270547 non-null  object        
dtypes: bool(1), datetime64[ns](1), int64(1), object(1)
memory usage: 11.5+ MB


In [42]:
dt_data.head()

Unnamed: 0,id,data,vaga_disponivel,preco
0,857,2016-01-04,False,
1,857,2016-01-05,False,
2,857,2016-01-06,False,
3,857,2016-01-07,False,
4,857,2016-01-08,False,


In [43]:
dt_data['data'].dt.strftime('%Y - %m')

0         2016 - 01
1         2016 - 01
2         2016 - 01
3         2016 - 01
4         2016 - 01
            ...    
364995    2016 - 12
364996    2016 - 12
364997    2016 - 12
364998    2017 - 01
364999    2017 - 01
Name: data, Length: 365000, dtype: object

In [45]:
subset = dt_data.groupby(dt_data['data'].dt.strftime('%Y - %m'))['vaga_disponivel'].sum()

In [46]:
subset

data
2016 - 01    16543
2016 - 02    20128
2016 - 03    23357
2016 - 04    22597
2016 - 05    23842
2016 - 06    23651
2016 - 07    22329
2016 - 08    22529
2016 - 09    22471
2016 - 10    23765
2016 - 11    23352
2016 - 12    24409
2017 - 01     1574
Name: vaga_disponivel, dtype: int64

In [50]:
dt_data['preco'].fillna('0.0', inplace = True)

In [52]:
dt_data['preco'] = dt_data['preco'].apply(lambda x: x.replace('$', '').replace(',',''))

In [53]:
dt_data['preco'] = dt_data['preco'].astype(np.float64)

In [54]:
dt_data

Unnamed: 0,id,data,vaga_disponivel,preco
0,857,2016-01-04,False,0.0
1,857,2016-01-05,False,0.0
2,857,2016-01-06,False,0.0
3,857,2016-01-07,False,0.0
4,857,2016-01-08,False,0.0
...,...,...,...,...
364995,3279,2016-12-29,True,140.0
364996,3279,2016-12-30,True,140.0
364997,3279,2016-12-31,True,140.0
364998,3279,2017-01-01,True,140.0
