In [None]:
import io
import pandas as pd
import  numpy as np

# URL do arquivo JSON contendo os dados de hospedagem
url = 'https://raw.githubusercontent.com/YuriArduino/Estudos_Pandas/refs/heads/data-tests/dados_hospedagem.json'

# L√™ o arquivo JSON da URL
# Utiliza io.StringIO para tratar a URL como um arquivo em mem√≥ria
# Converte o JSON lido para DataFrame, depois para JSON string
# e l√™ novamente para garantir o formato correto
dados = pd.read_json(io.StringIO(pd.read_json(url).to_json()))
dados = pd.json_normalize(dados['info_moveis']) #SELECIONAR A COLUNA A NORMALIZAR

colunas = list(dados.columns)
# Explode as colunas a partir da quarta para lidar com listas/estruturas aninhadas
dados = dados.explode(colunas[3:])
dados.reset_index(inplace=True, drop=True) # Reseta o √≠ndice e remove o √≠ndice antigo

# Converte colunas num√©ricas para tipo inteiro (int64)
col_numericas = ['max_hospedes','quantidade_banheiros','quantidade_quartos','quantidade_camas']
dados[col_numericas] = dados[col_numericas].astype(np.int64)

# Converte a coluna de avalia√ß√£o geral para tipo float (float64)
dados['avaliacao_geral'] = dados['avaliacao_geral'].astype(np.float64)

# Remove '$' e ',' e converte colunas de pre√ßo e taxas para float
dados[['preco','taxa_deposito','taxa_limpeza']] = dados[
    ['taxa_deposito','taxa_limpeza','preco']].map(
    lambda x: float(x.replace('$', '').replace(',','').strip()))

# Converte explicitamente para float64 (redundante ap√≥s o map, mas mant√©m a clareza)
dados[['preco','taxa_deposito','taxa_limpeza']] = dados[
    ['preco','taxa_deposito','taxa_limpeza']].astype(np.float64)

# Mostra as primeiras 5 linhas do DataFrame
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,110.0,0.0
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,45.0,0.0
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,55.0,0.0
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",20.0,52.0,0.0
4,10.0,--,1,The ‚ÄúStudio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",15.0,85.0,0.0


#Tokeniza√ß√£o

A tokeniza√ß√£o √© a divis√£o do texto em tokens, ou seja, unidades menores. Esses tokens podem ser palavras, s√≠labas, conjuntos de palavras e assim por diante, dependendo do tipo de aplica√ß√£o.

##Manipula√ß√£o dos textos

Podemos come√ßar a estruturar a tokeniza√ß√£o padronizando o nosso texto para letras min√∫sculas.

In [None]:
dados['descricao_local']

Unnamed: 0,descricao_local
0,This clean and comfortable one bedroom sits ri...
1,Our century old Upper Queen Anne house is loca...
2,Cozy room in two-bedroom apartment along the l...
3,Very lovely and cozy room for one. Convenientl...
4,The ‚ÄúStudio at Mibbett Hollow' is in a Beautif...
...,...
3813,Beautiful craftsman home in the historic Wedgw...
3814,Located in a very easily accessible area of Se...
3815,This home is fully furnished and available wee...
3816,This business-themed modern home features: *H...


`str()`

In [None]:
dados['descricao_local'].str.lower() #Transformar para min√∫scula.

Unnamed: 0,descricao_local
0,this clean and comfortable one bedroom sits ri...
1,our century old upper queen anne house is loca...
2,cozy room in two-bedroom apartment along the l...
3,very lovely and cozy room for one. convenientl...
4,the ‚Äústudio at mibbett hollow' is in a beautif...
...,...
3813,beautiful craftsman home in the historic wedgw...
3814,located in a very easily accessible area of se...
3815,this home is fully furnished and available wee...
3816,this business-themed modern home features: *h...


In [None]:
dados['descricao_local'] = dados['descricao_local'].str.lower()
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,this clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,110.0,0.0
1,10.0,--,1,our century old upper queen anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,45.0,0.0
2,10.0,--,1,cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,55.0,0.0
3,10.0,--,1,very lovely and cozy room for one. convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",20.0,52.0,0.0
4,10.0,--,1,the ‚Äústudio at mibbett hollow' is in a beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",15.0,85.0,0.0


##Regex

Regex √© uma express√£o regular que se caracteriza por um conjunto de caracteres que fazem uma pesquisa no texto. O Regex √© muito utilizado para fazer a busca, valida√ß√£o e manipula√ß√£o de dados porque, a partir dessa sequ√™ncia padronizada de caracteres, conseguimos definir os caracteres que queremos ou n√£o selecionar.

In [None]:
#Leitura de texto
dados['descricao_local'][3169]

"built, run and supported by seattle tech and start up veterans, grokhome's focus is to create a supportive environment for smart people working on interesting projects, start ups and more. this listing is an upper bunk, in a 2-person shared room. *note: this fall, there will be major renovations happening on one kitchen and bathroom at a time. there will always be two other working kitchens and two working bathrooms in the house. we'll work to minimize the impact these renovations have on your stay. **this listing is only available to those working in the tech/science space. live in a hacker house, and immerse yourself in the seattle tech scene. you can expect to be surrounded by smart people solving big problems or working on something fun. we have frequent demo nights, and love when our guests share something they are passionate about. if you're new to the city, our deep ties to the seattle tech scene can help you get involved. expand your network, develop your ideas, and learn some

Analisando o texto, podemos notar que existem v√°rios `caracteres especiais` como **v√≠rgulas, pontos, dois pontos e asteriscos**. Esses s√£o os caracteres que queremos remover.

No entanto, precisamos nos atentar que, na l√≠ngua inglesa, usa-se muito o ap√≥strofo (') para compor sentidos. Esses sinais n√£o ser√£o removidos.

Al√©m disso, tamb√©m h√° o h√≠fen para formar palavras compostas, outro sinal que tamb√©m n√£o removeremos na nossa substitui√ß√£o. Isso porque palavras compostas possuem um sentido pr√≥prio, que difere do significado individual das palavras da composi√ß√£o.


`M√©todo replace()`

Para a substitui√ß√£o desses caracteres especiais, utilizaremos o str junto de outro m√©todo de strings, o replace()

###Regex: removendo caracteres especiais


Vamos entender sua estrutura. N√≥s abrimos e fechamos colchetes e, dentro deles, come√ßamos a express√£o com um sinal circunflexo (^), que nega os pr√≥ximos valores. Ou seja, colocamos em seguida os valores que ele n√£o vai selecionar:

*  a-z: todas as letras, do "a" ao "z", min√∫sculas;
*  A-Z: todas as letras, do "A" ao "Z", mai√∫sculas;
*  0-9: todos os n√∫meros, de 0 a 9;
*  \-: h√≠fen;
*  \': ap√≥strofo.

Toda essa express√£o diz: "selecione todos os caracteres, exceto as letras (mai√∫sculas ou min√∫sculas), n√∫meros, h√≠fen e ap√≥strofo".

In [None]:
dados['descricao_local'].str.replace(r'[^a-zA-Z0-9\-\']', ' ', regex=True)

Unnamed: 0,descricao_local
0,this clean and comfortable one bedroom sits ri...
1,our century old upper queen anne house is loca...
2,cozy room in two-bedroom apartment along the l...
3,very lovely and cozy room for one convenientl...
4,the studio at mibbett hollow' is in a beautif...
...,...
3813,beautiful craftsman home in the historic wedgw...
3814,located in a very easily accessible area of se...
3815,this home is fully furnished and available wee...
3816,this business-themed modern home features h...


In [None]:
dados['descricao_local'] = dados['descricao_local'].str.replace(r'[^a-zA-Z0-9\-\']', ' ', regex=True)

###Removendo hifens fora de palavras compostas

O nosso pr√≥ximo passo ser√° remover os hifens que n√£o estejam conectando palavras compostas, ou seja, os hifens soltos que n√£o tenham nenhum caractere antes ou depois deles

Esse Regex tem uma estrutura diferente: entre par√™nteses, colocamos um sinal de interroga√ß√£o (?), um sinal de menor (<), uma exclama√ß√£o (!), barra () e a letra "w" min√∫scula. Depois dos primeiros par√™nteses, inserimos um h√≠fen e abrimos novos par√™nteses, contendo os mesmos caracteres, exceto pelo sinal de menor. Ou seja:

(?<!\w): uma "lookbehind" negativa que verifica se h√° um caractere de palavra antes do h√≠fen ou se h√° apenas um espa√ßo em branco, resultando em "verdadeiro" se n√£o houver nada;
(?!\w): uma lookahead negativa que verifica se h√° um caractere de palavra depois do h√≠fen.
A combina√ß√£o de lookbehind negativo e lookahead negativo garante que o h√≠fen esteja entre espa√ßos em branco ou no in√≠cio ou fim de uma palavra. Nesse caso, esse h√≠fen ser√° selecionado por esse Regex e substitu√≠do por um espa√ßo em branco.

In [None]:
dados['descricao_local'].str.replace(r'(?<!\w)-(?!\w)', '', regex=True)

Unnamed: 0,descricao_local
0,this clean and comfortable one bedroom sits ri...
1,our century old upper queen anne house is loca...
2,cozy room in two-bedroom apartment along the l...
3,very lovely and cozy room for one convenientl...
4,the studio at mibbett hollow' is in a beautif...
...,...
3813,beautiful craftsman home in the historic wedgw...
3814,located in a very easily accessible area of se...
3815,this home is fully furnished and available wee...
3816,this business-themed modern home features h...


In [None]:
dados['descricao_local'] = dados['descricao_local'].str.replace(r'(?<!\w)-(?!\w)', '', regex=True)

In [None]:
dados['descricao_local'][3169]

"built  run and supported by seattle tech and start up veterans  grokhome's focus is to create a supportive environment for smart people working on interesting projects  start ups and more  this listing is an upper bunk  in a 2-person shared room   note  this fall  there will be major renovations happening on one kitchen and bathroom at a time  there will always be two other working kitchens and two working bathrooms in the house  we'll work to minimize the impact these renovations have on your stay    this listing is only available to those working in the tech science space  live in a hacker house  and immerse yourself in the seattle tech scene  you can expect to be surrounded by smart people solving big problems or working on something fun  we have frequent demo nights  and love when our guests share something they are passionate about  if you're new to the city  our deep ties to the seattle tech scene can help you get involved  expand your network  develop your ideas  and learn some

## Para saber mais: aprofundando em regex

Regex (ou express√£o regular) √© uma sequ√™ncia de caracteres que define **padr√µes de busca em texto**. √â uma ferramenta poderosa e vers√°til, permitindo **encontrar, substituir e manipular padr√µes de forma eficiente**. Regex √© amplamente usado em programa√ß√£o, ci√™ncia de dados e processamento de texto.

### Aplica√ß√µes em ci√™ncia de dados

* **Limpeza de dados**: localizar e substituir caracteres indesejados em textos brutos.
* **Classifica√ß√£o de texto**: identificar padr√µes em e-mails, ajudando a classificar mensagens como spam ou n√£o.
* **Extra√ß√£o de informa√ß√µes**: automatizar a an√°lise de grandes volumes de texto e facilitar a organiza√ß√£o de dados.

### Recursos e estudo

* Para construir e testar express√µes regulares, o site [regex101.com](https://regex101.com/) √© muito √∫til.
* Para aplica√ß√µes em bancos de dados, o artigo [Principais casos de uso de Regex para tratamento de dados mostra exemplos pr√°ticos.](https://cursos.alura.com.br/forum/topico-duvida-duvida-como-posso-melhorar-a-logica-e-visualizacao-520441?hasAccessMGM=true)
---


##Tokeniza√ß√£o de strings

`M√©todo split()`

In [None]:
#Transformar uma string numa lista
#Usando o espa√ßo em branco como elemento separador
dados['descricao_local'].str.split()

Unnamed: 0,descricao_local
0,"[this, clean, and, comfortable, one, bedroom, ..."
1,"[our, century, old, upper, queen, anne, house,..."
2,"[cozy, room, in, two-bedroom, apartment, along..."
3,"[very, lovely, and, cozy, room, for, one, conv..."
4,"[the, studio, at, mibbett, hollow', is, in, a,..."
...,...
3813,"[beautiful, craftsman, home, in, the, historic..."
3814,"[located, in, a, very, easily, accessible, are..."
3815,"[this, home, is, fully, furnished, and, availa..."
3816,"[this, business-themed, modern, home, features..."


In [None]:
dados['descricao_local'] = dados['descricao_local'].str.split()
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...",Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,110.0,0.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,45.0,0.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...",The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,55.0,0.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",20.0,52.0,0.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",15.0,85.0,0.0


###Coluna comodidades

Tokeniza√ß√£o mas n√£o est√° bem estruturada como uma lista.

In [None]:
dados['comodidades']

Unnamed: 0,comodidades
0,"{Internet,""Wireless Internet"",Kitchen,""Free Pa..."
1,"{TV,Internet,""Wireless Internet"",Kitchen,""Free..."
2,"{TV,Internet,""Wireless Internet"",Kitchen,""Free..."
3,"{Internet,""Wireless Internet"",Kitchen,""Free Pa..."
4,"{""Wireless Internet"",Kitchen,""Free Parking on ..."
...,...
3813,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A..."
3814,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki..."
3815,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A..."
3816,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A..."


Ao examinar o dataframe, percebemos que as palavras est√£o entre chaves e separadas por v√≠rgulas. Embora essa estrutura possa se assemelhar a um dicion√°rio, na realidade n√£o se trata da estrutura de um dicion√°rio.

####Tratamento dos dados

Primeiramente, removeremos as chaves e aspas - caracteres que n√£o nos ajudar√£o a tokenizar nossa coluna de comodidades. J√° sabemos fazer isso usando o m√©todo replace() e o Regex: vamos identificar os caracteres em quest√£o e substitu√≠-los.

Ent√£o, como primeiro par√¢metro de replace(), passamos o Regex \{|}|\" para encontrar:

*  {| chave aberta;
*  }| chave fechada;
*  " aspas.

    *    as barras verticais (|) representam uma escolha entre dois padr√µes diferentes.

Neste caso, podemos manter as v√≠rgulas para utiliz√°-las como separador para dividir as palavras em uma lista na nossa tokeniza√ß√£o.

Al√©m disso, o que vai substituir esses caracteres √© uma string vazia. Portanto, como segundo par√¢metro, adicionamos apenas um par de aspas simples sem nada entre elas.

>Por fim, passamos regex=True:

In [None]:
dados['comodidades'].str.replace(r'\{|}|\"','',regex=True)

Unnamed: 0,comodidades
0,"Internet,Wireless Internet,Kitchen,Free Parkin..."
1,"TV,Internet,Wireless Internet,Kitchen,Free Par..."
2,"TV,Internet,Wireless Internet,Kitchen,Free Par..."
3,"Internet,Wireless Internet,Kitchen,Free Parkin..."
4,"Wireless Internet,Kitchen,Free Parking on Prem..."
...,...
3813,"TV,Cable TV,Internet,Wireless Internet,Air Con..."
3814,"TV,Cable TV,Internet,Wireless Internet,Kitchen..."
3815,"TV,Cable TV,Internet,Wireless Internet,Air Con..."
3816,"TV,Cable TV,Internet,Wireless Internet,Air Con..."


In [None]:
dados['comodidades'] = dados['comodidades'].str.replace(r'\{|}|\"','',regex=True)

####Tokeniza√ß√£o

Agora, criaremos a nossa lista de tokens. Faremos o mesmo que fizemos com a coluna descricao_local, utilizando o m√©todo split().

Para isso, vamos copiar a c√©lula anterior at√© o str e colar em uma nova c√©lula, adicionando .split() ao final. Dentro dos par√™nteses, vamos passar como par√¢metro o nosso caractere separador, as v√≠rgulas, entre aspas simples ','. Na linha abaixo, escrevemos dados.head() para verificar o resultado:

In [None]:
#V√≠rgula como separador de token
dados['comodidades'] = dados['comodidades'].str.split(',')
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...",Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,110.0,0.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,45.0,0.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...",The convenience of being in Seattle but on the...,1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,55.0,0.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"[Internet, Wireless Internet, Kitchen, Free Pa...",20.0,52.0,0.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",--,1,1,1,Real Bed,"[Wireless Internet, Kitchen, Free Parking on P...",15.0,85.0,0.0


In [None]:
dados['descricao_vizinhanca'][0]

"Lower Queen Anne is near the Seattle Center (space needle, EMP museum, Glass museum, Science Center and Children's museum). It's also near SAM sculpture park, stores, restaurants, SIFF theater and more."

In [None]:
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.lower()
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace(r'[^a-zA-Z0-9\-\']', ' ', regex=True)
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace(r'(?<!\w)-(?!\w)', '', regex=True)
# Remover stopwords espec√≠ficas: "e", "ou", "mas"
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace(r'\b(e|ou|mas)\b', '', regex=True)

In [None]:
dados['descricao_vizinhanca'][0]

"lower queen anne is near the seattle center  space needle  emp museum  glass museum  science center and children's museum   it's also near sam sculpture park  stores  restaurants  siff theater and more "

In [None]:
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.split()
dados['descricao_vizinhanca'].reset_index(inplace=True, drop=True)
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...","[lower, queen, anne, is, near, the, seattle, c...",1,1,1,Real Bed,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,110.0,0.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","[upper, queen, anne, is, a, really, pleasant, ...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,45.0,0.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...","[the, convenience, of, being, in, seattle, but...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,55.0,0.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","[ballard, is, lovely, vibrant, and, one, of, t...",1,1,1,Pull-out Sofa,"[Internet, Wireless Internet, Kitchen, Free Pa...",20.0,52.0,0.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",[],1,1,1,Real Bed,"[Wireless Internet, Kitchen, Free Parking on P...",15.0,85.0,0.0


In [None]:
dados['descricao_vizinhanca'][0]

['lower',
 'queen',
 'anne',
 'is',
 'near',
 'the',
 'seattle',
 'center',
 'space',
 'needle',
 'emp',
 'museum',
 'glass',
 'museum',
 'science',
 'center',
 'and',
 "children's",
 'museum',
 "it's",
 'also',
 'near',
 'sam',
 'sculpture',
 'park',
 'stores',
 'restaurants',
 'siff',
 'theater',
 'and',
 'more']

#Exerc√≠cio: trabalhando em outros contextos


Voltemos a p√¥r em pr√°tica tudo o que aprendemos durante as aulas. Disponibilizei novamente os 2 novos conjuntos de dados para download abaixo:

*  Projeto desafio 1: vendas online - dados_vendas_clientes.json;

*  Projeto desafio 2: administra√ß√£o de condom√≠nios - dados_locacao_imoveis.json.

>Lembrando: S√£o dois projetos de tratamento que ser√£o constru√≠dos durante o andamento do curso. Portanto, salve seu c√≥digo de constru√ß√£o em cada desafio para que possa aplic√°-lo nos desafios posteriores.

##Etapa 3

*  Projeto desafio 1: vendas online

Na etapa 2, trabalhamos na transforma√ß√£o dos dados num√©ricos. Agora, podemos trabalhar com valores textuais.

>Devido a uma instabilidade no site da empresa, tivemos problemas com os nomes dos clientes durante o salvamento. Isso resultou em uma coluna de nomes de clientes com uma mistura de letras, mai√∫sculas e min√∫sculas, n√∫meros e outros caracteres.

Sabendo disso, manipule os textos presentes na coluna Cliente para que seja obtido como resultado os nomes dos clientes em letras min√∫sculas, com a aus√™ncia de caracteres especiais ou n√∫meros.

*  Projeto desafio 2: administra√ß√£o de condom√≠nios

Na etapa 2, trabalhamos na transforma√ß√£o dos dados num√©ricos. Agora, podemos trabalhar com valores textuais.

>Buscando explicar a organiza√ß√£o da identifica√ß√£o dos apartamentos, durante a cria√ß√£o do conjunto de dados, foi adicionado o texto (blocoAP). Esse texto informa que os nomes dos apartamentos est√£o organizados com a letra do bloco seguida do n√∫mero do apartamento. No entanto, isso n√£o traz nenhuma informa√ß√£o para nossos dados, sendo interessante realizar a remo√ß√£o desse texto no conjunto de dados.

Com isso, manipule os textos na coluna apartamento para remover o texto (blocoAP) do DataFrame.


In [None]:
import pandas as pd
import numpy as np
import io

def carregar_dados(url: str, chave: str, coluna_valor: str, prefixo_remover: list[str] = None) -> pd.DataFrame:
    """
    L√™ um JSON de uma URL, normaliza os dados, explode listas e limpa a coluna de valores monet√°rios.

    Args:
        url (str): Link do arquivo JSON.
        chave (str): Nome da chave principal do JSON (ex.: 'dados_vendas').
        coluna_valor (str): Nome da coluna que cont√©m os valores monet√°rios.
        prefixo_remover (list[str], opcional): Strings a serem removidas antes de converter em float.

    Returns:
        pd.DataFrame: DataFrame normalizado e com a coluna de valores em float.
    """
    # Carrega e normaliza
    dados = pd.read_json(io.StringIO(pd.read_json(url).to_json()))
    dados = pd.json_normalize(dados[chave])

    # Explode as colunas de listas
    colunas = list(dados.columns)
    dados = dados.explode(colunas[1:]).reset_index(drop=True)

    # Limpeza da coluna de valores
    if prefixo_remover:
        for item in prefixo_remover:
            dados[coluna_valor] = dados[coluna_valor].str.replace(item, '', regex=False)

    dados[coluna_valor] = dados[coluna_valor].str.replace(',', '.', regex=False).str.strip()
    dados[coluna_valor] = dados[coluna_valor].astype(np.float64)

    return dados


url_vendas = "https://raw.githubusercontent.com/YuriArduino/Estudos_Pandas/refs/heads/data-tests/dados_vendas_clientes.json"
url_locacao = "https://raw.githubusercontent.com/YuriArduino/Estudos_Pandas/refs/heads/data-tests/dados_locacao_imoveis.json"

dados_vendas = carregar_dados(url_vendas, chave="dados_vendas", coluna_valor="Valor da compra", prefixo_remover=["R$ "])
dados_locacao = carregar_dados(url_locacao, chave="dados_locacao", coluna_valor="valor_aluguel", prefixo_remover=["$", " reais"])

print(dados_vendas.head())
print(dados_locacao.head())

  Data de venda             Cliente  Valor da compra
0    06/06/2022     @ANA _LUCIA 321           836.50
1    06/06/2022  DieGO ARMANDIU 210           573.33
2    06/06/2022  DieGO ARMANDIU 210           392.80
3    06/06/2022  DieGO ARMANDIU 210           512.34
4    07/06/2022  Isabely JOanes 738           825.31
      apartamento datas_combinadas_pagamento datas_de_pagamento  valor_aluguel
0  A101 (blocoAP)                 01/06/2022         05/06/2022         1000.0
1  A101 (blocoAP)                 01/07/2022         03/07/2022         2500.0
2  A102 (blocoAP)                 02/06/2022         02/06/2022         1100.0
3  A102 (blocoAP)                 02/07/2022         06/07/2022         2600.0
4  B201 (blocoAP)                 03/06/2022         07/06/2022         1200.0


### Projeto 1

In [None]:
dados_vendas.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,836.5
1,06/06/2022,DieGO ARMANDIU 210,573.33
2,06/06/2022,DieGO ARMANDIU 210,392.8
3,06/06/2022,DieGO ARMANDIU 210,512.34
4,07/06/2022,Isabely JOanes 738,825.31


In [None]:
dados_vendas['Cliente'] = dados_vendas['Cliente'].str.lower()
dados_vendas['Cliente'] = dados_vendas['Cliente'].str.replace(r'[^a-z]', ' ', regex=True)

In [None]:
dados_vendas['Cliente'].head()

Unnamed: 0,Cliente
0,ana lucia
1,diego armandiu
2,diego armandiu
3,diego armandiu
4,isabely joanes


### Projeto 2

In [None]:
dados_locacao.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,1000.0
1,A101 (blocoAP),01/07/2022,03/07/2022,2500.0
2,A102 (blocoAP),02/06/2022,02/06/2022,1100.0
3,A102 (blocoAP),02/07/2022,06/07/2022,2600.0
4,B201 (blocoAP),03/06/2022,07/06/2022,1200.0


In [None]:
dados_locacao['apartamento'] = dados_locacao['apartamento'].str.replace('(blocoAP)', '', regex=False)
dados_locacao.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,01/06/2022,05/06/2022,1000.0
1,A101,01/07/2022,03/07/2022,2500.0
2,A102,02/06/2022,02/06/2022,1100.0
3,A102,02/07/2022,06/07/2022,2600.0
4,B201,03/06/2022,07/06/2022,1200.0


---------------------

# üîç Guia Completo de Regex: Operador ^ e Exemplos Pr√°ticos

## üìñ String de Exemplo

Vamos usar a string `abc123!@#` para demonstrar todos os exemplos pr√°ticos de regex e entender claramente como o operador `^` funciona dentro e fora dos colchetes:

```text
abc123!@#
```

---

## üéØ Exemplos Pr√°ticos de Regex

### 1. `[a-z]` - Letras Min√∫sculas

**Descri√ß√£o:** Faz **match apenas com letras min√∫sculas de a-z**

**Resultado em `abc123!@#`:**
```
‚úÖ Matches encontrados: a, b, c
‚ùå N√£o faz match com: 1, 2, 3, !, @, #
```

**Uso pr√°tico:**
```javascript
"abc123!@#".match(/[a-z]/g) // ['a', 'b', 'c']
```

---

### 2. `[^a-z]` - Nega√ß√£o de Letras Min√∫sculas

**Descri√ß√£o:** Faz **match com tudo que N√ÉO for letra min√∫scula** (o `^` dentro dos colchetes significa nega√ß√£o)

**Resultado em `abc123!@#`:**
```
‚ùå N√£o faz match com: a, b, c
‚úÖ Matches encontrados: 1, 2, 3, !, @, #
```

**Uso pr√°tico:**
```javascript
// Remove tudo que n√£o for letra min√∫scula
"abc123!@#".replace(/[^a-z]/g, '') // "abc"
```

---

### 3. `[0-9]` - N√∫meros

**Descri√ß√£o:** Casa **apenas d√≠gitos de 0-9**

**Resultado em `abc123!@#`:**
```
‚ùå N√£o casa com: a, b, c, !, @, #
‚úÖ Matches encontrados: 1, 2, 3
```

**Uso pr√°tico:**
```javascript
"abc123!@#".match(/[0-9]/g) // ['1', '2', '3']
```

---

### 4. `[^0-9]` - Nega√ß√£o de N√∫meros

**Descri√ß√£o:** Casa **tudo que N√ÉO for d√≠gito**

**Resultado em `abc123!@#`:**
```
‚úÖ Matches encontrados: a, b, c, !, @, #
‚ùå N√£o casa com: 1, 2, 3
```

**Uso pr√°tico:**
```javascript
// Remove tudo que n√£o for n√∫mero
"abc123!@#".replace(/[^0-9]/g, '') // "123"
```

---

### 5. `^a` - In√≠cio da String

**Descri√ß√£o:** O `^` **fora dos colchetes** significa **in√≠cio da string**. Casa apenas se a string come√ßar com 'a'

**Resultado em `abc123!@#`:**
```
‚úÖ Match encontrado: a (primeira posi√ß√£o)
```

**Uso pr√°tico:**
```javascript
/^a/.test("abc123!@#") // true
/^b/.test("abc123!@#") // false
```

---

### 6. `#$` - Final da String

**Descri√ß√£o:** O `$` significa **final da string**. Casa apenas se a string terminar com '#'

**Resultado em `abc123!@#`:**
```
‚úÖ Match encontrado: # (√∫ltima posi√ß√£o)
```

**Uso pr√°tico:**
```javascript
/#$/.test("abc123!@#") // true
/!$/.test("abc123!@#") // false
```

---

## üß† Diferen√ßas Importantes do Operador `^`

### Dentro dos Colchetes `[^...]`
- **Fun√ß√£o:** Nega√ß√£o/Exclus√£o
- **Significa:** "Qualquer coisa EXCETO os caracteres listados"
- **Exemplo:** `[^abc]` = qualquer caractere que n√£o seja a, b ou c

### Fora dos Colchetes `^...`
- **Fun√ß√£o:** √Çncora de in√≠cio
- **Significa:** "A string deve COME√áAR com..."
- **Exemplo:** `^abc` = a string deve come√ßar com "abc"

---

## üõ†Ô∏è Casos de Uso Comuns

### Limpeza de Dados

```javascript
// Manter apenas letras
texto.replace(/[^a-zA-Z]/g, '')

// Manter apenas n√∫meros
texto.replace(/[^0-9]/g, '')

// Manter apenas letras, n√∫meros e espa√ßos
texto.replace(/[^a-zA-Z0-9 ]/g, '')
```

### Valida√ß√µes

```javascript
// Verificar se come√ßa com letra mai√∫scula
/^[A-Z]/.test(nome)

// Verificar se termina com ponto
/\.$/.test(frase)

// Verificar se cont√©m apenas n√∫meros
/^[0-9]+$/.test(codigo)
```

---

## üìù Resumo Visual

| Regex | Significado | Resultado em `abc123!@#` |
|-------|-------------|---------------------------|
| `[a-z]` | Apenas letras min√∫sculas | `a`, `b`, `c` |
| `[^a-z]` | Tudo exceto letras min√∫sculas | `1`, `2`, `3`, `!`, `@`, `#` |
| `[0-9]` | Apenas n√∫meros | `1`, `2`, `3` |
| `[^0-9]` | Tudo exceto n√∫meros | `a`, `b`, `c`, `!`, `@`, `#` |
| `^a` | Come√ßa com 'a' | `a` (in√≠cio) |
| `#$` | Termina com '#' | `#` (final) |

---

## üéì Dica Final

**Lembre-se sempre:**
- **`^` dentro de `[]`** = nega√ß√£o ("n√£o quero isso")
- **`^` fora de `[]`** = in√≠cio da string ("deve come√ßar assim")
- **`$`** = final da string ("deve terminar assim")

Essa distin√ß√£o √© fundamental para dominar regex e evitar confus√µes!