<a href="https://colab.research.google.com/github/ThaironyDev/Transformacao_e_manipulacao_de_dados/blob/main/Manipulando_strings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [73]:
import pandas as pd

##Case: App de delivery que guarda os dados dos clientes em uma planilha, precisamos manipular alguns dados para melhorar a analise para futuros estudos.

* Padronizar os nomes dos clientes em letra maiúscula.
* Padronizar a coluna de telefones para o formato XX XXXXX-XXXX.
* Criar uma coluna apenas com os CEPs.
* Ter uma coluna para a rua e outra para o número do endereço do cliente.

In [74]:
url = 'https://caelum-online-public.s3.amazonaws.com/2925-introducao-pandas/banco_clientes.csv'
dados = pd.read_csv(url)
dados.head()

Unnamed: 0,nome,endereco,telefone
0,Paulo Hammer,"Rua 22 de Abril, 52614-524 1234",11 99548-2578
1,JonaS da Silva,"Rua Alvarenga Borges, 573 29285-678",11 99999-1234
2,Maria Santos,Av. Bom Sucesso 1283 87654-321,11 98765-4321
3,pedro albuquerque,"Rua Colombo, 789 45678-912",11 91234-5678
4,ana oliveira,"Rua Dinamarca, 1011 34567-890",11 99876-5432


###Padronizar os nomes dos clientes em letra maiúscula.

In [75]:
'''
Neste trecho estamos usando o método apply() para aplicar uma função lambda para cada valor da coluna nome, em cada valor o método upper() utilizado pela lambda garante que todos os nomes estejam em
letra maiuscula.
'''
dados['nome'] = dados.nome.apply(lambda nome: nome.upper())
dados.head()

Unnamed: 0,nome,endereco,telefone
0,PAULO HAMMER,"Rua 22 de Abril, 52614-524 1234",11 99548-2578
1,JONAS DA SILVA,"Rua Alvarenga Borges, 573 29285-678",11 99999-1234
2,MARIA SANTOS,Av. Bom Sucesso 1283 87654-321,11 98765-4321
3,PEDRO ALBUQUERQUE,"Rua Colombo, 789 45678-912",11 91234-5678
4,ANA OLIVEIRA,"Rua Dinamarca, 1011 34567-890",11 99876-5432


###Padronizar a coluna de telefones para o formato XX XXXXX-XXXX

In [76]:
'''Neste trecho estamos fazendo uma seleção dos valores da coluna telefone que contém um padrão, para cada valor correspondente a esse padrão estamos
aplicando uma substituição pelo método replace que pertence ao objeto String, usando uma regex, por fim o conteúdo é alterado permanentemente.
'''

selecao = dados.telefone.str.contains('\(')
dados['telefone'][selecao] = dados['telefone'][selecao].str.replace(r'\(|\)', '', regex=True).str.strip()
dados.head()
dados['telefone'][selecao]

5     11 97654-3210
9     11 92222-7890
11    11 90000-5678
12    11 98888-9012
13    11 97777-2345
15    11 95555-9012
17    11 93333-5678
20    11 90000-5678
Name: telefone, dtype: object

###Criar uma coluna apenas com os CEPs.

In [77]:
'''Neste trecho estamos usando o método extract() com uma regex para encontrar um padrão e extrair esse resultado gerando um novo dataframe,
em seguida estamos criando uma nova coluna chamada cep com esse resultado.'''

cep = dados['endereco'].str.extract(r'(\d{5}-\d{3})')
dados = dados.assign(cep=cep)
dados.head()

Unnamed: 0,nome,endereco,telefone,cep
0,PAULO HAMMER,"Rua 22 de Abril, 52614-524 1234",11 99548-2578,52614-524
1,JONAS DA SILVA,"Rua Alvarenga Borges, 573 29285-678",11 99999-1234,29285-678
2,MARIA SANTOS,Av. Bom Sucesso 1283 87654-321,11 98765-4321,87654-321
3,PEDRO ALBUQUERQUE,"Rua Colombo, 789 45678-912",11 91234-5678,45678-912
4,ANA OLIVEIRA,"Rua Dinamarca, 1011 34567-890",11 99876-5432,34567-890


>Retirando o cep da coluna endereço.

In [78]:
dados['endereco'] = dados['endereco'].str.replace(r'(\d{5}-\d{3})', '', regex=True).str.strip()
dados.head()

Unnamed: 0,nome,endereco,telefone,cep
0,PAULO HAMMER,"Rua 22 de Abril, 1234",11 99548-2578,52614-524
1,JONAS DA SILVA,"Rua Alvarenga Borges, 573",11 99999-1234,29285-678
2,MARIA SANTOS,Av. Bom Sucesso 1283,11 98765-4321,87654-321
3,PEDRO ALBUQUERQUE,"Rua Colombo, 789",11 91234-5678,45678-912
4,ANA OLIVEIRA,"Rua Dinamarca, 1011",11 99876-5432,34567-890


###Ter uma coluna para a rua e outra para o número do endereço do cliente.

In [79]:
'''Neste trecho estamos selecionando um padrão para aplicar o método replace() e outro para aplicar o metodo split(), no caso do split estamos usando uma regex para selecionar
o último conjunto que corresponda ao padrão informado, feito isso teremos acesso a um novo dataframe com duas colunas.'''
df = dados['endereco'].str.replace(',', '').str.split(r'\s(?=\d+$)', expand=True, regex=True)

In [80]:
dados[['rua', 'numero']] = df

In [81]:
dados.drop('endereco', axis='columns', inplace=True)

In [82]:
dados.head()

Unnamed: 0,nome,telefone,cep,rua,numero
0,PAULO HAMMER,11 99548-2578,52614-524,Rua 22 de Abril,1234
1,JONAS DA SILVA,11 99999-1234,29285-678,Rua Alvarenga Borges,573
2,MARIA SANTOS,11 98765-4321,87654-321,Av. Bom Sucesso,1283
3,PEDRO ALBUQUERQUE,11 91234-5678,45678-912,Rua Colombo,789
4,ANA OLIVEIRA,11 99876-5432,34567-890,Rua Dinamarca,1011
