<a href="https://colab.research.google.com/github/strawndri/python-ds-pandas-manipulacao-strings/blob/main/Manipulacao_strings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Case: App de delivery que guarda os dados dos cliente em uma planilha, e precisamos manipular alguns **dados** para melhorar a analise para futuros estudos


In [1]:
import pandas as pd

df= pd.read_csv("https://raw.githubusercontent.com/strawndri/python-ds-pandas-manipulacao-strings/main/dados/banco_clientes.csv")
df

Unnamed: 0,nome,endereco,telefone
0,Paulo Hammer,"Rua 22 de Abril, 52614-524 1234",11 99548-2578
1,JonaS da Silva,"Rua Alvarenga Borges, 573 29285-678",11 99999-1234
2,Maria Santos,Av. Bom Sucesso 1283 87654-321,11 98765-4321
3,pedro albuquerque,"Rua Colombo, 789 45678-912",11 91234-5678
4,ana oliveira,"Rua Dinamarca, 1011 34567-890",11 99876-5432
5,José Fernandes,"Av. Ermeson, 23456-789 1213",(11) 97654-3210
6,mariana castro,"Rua das Flores, 15 56789-123",11 95555-6789
7,LUCAS SOUZA,"Av. Governador, 1617 67890-234",11 94444-5678
8,Carla santos,"Rua Helio Gracie, 19 78901-345",11 93333-4567
9,Felipe Martins,"Av. 28 de Novembro, 221 89012-456",(11) 92222-7890


* Padronizar os nomes dos clientes em iniciais maiúsculas;
* Padronizar a coluna de telefones para o formato XX XXXXX-XXXX
* Criar uma coluna apenas com os CEPs
* Ter uma coluna para o rua e outra para o número do endereço do cliente

## Padronizar os nomes

Existem diferentes caminhos possíveis para padronizar nomes. Neste contexto, será escolhida a opção de iniciais maiúsculas (nome e sobrenome), que pode ser feita a partir do método `title()`.

In [2]:
df["nome"] = df["nome"].str.title()
df

Unnamed: 0,nome,endereco,telefone
0,Paulo Hammer,"Rua 22 de Abril, 52614-524 1234",11 99548-2578
1,Jonas Da Silva,"Rua Alvarenga Borges, 573 29285-678",11 99999-1234
2,Maria Santos,Av. Bom Sucesso 1283 87654-321,11 98765-4321
3,Pedro Albuquerque,"Rua Colombo, 789 45678-912",11 91234-5678
4,Ana Oliveira,"Rua Dinamarca, 1011 34567-890",11 99876-5432
5,José Fernandes,"Av. Ermeson, 23456-789 1213",(11) 97654-3210
6,Mariana Castro,"Rua das Flores, 15 56789-123",11 95555-6789
7,Lucas Souza,"Av. Governador, 1617 67890-234",11 94444-5678
8,Carla Santos,"Rua Helio Gracie, 19 78901-345",11 93333-4567
9,Felipe Martins,"Av. 28 de Novembro, 221 89012-456",(11) 92222-7890


## Padronizar a coluna de telefones para o formato XX XXXXX-XXXX

Para remover ou substituir valores de uma *string*, podemos usar **expressões regulares**. No código a seguir, usamos esse recurso para retirar os parênteses do DDD.

`\( | \)` são os caracteres de parênteses escapados. O caractere `\` é usado para indicar que o próximo caractere é interpretado literalmente, e como o parêntese é um caractere especial em expressões regulares, ele precisa ser escapado. Portanto, `\( | \)` representa a alternância entre um parêntese aberto e um parêntese fechado.

In [6]:
df["telefone"] = df.telefone.str.replace("\(|\)", "", regex=True)
df

Unnamed: 0,nome,endereco,telefone
0,Paulo Hammer,"Rua 22 de Abril, 52614-524 1234",11 99548-2578
1,Jonas Da Silva,"Rua Alvarenga Borges, 573 29285-678",11 99999-1234
2,Maria Santos,Av. Bom Sucesso 1283 87654-321,11 98765-4321
3,Pedro Albuquerque,"Rua Colombo, 789 45678-912",11 91234-5678
4,Ana Oliveira,"Rua Dinamarca, 1011 34567-890",11 99876-5432
5,José Fernandes,"Av. Ermeson, 23456-789 1213",11 97654-3210
6,Mariana Castro,"Rua das Flores, 15 56789-123",11 95555-6789
7,Lucas Souza,"Av. Governador, 1617 67890-234",11 94444-5678
8,Carla Santos,"Rua Helio Gracie, 19 78901-345",11 93333-4567
9,Felipe Martins,"Av. 28 de Novembro, 221 89012-456",11 92222-7890


## Criar uma coluna apenas com os CEPs



Por meio da expressão regular abaixo, estamos procurando por um padrão específico no formato `XXXXX-XXX`, onde `X` representa um dígito (número de 0 a 9). Analisando cada parte separadamente, temos:

* `(\d{5})`: Representa cinco dígitos consecutivos;
* `-`: Representa o caractere de hífen;
* `(\d{3})`: Representa três dígitos consecutivos.

In [None]:
df["cep"] = df.endereco.str.extract("(\d{5}-\d{3})")
df

Unnamed: 0,nome,endereco,telefone,cep
0,PAULO HAMMER,"Rua 22 de Abril, 52614-524 1234",11 99548-2578,52614-524
1,JONAS DA SILVA,"Rua Alvarenga Borges, 573 29285-678",11 99999-1234,29285-678
2,MARIA SANTOS,Av. Bom Sucesso 1283 87654-321,11 98765-4321,87654-321
3,PEDRO ALBUQUERQUE,"Rua Colombo, 789 45678-912",11 91234-5678,45678-912
4,ANA OLIVEIRA,"Rua Dinamarca, 1011 34567-890",11 99876-5432,34567-890
5,JOSÉ FERNANDES,"Av. Ermeson, 23456-789 1213",11 97654-3210,23456-789
6,MARIANA CASTRO,"Rua das Flores, 15 56789-123",11 95555-6789,56789-123
7,LUCAS SOUZA,"Av. Governador, 1617 67890-234",11 94444-5678,67890-234
8,CARLA SANTOS,"Rua Helio Gracie, 19 78901-345",11 93333-4567,78901-345
9,FELIPE MARTINS,"Av. 28 de Novembro, 221 89012-456",11 92222-7890,89012-456


Estando com os CEPs já organizados em uma coluna à parte, podemos removê-los dos endereços.

In [8]:
df['endereco'] = df.endereco.str.replace(r'\d{5}-\d{3}', '', regex=True).str.strip()
df

Unnamed: 0,nome,endereco,telefone
0,Paulo Hammer,"Rua 22 de Abril, 1234",11 99548-2578
1,Jonas Da Silva,"Rua Alvarenga Borges, 573",11 99999-1234
2,Maria Santos,Av. Bom Sucesso 1283,11 98765-4321
3,Pedro Albuquerque,"Rua Colombo, 789",11 91234-5678
4,Ana Oliveira,"Rua Dinamarca, 1011",11 99876-5432
5,José Fernandes,"Av. Ermeson, 1213",11 97654-3210
6,Mariana Castro,"Rua das Flores, 15",11 95555-6789
7,Lucas Souza,"Av. Governador, 1617",11 94444-5678
8,Carla Santos,"Rua Helio Gracie, 19",11 93333-4567
9,Felipe Martins,"Av. 28 de Novembro, 221",11 92222-7890


## Ter uma coluna para o Rua e outra para o número do endereço do cliente

No código abaixo, estamos reestruturando as informações de endereço de cada cliente:

* Inicialmente, removemos a vírgula e a substituímos por uma *string* vazia;
* Em seguida, a coluna endereco é dividida usando o método `split`. A expressão regular `\s(?=\d+$)` é utilizada para dividir o texto no último espaço antes de um grupo de dígitos no final da string. Vamos quebrar isso:

  * `\s`: Representa um caractere de espaço em branco;
  * `(?=\d+$)`: É uma expressão de "lookahead" positiva que corresponde a um espaço em branco somente se for seguido por um ou mais dígitos `(\d+)` até o final da string `($)`.

* O parâmetro `expand=True` faz com que a saída seja retornada como um *DataFrame* com colunas separadas para cada parte do texto após a divisão.

In [10]:
df[["rua","numero"]] = df.endereco.str.replace(",","").str.split('\s(?=\d+$)',regex=True, expand=True)
df

Unnamed: 0,nome,endereco,telefone,rua,numero
0,Paulo Hammer,"Rua 22 de Abril, 1234",11 99548-2578,Rua 22 de Abril,1234
1,Jonas Da Silva,"Rua Alvarenga Borges, 573",11 99999-1234,Rua Alvarenga Borges,573
2,Maria Santos,Av. Bom Sucesso 1283,11 98765-4321,Av. Bom Sucesso,1283
3,Pedro Albuquerque,"Rua Colombo, 789",11 91234-5678,Rua Colombo,789
4,Ana Oliveira,"Rua Dinamarca, 1011",11 99876-5432,Rua Dinamarca,1011
5,José Fernandes,"Av. Ermeson, 1213",11 97654-3210,Av. Ermeson,1213
6,Mariana Castro,"Rua das Flores, 15",11 95555-6789,Rua das Flores,15
7,Lucas Souza,"Av. Governador, 1617",11 94444-5678,Av. Governador,1617
8,Carla Santos,"Rua Helio Gracie, 19",11 93333-4567,Rua Helio Gracie,19
9,Felipe Martins,"Av. 28 de Novembro, 221",11 92222-7890,Av. 28 de Novembro,221


In [None]:
df = df.drop(["endereco"], axis=1)
df

Unnamed: 0,nome,telefone,cep,rua,numero
0,PAULO HAMMER,11 99548-2578,52614-524,Rua 22 de Abril,1234
1,JONAS DA SILVA,11 99999-1234,29285-678,Rua Alvarenga Borges,573
2,MARIA SANTOS,11 98765-4321,87654-321,Av. Bom Sucesso,1283
3,PEDRO ALBUQUERQUE,11 91234-5678,45678-912,Rua Colombo,789
4,ANA OLIVEIRA,11 99876-5432,34567-890,Rua Dinamarca,1011
5,JOSÉ FERNANDES,11 97654-3210,23456-789,Av. Ermeson,1213
6,MARIANA CASTRO,11 95555-6789,56789-123,Rua das Flores,15
7,LUCAS SOUZA,11 94444-5678,67890-234,Av. Governador,1617
8,CARLA SANTOS,11 93333-4567,78901-345,Rua Helio Gracie,19
9,FELIPE MARTINS,11 92222-7890,89012-456,Av. 28 de Novembro,221
