## Case: App de delivery que guarda os dados dos cliente em uma planilha, e precisamos manipular alguns **dados** para melhorar a analise para futuros estudos


In [38]:
import pandas as pd

df= pd.read_csv("banco_clientes.csv")
df


Unnamed: 0,nome,endereco,telefone
0,Paulo Hammer,"Rua 22 de Abril, 52614-524 1234",11 99548-2578
1,JonaS da Silva,"Rua Alvarenga Borges, 573 29285-678",11 99999-1234
2,Maria Santos,Av. Bom Sucesso 1283 87654-321,11 98765-4321
3,pedro albuquerque,"Rua Colombo, 789 45678-912",11 91234-5678
4,ana oliveira,"Rua Dinamarca, 1011 34567-890",11 99876-5432
5,José Fernandes,"Av. Ermeson, 23456-789 1213",(11) 97654-3210
6,mariana castro,"Rua das Flores, 15 56789-123",11 95555-6789
7,LUCAS SOUZA,"Av. Governador, 1617 67890-234",11 94444-5678
8,Carla santos,"Rua Helio Gracie, 19 78901-345",11 93333-4567
9,Felipe Martins,"Av. 28 de Novembro, 221 89012-456",(11) 92222-7890


* Padronizar os nomes dos clientes em letra maiúscula
* Padronizar a coluna de telefones para o formato XX XXXXX-XXXX
* Criar uma coluna apenas com os CEPs
* Ter uma coluna para o rua e outra para o número do endereço do cliente

## Padronizar os nomes em letra maiuscula

In [39]:
df["nome"] = df["nome"].str.upper()
df

Unnamed: 0,nome,endereco,telefone
0,PAULO HAMMER,"Rua 22 de Abril, 52614-524 1234",11 99548-2578
1,JONAS DA SILVA,"Rua Alvarenga Borges, 573 29285-678",11 99999-1234
2,MARIA SANTOS,Av. Bom Sucesso 1283 87654-321,11 98765-4321
3,PEDRO ALBUQUERQUE,"Rua Colombo, 789 45678-912",11 91234-5678
4,ANA OLIVEIRA,"Rua Dinamarca, 1011 34567-890",11 99876-5432
5,JOSÉ FERNANDES,"Av. Ermeson, 23456-789 1213",(11) 97654-3210
6,MARIANA CASTRO,"Rua das Flores, 15 56789-123",11 95555-6789
7,LUCAS SOUZA,"Av. Governador, 1617 67890-234",11 94444-5678
8,CARLA SANTOS,"Rua Helio Gracie, 19 78901-345",11 93333-4567
9,FELIPE MARTINS,"Av. 28 de Novembro, 221 89012-456",(11) 92222-7890


## Padronizar a coluna de telefones para o formato XX XXXXX-XXXX

In [40]:
df.telefone.str.replace("(", "",regex=False)

0      11 99548-2578
1      11 99999-1234
2      11 98765-4321
3      11 91234-5678
4      11 99876-5432
5     11) 97654-3210
6      11 95555-6789
7      11 94444-5678
8      11 93333-4567
9     11) 92222-7890
10     11 91111-2345
11    11) 90000-5678
12    11) 98888-9012
13    11) 97777-2345
14     11 96666-5678
15    11) 95555-9012
16     11 94444-2345
17    11) 93333-5678
18     11 92222-9012
19     11 91111-2345
20    11) 90000-5678
Name: telefone, dtype: object

In [41]:
df.telefone.str.replace("(", "",regex=False).str.replace(")", "",regex=False)

0     11 99548-2578
1     11 99999-1234
2     11 98765-4321
3     11 91234-5678
4     11 99876-5432
5     11 97654-3210
6     11 95555-6789
7     11 94444-5678
8     11 93333-4567
9     11 92222-7890
10    11 91111-2345
11    11 90000-5678
12    11 98888-9012
13    11 97777-2345
14    11 96666-5678
15    11 95555-9012
16    11 94444-2345
17    11 93333-5678
18    11 92222-9012
19    11 91111-2345
20    11 90000-5678
Name: telefone, dtype: object

In [42]:
df["telefone"] = df.telefone.str.replace("(", "",regex=False).str.replace(")", "",regex=False)
df

Unnamed: 0,nome,endereco,telefone
0,PAULO HAMMER,"Rua 22 de Abril, 52614-524 1234",11 99548-2578
1,JONAS DA SILVA,"Rua Alvarenga Borges, 573 29285-678",11 99999-1234
2,MARIA SANTOS,Av. Bom Sucesso 1283 87654-321,11 98765-4321
3,PEDRO ALBUQUERQUE,"Rua Colombo, 789 45678-912",11 91234-5678
4,ANA OLIVEIRA,"Rua Dinamarca, 1011 34567-890",11 99876-5432
5,JOSÉ FERNANDES,"Av. Ermeson, 23456-789 1213",11 97654-3210
6,MARIANA CASTRO,"Rua das Flores, 15 56789-123",11 95555-6789
7,LUCAS SOUZA,"Av. Governador, 1617 67890-234",11 94444-5678
8,CARLA SANTOS,"Rua Helio Gracie, 19 78901-345",11 93333-4567
9,FELIPE MARTINS,"Av. 28 de Novembro, 221 89012-456",11 92222-7890


## Criar uma coluna apenas com os CEPs

In [43]:
# procura um padrão de digitos \d contendo 5 dígitos \d{5} um hífen - e após o hífen 3 dígitos \d{3}
# método extract para extrair o conjunto padrão que corresponde ao CEP
df.endereco.str.extract("(\d{5}-\d{3})")

Unnamed: 0,0
0,52614-524
1,29285-678
2,87654-321
3,45678-912
4,34567-890
5,23456-789
6,56789-123
7,67890-234
8,78901-345
9,89012-456


In [44]:
# Cria uma nova coluna contendo o padrão do CEP extraído
df["cep"] = df.endereco.str.extract("(\d{5}-\d{3})")
df

Unnamed: 0,nome,endereco,telefone,cep
0,PAULO HAMMER,"Rua 22 de Abril, 52614-524 1234",11 99548-2578,52614-524
1,JONAS DA SILVA,"Rua Alvarenga Borges, 573 29285-678",11 99999-1234,29285-678
2,MARIA SANTOS,Av. Bom Sucesso 1283 87654-321,11 98765-4321,87654-321
3,PEDRO ALBUQUERQUE,"Rua Colombo, 789 45678-912",11 91234-5678,45678-912
4,ANA OLIVEIRA,"Rua Dinamarca, 1011 34567-890",11 99876-5432,34567-890
5,JOSÉ FERNANDES,"Av. Ermeson, 23456-789 1213",11 97654-3210,23456-789
6,MARIANA CASTRO,"Rua das Flores, 15 56789-123",11 95555-6789,56789-123
7,LUCAS SOUZA,"Av. Governador, 1617 67890-234",11 94444-5678,67890-234
8,CARLA SANTOS,"Rua Helio Gracie, 19 78901-345",11 93333-4567,78901-345
9,FELIPE MARTINS,"Av. 28 de Novembro, 221 89012-456",11 92222-7890,89012-456


In [45]:
df.endereco.str.replace('\d{5}-\d{3}', '', regex=True)

0           Rua 22 de Abril,  1234
1       Rua Alvarenga Borges, 573 
2            Av. Bom Sucesso 1283 
3                Rua Colombo, 789 
4             Rua Dinamarca, 1011 
5               Av. Ermeson,  1213
6              Rua das Flores, 15 
7            Av. Governador, 1617 
8            Rua Helio Gracie, 19 
9         Av. 28 de Novembro, 221 
10                  Rua Joana 423 
11                Av. Brasil, 245 
12          Rua do Lamparao, 2627 
13         Rua do Chuvisco , 2829 
14             Av. Goytacaz, 3031 
15          Av. Areia Negra,  3233
16        Rua das Palmeiras, 3435 
17                Av. Oliva, 3637 
18                 Rua Peri , 339 
19             Av. Balestrin 1337 
20    Rua Nicolau Copérnico,  1543
Name: endereco, dtype: object

In [46]:
# Altera a coluna endereço removendo o CEP a partir do metodo replace e removendo um possível espaço em branco
# com o método strip
df['endereco'] = df.endereco.str.replace(r'\d{5}-\d{3}', '', regex=True).str.strip()
df

Unnamed: 0,nome,endereco,telefone,cep
0,PAULO HAMMER,"Rua 22 de Abril, 1234",11 99548-2578,52614-524
1,JONAS DA SILVA,"Rua Alvarenga Borges, 573",11 99999-1234,29285-678
2,MARIA SANTOS,Av. Bom Sucesso 1283,11 98765-4321,87654-321
3,PEDRO ALBUQUERQUE,"Rua Colombo, 789",11 91234-5678,45678-912
4,ANA OLIVEIRA,"Rua Dinamarca, 1011",11 99876-5432,34567-890
5,JOSÉ FERNANDES,"Av. Ermeson, 1213",11 97654-3210,23456-789
6,MARIANA CASTRO,"Rua das Flores, 15",11 95555-6789,56789-123
7,LUCAS SOUZA,"Av. Governador, 1617",11 94444-5678,67890-234
8,CARLA SANTOS,"Rua Helio Gracie, 19",11 93333-4567,78901-345
9,FELIPE MARTINS,"Av. 28 de Novembro, 221",11 92222-7890,89012-456


## Ter uma coluna para o Rua e outra para o número do endereço do cliente

In [48]:
df.endereco.str.split(',', expand=True)

Unnamed: 0,0,1
0,Rua 22 de Abril,1234.0
1,Rua Alvarenga Borges,573.0
2,Av. Bom Sucesso 1283,
3,Rua Colombo,789.0
4,Rua Dinamarca,1011.0
5,Av. Ermeson,1213.0
6,Rua das Flores,15.0
7,Av. Governador,1617.0
8,Rua Helio Gracie,19.0
9,Av. 28 de Novembro,221.0


In [49]:
# \s corresponde a um espaço em branco
# ?= lookahead
# \d+ um ou mais digitos
# $ final da linha
# Faz a separação a partir de um espaço em branco antes de uma sequência númerica, no final da string
df.endereco.str.split('\s(?=\d+$)', expand=True)

Unnamed: 0,0,1
0,"Rua 22 de Abril,",1234
1,"Rua Alvarenga Borges,",573
2,Av. Bom Sucesso,1283
3,"Rua Colombo,",789
4,"Rua Dinamarca,",1011
5,"Av. Ermeson,",1213
6,"Rua das Flores,",15
7,"Av. Governador,",1617
8,"Rua Helio Gracie,",19
9,"Av. 28 de Novembro,",221


In [32]:
df.endereco.str.replace(",","").str.split('\s(?=\d+$)', expand=True)

Unnamed: 0,0,1
0,Rua 22 de Abril,1234
1,Rua Alvarenga Borges,573
2,Av. Bom Sucesso,1283
3,Rua Colombo,789
4,Rua Dinamarca,1011
5,Av. Ermeson,1213
6,Rua das Flores,15
7,Av. Governador,1617
8,Rua Helio Gracie,19
9,Av. 28 de Novembro,221


In [33]:
# expand divide a string em colunas diferentes, nesse caso divide cada parte da string
# nas novas colunas rua e número respectivamente
df[["rua","numero"]] = df.endereco.str.replace(",","").str.split('\s(?=\d+$)',regex=True, expand=True)

In [34]:
df

Unnamed: 0,nome,endereco,telefone,cep,rua,numero
0,PAULO HAMMER,"Rua 22 de Abril, 1234",11 99548-2578,52614-524,Rua 22 de Abril,1234
1,JONAS DA SILVA,"Rua Alvarenga Borges, 573",11 99999-1234,29285-678,Rua Alvarenga Borges,573
2,MARIA SANTOS,Av. Bom Sucesso 1283,11 98765-4321,87654-321,Av. Bom Sucesso,1283
3,PEDRO ALBUQUERQUE,"Rua Colombo, 789",11 91234-5678,45678-912,Rua Colombo,789
4,ANA OLIVEIRA,"Rua Dinamarca, 1011",11 99876-5432,34567-890,Rua Dinamarca,1011
5,JOSÉ FERNANDES,"Av. Ermeson, 1213",11 97654-3210,23456-789,Av. Ermeson,1213
6,MARIANA CASTRO,"Rua das Flores, 15",11 95555-6789,56789-123,Rua das Flores,15
7,LUCAS SOUZA,"Av. Governador, 1617",11 94444-5678,67890-234,Av. Governador,1617
8,CARLA SANTOS,"Rua Helio Gracie, 19",11 93333-4567,78901-345,Rua Helio Gracie,19
9,FELIPE MARTINS,"Av. 28 de Novembro, 221",11 92222-7890,89012-456,Av. 28 de Novembro,221


In [35]:
# Remoção da coluna endereço visto que ela foi destrinchada em outras colunas
df = df.drop(["endereco"], axis=1)
df

Unnamed: 0,nome,telefone,cep,rua,numero
0,PAULO HAMMER,11 99548-2578,52614-524,Rua 22 de Abril,1234
1,JONAS DA SILVA,11 99999-1234,29285-678,Rua Alvarenga Borges,573
2,MARIA SANTOS,11 98765-4321,87654-321,Av. Bom Sucesso,1283
3,PEDRO ALBUQUERQUE,11 91234-5678,45678-912,Rua Colombo,789
4,ANA OLIVEIRA,11 99876-5432,34567-890,Rua Dinamarca,1011
5,JOSÉ FERNANDES,11 97654-3210,23456-789,Av. Ermeson,1213
6,MARIANA CASTRO,11 95555-6789,56789-123,Rua das Flores,15
7,LUCAS SOUZA,11 94444-5678,67890-234,Av. Governador,1617
8,CARLA SANTOS,11 93333-4567,78901-345,Rua Helio Gracie,19
9,FELIPE MARTINS,11 92222-7890,89012-456,Av. 28 de Novembro,221
