In [1]:
import pandas as pd
import unicodedata 
import re

In [2]:
df = pd.read_csv("../Dados/cadastro.csv", encoding='latin-1', sep = ";")
df

Unnamed: 0,nome,idade,e-mail
0,Carolina da Silva,35,carolina.sil@gmail.com
1,gabrielly rezenDe,43,gabi_rezende@google.com
2,Bernardo Dias,70,bernardodias@aws.com
3,helena gonçalves,23,helena.gonçalves.gmail.com
4,Renan Caldeira,61,renan_calDEIRA@google.com
5,Lucca Lopes,46,lucca.com.br
6,André Ribeiro,39,andré_ribeiro.outlook.com.br
7,João Marcelo,32,joão_ma@outlook.br
8,Joana da Luz,22,joluz@google.com.br
9,Vicente Moreira,19,vicente.moreira@maxxi.com


In [3]:
df.columns

Index(['nome', 'idade', 'e-mail'], dtype='object')

#### Exercício

A base cadastral acima necessita dos seguintes tratamentos:
1. Tratamento do campo nome:
- remover os acentos
- remover os espaços do começo e do final da string
- padronização para minúsculo
2. Tratamento do campo e-mail:
- Repetir os tratamentos que foram aplicados no campo nome no campo e-mail.
- Criar uma coluna com valor booleano chamada valido, sendo 1 = e-mail válido e 0 = e-mail não válido. Os e-mails válidos são aqueles que possuem @ e terminam com “.com” ou “.com.br”


#### Solução parte 1

**a)** Remover os acentos.

In [4]:
df_users = df.copy()

In [5]:
def strip_accents(s):
    n = unicodedata.normalize('NFKD', s)
    s_new =  ''.join([c for c in n if not unicodedata.combining(c)])
    return s_new

In [6]:
df_users["nome"] = df_users["nome"].apply(lambda x: strip_accents(x))

In [7]:
df_users["nome"] = df_users["nome"].str.replace("[^a-zA-Z ]", "", regex=str)

**b)** Remover os espaços do começo e do final da string.

In [8]:
df_users["nome"] = df_users["nome"].str.strip()

**c)** Todas as letras em minúsculo.

In [9]:
df_users["nome"] = df_users.nome.str.lower()

In [10]:
df_users

Unnamed: 0,nome,idade,e-mail
0,carolina da silva,35,carolina.sil@gmail.com
1,gabrielly rezende,43,gabi_rezende@google.com
2,bernardo dias,70,bernardodias@aws.com
3,helena goncalves,23,helena.gonçalves.gmail.com
4,renan caldeira,61,renan_calDEIRA@google.com
5,lucca lopes,46,lucca.com.br
6,andre ribeiro,39,andré_ribeiro.outlook.com.br
7,joao marcelo,32,joão_ma@outlook.br
8,joana da luz,22,joluz@google.com.br
9,vicente moreira,19,vicente.moreira@maxxi.com


Como ficaria uma função com todos os tratamentos anteriores?

In [11]:
def tratamento_campos1(s):
    s_new = strip_accents(s)
    s_new = re.sub(r'[^a-zA-Z0-9\s]', '', s_new)
    return s_new.strip().lower()

In [12]:
df["nome"].apply(lambda x: tratamento_campos1(x))

0     carolina da silva
1     gabrielly rezende
2         bernardo dias
3      helena goncalves
4        renan caldeira
5           lucca lopes
6         andre ribeiro
7          joao marcelo
8          joana da luz
9       vicente moreira
10       camila d rocha
11       elisa monteiro
12         daniela dias
13         daniel gomes
14      heitor nogueira
Name: nome, dtype: object

In [13]:
def tratamento_campos2(X, col):
    df = X.copy()
    df[col] = df[col].apply(lambda x: strip_accents(x))
    df[col] = df[col].str.replace("[^a-zA-Z ]", "", regex=str)
    df[col] = df[col].str.strip()
    return df

In [14]:
tratamento_campos2(df, "nome")

Unnamed: 0,nome,idade,e-mail
0,Carolina da Silva,35,carolina.sil@gmail.com
1,gabrielly rezenDe,43,gabi_rezende@google.com
2,Bernardo Dias,70,bernardodias@aws.com
3,helena goncalves,23,helena.gonçalves.gmail.com
4,Renan Caldeira,61,renan_calDEIRA@google.com
5,Lucca Lopes,46,lucca.com.br
6,Andre Ribeiro,39,andré_ribeiro.outlook.com.br
7,Joao Marcelo,32,joão_ma@outlook.br
8,Joana da Luz,22,joluz@google.com.br
9,Vicente Moreira,19,vicente.moreira@maxxi.com


#### Solução parte 2

**a)** Aplicar os tratamentos do campo nome (1.a, 1.b e 1.c).

In [15]:
df_users["e-mail"] = df_users["e-mail"].apply(lambda x: strip_accents(x))
df_users["e-mail"] = df_users["e-mail"].str.lower().str.replace("[^a-zA-Z0-9 @_.]", "", regex=str).str.strip()

In [16]:
df_users

Unnamed: 0,nome,idade,e-mail
0,carolina da silva,35,carolina.sil@gmail.com
1,gabrielly rezende,43,gabi_rezende@google.com
2,bernardo dias,70,bernardodias@aws.com
3,helena goncalves,23,helena.goncalves.gmail.com
4,renan caldeira,61,renan_caldeira@google.com
5,lucca lopes,46,lucca.com.br
6,andre ribeiro,39,andre_ribeiro.outlook.com.br
7,joao marcelo,32,joao_ma@outlook.br
8,joana da luz,22,joluz@google.com.br
9,vicente moreira,19,vicente.moreira@maxxi.com


**b)** Criar uma nova coluna com valor booleano, sendo 1 = e-mail válido e 0 = e-mail não válido. Os e-mails válidos são aqueles que possuem "@" e terminam com “.com” ou “.com.br”.

In [17]:
substring_1 = "@"
substring_2 = ".com$"
substring_3 = ".com.br$"

In [18]:
df_users["valido"] = (
    (df_users["e-mail"].str.contains(substring_1, regex = True) & df_users["e-mail"].str.contains(substring_2, regex = True)) | \
(df_users["e-mail"].str.contains(substring_1, regex = True) & df_users["e-mail"].str.contains(substring_3, regex = True))
).astype(int)

In [19]:
df_users

Unnamed: 0,nome,idade,e-mail,valido
0,carolina da silva,35,carolina.sil@gmail.com,1
1,gabrielly rezende,43,gabi_rezende@google.com,1
2,bernardo dias,70,bernardodias@aws.com,1
3,helena goncalves,23,helena.goncalves.gmail.com,0
4,renan caldeira,61,renan_caldeira@google.com,1
5,lucca lopes,46,lucca.com.br,0
6,andre ribeiro,39,andre_ribeiro.outlook.com.br,0
7,joao marcelo,32,joao_ma@outlook.br,0
8,joana da luz,22,joluz@google.com.br,1
9,vicente moreira,19,vicente.moreira@maxxi.com,1
