In [1]:
# Bibliotecas utilizadas
import pandas as pd
import re

In [2]:
# Nome do arquivo a ser validado
arquivo_csv = 'cadastros.csv'

In [3]:
df_cadastros = pd.read_csv(arquivo_csv, dtype={'nome': str, 'email': str, 
                            'cpf': str, 'celular': str, 'idade': int})
df_cadastros

Unnamed: 0,nome,email,cpf,celular,idade,data_nascimento,data_cadastro
0,Levi da Cunha,levi.cunha@gmail.com,863.052.791-95,(31) 9164-05374,86,10/05/1935,09/04/1969
1,Maria Fernanda Silva,maria.silva@gmail.com,458.762.193-55,(61) 9381-40093,41,23/10/1980,16/08/1981
2,Gabriel Santos,gabriel.santos@gmail.com,938.241.760-50,(71) 9093-23670,62,24/06/1959,21/11/2005
3,Mirella da Paz,mirella.paz@gmail.com,154.920.637-07,(51) 9590-81482,58,24/08/1963,24/06/1980
4,Cecília Oliveira,cecilia.oliveira@gmail.com,029.146.358-42,(84) 9458-85928,79,08/03/1942,14/07/1996
...,...,...,...,...,...,...,...
995,Sarah Freitas,sarah.freitas@gmail.com,198.703.624-78,(61) 9022-61647,42,25/12/1979,09/06/1992
996,Gabrielly Araújo,gabrielly.araujo@gmail.com,920.683.415-06,(61) 9615-69877,56,09/04/1965,28/07/1989
997,Davi Lucas Cavalcanti,davi.cavalcanti@gmail.com,367.149.528-64,(81) 9745-28174,22,21/12/1999,17/11/2020
998,Davi Lucca Martins,davi.martins@gmail.com,548.016.723-53,(71) 9793-60163,83,31/03/1938,19/12/2003


In [4]:
df_cadastros.isnull().sum()

nome               0
email              0
cpf                0
celular            0
idade              0
data_nascimento    0
data_cadastro      0
dtype: int64

In [5]:
# Validação da coluna 'nome'

for indice, nome in enumerate(df_cadastros['nome']):
    if len(nome) > 25:
        print('Tamanho máximo de \'nome\' excedido no cadastro {}: {}. Tamanho máximo: 25 caracteres'
              .format(indice, nome))

Tamanho máximo de 'nome' excedido no cadastro 16: Clarice Gonçalves Nascimento. Tamanho máximo: 25 caracteres
Tamanho máximo de 'nome' excedido no cadastro 28: Henrique da Conceição Jesus. Tamanho máximo: 25 caracteres
Tamanho máximo de 'nome' excedido no cadastro 93: Pedro Lucas Carvalho Mendes. Tamanho máximo: 25 caracteres
Tamanho máximo de 'nome' excedido no cadastro 275: Maria Clara das Neves Nogueira. Tamanho máximo: 25 caracteres
Tamanho máximo de 'nome' excedido no cadastro 427: Gabrielly das Neves Araújo. Tamanho máximo: 25 caracteres
Tamanho máximo de 'nome' excedido no cadastro 431: Luiz Henrique da Conceição. Tamanho máximo: 25 caracteres
Tamanho máximo de 'nome' excedido no cadastro 464: Benício Fernandes da Rocha. Tamanho máximo: 25 caracteres
Tamanho máximo de 'nome' excedido no cadastro 546: Maria Fernanda Vieira Rezende. Tamanho máximo: 25 caracteres
Tamanho máximo de 'nome' excedido no cadastro 584: Maria Luiza Rodrigues Moreira. Tamanho máximo: 25 caracteres
Tamanho 

In [6]:
# Validação da coluna 'email'

# considerando que os emails aceitam letras maiúsculas e minúsculas, mas não aceitam acentos
def email_valido(email):
    regex = r'^[a-zA-Z]+.[a-zA-Z]+@gmail.com$'
    return re.fullmatch(regex, email)

for indice, email in enumerate(df_cadastros['email']):
    if not email_valido(email):
        print('Formato inválido de \'email\' no cadastro {}: {}. Formato correto: "primeiroNome.últimoNome@gmail.com"'
              .format(indice, email))

Formato inválido de 'email' no cadastro 254: Maria Fernanda.rodrigues@gmail.com. Formato correto: "primeiroNome.últimoNome@gmail.com"
Formato inválido de 'email' no cadastro 477: Otávio.rocha@gmail.com. Formato correto: "primeiroNome.últimoNome@gmail.com"
Formato inválido de 'email' no cadastro 495: Antônio.cunha@gmail.com. Formato correto: "primeiroNome.últimoNome@gmail.com"


In [7]:
# Validação da coluna 'cpf'
def cpf_valido(cpf):
    regex = r'^[0-9]{3}.[0-9]{3}.[0-9]{3}-[0-9]{2}$'
    return re.fullmatch(regex, cpf)

for indice, cpf in enumerate(df_cadastros['cpf']):
    if not cpf_valido(cpf):
        print('Formato inválido de \'cpf\' no cadastro {}: {}. Formato correto: "xxx.xxx.xxx-xx"'
              .format(indice, cpf))

Formato inválido de 'cpf' no cadastro 937: 576.190.348-209. Formato correto: "xxx.xxx.xxx-xx"


In [8]:
# Validação da coluna 'celular'
def celular_valido(celular):
    regex = r'^\([0-9]{2}\)\s[0-9]{5}-[0-9]{4}$'
    return re.fullmatch(regex, celular)

for indice, celular in enumerate(df_cadastros['celular']):
    if not celular_valido(celular):
        print('Formato inválido de \'celular\' no cadastro {}: {}. Formato correto: "(xx) xxxxx-xxxx"'
              .format(indice, celular))

Formato inválido de 'celular' no cadastro 0: (31) 9164-05374. Formato correto: "(xx) xxxxx-xxxx"
Formato inválido de 'celular' no cadastro 1: (61) 9381-40093. Formato correto: "(xx) xxxxx-xxxx"
Formato inválido de 'celular' no cadastro 2: (71) 9093-23670. Formato correto: "(xx) xxxxx-xxxx"
Formato inválido de 'celular' no cadastro 3: (51) 9590-81482. Formato correto: "(xx) xxxxx-xxxx"
Formato inválido de 'celular' no cadastro 4: (84) 9458-85928. Formato correto: "(xx) xxxxx-xxxx"
Formato inválido de 'celular' no cadastro 5: (61) 9801-99596. Formato correto: "(xx) xxxxx-xxxx"
Formato inválido de 'celular' no cadastro 6: (84) 9908-16527. Formato correto: "(xx) xxxxx-xxxx"
Formato inválido de 'celular' no cadastro 7: (84) 9421-14469. Formato correto: "(xx) xxxxx-xxxx"
Formato inválido de 'celular' no cadastro 8: (21) 9879-06946. Formato correto: "(xx) xxxxx-xxxx"
Formato inválido de 'celular' no cadastro 9: (11) 9013-97274. Formato correto: "(xx) xxxxx-xxxx"
Formato inválido de 'celular' 

In [9]:
# Validação da coluna 'data_nascimento'
for indice, data in enumerate(df_cadastros['data_nascimento']):
    try:
        pd.to_datetime(data, dayfirst=True)
    except:
        print('Formato de \'data_nascimento\' incorreto no cadastro {}: {}. Formato correto: "dd/mm/YYYY"'
              .format(indice, data))

Formato de 'data_nascimento' incorreto no cadastro 772: 22/06//1943. Formato correto: "dd/mm/YYYY"


In [10]:
# Validação da coluna 'data_cadastro'
for indice, data in enumerate(df_cadastros['data_cadastro']):
    try:
        pd.to_datetime(data, dayfirst=True)
    except:
        print('Formato de \'data_cadastro\' incorreto no cadastro {}: {}. Formato correto: "dd/mm/YYYY"'
              .format(indice, data))

Formato de 'data_cadastro' incorreto no cadastro 728: 01/08/19878. Formato correto: "dd/mm/YYYY"
