<a href="https://colab.research.google.com/github/roasfora/project_pandas/blob/main/exercicio_crm_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exerc√≠cio de Limpeza de Dados de CRM com pandas üßπüêº

Neste notebook vamos trabalhar com uma tabela de **clientes (CRM)** cheia de problemas de qualidade de dados.

O objetivo √© praticar:
- inspe√ß√£o de dados
- padroniza√ß√£o de textos
- tratamento de valores faltantes
- valida√ß√£o de e-mails e telefones
- tratamento de datas
- remo√ß√£o de duplicatas


In [None]:
import pandas as pd

## 1. Criando o DataFrame `crm` com problemas de qualidade

In [None]:
crm = pd.read_excel('/content/crm_com_problemas.xlsx')

crm.head()


Unnamed: 0,id_cliente,nome,email,telefone,cidade,data_cadastro,ativo
0,101,ana silva,ana@email.com,11-9999-1111,S√£o Paulo,2023-01-10,sim
1,102,BRUNO SOUZA,bruno@,,sao paulo,2023/01/11,Sim
2,103,Carlos Pereira,carlos@email.com,99999-2222,Rio de Janeiro,10-01-2023,n√£o
3,104,maria,maria@email.com,11 98888-3333,RIO DE JANEIRO,,nao
4,105,,sem_email,abc,Curitba,2023-13-01,S


## 2. Tarefa: Limpeza de dados do CRM

Usando o DataFrame `crm`, fa√ßa os passos abaixo.  
Tente fazer **um passo por vez**, sempre olhando o resultado com `head()`, `info()` etc.

---

### 2.1. Inspe√ß√£o inicial
1. Mostre as primeiras linhas do `crm`.  
2. Use `crm.info()` para ver os tipos das colunas.  
3. Verifique quantos valores faltantes existem em cada coluna (`isna().sum()`).

---

### 2.2. Limpeza de nomes
1. Remova espa√ßos extras no in√≠cio e fim da coluna `nome`.  
2. Padronize os nomes para o formato **T√≠tulo** (ex: "Ana Silva").  
3. Decida o que fazer com nomes faltantes (`None`): remover a linha ou preencher com algo como `"Nome desconhecido"`.

---

### 2.3. Padroniza√ß√£o de cidades
1. Remova espa√ßos extras e padronize tudo em formato **T√≠tulo** (ex: "S√£o Paulo").  
2. Corrija erros evidentes de digita√ß√£o, por exemplo:
   - `"sao paulo"` ‚Üí `"S√£o Paulo"`  
   - `"Curitba"` ‚Üí `"Curitiba"`  
3. Decida o que fazer com cidades vazias (`""`): preencher com `None`, remover, etc.

---

### 2.4. Tratamento da coluna `ativo`

A coluna `ativo` tem v√°rios formatos: `"sim"`, `"Sim"`, `"n√£o"`, `"nao"`, `"S"`, `"N"`, `None`.

1. Padronize esses valores para **True/False** em uma nova coluna chamada `ativo_bool`.  
   Sugest√£o de mapeamento:
   - sim / Sim / S ‚Üí True  
   - n√£o / nao / N ‚Üí False  
   - valores faltantes ‚Üí False (ou `None`, se preferir)

---

### 2.5. Tratamento de datas

1. Converta a coluna `data_cadastro` para o tipo `datetime`, lidando com formatos diferentes.  
   Dica: use `pd.to_datetime(..., errors="coerce", dayfirst=True)` e veja quais viram `NaT`.  
2. Decida o que fazer com datas inv√°lidas (`NaT`): remover, preencher, etc.

---

### 2.6. Tratamento de e-mails

1. Veja quais e-mails parecem inv√°lidos (sem `@`, nulos, etc.).  
2. Crie uma coluna booleana `email_valido` que marque True/False para cada linha.  
3. Opcional: crie um DataFrame apenas com clientes com e-mail v√°lido.

---

### 2.7. Telefones

1. Remova caracteres n√£o num√©ricos dos telefones (como `-`, espa√ßos).  
   Dica: use `str.replace(r"\D", "", regex=True)`.  
2. Analise quais telefones parecem inv√°lidos (muito curtos, nulos, etc.).  
3. Crie uma coluna booleana `telefone_valido`.

---

### 2.8. Duplicatas

1. Verifique se h√° clientes duplicados por `id_cliente` ou `email`.  
2. Remova duplicatas mantendo apenas o primeiro registro de cada e-mail.

---

### 2.9. Limpeza final

1. Monte um novo DataFrame `crm_limpo` com:
   - apenas clientes com e-mail v√°lido  
   - sem duplicatas por e-mail  
   - com `data_cadastro` v√°lida  
2. Mostre o resultado final (`crm_limpo.head()`, `crm_limpo.info()`).

> Dica geral: **sempre olhe o DataFrame depois de cada transforma√ß√£o** para entender o que mudou.


## 3. (Opcional) Gabarito comentado

Use estas c√©lulas apenas para corre√ß√£o ou refer√™ncia. Voc√™ pode ocultar esta se√ß√£o durante a aula.


In [None]:
# 3.1. Inspe√ß√£o inicial
crm.head()

Unnamed: 0,id_cliente,nome,email,telefone,cidade,data_cadastro,ativo
0,101,ana silva,ana@email.com,11-9999-1111,S√£o Paulo,2023-01-10,sim
1,102,BRUNO SOUZA,bruno@,,sao paulo,2023/01/11,Sim
2,103,Carlos Pereira,carlos@email.com,99999-2222,Rio de Janeiro,10-01-2023,n√£o
3,104,maria,maria@email.com,11 98888-3333,RIO DE JANEIRO,,nao
4,105,,sem_email,abc,Curitba,2023-13-01,S


In [None]:
crm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id_cliente     8 non-null      int64 
 1   nome           7 non-null      object
 2   email          7 non-null      object
 3   telefone       7 non-null      object
 4   cidade         7 non-null      object
 5   data_cadastro  7 non-null      object
 6   ativo          7 non-null      object
dtypes: int64(1), object(6)
memory usage: 580.0+ bytes


In [None]:
crm.isna().sum()

Unnamed: 0,0
id_cliente,0
nome,1
email,1
telefone,1
cidade,1
data_cadastro,1
ativo,1


In [None]:
# 3.2. Limpeza de nomes
crm["nome"] = crm["nome"].str.strip()  # remove espa√ßos no in√≠cio/fim
crm["nome"] = crm["nome"].str.title()  # deixa em formato T√≠tulo

# Exemplo de tratamento de nome faltante
crm["nome"] = crm["nome"].fillna("Nome Desconhecido")

crm[["id_cliente", "nome"]]

Unnamed: 0,id_cliente,nome
0,101,Ana Silva
1,102,Bruno Souza
2,103,Carlos Pereira
3,104,Maria
4,105,Nome Desconhecido
5,106,Jo√£o Lima
6,106,Joao Lima
7,107,Cliente Teste


In [None]:
# 3.3. Padroniza√ß√£o de cidades
crm["cidade"] = crm["cidade"].str.strip()
crm["cidade"] = crm["cidade"].str.title()

# Corrigir erros conhecidos
crm["cidade"] = crm["cidade"].replace({
    "Sao Paulo": "S√£o Paulo",
    "Curitba": "Curitiba",
    "": None
})

crm[["id_cliente", "cidade"]]

Unnamed: 0,id_cliente,cidade
0,101,S√£o Paulo
1,102,S√£o Paulo
2,103,Rio De Janeiro
3,104,Rio De Janeiro
4,105,Curitiba
5,106,Curitiba
6,106,Curitiba
7,107,


In [None]:
# 3.4. Tratamento da coluna 'ativo'
mapeamento_ativo = {
    "sim": True,
    "Sim": True,
    "S": True,
    "n√£o": False,
    "nao": False,
    "N": False
}

crm["ativo_bool"] = crm["ativo"].map(mapeamento_ativo)
crm["ativo_bool"] = crm["ativo_bool"].fillna(False)

crm[["id_cliente", "ativo", "ativo_bool"]]

  crm["ativo_bool"] = crm["ativo_bool"].fillna(False)


Unnamed: 0,id_cliente,ativo,ativo_bool
0,101,sim,True
1,102,Sim,True
2,103,n√£o,False
3,104,nao,False
4,105,S,True
5,106,N,False
6,106,,False
7,107,sim,True


In [None]:
# 3.5. Datas
crm["data_cadastro_dt"] = pd.to_datetime(
    crm["data_cadastro"],
    errors="coerce",     # datas inv√°lidas viram NaT
    dayfirst=True        # interpreta 10-01-2023 como 10/jan/2023
)

crm[["data_cadastro", "data_cadastro_dt"]]

Unnamed: 0,data_cadastro,data_cadastro_dt
0,2023-01-10,2023-10-01
1,2023/01/11,NaT
2,10-01-2023,NaT
3,,NaT
4,2023-13-01,2023-01-13
5,2023-01-15,NaT
6,15/01/2023,NaT
7,2023-01-20,NaT


In [None]:
# 3.6. E-mails
crm["email_valido"] = crm["email"].notna() & crm["email"].str.contains("@", na=False)
crm[["id_cliente", "email", "email_valido"]]

Unnamed: 0,id_cliente,email,email_valido
0,101,ana@email.com,True
1,102,bruno@,True
2,103,carlos@email.com,True
3,104,maria@email.com,True
4,105,sem_email,False
5,106,joao@email.com,True
6,106,joao@email.com,True
7,107,,False


In [None]:
# 3.7. Telefones
crm["telefone_limpo"] = crm["telefone"].str.replace(r"\D", "", regex=True)
crm["telefone_valido"] = crm["telefone_limpo"].str.len() >= 10
crm[["id_cliente", "telefone", "telefone_limpo", "telefone_valido"]]

Unnamed: 0,id_cliente,telefone,telefone_limpo,telefone_valido
0,101,11-9999-1111,1199991111.0,True
1,102,,,False
2,103,99999-2222,999992222.0,False
3,104,11 98888-3333,11988883333.0,True
4,105,abc,,False
5,106,1197777-4444,11977774444.0,True
6,106,1197777-4444,11977774444.0,True
7,107,0000,0.0,False


In [None]:
# 3.8. Duplicatas
duplicados_email = crm[crm.duplicated("email", keep=False)].sort_values("email")
duplicados_email

Unnamed: 0,id_cliente,nome,email,telefone,cidade,data_cadastro,ativo,ativo_bool,data_cadastro_dt,email_valido,telefone_limpo,telefone_valido
5,106,Jo√£o Lima,joao@email.com,1197777-4444,Curitiba,2023-01-15,N,False,NaT,True,11977774444,True
6,106,Joao Lima,joao@email.com,1197777-4444,Curitiba,15/01/2023,,False,NaT,True,11977774444,True


In [None]:
# Remover duplicatas por email, mantendo o primeiro
crm_sem_duplicatas = crm.drop_duplicates(subset="email", keep="first")
crm_sem_duplicatas

Unnamed: 0,id_cliente,nome,email,telefone,cidade,data_cadastro,ativo,ativo_bool,data_cadastro_dt,email_valido,telefone_limpo,telefone_valido
0,101,Ana Silva,ana@email.com,11-9999-1111,S√£o Paulo,2023-01-10,sim,True,2023-10-01,True,1199991111.0,True
1,102,Bruno Souza,bruno@,,S√£o Paulo,2023/01/11,Sim,True,NaT,True,,False
2,103,Carlos Pereira,carlos@email.com,99999-2222,Rio De Janeiro,10-01-2023,n√£o,False,NaT,True,999992222.0,False
3,104,Maria,maria@email.com,11 98888-3333,Rio De Janeiro,,nao,False,NaT,True,11988883333.0,True
4,105,Nome Desconhecido,sem_email,abc,Curitiba,2023-13-01,S,True,2023-01-13,False,,False
5,106,Jo√£o Lima,joao@email.com,1197777-4444,Curitiba,2023-01-15,N,False,NaT,True,11977774444.0,True
7,107,Cliente Teste,,0000,,2023-01-20,sim,True,NaT,False,0.0,False


In [None]:
# 3.9. Limpeza final
crm_limpo = crm_sem_duplicatas.copy()

# Manter apenas e-mails v√°lidos
crm_limpo = crm_limpo[crm_limpo["email_valido"]]

# Manter apenas datas v√°lidas
crm_limpo = crm_limpo[crm_limpo["data_cadastro_dt"].notna()]

crm_limpo.head()

Unnamed: 0,id_cliente,nome,email,telefone,cidade,data_cadastro,ativo,ativo_bool,data_cadastro_dt,email_valido,telefone_limpo,telefone_valido
0,101,Ana Silva,ana@email.com,11-9999-1111,S√£o Paulo,2023-01-10,sim,True,2023-10-01,True,1199991111,True


In [None]:
crm_limpo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1 entries, 0 to 0
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   id_cliente        1 non-null      int64         
 1   nome              1 non-null      object        
 2   email             1 non-null      object        
 3   telefone          1 non-null      object        
 4   cidade            1 non-null      object        
 5   data_cadastro     1 non-null      object        
 6   ativo             1 non-null      object        
 7   ativo_bool        1 non-null      bool          
 8   data_cadastro_dt  1 non-null      datetime64[ns]
 9   email_valido      1 non-null      bool          
 10  telefone_limpo    1 non-null      object        
 11  telefone_valido   1 non-null      bool          
dtypes: bool(3), datetime64[ns](1), int64(1), object(7)
memory usage: 191.0+ bytes
