# Iniciando a limpeza dos dados 

In [1]:
import pandas as pd
import numpy as np
import unicodedata

In [2]:
# Carregando a tabela dos os dados 
df = pd.read_excel("Dados fictícios - case análise de dados .xlsx", sheet_name = "deals list")

In [3]:
# Conhecendo o tipo de cada coluna para ver se estão em formato adequado 
df.dtypes

Código do usuário       int64
Criador                object
Data recebido          object
Data de perda          object
Data de ganho          object
Tipo de venda          object
Passagem               object
Canal de Aquisição     object
Docs italiano          object
Parente Italiano       object
dtype: object

In [5]:
# Modificando o tipo dos elementos que estão incorretos
df['Data recebido'] = pd.to_datetime(df['Data recebido'])
df['Data de ganho'] = pd.to_datetime(df['Data de ganho'])
df['Data de perda'] = pd.to_datetime(df['Data de perda'])

In [6]:
df.dtypes

Código do usuário               int64
Criador                        object
Data recebido          datetime64[ns]
Data de perda          datetime64[ns]
Data de ganho          datetime64[ns]
Tipo de venda                  object
Passagem                       object
Canal de Aquisição             object
Docs italiano                  object
Parente Italiano               object
dtype: object

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34288 entries, 0 to 34287
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Código do usuário    34288 non-null  int64         
 1   Criador              34288 non-null  object        
 2   Data recebido        34288 non-null  datetime64[ns]
 3   Data de perda        30524 non-null  datetime64[ns]
 4   Data de ganho        933 non-null    datetime64[ns]
 5   Tipo de venda        33975 non-null  object        
 6   Passagem             6163 non-null   object        
 7   Canal de Aquisição   29630 non-null  object        
 8   Docs italiano        29498 non-null  object        
 9   Parente Italiano     325 non-null    object        
dtypes: datetime64[ns](3), int64(1), object(6)
memory usage: 2.6+ MB


In [8]:
df.isnull().sum()

Código do usuário          0
Criador                    0
Data recebido              0
Data de perda           3764
Data de ganho          33355
Tipo de venda            313
Passagem               28125
Canal de Aquisição      4658
Docs italiano           4790
Parente Italiano       33963
dtype: int64

In [9]:
# Padronizando o nome das colunas para faciliar o acesso
df.columns = (
    df.columns.str.lower()
              .str.strip()
              .str.replace(" ", "_")
              .str.normalize("NFKD")
              .str.encode("ascii", errors="ignore")
              .str.decode("utf-8")
)

In [10]:
df.columns.tolist()

['codigo_do_usuario',
 'criador',
 'data_recebido',
 'data_de_perda',
 'data_de_ganho',
 'tipo_de_venda',
 'passagem',
 'canal_de_aquisicao',
 'docs_italiano',
 'parente_italiano']

In [11]:
# Prévia da base de dados 
df.head(4)

Unnamed: 0,codigo_do_usuario,criador,data_recebido,data_de_perda,data_de_ganho,tipo_de_venda,passagem,canal_de_aquisicao,docs_italiano,parente_italiano
0,1,Automação,2023-01-03,2023-01-09 09:12:37,NaT,Retorno,,Redes sociais,Nenhum e não sei por onde começar,
1,2,Automação,2023-01-17,2023-03-14 10:37:43,NaT,1venda - site,,Indicação,Nenhum e não sei por onde começar,
2,3,Vendedor loja,2023-11-11,2023-11-28 07:59:44,NaT,Retorno,,Remarketing,,
3,4,Automação,2023-03-07,2023-03-09 15:22:03,NaT,1venda - site,,Indicação,Nenhum e não sei por onde começar,


## Tratamento dos valores das colunas

In [12]:
# Função padronizar os valores das colunas para evitar que o mesmo valor seja enquadrado em uma categoria diferente
def normalizar(texto):
    if pd.isna(texto):
        return texto
    texto = unicodedata.normalize('NFKD', texto).encode('ASCII', 'ignore').decode('utf-8')
    return texto.strip().lower()

In [13]:
# Aplicando a função de normalização
df['criador'] = df['criador'].apply(normalizar)
df['tipo_de_venda'] = df['tipo_de_venda'].apply(normalizar)
df['canal_de_aquisicao'] = df['canal_de_aquisicao'].apply(normalizar)
df['docs_italiano'] = df['docs_italiano'].apply(normalizar)
df['parente_italiano'] = df['parente_italiano'].apply(normalizar)

In [14]:
# Preenche os campos vazios em "passagem" com "Não"
df['passagem'] = df['passagem'].replace(['', 'NaN', 'nan'], pd.NA)

# Preencher com "nao"
df['passagem'] = df['passagem'].fillna('nao')

In [15]:
# Preenche os campos vazios em "parente_italiano"
df['parente_italiano'] = df['parente_italiano'].replace(['', 'NaN', 'nan'], pd.NA)

# Preenche com "nao informado"
df['parente_italiano'] = df['parente_italiano'].fillna('nao informado')

In [16]:
df.head(4)

Unnamed: 0,codigo_do_usuario,criador,data_recebido,data_de_perda,data_de_ganho,tipo_de_venda,passagem,canal_de_aquisicao,docs_italiano,parente_italiano
0,1,automacao,2023-01-03,2023-01-09 09:12:37,NaT,retorno,nao,redes sociais,nenhum e nao sei por onde comecar,nao informado
1,2,automacao,2023-01-17,2023-03-14 10:37:43,NaT,1venda - site,nao,indicacao,nenhum e nao sei por onde comecar,nao informado
2,3,vendedor loja,2023-11-11,2023-11-28 07:59:44,NaT,retorno,nao,remarketing,,nao informado
3,4,automacao,2023-03-07,2023-03-09 15:22:03,NaT,1venda - site,nao,indicacao,nenhum e nao sei por onde comecar,nao informado


In [17]:
# Remove a hora em data_de_perda e data_de_ganho mantendo apenas a data (como datetime.date)
df["data_de_perda"] = pd.to_datetime(df["data_de_perda"]).dt.date
df["data_de_ganho"] = pd.to_datetime(df["data_de_ganho"]).dt.date

Avaliando a qualidade dos dados dados: existem data_de_perda e data_de_ganho com datas anteriores a data_recebido?

In [18]:
# Leads convertidos e leads perdidos que possuem dias negativos
anomalias = df[
    ((df['data_de_ganho'].notna()) & (df['data_de_ganho'] < df['data_recebido'])) |
    ((df['data_de_perda'].notna()) & (df['data_de_perda'] < df['data_recebido']))
]

# Mostrar resultados
print(f"Total de anomalias encontradas: {len(anomalias)}")
display(anomalias[['data_recebido', 'data_de_ganho', 'data_de_perda']])

Total de anomalias encontradas: 661


Unnamed: 0,data_recebido,data_de_ganho,data_de_perda
318,2023-08-02,2022-08-02,NaT
379,2023-03-08,2022-09-21,NaT
537,2023-03-10,2022-10-21,NaT
539,2023-03-13,2022-11-29,NaT
578,2023-03-13,2022-11-29,NaT
...,...,...,...
34021,2023-12-28,NaT,2023-12-27
34025,2023-12-28,NaT,2023-12-27
34030,2023-12-28,NaT,2023-12-27
34031,2023-12-28,NaT,2023-12-27


Essas anomalias detectadas provavelmente estão relacionadas a falhas de registro. Em alguns casos, acredito que o vendedor da loja pode ter registrado de maneira incorreta ou que o sistema de automação possua alguma falha. Como a quantidade de dados anômalos correspondem a 1.92% da amostra total, irei removê-los para que não distorçam a análise.

In [19]:
# Exportando as anomalias para um Excel
anomalias.to_excel("anomalias_removidas.xlsx", index=False)

In [20]:
# Removendo as anomalias do DataFrame original 
df.drop(anomalias.index, inplace=True)

In [21]:
df.head(4)

Unnamed: 0,codigo_do_usuario,criador,data_recebido,data_de_perda,data_de_ganho,tipo_de_venda,passagem,canal_de_aquisicao,docs_italiano,parente_italiano
0,1,automacao,2023-01-03,2023-01-09,NaT,retorno,nao,redes sociais,nenhum e nao sei por onde comecar,nao informado
1,2,automacao,2023-01-17,2023-03-14,NaT,1venda - site,nao,indicacao,nenhum e nao sei por onde comecar,nao informado
2,3,vendedor loja,2023-11-11,2023-11-28,NaT,retorno,nao,remarketing,,nao informado
3,4,automacao,2023-03-07,2023-03-09,NaT,1venda - site,nao,indicacao,nenhum e nao sei por onde comecar,nao informado


In [22]:
df.to_csv("dados_limpos.csv", index=False, encoding='utf-8-sig')