In [2]:
import pandas as pd
import os

In [6]:
file_path = '../data/processed/df_eda_consolidated.csv'

df = pd.read_csv(file_path)

print("DataFrame carregado com sucesso!")
print("\n--- Primeiras 5 linhas do DataFrame ---")

df.head()


DataFrame carregado com sucesso!

--- Primeiras 5 linhas do DataFrame ---


Unnamed: 0,opportunity_id,sales_agent,product,account,deal_stage,engage_date,close_date,close_value,target,sector,year_established,revenue,employees,office_location,subsidiary_of,series,sales_price,manager,regional_office
0,1C1I7A6R,Moses Frase,GTX Plus Basic,Cancity,Won,2016-10-20,2017-03-01,1054.0,0,retail,2001.0,718.62,2448.0,United States,,GTX,1096.0,Dustin Brinkmann,Central
1,Z063OYW0,Darcel Schlecht,GTXPro,Isdom,Won,2016-10-25,2017-03-11,4514.0,0,medical,2002.0,3178.24,4540.0,United States,,,,Melvin Marxen,Central
2,EC4QE1BX,Darcel Schlecht,MG Special,Cancity,Won,2016-10-25,2017-03-07,50.0,0,retail,2001.0,718.62,2448.0,United States,,MG,55.0,Melvin Marxen,Central
3,MV1LWRNH,Moses Frase,GTX Basic,Codehow,Won,2016-10-25,2017-03-09,588.0,0,software,1998.0,2714.9,2641.0,United States,Acme Corporation,GTX,550.0,Dustin Brinkmann,Central
4,PE84CX4O,Zane Levy,GTX Basic,Hatfan,Won,2016-10-25,2017-03-02,517.0,0,services,1982.0,792.46,1299.0,United States,,GTX,550.0,Summer Sewald,West


In [7]:
print("\n--- Informações do DataFrame ---")
print(df.info())
print("\n--- Fim do carregamento ---")


--- Informações do DataFrame ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8800 entries, 0 to 8799
Data columns (total 19 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   opportunity_id    8800 non-null   object 
 1   sales_agent       8800 non-null   object 
 2   product           8800 non-null   object 
 3   account           7375 non-null   object 
 4   deal_stage        8800 non-null   object 
 5   engage_date       8300 non-null   object 
 6   close_date        6711 non-null   object 
 7   close_value       6711 non-null   float64
 8   target            8800 non-null   int64  
 9   sector            7375 non-null   object 
 10  year_established  7375 non-null   float64
 11  revenue           7375 non-null   float64
 12  employees         7375 non-null   float64
 13  office_location   7375 non-null   object 
 14  subsidiary_of     1292 non-null   object 
 15  series            7320 non-null   object 
 16  sales_pr

# --- 1. Tratamento de Valores Ausentes ---

In [None]:
print("\n--- Contagem de Valores Ausentes por Coluna ---")
print(df.isnull().sum())


--- Contagem de Valores Ausentes por Coluna ---
opportunity_id         0
sales_agent            0
product                0
account             1425
deal_stage             0
engage_date          500
close_date          2089
close_value         2089
target                 0
sector              1425
year_established    1425
revenue             1425
employees           1425
office_location     1425
subsidiary_of       7508
series              1480
sales_price         1480
manager                0
regional_office        0
dtype: int64


In [10]:
print("\n--- Porcentagem de Valores Ausentes por Coluna ---")
print((df.isnull().sum() / len(df) * 100).sort_values(ascending=False))


--- Porcentagem de Valores Ausentes por Coluna ---
subsidiary_of       85.318182
close_date          23.738636
close_value         23.738636
sales_price         16.818182
series              16.818182
revenue             16.193182
employees           16.193182
office_location     16.193182
year_established    16.193182
sector              16.193182
account             16.193182
engage_date          5.681818
product              0.000000
opportunity_id       0.000000
sales_agent          0.000000
target               0.000000
deal_stage           0.000000
manager              0.000000
regional_office      0.000000
dtype: float64


## --- 1.1. Preenchimento de Valores Ausentes ---

In [None]:
# Colunas Categóricas com NaN para preencher com valores em Inglês
df['subsidiary_of'] = df['subsidiary_of'].fillna('Not_Subsidiary')
df['sector'] = df['sector'].fillna('Unknown_Sector')
df['office_location'] = df['office_location'].fillna('Unknown_Location')
df['account'] = df['account'].fillna('Unknown_Account')
df['series'] = df['series'].fillna('Unknown_Series')

In [14]:
# Colunas Numéricas com NaN para preencher com a Mediana (sem alteração)
median_revenue = df['revenue'].median()
median_employees = df['employees'].median()
median_year_established = df['year_established'].median()
median_sales_price = df['sales_price'].median()

df['revenue'] = df['revenue'].fillna(median_revenue)
df['employees'] = df['employees'].fillna(median_employees)
df['year_established'] = df['year_established'].fillna(median_year_established)
df['sales_price'] = df['sales_price'].fillna(median_sales_price)

In [15]:
# Para close_value, usaremos a coluna 'close_value_filled' que já foi tratada
if 'close_value_filled' not in df.columns:
    df['close_value_filled'] = df['close_value'].fillna(0)
    print("Coluna 'close_value_filled' criada/atualizada com NaNs preenchidos por 0.")

Coluna 'close_value_filled' criada/atualizada com NaNs preenchidos por 0.


In [16]:
# Verificar novamente os valores ausentes após o preenchimento
print("\n--- Porcentagem de Valores Ausentes por Coluna APÓS PREENCHIMENTO ---")
print((df.isnull().sum() / len(df) * 100).sort_values(ascending=False))


--- Porcentagem de Valores Ausentes por Coluna APÓS PREENCHIMENTO ---
close_date            23.738636
close_value           23.738636
engage_date            5.681818
opportunity_id         0.000000
account                0.000000
product                0.000000
sales_agent            0.000000
deal_stage             0.000000
target                 0.000000
sector                 0.000000
year_established       0.000000
revenue                0.000000
employees              0.000000
office_location        0.000000
subsidiary_of          0.000000
series                 0.000000
sales_price            0.000000
manager                0.000000
regional_office        0.000000
close_value_filled     0.000000
dtype: float64


# --- 2. Engenharia de Features ---

## 2.1. Conversão de Datas para datetime

In [17]:
# Coerção de erros 'coerce' converterá valores inválidos para NaT (Not a Time)
df['engage_date'] = pd.to_datetime(df['engage_date'], errors='coerce')
df['close_date'] = pd.to_datetime(df['close_date'], errors='coerce')

## 2.2. Criação da feature 'opportunity_duration_days'

In [19]:
# Para garantir que não haja durações negativas ou zero que possam ser erros
# Calculamos a diferença e preenchemos NaNs (resultantes de NaT nas datas)
# com um valor neutro ou que indique 'desconhecido' para a duração, ou filtramos.
# Como já fizemos na EDA, vamos recriar com tratamento similar.
df['opportunity_duration_days'] = (df['close_date'] - df['engage_date']).dt.days

# Preencher NaNs na duração: Para oportunidades onde close_date ou engage_date eram NaT
# Ou para casos onde não faz sentido ter duração (ex: target=1 e close_value=0, mas sem close_date)
# Uma estratégia é preencher com a mediana das durações positivas, ou 0, ou -1 para indicar "não aplicável/desconhecido".
# Dado que 'close_date' e 'engage_date' ainda têm NaNs, a 'opportunity_duration_days' também terá NaNs.
# Vamos preencher os NaNs de 'opportunity_duration_days' com a mediana das durações **válidas**.
median_duration = df['opportunity_duration_days'].median()
df['opportunity_duration_days'] = df['opportunity_duration_days'].fillna(median_duration)

# Tratar durações <= 0 como um valor específico ou 0, se for um erro de dados
df['opportunity_duration_days'] = df['opportunity_duration_days'].apply(lambda x: 0 if x <= 0 else x)

In [20]:
print("\n--- Informações do DataFrame após conversão de datas e criação de duração ---")
print(df[['engage_date', 'close_date', 'opportunity_duration_days']].info())


--- Informações do DataFrame após conversão de datas e criação de duração ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8800 entries, 0 to 8799
Data columns (total 3 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   engage_date                8300 non-null   datetime64[ns]
 1   close_date                 6711 non-null   datetime64[ns]
 2   opportunity_duration_days  8800 non-null   float64       
dtypes: datetime64[ns](2), float64(1)
memory usage: 206.4 KB
None


In [21]:
print("\n--- Estatísticas descritivas da Duração da Oportunidade (em dias) ---")
print(df['opportunity_duration_days'].describe())


--- Estatísticas descritivas da Duração da Oportunidade (em dias) ---
count    8800.000000
mean       47.276705
std        35.876598
min         1.000000
25%        10.000000
50%        45.000000
75%        76.000000
max       138.000000
Name: opportunity_duration_days, dtype: float64


In [22]:
print("\n--- Porcentagem de Valores Ausentes após criação de 'opportunity_duration_days' ---")
print((df.isnull().sum() / len(df) * 100).sort_values(ascending=False))


--- Porcentagem de Valores Ausentes após criação de 'opportunity_duration_days' ---
close_date                   23.738636
close_value                  23.738636
engage_date                   5.681818
sales_agent                   0.000000
opportunity_id                0.000000
deal_stage                    0.000000
account                       0.000000
product                       0.000000
target                        0.000000
sector                        0.000000
year_established              0.000000
revenue                       0.000000
employees                     0.000000
office_location               0.000000
subsidiary_of                 0.000000
series                        0.000000
sales_price                   0.000000
manager                       0.000000
regional_office               0.000000
close_value_filled            0.000000
opportunity_duration_days     0.000000
dtype: float64
