## 🧹 Pré-processamento de Dados de Marketing

Este notebook demonstra o processo de limpeza e transformação de um dataset de marketing,
preparando os dados para análises exploratórias e modelagem.

Etapas principais:
1. Inspeção e tratamento de valores ausentes  
2. Remoção de duplicatas  
3. Criação de novas variáveis  
4. Padronização de formatos  
5. Detecção e tratamento de outliers

Dataset usado como base:
https://archive.ics.uci.edu/dataset/222/bank+marketing

### Bibliotecas utilizadas

In [1]:
import pandas as pd
import os
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import display

### 1. Carregamento e Inspeção Inicial dos Dados

In [2]:
# Carregando o dataset
df = pd.read_csv('/content/drive/MyDrive/Estudos/Dados/Marketing/dados_marketing.csv', sep=';')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 27 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   ID                              2000 non-null   int64  
 1   Ano Nascimento                  2000 non-null   int64  
 2   Escolaridade                    2000 non-null   object 
 3   Estado Civil                    2000 non-null   object 
 4   Salario Anual                   1981 non-null   float64
 5   Filhos em Casa                  2000 non-null   int64  
 6   Adolescentes em Casa            2000 non-null   int64  
 7   Data Cadastro                   2000 non-null   object 
 8   Dias Desde Ultima Compra        2000 non-null   int64  
 9   Gasto com Eletronicos           2000 non-null   int64  
 10  Gasto com Brinquedos            2000 non-null   int64  
 11  Gasto com Moveis                2000 non-null   int64  
 12  Gasto com Utilidades            20

In [3]:
# Exibição das informações iniciais do dataset
total_linhas = df.shape[0]
total_colunas = df.shape[1]

resumo_df = pd.DataFrame({
    "Linhas": [total_linhas],
    "Colunas": [total_colunas]
})

# Imprime os valores como texto simples
print(f'Linhas: {resumo_df["Linhas"].iloc[0]}, Colunas: {resumo_df["Colunas"].iloc[0]}')
print("\n")
print('Esta é a estrutura do dataset:')
print('\n')
df.info()
print("\n")
print('Estas são as 3 primeiras linhas do dataset:')
display(df.head(3))

Linhas: 2000, Colunas: 27


Esta é a estrutura do dataset:


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 27 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   ID                              2000 non-null   int64  
 1   Ano Nascimento                  2000 non-null   int64  
 2   Escolaridade                    2000 non-null   object 
 3   Estado Civil                    2000 non-null   object 
 4   Salario Anual                   1981 non-null   float64
 5   Filhos em Casa                  2000 non-null   int64  
 6   Adolescentes em Casa            2000 non-null   int64  
 7   Data Cadastro                   2000 non-null   object 
 8   Dias Desde Ultima Compra        2000 non-null   int64  
 9   Gasto com Eletronicos           2000 non-null   int64  
 10  Gasto com Brinquedos            2000 non-null   int64  
 11  Gasto com Moveis                20

Unnamed: 0,ID,Ano Nascimento,Escolaridade,Estado Civil,Salario Anual,Filhos em Casa,Adolescentes em Casa,Data Cadastro,Dias Desde Ultima Compra,Gasto com Eletronicos,...,Numero de Compras via Catalogo,Numero de Compras na Loja,Numero Visitas WebSite Mes,Compra na Campanha 1,Compra na Campanha 2,Compra na Campanha 3,Compra na Campanha 4,Compra na Campanha 5,Comprou,Pais
0,2795,1958,Mestrado,Solteiro,30523.0,2,1,07/01/2020,0,5,...,0,2,7,0,0,0,0,0,0,Chile
1,2285,1954,Mestrado,Casado,36634.0,0,1,05/12/2023,0,213,...,2,5,7,0,0,0,0,0,0,Espanha
2,115,1966,Mestrado,Solteiro,43456.0,0,1,03/02/2023,0,275,...,1,8,5,0,0,0,0,0,0,Argentina


### 2. Tratamento de Valores Nulos

In [4]:
# Verificação de nulos
df.isnull().sum().sort_values(ascending=False).to_frame("Valores Nulos")

Unnamed: 0,Valores Nulos
Salario Anual,19
Ano Nascimento,0
ID,0
Escolaridade,0
Estado Civil,0
Filhos em Casa,0
Adolescentes em Casa,0
Data Cadastro,0
Dias Desde Ultima Compra,0
Gasto com Eletronicos,0


In [5]:
# Visualização dos registros com 'Salario Anual' nulo
salarios_nulos = (
    df.loc[df['Salario Anual'].isnull(), ['ID']]
      .rename(columns={'ID': 'ID com Salário Nulo'})
      .reset_index(drop=True)
)

print(f"Total de registros com salário nulo: {salarios_nulos.shape[0]}\n")

salarios_nulos.insert(0, "Nº", range(len(salarios_nulos)))
display(salarios_nulos.style.hide(axis="index"))

Total de registros com salário nulo: 19



Nº,ID com Salário Nulo
0,8996
1,1994
2,3769
3,5255
4,8268
5,10629
6,10475
7,9235
8,7187
9,8557


In [6]:
# Remoção dos registros com valores nulos
df_inicial = df.shape[0]
df = df.dropna(subset=['Salario Anual'])
df_sem_nulos = df.shape[0]

print(f'Linhas antes da limpeza: {df_inicial}')
print(f'Foram removidas {df_inicial - df_sem_nulos} linhas com salário nulo.')
print(f'Linhas após a limpeza: {df_sem_nulos}')

Linhas antes da limpeza: 2000
Foram removidas 19 linhas com salário nulo.
Linhas após a limpeza: 1981


### 3. Tratamento de Duplicatas

In [7]:
# Remoção de duplicatas
duplicatas = df[df.duplicated()]
soma_duplicadas = df.duplicated().sum()
df = df.drop_duplicates()
print(f'Foram encontradas {soma_duplicadas} linhas duplicadas.')

Foram encontradas 0 linhas duplicadas.


### 4. Engenharia de Atributos

In [8]:
# Conversão de datas
df['Data Cadastro'] = pd.to_datetime(df['Data Cadastro'], dayfirst=True)

In [9]:
# Criação de atributos derivados da Data de Cadastro
df['Ano Cadastro'] = df['Data Cadastro'].dt.year
df['Mes Cadastro'] = df['Data Cadastro'].dt.month
df['Mes Nome Cadastro'] = df['Data Cadastro'].dt.month_name()
df['Dia Cadastro'] = df['Data Cadastro'].dt.day
df['Dia Semana Cadastro'] = df['Data Cadastro'].dt.day_name()
df['Semana Cadastro'] = df['Data Cadastro'].dt.isocalendar().week

df['Idade'] = 2025 - df['Ano Nascimento']

In [10]:
# Criação de atributos de segmentação de idade
df['Faixa Etária'] = pd.cut(df['Idade'], bins=[17,30,45,60,100], labels=['18-30', '31-45', '46-60', '60+'])

In [11]:
# Criação de atributo binário para presença ou não de filhos/adolescentes
df['Filhos'] = np.where(df['Filhos em Casa'] > 0, 1, 0) | np.where(df['Adolescentes em Casa'] > 0, 1, 0)

In [12]:
# Visualização de todos os atributos criados
atributos_derivados = [
    'Ano Cadastro',
    'Mes Cadastro',
    'Mes Nome Cadastro',
    'Dia Cadastro',
    'Dia Semana Cadastro',
    'Semana Cadastro',
    'Idade',
    'Faixa Etária',
    'Filhos'
]

colunas_iniciais = df.shape[1]
colunas_pos_atributos = resumo_df["Colunas"].iloc[0] + len(atributos_derivados)

print(f'Quantidade de colunas iniciais: {resumo_df["Colunas"].iloc[0]}')
print(f'Total de atributos criados: {len(atributos_derivados)}')
print(f'Quantidade de colunas finais: {colunas_pos_atributos}')

# Visualização das 3 primeiras linhas do DataFrame com essas colunas
print('\n')
print('Visualização das 3 primeiras linhas com os atributos criados')
display(df[atributos_derivados].head(3).style.hide(axis="index"))

Quantidade de colunas iniciais: 27
Total de atributos criados: 9
Quantidade de colunas finais: 36


Visualização das 3 primeiras linhas com os atributos criados


Ano Cadastro,Mes Cadastro,Mes Nome Cadastro,Dia Cadastro,Dia Semana Cadastro,Semana Cadastro,Idade,Faixa Etária,Filhos
2020,1,January,7,Tuesday,2,67,60+,1
2023,12,December,5,Tuesday,49,71,60+,1
2023,2,February,3,Friday,5,59,46-60,1


### 5. Criação de Métricas Derivadas

In [13]:
# Criação de métricas derivadas de gastos
gastos = ['Gasto com Eletronicos', 'Gasto com Brinquedos', 'Gasto com Moveis',
          'Gasto com Utilidades', 'Gasto com Alimentos', 'Gasto com Vestuario']
df['Gasto Total'] = df[gastos].sum(axis=1)
compras = ['Numero de Compras com Desconto', 'Numero de Compras na Web',
           'Numero de Compras via Catalogo', 'Numero de Compras na Loja']
df['Total Compras'] = df[compras].sum(axis=1)

In [14]:
# Criação de métricas derivadas de campanhas
df['Comprou em Campanha'] = np.where(df[[c for c in df.columns if 'campanha' in c.lower()]].sum(axis=1) > 0, 1, 0)
df['Engajamento em campanhas'] = df[[c for c in df.columns if 'campanha' in c.lower()]].sum(axis=1)

In [15]:
# Visualização de todas as métricas criadas
metricas_derivadas = [
    'Gasto Total',
    'Total Compras',
    'Comprou em Campanha',
    'Engajamento em campanhas'
]

print(f'Total de métricas criadas: {len(metricas_derivadas)}')
print(f'Quantidade de colunas anterior: {colunas_pos_atributos}')
print(f'Quantidade de colunas finais: {colunas_pos_atributos + len(metricas_derivadas)}')

# Visualização das 3 primeiras linhas do DataFrame com essas metricas
print('\n')
print('Visualização das 3 primeiras linhas com as métricas criadas')
display(df[metricas_derivadas].head(3).style.hide(axis="index"))

Total de métricas criadas: 4
Quantidade de colunas anterior: 36
Quantidade de colunas finais: 40


Visualização das 3 primeiras linhas com as métricas criadas


Gasto Total,Total Compras,Comprou em Campanha,Engajamento em campanhas
13,4,0,0
335,15,0,0
393,17,0,0


In [16]:
# Descrição do dataframe após a inclusão de novas colunas
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1981 entries, 0 to 1999
Data columns (total 40 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   ID                              1981 non-null   int64         
 1   Ano Nascimento                  1981 non-null   int64         
 2   Escolaridade                    1981 non-null   object        
 3   Estado Civil                    1981 non-null   object        
 4   Salario Anual                   1981 non-null   float64       
 5   Filhos em Casa                  1981 non-null   int64         
 6   Adolescentes em Casa            1981 non-null   int64         
 7   Data Cadastro                   1981 non-null   datetime64[ns]
 8   Dias Desde Ultima Compra        1981 non-null   int64         
 9   Gasto com Eletronicos           1981 non-null   int64         
 10  Gasto com Brinquedos            1981 non-null   int64         
 11  Gasto com

### 6. Padronização e Conversão de Tipos de Dados

In [17]:
# Função para padronizar tipos de dados
def padronizar_tipos_numericos(df):
    # Colunas que devem ser float64
    colunas_float = [
        'Salario Anual',
        'Gasto com Eletronicos',
        'Gasto com Brinquedos',
        'Gasto com Moveis',
        'Gasto com Utilidades',
        'Gasto com Alimentos',
        'Gasto com Vestuario',
        'Gasto Total'
    ]

    # Colunas que devem ser int64
    colunas_int = [
        'ID',
        'Ano Nascimento',
        'Filhos em Casa',
        'Adolescentes em Casa',
        'Dias Desde Ultima Compra',
        'Numero de Compras com Desconto',
        'Numero de Compras na Web',
        'Numero de Compras via Catalogo',
        'Numero de Compras na Loja',
        'Numero Visitas WebSite Mes',
        'Compra na Campanha 1',
        'Compra na Campanha 2',
        'Compra na Campanha 3',
        'Compra na Campanha 4',
        'Compra na Campanha 5',
        'Comprou',
        'Ano Cadastro',
        'Mes Cadastro',
        'Dia Cadastro',
        'Semana Cadastro',
        'Idade',
        'Filhos',
        'Total Compras',
        'Comprou em Campanha',
        'Engajamento em campanhas'
    ]

    # Aplica conversão
    for col in colunas_float:
        df[col] = df[col].astype('float64')

    for col in colunas_int:
        df[col] = df[col].astype('int64')

    return df

In [18]:
# Chama a função para efetivar a padronização
df = padronizar_tipos_numericos(df)

In [19]:
# Conversão de colunas binárias (valores 0 e 1) para Sim/Não
colunas_binarias = [col for col in df.columns
                    if df[col].dtype == 'int64' and set(df[col].unique()) <= {0, 1}]

# Converte para Sim/Não
for col in colunas_binarias:
    df[col] = df[col].map({1: 'Sim', 0: 'Não'})

### 7. Padronização de Nomes de Colunas

In [20]:
# Padronização de nomes de colunas
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_').str.replace('ã', 'a').str.replace('ç', 'c').str.replace('é', 'e').str.replace('í', 'i').str.replace('ó', 'o').str.replace('ú', 'u')

In [21]:
# Verificação da padronização de colunas
print(df.columns.tolist())

['id', 'ano_nascimento', 'escolaridade', 'estado_civil', 'salario_anual', 'filhos_em_casa', 'adolescentes_em_casa', 'data_cadastro', 'dias_desde_ultima_compra', 'gasto_com_eletronicos', 'gasto_com_brinquedos', 'gasto_com_moveis', 'gasto_com_utilidades', 'gasto_com_alimentos', 'gasto_com_vestuario', 'numero_de_compras_com_desconto', 'numero_de_compras_na_web', 'numero_de_compras_via_catalogo', 'numero_de_compras_na_loja', 'numero_visitas_website_mes', 'compra_na_campanha_1', 'compra_na_campanha_2', 'compra_na_campanha_3', 'compra_na_campanha_4', 'compra_na_campanha_5', 'comprou', 'pais', 'ano_cadastro', 'mes_cadastro', 'mes_nome_cadastro', 'dia_cadastro', 'dia_semana_cadastro', 'semana_cadastro', 'idade', 'faixa_etária', 'filhos', 'gasto_total', 'total_compras', 'comprou_em_campanha', 'engajamento_em_campanhas']


### 8. Tradução de Dias e Meses (inglês > português)

In [22]:
# Mapeamento de dias da semana do inglês para português
dias_semana = {
    'Monday': 'Segunda-feira',
    'Tuesday': 'Terça-feira',
    'Wednesday': 'Quarta-feira',
    'Thursday': 'Quinta-feira',
    'Friday': 'Sexta-feira',
    'Saturday': 'Sábado',
    'Sunday': 'Domingo'
}

In [23]:
# Aplicação da tradução
df['dia_semana_cadastro'] = df['dia_semana_cadastro'].map(dias_semana)

In [24]:
# Verifição da tradução dos dias
print(df['dia_semana_cadastro'].unique())

['Terça-feira' 'Sexta-feira' 'Quarta-feira' 'Segunda-feira' 'Sábado'
 'Quinta-feira' 'Domingo']


In [25]:
# Mapeamento de meses do ano do inglês para português
meses_ano = {
    'January': 'Janeiro',
    'February': 'Fevereiro',
    'March': 'Março',
    'April': 'Abril',
    'May': 'Maio',
    'June': 'Junho',
    'July': 'Julho',
    'August': 'Agosto',
    'September': 'Setembro',
    'October': 'Outubro',
    'November': 'Novembro',
    'December': 'Dezembro'
}

In [26]:
# Aplicação da tradução
df['mes_nome_cadastro'] = df['mes_nome_cadastro'].map(meses_ano)

In [27]:
# Verificação da tradução dos meses
print(df['mes_nome_cadastro'].unique())

['Janeiro' 'Dezembro' 'Fevereiro' 'Maio' 'Novembro' 'Abril' 'Julho'
 'Março' 'Agosto' 'Setembro' 'Outubro' 'Junho']


### 9. Checagem final após pré-processamento

In [28]:
# Verificação final do dataset

for col in df.columns:
    valores = df[col].unique()
    total_valores = len(valores)

    print(f"\nColuna: {col}")

    if total_valores > 10:
        print(f"{total_valores} valores únicos. Exibindo os 10 primeiros:")
        print(valores[:10])
    elif total_valores == 10:
        print("Os 10 primeiros valores são:")
        print(valores)
    else:
        print(f"Os {total_valores} únicos valores são:")
        print(valores)


Coluna: id
1981 valores únicos. Exibindo os 10 primeiros:
[ 2795  2285   115 10470  4065 10968  5985  5430  8432   453]

Coluna: ano_nascimento
57 valores únicos. Exibindo os 10 primeiros:
[1958 1954 1966 1979 1976 1969 1965 1956 1970 1961]

Coluna: escolaridade
Os 5 únicos valores são:
['Mestrado' 'Doutorado' 'Curso Superior' 'Segundo Grau' 'Primeiro Grau']

Coluna: estado_civil
Os 3 únicos valores são:
['Solteiro' 'Casado' 'Divorciado']

Coluna: salario_anual
1769 valores únicos. Exibindo os 10 primeiros:
[30523. 36634. 43456. 40662. 49544. 57731. 33168. 54450. 35340. 84835.]

Coluna: filhos_em_casa
Os 3 únicos valores são:
[2 0 1]

Coluna: adolescentes_em_casa
Os 3 únicos valores são:
[1 0 2]

Coluna: data_cadastro
387 valores únicos. Exibindo os 10 primeiros:
<DatetimeArray>
['2020-01-07 00:00:00', '2023-12-05 00:00:00', '2023-02-03 00:00:00',
 '2023-05-03 00:00:00', '2020-11-02 00:00:00', '2022-04-11 00:00:00',
 '2022-12-10 00:00:00', '2022-04-09 00:00:00', '2021-07-06 00:00:00',

### 10. Estatísticas Básicas

In [29]:
# Identificação das colunas numéricas
colunas_numericas = df.select_dtypes(include=['int64', 'float64']).columns

In [30]:
# Gera o resumo estatístico como DataFrame
resumo_estatisticas = df[colunas_numericas].describe()

# Exibe como tabela
resumo_estatisticas

Unnamed: 0,id,ano_nascimento,salario_anual,filhos_em_casa,adolescentes_em_casa,dias_desde_ultima_compra,gasto_com_eletronicos,gasto_com_brinquedos,gasto_com_moveis,gasto_com_utilidades,...,numero_de_compras_na_loja,numero_visitas_website_mes,ano_cadastro,mes_cadastro,dia_cadastro,semana_cadastro,idade,gasto_total,total_compras,engajamento_em_campanhas
count,1981.0,1981.0,1981.0,1981.0,1981.0,1981.0,1981.0,1981.0,1981.0,1981.0,...,1981.0,1981.0,1981.0,1981.0,1981.0,1981.0,1981.0,1981.0,1981.0,1981.0
mean,5611.730944,1968.796567,52290.8526,0.44523,0.502776,43.647653,304.747097,26.347299,164.696113,37.65371,...,5.804644,5.329127,2021.040888,4.763756,6.437658,17.940434,56.203433,603.816759,14.848561,0.5053
std,3262.015748,11.981657,25484.701911,0.53433,0.539938,25.819537,338.425386,40.320465,222.047621,54.83439,...,3.275205,2.44034,1.646497,2.905015,3.497441,12.968941,11.981657,599.930106,7.6786,1.049096
min,0.0,1893.0,1730.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,2018.0,1.0,1.0,1.0,29.0,5.0,0.0,0.0
25%,2811.0,1959.0,35196.0,0.0,0.0,22.0,23.0,1.0,16.0,3.0,...,3.0,3.0,2020.0,3.0,3.0,9.0,48.0,68.0,8.0,0.0
50%,5491.0,1970.0,51766.0,0.0,0.0,45.0,176.0,8.0,68.0,12.0,...,5.0,6.0,2021.0,4.0,6.0,14.0,55.0,397.0,15.0,0.0
75%,8486.0,1977.0,68281.0,1.0,1.0,66.0,504.0,32.0,227.0,50.0,...,8.0,7.0,2023.0,7.0,10.0,27.0,66.0,1040.0,21.0,0.0
max,11191.0,1996.0,666666.0,2.0,2.0,88.0,1493.0,199.0,1725.0,259.0,...,13.0,20.0,2023.0,12.0,12.0,52.0,132.0,2525.0,44.0,5.0


### Detecção de Outliers

In [31]:
outliers = {}

for col in colunas_numericas:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR

    # Identifica outliers
    outlier_mask = (df[col] < limite_inferior) | (df[col] > limite_superior)
    outliers[col] = df[col][outlier_mask]

    print(f"\nColuna: {col}")
    print(f"Outliers detectados: {outlier_mask.sum()}")
    print(f"Valores extremos: {df[col][outlier_mask].unique()}")


Coluna: id
Outliers detectados: 0
Valores extremos: []

Coluna: ano_nascimento
Outliers detectados: 2
Valores extremos: [1893 1899]

Coluna: salario_anual
Outliers detectados: 7
Valores extremos: [157146. 160803. 666666. 162397. 157733. 153924. 156924.]

Coluna: filhos_em_casa
Outliers detectados: 0
Valores extremos: []

Coluna: adolescentes_em_casa
Outliers detectados: 0
Valores extremos: []

Coluna: dias_desde_ultima_compra
Outliers detectados: 0
Valores extremos: []

Coluna: gasto_com_eletronicos
Outliers detectados: 33
Valores extremos: [1285. 1248. 1296. 1462. 1478. 1302. 1239. 1349. 1308. 1230. 1332. 1253.
 1394. 1276. 1288. 1493. 1311. 1486. 1492. 1259. 1241. 1245. 1459. 1379.
 1298. 1315. 1396. 1324. 1449.]

Coluna: gasto_com_brinquedos
Outliers detectados: 223
Valores extremos: [104. 130.  80.  82. 174. 169. 107. 105.  81.  96.  86. 193.  83. 148.
 103. 142.  97. 117. 134. 153. 106.  88. 133.  99. 129.  93. 185.  79.
 162. 168.  98. 172. 140. 194.  91. 183. 151. 197. 178. 189

### Tratamento de Outliers

In [32]:
# Localiza registros com ano de nascimento incoerente
df_outliers_nascimento = df[df['ano_nascimento'] < 1920]
print(df_outliers_nascimento[['id', 'idade', 'ano_nascimento']])

        id  idade  ano_nascimento
513  11004    132            1893
827   1150    126            1899


In [33]:
# Remoção dos registros de idade incoerente
df_sem_nulos = df.shape[0]
df = df.drop(df_outliers_nascimento.index)
df_sem_ano_incoerente = df.shape[0]
print(f'Foram removidas {df_sem_nulos - df_sem_ano_incoerente} linhas com idade incoerente.')

Foram removidas 2 linhas com idade incoerente.


### Salvamento do Dataset Limpo

In [34]:
print(f'Tamanho inicial do DataFrame: {df_inicial} linhas')
print(f'Tamanho final do DataFrame: {df.shape[0]} linhas')
print(f'Total de linhas removidas: {df_inicial - df.shape[0]} linhas')

porcentagem = (df_inicial - df.shape[0]) / df_inicial * 100
print(f'Porcentagem de linhas removidas: {porcentagem: .2f} %')

Tamanho inicial do DataFrame: 2000 linhas
Tamanho final do DataFrame: 1979 linhas
Total de linhas removidas: 21 linhas
Porcentagem de linhas removidas:  1.05 %


In [35]:
# Visualizar o dataset final
display(pd.DataFrame({"Linhas": [df.shape[0]], "Colunas": [df.shape[1]]}))
print("\n")
df.info()
print("\n")
display(df.head(3))

Unnamed: 0,Linhas,Colunas
0,1979,40




<class 'pandas.core.frame.DataFrame'>
Index: 1979 entries, 0 to 1999
Data columns (total 40 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   id                              1979 non-null   int64         
 1   ano_nascimento                  1979 non-null   int64         
 2   escolaridade                    1979 non-null   object        
 3   estado_civil                    1979 non-null   object        
 4   salario_anual                   1979 non-null   float64       
 5   filhos_em_casa                  1979 non-null   int64         
 6   adolescentes_em_casa            1979 non-null   int64         
 7   data_cadastro                   1979 non-null   datetime64[ns]
 8   dias_desde_ultima_compra        1979 non-null   int64         
 9   gasto_com_eletronicos           1979 non-null   float64       
 10  gasto_com_brinquedos            1979 non-null   float64       
 11  gasto_c

Unnamed: 0,id,ano_nascimento,escolaridade,estado_civil,salario_anual,filhos_em_casa,adolescentes_em_casa,data_cadastro,dias_desde_ultima_compra,gasto_com_eletronicos,...,dia_cadastro,dia_semana_cadastro,semana_cadastro,idade,faixa_etária,filhos,gasto_total,total_compras,comprou_em_campanha,engajamento_em_campanhas
0,2795,1958,Mestrado,Solteiro,30523.0,2,1,2020-01-07,0,5.0,...,7,Terça-feira,2,67,60+,Sim,13.0,4,Não,0
1,2285,1954,Mestrado,Casado,36634.0,0,1,2023-12-05,0,213.0,...,5,Terça-feira,49,71,60+,Sim,335.0,15,Não,0
2,115,1966,Mestrado,Solteiro,43456.0,0,1,2023-02-03,0,275.0,...,3,Sexta-feira,5,59,46-60,Sim,393.0,17,Não,0


In [36]:
# Salvamento condicional
output_path = '/content/drive/MyDrive/Estudos/Dados/Marketing/dados_marketing_limpo.csv'
output_dir = os.path.dirname(output_path)

if not os.path.exists(output_dir):
    os.makedirs(output_dir)

df.to_csv(output_path, index=False, encoding='utf-8')
print(f'Dataset limpo salvo em: {output_path}')

Dataset limpo salvo em: /content/drive/MyDrive/Estudos/Dados/Marketing/dados_marketing_limpo.csv
