### **ENTENDENDO OS DADOS**


*EXPLORAÇÃO* DOS DADOS

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
df1 = pd.read_csv('/content/CampaignQueue_semicolon.csv', sep=';')
df2 = pd.read_csv('/content/Campaign_semicolon.csv', sep=';')
df3 = pd.read_csv('/content/Customer_semicolon.csv', sep=';')
df4 = pd.read_csv('/content/Order_semicolon.csv', sep=';')

**CampaignQueue (FILA/ENVIOS)**

In [None]:
# Explorando o DataFrame df1 (FILA DE CAMPANHA)
print("Exploração do DataFrame df1 (FILA DE CAMPANHA):")

##### Converter colunas de data para datetime
date_columns = ['scheduledAt', 'sendAt', 'createdAt', 'updatedAt']
for col in date_columns:
    if col in df1.columns:
        # Usar errors='coerce' para transformar datas inválidas em NaT (Not a Time)
        df1[col] = pd.to_datetime(df1[col], format='%d/%m/%Y %H:%M', errors='coerce')
        print(f"\nColuna '{col}' convertida para datetime.")
    else:
        print(f"\nColuna de data '{col}' NÃO encontrada em df1.")

print("\nInformações gerais com data convertida:")
df1.info()
print("\nContagem de valores únicos por coluna:")
display(df1.nunique())
print("\nVerificando valores nulos:")
display(df1.isnull().sum())

##### Verificando unicidade e distribuição das colunas de ID em df1
print("\n\nVerificando unicidade e distribuição das colunas de ID em df1:")

id_columns = ['id', 'jobId', 'campaignId', 'storeId', 'storeInstanceId', 'customerId']

for col in id_columns:
    if col in df1.columns:
        print(f"\n--- Análise da coluna: {col} ---")
        # Verificar unicidade
        is_unique = df1[col].is_unique
        print(f"É única: {is_unique}")

        # Mostrar contagem de valores únicos
        unique_count = df1[col].nunique()
        print(f"Número de valores únicos: {unique_count}")

        # Mostrar a distribuição (contagem dos valores mais frequentes)
        print("Distribuição (contagem dos valores mais frequentes):")
        display(df1[col].value_counts().head())
    else:
        print(f"\nColuna '{col}' NON encontrada em df1.")

##### Analisando as distribuições dos eventos relacionados a datas em df1
print("\nAnálise temporal da distribuição de eventos em df1 por dia:")

date_columns = ['scheduledAt', 'sendAt', 'createdAt', 'updatedAt']

for col in date_columns:
    if col in df1.columns and pd.api.types.is_datetime64_any_dtype(df1[col]):
        print(f"\n--- Distribuição por dia para a coluna: {col} ---")
        # Extrair a data (ano, mês, dia) e contar as ocorrências
        daily_counts = df1[col].dt.date.value_counts().sort_index()
        display(daily_counts.head()) # Mostrar os primeiros dias
        print(f"Total de dias únicos com registros: {len(daily_counts)}")
    elif col in df1.columns:
         print(f"\nColuna '{col}' NÃO está no formato datetime. Verifique a conversão.")
    else:
        print(f"\nColuna '{col}' NÃO encontrada em df1.")

# Exemplo adicional: Distribuição por mês para 'createdAt'
if 'createdAt' in df1.columns and pd.api.types.is_datetime64_any_dtype(df1['createdAt']):
    print("\n--- Distribuição por mês para a coluna: createdAt ---")
    # Extrair o ano e o mês e contar as ocorrências
    monthly_counts = df1['createdAt'].dt.to_period('M').value_counts().sort_index()
    display(monthly_counts)
elif 'createdAt' in df1.columns:
     print(f"\nColuna 'createdAt' NÃO está no formato datetime. Verifique a conversão.")


##### Visualizando as distribuições temporais de criação e atualização do df1 com gráfico
print("Visualizando as distribuições temporais em df1:")

if 'createdAt' in df1.columns and pd.api.types.is_datetime64_any_dtype(df1['createdAt']):
    monthly_created_counts = df1['createdAt'].dt.to_period('M').value_counts().sort_index()
    monthly_created_counts.index = monthly_created_counts.index.astype(str) # Converter para string para plotar

if 'updatedAt' in df1.columns and pd.api.types.is_datetime64_any_dtype(df1['updatedAt']):
    monthly_updated_counts = df1['updatedAt'].dt.to_period('M').value_counts().sort_index()
    monthly_updated_counts.index = monthly_updated_counts.index.astype(str) # Converter para string para plotar

# Cria gráficos de linha para as contagens mensais
plt.figure(figsize=(12, 6))

if 'createdAt' in df1.columns and pd.api.types.is_datetime64_any_dtype(df1['createdAt']):
    sns.lineplot(x=monthly_created_counts.index, y=monthly_created_counts.values, label='Created At')

if 'updatedAt' in df1.columns and pd.api.types.is_datetime64_any_dtype(df1['updatedAt']):
     sns.lineplot(x=monthly_updated_counts.index, y=monthly_updated_counts.values, label='Updated At')

plt.title('Distribuição Mensal de Criação e Atualização em df1')
plt.xlabel('Mês')
plt.ylabel('Número de Entradas')
plt.xticks(rotation=45)
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()


##### Visualizando as distribuições temporais de Agendamento e Envio do df1 com gráfico
print("\n\nVisualizando as distribuições temporais mensais de Agendamento e Envio em df1:")

# Preparar dados para visualização (contagem mensal)

if 'scheduledAt' in df1.columns and pd.api.types.is_datetime64_any_dtype(df1['scheduledAt']):
    # Agrupar por mês (M) e contar
    monthly_scheduled_counts = df1['scheduledAt'].dt.to_period('M').value_counts().sort_index()
    monthly_scheduled_counts.index = monthly_scheduled_counts.index.astype(str) # Converter para string para plotar
    print("\nContagem Mensal de ScheduledAt:")
    display(monthly_scheduled_counts.head()) # Mostrar os primeiros


if 'sendAt' in df1.columns and pd.api.types.is_datetime64_any_dtype(df1['sendAt']):
    # Agrupar por mês (M) e contar
    monthly_send_counts = df1['sendAt'].dt.to_period('M').value_counts().sort_index()
    monthly_send_counts.index = monthly_send_counts.index.astype(str) # Converter para string para plotar
    print("\nContagem Mensal de SendAt:")
    display(monthly_send_counts.head()) # Mostrar os primeiros


# Criar gráfico de linha para as contagens mensais
plt.figure(figsize=(12, 6))

if 'scheduledAt' in df1.columns and pd.api.types.is_datetime64_any_dtype(df1['scheduledAt']):
    sns.lineplot(x=monthly_scheduled_counts.index, y=monthly_scheduled_counts.values, label='Scheduled At')

if 'sendAt' in df1.columns and pd.api.types.is_datetime64_any_dtype(df1['sendAt']):
     # Note: sendAt possui muitos valores nulos, o lineplot vai considerar apenas os não nulos
     sns.lineplot(x=monthly_send_counts.index, y=monthly_send_counts.values, label='Send At')


plt.title('Distribuição Mensal de Agendamento e Envio em df1')
plt.xlabel('Mês')
plt.ylabel('Número de Entradas')
plt.xticks(rotation=45)
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

##### Analisando a taxa de de resposta das campanhas com a coluna "response"
print("\nVerificando a taxa de respostas na coluna 'response' em df1:")

if 'response' in df1.columns:
    # Contar o número de valores não nulos na coluna 'response'
    responded_count = df1['response'].count()

    # Obter o número total de linhas no DataFrame
    total_count = len(df1)

    # Calcular a taxa de resposta
    response_rate = (responded_count / total_count) * 100 if total_count > 0 else 0

    print(f"Número total de entradas em df1: {total_count}")
    print(f"Número de entradas com resposta na coluna 'response': {responded_count}")
    print(f"Taxa de resposta: {response_rate:.2f}%")

else:
    print("Coluna 'response' NÃO encontrada em df1.")

**Campaign (Campanha)**

In [None]:
# Explorando o DataFrame df2 (CAMPANHAS)
print("\nExploração do DataFrame df2 (CAMPANHAS):")

##### Converter colunas de data para datetime
date_columns_df2 = ['createdAt', 'updatedAt'] # Colunas de data em df2
for col in date_columns_df2:
    if col in df2.columns:
        # Tentativa de conversão com formato comum, usar errors='coerce' para datas inválidas
        try:
            df2[col] = pd.to_datetime(df2[col], format='%Y-%m-%d %H:%M:%S', errors='coerce')
            print(f"\nColuna '{col}' convertida para datetime.")
        except ValueError:
            print(f"\nNão foi possível converter a coluna '{col}' com o formato padrão. Tentando outro formato.")
            try:
                 df2[col] = pd.to_datetime(df2[col], errors='coerce')
                 print(f"Coluna '{col}' convertida para datetime usando inferência.")
            except Exception as e:
                 print(f"Erro ao converter a coluna '{col}': {e}")
    else:
        print(f"\nColuna de data '{col}' NÃO encontrada em df2.")

print("\nInformações gerais após a conversão de datas:")
df2.info()
print("\nContagem de valores únicos por coluna:")
display(df2.nunique())
print("\nVerificando valores nulos:")
display(df2.isnull().sum())

# Exemplo de agregação: distribuição por segmentId
print("\nDistribuição de Campanhas por Segment ID:")
if 'segmentId' in df2.columns:
    display(df2['segmentId'].value_counts().head()) # Mostra os segmentos mais usados
    print(f"Número total de segmentos únicos: {df2['segmentId'].nunique()}")
else:
    print("Coluna 'segmentId' NÃO encontrada em df2.")

# Exemplo de agregação: Contagem de campanhas por tipo
if 'type' in df2.columns:
    print("\nContagem de Campanhas por Tipo (df2):")
    display(df2['type'].value_counts())

# Exemplo de agregação: Contagem de campanhas por status
if 'status' in df2.columns:
    print("\nContagem de Campanhas por Status (df2):")
    status_counts = df2['status'].value_counts()
    display(status_counts)
    # Criar gráfico de barras para a contagem por status
    plt.figure(figsize=(10, 6))
    sns.barplot(x=status_counts.index, y=status_counts.values)
    plt.title('Distribuição de Campanhas por Status em df2')
    plt.xlabel('Status da Campanha')
    plt.ylabel('Número de Campanhas')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

# Exemplo de agregação: Dividindo os tipos de campanha por status
print("\nDistribuição de Tipos de Campanha por Status em df2 (Gráficos de Pizza):")

# Verificar se as colunas 'status' e 'type' existem
if 'status' in df2.columns and 'type' in df2.columns:

    # Obter a lista de status únicos e ordená-los numericamente
    unique_statuses = sorted(df2['status'].unique())

    for status in unique_statuses:
        print(f"\n--- Gráfico de Pizza para Status: {status} ---")

        # Filtrar o DataFrame para o status atual
        df2_status = df2[df2['status'] == status]

        # Contar a distribuição dos tipos de campanha (type) neste subconjunto
        type_counts_status = df2_status['type'].value_counts()

        # Exibir a contagem para este status
        print(f"Contagem de Tipos de Campanha para Status {status}:")
        display(type_counts_status)

        # Criar gráfico de pizza APENAS se houver dados para este status
        if not type_counts_status.empty:
            plt.figure(figsize=(3, 3))
            plt.pie(type_counts_status, labels=[f'Tipo {t}' for t in type_counts_status.index], autopct='%1.1f%%', startangle=90, colors=sns.color_palette('pastel')[0:len(type_counts_status)])
            plt.title(f'Distribuição Percentual de Tipos de Campanha (Status {status}) em df2')
            plt.axis('equal') # Garante que o gráfico de pizza seja um círculo.
            plt.tight_layout()
            plt.show()
        else:
            print(f"Nenhum dado de tipo encontrado para o Status {status}.")

else:
    print("As colunas 'status' ou 'type' não foram encontradas em df2.")

##### Visualizando as distribuições temporais de criação e atualização do df2 com gráfico
print("\nVisualizando as distribuições temporais em df2:")

if 'createdAt' in df2.columns and pd.api.types.is_datetime64_any_dtype(df2['createdAt']):
    monthly_created_counts_df2 = df2['createdAt'].dt.to_period('M').value_counts().sort_index()
    monthly_created_counts_df2.index = monthly_created_counts_df2.index.astype(str) # Converter para string para plotar

if 'updatedAt' in df2.columns and pd.api.types.is_datetime64_any_dtype(df2['updatedAt']):
    monthly_updated_counts_df2 = df2['updatedAt'].dt.to_period('M').value_counts().sort_index()
    monthly_updated_counts_df2.index = monthly_updated_counts_df2.index.astype(str) # Converter para string para plotar

# Cria gráficos de linha para as contagens mensais
plt.figure(figsize=(12, 6))

if 'createdAt' in df2.columns and pd.api.types.is_datetime64_any_dtype(df2['createdAt']):
    sns.lineplot(x=monthly_created_counts_df2.index, y=monthly_created_counts_df2.values, label='Created At')

if 'updatedAt' in df2.columns and pd.api.types.is_datetime64_any_dtype(df2['updatedAt']):
     sns.lineplot(x=monthly_updated_counts_df2.index, y=monthly_updated_counts_df2.values, label='Updated At')

plt.title('Distribuição Mensal de Criação e Atualização em df2')
plt.xlabel('Mês')
plt.ylabel('Número de Campanhas')
plt.xticks(rotation=45)
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

**Customer (Cliente)**

In [None]:
# Explorando o DataFrame df3 (CLIENTES)
print("Exploração do DataFrame df3 (CLIENTES):")
print("\nContagem de valores únicos por coluna:")
display(df3.nunique())
print("\nVerificando valores nulos:")
display(df3.isnull().sum())

##### Converter colunas de data para datetime em df3
date_columns_df3 = ['dateOfBirth', 'enrichedAt', 'createdAt', 'updatedAt'] # Colunas de data em df3
for col in date_columns_df3:
    if col in df3.columns:
        # Tentativa de conversão com formato comum, usar errors='coerce' para datas inválidas
        try:
            # Tentando diferentes formatos comuns
            df3[col] = pd.to_datetime(df3[col], format='%d/%m/%Y %H:%M:%S', errors='coerce')
            print(f"\nColuna '{col}' convertida para datetime usando formato dia/mês/ano H:M:S.")
        except ValueError:
             try:
                df3[col] = pd.to_datetime(df3[col], format='%d/%m/%Y', errors='coerce')
                print(f"\nColuna '{col}' convertida para datetime usando formato dia/mês/ano.")
             except ValueError:
                 print(f"\nNão foi possível converter a coluna '{col}' com formatos comuns. Tentando inferência.")
                 try:
                      df3[col] = pd.to_datetime(df3[col], errors='coerce')
                      print(f"Coluna '{col}' convertida para datetime usando inferência.")
                 except Exception as e:
                      print(f"Erro ao converter a coluna '{col}': {e}")
    else:
        print(f"\nColuna de data '{col}' NÃO encontrada em df3.")

print("\nInformações gerais após a conversão de datas:")
df3.info()

# Exemplos de agregações simples e distribuição de atributos chave

# Exemplo 1: Distribuição de gênero
print("\nDistribuição de Gênero (df3):")
if 'gender' in df3.columns:
    gender_counts = df3['gender'].value_counts()
    display(gender_counts)

    # Criar gráfico de barras para a distribuição de gênero
    plt.figure(figsize=(8, 5))
    sns.barplot(x=gender_counts.index, y=gender_counts.values)
    plt.title('Distribuição de Gênero em df3')
    plt.xlabel('Gênero')
    plt.ylabel('Número de Clientes')
    plt.xticks(rotation=0)
    plt.tight_layout()
    plt.show()
else:
    print("Coluna 'gender' NÃO encontrada em df3.")

# Exemplo 2: Analisando a distribuição de clientes por DDD (primeiros 3 dígitos do telefone)
print("\nDistribuição de Clientes por DDD (df3):")
if 'phone' in df3.columns:
    # Remover caracteres não numéricos da coluna 'phone'
    df3['phone_numeric'] = df3['phone'].astype(str).str.replace(r'\D', '', regex=True)

    # Extrair os primeiros 3 dígitos (DDD) - Assumindo que o formato inclui o código do país + DDD
    # Pode ser necessário ajustar a lógica de extração dependendo do formato real dos números
    df3['ddd'] = df3['phone_numeric'].str[2:4] # Ajustado para pegar os dois digitos do DDD

    # Contar a distribuição dos DDDs (top 10)
    ddd_counts = df3['ddd'].value_counts().head(10)
    display(ddd_counts)

    # Criar gráfico de barras para os top 10 DDDs
    plt.figure(figsize=(10, 6))
    sns.barplot(x=ddd_counts.index, y=ddd_counts.values)
    plt.title('Top 10 DDDs com Mais Clientes em df3')
    plt.xlabel('DDD')
    plt.ylabel('Número de Clientes')
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()

    # Remover a coluna temporária 'phone_numeric' e 'ddd' se não forem mais necessárias
    # df3 = df3.drop(columns=['phone_numeric', 'ddd'])
else:
    print("Coluna 'phone' NÃO encontrada em df3.")

**Order (Pedido)**

In [None]:
# Explorando o DataFrame df4 (PEDIDOS)
print("\nContagem de valores únicos por coluna:")
display(df4.nunique())
print("\nVerificando valores nulos:")
display(df4.isnull().sum())

##### Converter colunas de data para datetime em df4
date_columns_df4 = ['createdAt', 'updatedAt'] # Colunas de data em df4
for col in date_columns_df4:
    if col in df4.columns:
        # Tentativa de conversão com formato comum, usar errors='coerce' para datas inválidas
        try:
            # Tentando diferentes formatos comuns
            df4[col] = pd.to_datetime(df4[col], format='%d/%m/%Y %H:%M', errors='coerce')
            print(f"\nColuna '{col}' convertida para datetime usando formato dia/mês/ano H:M.")
        except ValueError:
             try:
                df4[col] = pd.to_datetime(df4[col], format='%d/%m/%Y', errors='coerce')
                print(f"\nColuna '{col}' convertida para datetime usando formato dia/mês/ano.")
             except ValueError:
                 print(f"\nNão foi possível converter a coluna '{col}' com formatos comuns. Tentando inferência.")
                 try:
                      df4[col] = pd.to_datetime(df4[col], errors='coerce')
                      print(f"Coluna '{col}' convertida para datetime usando inferência.")
                 except Exception as e:
                      print(f"Erro ao converter a coluna '{col}': {e}")
    else:
        print(f"\nColuna de data '{col}' NÃO encontrada em df4.")

print("\nInformações gerais após a conversão de datas:")
df4.info()

# Exemplos de agregações simples e distribuição de atributos chave (Você pode adicionar mais conforme necessário)

# Exemplo 1: Distribuição de status de pedido em df4
if 'status' in df4.columns:
    print("\nDistribuição de Status de Pedido (df4):")
    status_counts_df4 = df4['status'].value_counts()
    display(status_counts_df4)

    # Criar gráfico de barras para a distribuição de status de pedido
    plt.figure(figsize=(10, 6))
    sns.barplot(x=status_counts_df4.index, y=status_counts_df4.values)
    plt.title('Distribuição de Status de Pedido em df4')
    plt.xlabel('Status do Pedido')
    plt.ylabel('Número de Pedidos')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()


# Exemplo 2: Média de valor total de pedidos por status em df4
if 'status' in df4.columns and 'totalAmount' in df4.columns:
    print("\nMédia de Valor Total de Pedidos por Status (df4):")
    display(df4.groupby('status')['totalAmount'].mean())


# Exemplo 3: Clientes com mais pedidos (top 10) em df4
if 'customer' in df4.columns:
    print("\nTop 10 Clientes com Mais Pedidos (df4):")
    display(df4['customer'].value_counts().head(10))

# Exemplo 4: Distribuição temporal de criação de pedidos (mensal)
print("\nDistribuição Mensal de Criação de Pedidos em df4:")
if 'createdAt' in df4.columns and pd.api.types.is_datetime64_any_dtype(df4['createdAt']):
    monthly_created_counts_df4 = df4['createdAt'].dt.to_period('M').value_counts().sort_index()
    monthly_created_counts_df4.index = monthly_created_counts_df4.index.astype(str) # Converter para string para plotar
    display(monthly_created_counts_df4)

    # Cria gráfico de linha para as contagens mensais de criação
    plt.figure(figsize=(12, 6))
    sns.lineplot(x=monthly_created_counts_df4.index, y=monthly_created_counts_df4.values)
    plt.title('Distribuição Mensal de Criação de Pedidos em df4')
    plt.xlabel('Mês')
    plt.ylabel('Número de Pedidos')
    plt.xticks(rotation=45)
    plt.grid(True)
    plt.tight_layout()
    plt.show()
elif 'createdAt' in df4.columns:
     print("\nColuna 'createdAt' NÃO está no formato datetime. Verifique a conversão.")
else:
    print("\nColuna 'createdAt' NÃO encontrada em df4.")

# Exemplo 5: Distribuição temporal de atualização de pedidos (mensal)
print("\nDistribuição Mensal de Atualização de Pedidos em df4:")
if 'updatedAt' in df4.columns and pd.api.types.is_datetime64_any_dtype(df4['updatedAt']):
    monthly_updated_counts_df4 = df4['updatedAt'].dt.to_period('M').value_counts().sort_index()
    monthly_updated_counts_df4.index = monthly_updated_counts_df4.index.astype(str) # Converter para string para plotar
    display(monthly_updated_counts_df4)

    # Cria gráfico de linha para as contagens mensais de atualização
    plt.figure(figsize=(12, 6))
    sns.lineplot(x=monthly_updated_counts_df4.index, y=monthly_updated_counts_df4.values)
    plt.title('Distribuição Mensal de Atualização de Pedidos em df4')
    plt.xlabel('Mês')
    plt.ylabel('Número de Pedidos')
    plt.xticks(rotation=45)
    plt.grid(True)
    plt.tight_layout()
    plt.show()
elif 'updatedAt' in df4.columns:
     print("\nColuna 'updatedAt' NÃO está no formato datetime. Verifique a conversão.")
else:
    print("\nColuna 'updatedAt' NÃO encontrada em df4.")

### Relatório da Exploração de Dados

Olá! Vamos fazer um resumo do que exploramos neste notebook.

**Célula OQwXqhJz9xkk:**
Aqui foi onde tudo começou! Carregamos os quatro arquivos CSV (`CampaignQueue`, `Campaign`, `Customer`, `Order`) em DataFrames do pandas. Isso é o primeiro passo para poder trabalhar com os dados.

**Célula nu6tW2kMZGYw (CampaignQueue - FILA/ENVIOS):**
Nesta célula, mergulhamos no DataFrame `df1`, que representa as filas de envio de campanhas.

*   Primeiro, convertemos as colunas que pareciam ser datas (`scheduledAt`, `sendAt`, `createdAt`, `updatedAt`) para o formato datetime. Isso é super importante para fazer análises temporais! Usamos `errors='coerce'` para garantir que se alguma data estivesse "estranha", ela não quebrasse tudo, virando um valor nulo (`NaT`).
*   Depois, demos uma olhada geral nas informações do DataFrame (`df1.info()`) e na quantidade de valores únicos em cada coluna (`df1.nunique()`). Isso nos ajuda a ter uma ideia do que cada coluna representa e se há IDs duplicados onde não deveria.
*   Verificamos também quantos valores estavam faltando (`df1.isnull().sum()`), o que é crucial para saber se precisamos tratar dados ausentes.
*   Fizemos uma análise mais a fundo nas colunas que pareciam ser IDs (`id`, `jobId`, `campaignId`, etc.) para ver se eram únicas e qual a distribuição dos valores mais frequentes. Por exemplo, vimos quais `campaignId` apareciam mais vezes na fila de envios.
*   Analisamos a distribuição temporal dos eventos em relação às colunas de data que convertemos. Vimos a contagem diária e mensal de agendamentos, envios, criações e atualizações.
*   Para visualizar melhor essa distribuição temporal, geramos gráficos de linha mostrando a contagem mensal de `createdAt` e `updatedAt`. Isso nos permite ver picos ou tendências ao longo do tempo na criação e atualização das filas.
*   Fizemos o mesmo para as colunas `scheduledAt` e `sendAt`, visualizando a distribuição mensal de agendamentos e envios. Deu para notar que a coluna `sendAt` tinha muitos valores nulos, o que afeta o gráfico.
*   Por fim, calculamos a taxa de resposta na coluna `response`. Contamos quantos registros tinham algum valor (não nulo) nessa coluna e comparamos com o total de registros para saber o percentual de envios que tiveram alguma resposta registrada.

**Célula sSPvpGHJBcu0 (Campaign - Campanha):**
Aqui, focamos no DataFrame `df2`, que contém informações sobre as campanhas em si.

*   Começamos convertendo as colunas de data (`createdAt`, `updatedAt`) para datetime, assim como fizemos com o `df1`. Tentamos alguns formatos comuns e usamos a inferência para lidar com possíveis variações nos dados.
*   Visualizamos as informações gerais (`df2.info()`) e a contagem de valores únicos (`df2.nunique()`).
*   Checamos os valores nulos (`df2.isnull().sum()`) para entender a completude dos dados das campanhas.
*   Exploramos a distribuição das campanhas por `segmentId`, vendo quais segmentos de clientes foram mais alvo de campanhas.
*   Contamos o número de campanhas por `type` (tipo) e por `status`. Isso nos deu uma visão rápida de quais tipos de campanha são mais comuns e qual o status atual da maioria delas.
*   Criamos um gráfico de barras para visualizar a distribuição de campanhas por status, tornando mais fácil comparar a quantidade de campanhas em cada estado (ativo, inativo, etc.).
*   Para ir mais a fundo, separamos a distribuição dos tipos de campanha por status. Geramos gráficos de pizza para cada status, mostrando a proporção de cada tipo de campanha dentro daquele status específico. Isso ajuda a entender, por exemplo, se certos tipos de campanha tendem a ficar em um status particular.
*   Finalmente, visualizamos a distribuição temporal (mensal) da criação (`createdAt`) e atualização (`updatedAt`) das campanhas com gráficos de linha, similar ao que fizemos com o `df1`, para identificar padrões ao longo do tempo na gestão das campanhas.

**Célula kokLD947BjoK (Customer - Cliente):**
Nesta célula, exploramos o DataFrame `df3`, com informações sobre os clientes.

*   Começamos verificando a contagem de valores únicos e os valores nulos nas colunas, como de costume.
*   Convertemos as colunas de data (`dateOfBirth`, `enrichedAt`, `createdAt`, `updatedAt`) para datetime. Foi um pouco mais desafiador aqui, pois tentamos diferentes formatos para garantir que a conversão funcionasse para a coluna `dateOfBirth`.
*   Olhamos a distribuição de `gender` (gênero) dos clientes e criamos um gráfico de barras para visualizar essa distribuição.
*   Fizemos uma análise interessante com a coluna `phone`. Tentamos extrair o DDD (os dois primeiros dígitos após o código do país, assumindo um formato específico) para ver a distribuição geográfica dos clientes e mostramos um gráfico com os 10 DDDs mais frequentes.

**Célula dHYJDOrjBnWK (Order - Pedido):**
Por último, exploramos o DataFrame `df4`, contendo os detalhes dos pedidos.

*   Começamos com a contagem de valores únicos e a verificação de valores nulos.
*   Convertemos as colunas de data (`createdAt`, `updatedAt`) para datetime, lidando com diferentes formatos possíveis.
*   Analisamos a distribuição dos `status` dos pedidos e geramos um gráfico de barras para visualizar quantos pedidos estão em cada status (pendente, concluído, cancelado, etc.).
*   Calculamos a média do `totalAmount` (valor total) dos pedidos agrupados por status. Isso nos dá uma ideia do valor médio dos pedidos em cada fase.
*   Identificamos e mostramos os 10 clientes que fizeram mais pedidos, olhando a contagem de ocorrências de cada `customer` na coluna.
*   Visualizamos a distribuição temporal (mensal) da criação (`createdAt`) e atualização (`updatedAt`) dos pedidos com gráficos de linha, para entender a frequência de pedidos e atualizações ao longo do tempo.

Basicamente, em cada DataFrame, a ideia foi entender a estrutura dos dados, identificar valores importantes, verificar a qualidade (nulos, unicidade) e visualizar as distribuições de atributos chave e temporais para ter uma visão geral do que cada conjunto de dados representa.

Espero que este relatório ajude na sua atividade! Se precisar de algo mais, é só me dizer. 😊