# **Entrega 2 de Projeto Interdisciplinar Ciência de Dados**

Neste arquivo mostra todos os passos solicitados referente a entrega da matéria em questão.


**Alunos**:

Felipe Vallim Soares

Pedro Della Rosa Antonio

João Victor Rezende

Arthur Paltrinieri


---



# **1- Carregar e limpar dados**

In [2]:
# Importação de Bibliotecas
print("--- Bloco 1: Importando Bibliotecas ---")
import pandas as pd
import numpy as np
import re
from datetime import date
import io

print("Bibliotecas importadas com sucesso.\n")

# Funções Auxiliares e Mapas de Categoria ---
print("--- Bloco 2: Definindo Funções Auxiliares e Mapas ---")

# Função para normalizar (limpar) números de celular
def normalize_phone(phone_number):
    """Remove todos os caracteres não numéricos de um telefone."""
    if pd.isna(phone_number):
        return None
    return re.sub(r'\D', '', str(phone_number))

# Mapa de Categorias (da planilha 'cupons.csv')
mapa_categorias = {
    "Habib's": "Restaurante", "Burger King": "Fast Food", "Outback": "Restaurante",
    "Subway": "Fast Food", "Madero": "Restaurante", "Ráscal": "Restaurante",
    "Churrascaria Boi Preto": "Restaurante", "Açaí no Ponto": "Lanchonete",
    "Starbucks": "Cafeteria", "Café Cultura": "Cafeteria", "Octavio Café": "Cafeteria",
    "Smart Fit": "Academia", "Selfit": "Academia", "Just Run": "Academia",
    "Clube Pinheiros": "Clube", "Sesc Paulista": "Centro Esportivo", "Sesc Carmo": "Centro Esportivo",
    "Forever 21": "Vestuário", "Renner": "Vestuário", "Riachuelo": "Vestuário",
    "Magazine Luiza": "Varejo", "Casas Bahia": "Varejo", "Ponto": "Varejo",
    "Extra": "Supermercado", "Pão de Açúcar": "Supermercado", "Carrefour Express": "Supermercado",
    "Droga Raia": "Farmácia", "Drogasil": "Farmácia", "Drogaria São Paulo": "Farmácia",
    "Sabin": "Laboratório", "Fleury": "Laboratório", "Lavoisier": "Laboratório",
    "McDonald's": "Fast Food"
}

# Mapa de Tipos de Loja (da planilha 'lojas.csv')
mapa_tipos_loja = {
    'Pão de Açúcar':'Super-Mercado', 'Kalunga':'Papelaria', 'Daiso Japan':'Eletrônicos',
    'Smart Fit':'Academia', 'Livraria Cultura':'Livraria', 'Drogaria São Paulo':'Farmácia',
    'Havaianas':'Vestuário', 'Subway':'Fast Food', 'Lojas Americanas':'Super-Mercado',
    'Fast Shop':'Eletrônicos', 'Outback':'Restaurante', 'Extra Mercado':'Super-Mercado',
    'Ponto Frio':'Varejista', 'Renner':'Vestuário', 'Riachuelo':'Vestuário'
}
print("Funções e mapas definidos.\n")

--- Bloco 1: Importando Bibliotecas ---
Bibliotecas importadas com sucesso.

--- Bloco 2: Definindo Funções Auxiliares e Mapas ---
Funções e mapas definidos.



## **2- Selecionar e limpar dados**




In [7]:
# --- Bloco 3: Etapa 1 (Selecionar) e 2 (Limpar) ---
print("--- Bloco 3: Etapas 1 e 2: SELECIONAR e LIMPAR os Dados ---")

# Nomes dos arquivos originais (como você os upou no Colab)
FILE_PLAYERS = "players.csv"
FILE_TRANSACOES = "cupons.csv"
FILE_LOJAS = "lojas.csv"
FILE_PEDESTRES = "pedestres.csv"

# Função robusta para carregar e limpar
def carregar_e_limpar_csv(filename):
    try:
        # Etapa 1: SELECIONAR (Ler o arquivo)
        # Etapa 2: LIMPAR (encoding, sep)
        df = pd.read_csv(filename, encoding='latin1', sep=';')

        # Etapa 2: LIMPAR (remover 'ï»¿' (BOM) dos cabeçalhos)
        df.columns = df.columns.str.replace(r'\ufeff', '', regex=True).str.strip()

        # Etapa 2: LIMPAR (remover linhas de lixo, ex: "Pgina")
        primeira_coluna = df.columns[0]
        df = df[df[primeira_coluna].notna()]
        df = df[~df[primeira_coluna].astype(str).str.contains('Pgina', na=False)]

        # Etapa 2: UNIFORMIZAR (remover espaços extras)
        for col in df.select_dtypes(include=['object']):
            df[col] = df[col].str.strip()

        print(f"Arquivo '{filename}' lido e limpo. {len(df)} linhas válidas.")
        return df
    except FileNotFoundError:
        print(f"--- ERRO CRÍTICO --- \nArquivo '{filename}' não encontrado.")
        print("Por favor, faça o upload dos 4 arquivos CSV originais e rode esta célula novamente.")
        return None
    except Exception as e:
        print(f"ERRO ao ler '{filename}': {e}")
        return None

df_players = carregar_e_limpar_csv(FILE_PLAYERS)
df_transacoes = carregar_e_limpar_csv(FILE_TRANSACOES)
df_lojas = carregar_e_limpar_csv(FILE_LOJAS)
df_pedestres = carregar_e_limpar_csv(FILE_PEDESTRES)

print("\n--- Visualização da Limpeza (Players) ---")
if df_players is not None:
    print(df_players.head())

print("\n--- Visualização da Limpeza (Transações) ---")
if df_transacoes is not None:
    print(df_transacoes.head())

--- Bloco 3: Etapas 1 e 2: SELECIONAR e LIMPAR os Dados ---
Arquivo 'players.csv' lido e limpo. 10000 linhas válidas.
Arquivo 'cupons.csv' lido e limpo. 100000 linhas válidas.
Arquivo 'lojas.csv' lido e limpo. 10000 linhas válidas.
Arquivo 'pedestres.csv' lido e limpo. 100000 linhas válidas.

--- Visualização da Limpeza (Players) ---
           celular data_nascimento  idade       sexo cidade_residencial  \
0  (11) 91409-5506      12/10/1969     55  Masculino          São Paulo   
1  (11) 91520-1488      19/02/1981     44  Masculino          São Paulo   
2  (11) 98359-5557      10/09/1979     45  Masculino          São Paulo   
3  (11) 96514-2674      05/03/1957     68  Masculino          São Paulo   
4  (11) 99785-3045      30/10/1969     55   Feminino          São Paulo   

  bairro_residencial cidade_trabalho bairro_trabalho cidade_escola  \
0                 Sé             NaN             NaN           NaN   
1           Ipiranga             NaN             NaN           NaN   
2  

## **3- Derivar dados**

In [4]:
# --- DERIVAR Dados ---
print("\n--- Bloco 4: Etapa 3: DERIVAR Dados (Criar Novas Colunas) ---")

try:
    # --- Derivação em 'Players' ---
    print("Processando Players...")
    # Corrigir data_nascimento e recalcular idade
    df_players["data_nascimento"] = pd.to_datetime(df_players["data_nascimento"], dayfirst=True, errors="coerce")
    hoje = pd.Timestamp(date.today())
    df_players["idade_calculada"] = df_players["data_nascimento"].apply(
        lambda d: hoje.year - d.year - ((hoje.month, hoje.day) < (d.month, d.day)) if pd.notnull(d) else None)
    # Criar chave de integração
    df_players['celular_norm'] = df_players['celular'].apply(normalize_phone)
    # Sobrescrever a idade antiga pela calculada
    df_players['idade'] = df_players['idade_calculada']
    df_players = df_players.drop(columns=['idade_calculada']) # Limpa a coluna extra

    # --- Derivação em 'Transações' (Cupons) ---
    print("Processando Transações (Cupons)...")
    # Corrigir data e hora
    df_transacoes["data"] = pd.to_datetime(df_transacoes["data"], dayfirst=True, errors="coerce")
    df_transacoes["hora"] = pd.to_datetime(df_transacoes["hora"], errors="coerce", format='%H:%M:%S').dt.time
    # Mapear categoria (do seu script)
    df_transacoes["categoria_estabelecimento"] = df_transacoes["nome_estabelecimento"].map(mapa_categorias)
    # Corrigir valores numéricos
    df_transacoes['valor_cupom'] = pd.to_numeric(df_transacoes['valor_cupom'].str.replace(',', '.'), errors='coerce').fillna(0)
    df_transacoes['repasse_picmoney'] = pd.to_numeric(df_transacoes['repasse_picmoney'].str.replace(',', '.'), errors='coerce').fillna(0)
    # Derivar receita líquida
    df_transacoes['receita_liquida'] = df_transacoes['valor_cupom'] - df_transacoes['repasse_picmoney']
    # Criar chave de integração
    df_transacoes['celular_norm'] = df_transacoes['celular'].apply(normalize_phone)

    # --- Derivação em 'Lojas' ---
    print("Processando Lojas...")
    df_lojas["data_captura"] = pd.to_datetime(df_lojas["data_captura"], dayfirst=True, errors="coerce")
    # Corrigindo o BUG do seu script (usando mapa_tipos_loja)
    df_lojas["tipo_loja_mapeada"] = df_lojas["nome_loja"].map(mapa_tipos_loja)
    # Sobrescreve a coluna antiga (se ela existir) ou cria uma nova
    df_lojas['tipo_loja'] = df_lojas['tipo_loja_mapeada']
    df_lojas = df_lojas.drop(columns=['tipo_loja_mapeada']) # Limpa a coluna extra
    # Corrigir valores numéricos
    df_lojas['valor_compra'] = pd.to_numeric(df_lojas['valor_compra'].str.replace(',', '.'), errors='coerce').fillna(0)
    df_lojas['valor_cupom'] = pd.to_numeric(df_lojas['valor_cupom'].str.replace(',', '.'), errors='coerce').fillna(0)

    # --- Derivação em 'Pedestres' ---
    print("Processando Pedestres...")
    df_pedestres["data"] = pd.to_datetime(df_pedestres["data"], dayfirst=True, errors="coerce")
    df_pedestres["data_ultima_compra"] = pd.to_datetime(df_pedestres["data_ultima_compra"], dayfirst=True, errors="coerce")
    df_pedestres["horario"] = pd.to_datetime(df_pedestres["horario"], errors="coerce", format='%H:%M:%S').dt.time
    # Corrigir lat/lon
    df_pedestres['latitude'] = pd.to_numeric(df_pedestres['latitude'].str.replace(',', '.'), errors='coerce')
    df_pedestres['longitude'] = pd.to_numeric(df_pedestres['longitude'].str.replace(',', '.'), errors='coerce')
    # Criar chave de integração
    df_pedestres['celular_norm'] = df_pedestres['celular'].apply(normalize_phone)

    print("Derivação de dados concluída.\n")
except Exception as e:
    print(f"ERRO na Etapa 3: {e}")



--- Bloco 4: Etapa 3: DERIVAR Dados (Criar Novas Colunas) ---
Processando Players...
Processando Transações (Cupons)...
Processando Lojas...
Processando Pedestres...
Derivação de dados concluída.



## **4- Integrar dados**

In [5]:
# --- Bloco 5: Etapa 4: INTEGRAR Dados ---
print("--- Bloco 5: Etapa 4: INTEGRAR Dados ---")
print("Renomeando colunas da 'Base de Lojas' para integração (conforme script)...")
try:
    df_lojas = df_lojas.rename(columns={
        "numero_celular": "celular",
        "data_captura" : "data",
        "tipo_loja" : "categoria_estabelecimento",
        "nome_loja" : "nome_estabelecimento",
        "endereco_loja" : "endereco_estabelecimento"
    })
    print("Colunas de 'Lojas' renomeadas com sucesso.")
    print(df_lojas.info())

    print("\nDemonstração de Integração (Receita por Bairro):")
    # Mesma lógica da nossa API /api/valor-por-bairro
    players_subset = df_players[['celular_norm', 'bairro_residencial']]
    cupons_subset = df_transacoes[['celular_norm', 'valor_cupom']]

    df_integrado = pd.merge(cupons_subset, players_subset, on='celular_norm', how='left')
    df_integrado_limpo = df_integrado.dropna(subset=['bairro_residencial', 'valor_cupom'])

    df_receita_bairro = df_integrado_limpo.groupby('bairro_residencial')['valor_cupom'].sum()
    df_receita_bairro = df_receita_bairro.reset_index().sort_values(by='valor_cupom', ascending=False)

    print("Análise 'Receita por Bairro' (Players + Cupons) concluída:")
    print(df_receita_bairro.head().to_markdown(index=False, floatfmt=",.2f"))

except Exception as e:
    print(f"ERRO na Etapa 4: {e}")


--- Bloco 5: Etapa 4: INTEGRAR Dados ---
Renomeando colunas da 'Base de Lojas' para integração (conforme script)...
Colunas de 'Lojas' renomeadas com sucesso.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 11 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   celular                    10000 non-null  object        
 1   data                       10000 non-null  datetime64[ns]
 2   tipo_cupom                 10000 non-null  object        
 3   categoria_estabelecimento  10000 non-null  object        
 4   local_captura              10000 non-null  object        
 5   latitude                   10000 non-null  object        
 6   longitude                  10000 non-null  object        
 7   nome_estabelecimento       10000 non-null  object        
 8   endereco_estabelecimento   10000 non-null  object        
 9   valor_compra               10000 no

## **5- Formatar e exportar dados**

In [8]:
# --- Bloco 6: Etapa 5: FORMATAR (Exportar) ---
print("\n--- Bloco 6: Etapa 5: FORMATAR (Exportar Dados Limpos) ---")
print("Salvando os 4 arquivos CSV limpos, prontos para a Entrega 2 (Dashboard)...")

try:
    # Usamos os nomes que o nosso backend espera
    df_players.to_csv("players_limpo.csv", index=False, encoding="utf-8-sig")
    df_transacoes.to_csv("cupons_limpo.csv", index=False, encoding="utf-8-sig")
    df_lojas.to_csv("lojas_limpo.csv", index=False, encoding="utf-8-sig")
    df_pedestres.to_csv("pedestres_limpo.csv", index=False, encoding="utf-8-sig")

    print("\n--- Processo ETL Concluído! ---")
    print("Os 4 arquivos a seguir foram salvos no ambiente do Colab:")
    print("1. players_limpo.csv")
    print("2. cupons_limpo.csv")
    print("3. lojas_limpo.csv")
    print("4. pedestres_limpo.csv")
except Exception as e:
    print(f"ERRO na Etapa 5: {e}")


--- Bloco 6: Etapa 5: FORMATAR (Exportar Dados Limpos) ---
Salvando os 4 arquivos CSV limpos, prontos para a Entrega 2 (Dashboard)...

--- Processo ETL Concluído! ---
Os 4 arquivos a seguir foram salvos no ambiente do Colab:
1. players_limpo.csv
2. cupons_limpo.csv
3. lojas_limpo.csv
4. pedestres_limpo.csv




---




# **Segue agora algumas analises e visões**

### **Visão 1: KPIs Gerais (Cálculo)**

In [15]:
# Importação de Bibliotecas de Visualização e Cálculo de KPIs
print("--- Bloco 7: Importando Visualização e Calculando KPIs ---")

# 1. Importações
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import locale
import re # <-- 1. IMPORTAÇÃO ADICIONADA (para limpar celular)

# Configurar Plotly como backend do Pandas e definir tema
pd.options.plotting.backend = "plotly"
template_visual = "plotly_dark" # Tema escuro para os gráficos

# Configurar locale para PT-BR
try:
    locale.setlocale(locale.LC_TIME, 'pt_BR.utf8')
    print("Locale 'pt_BR.utf8' configurado.")
except:
    print("Locale 'pt_BR.utf8' não encontrado, usando o padrão 'C'.")

print("Bibliotecas de visualização prontas.")

# Função para normalizar (limpar) números de celular
def normalize_phone(phone_number):
    """Remove todos os caracteres não numéricos de um telefone."""
    if pd.isna(phone_number):
        return None
    return re.sub(r'\D', '', str(phone_number))

# 3. Lógica de KPIs
print("\n--- Visão 1: KPIs Gerais (Cálculo) ---")

if (not df_transacoes.empty) and (not df_players.empty):
    try:
        # --- (Valores Monetários) ---
        print("Forçando conversão numérica robusta para colunas de valor...")
        df_transacoes['valor_cupom_limpo'] = df_transacoes['valor_cupom'].astype(str).str.replace(r'[R$\s\.]', '', regex=True)
        df_transacoes['valor_cupom_limpo'] = df_transacoes['valor_cupom_limpo'].str.replace(',', '.')
        df_transacoes['valor_cupom'] = pd.to_numeric(df_transacoes['valor_cupom_limpo'], errors='coerce').fillna(0)

        df_transacoes['repasse_limpo'] = df_transacoes['repasse_picmoney'].astype(str).str.replace(r'[R$\s\.]', '', regex=True)
        df_transacoes['repasse_limpo'] = df_transacoes['repasse_limpo'].str.replace(',', '.')
        df_transacoes['repasse_picmoney'] = pd.to_numeric(df_transacoes['repasse_limpo'], errors='coerce').fillna(0)
        print("Conversão de valores concluída.")

        # --- 4. (KeyError 'celular_norm') ---
        # Garantir que a coluna 'celular_norm' exista ANTES de usá-la
        print("Normalizando coluna 'celular' para 'celular_norm'...")
        df_transacoes['celular_norm'] = df_transacoes['celular'].apply(normalize_phone)
        print("Coluna 'celular_norm' criada com sucesso.")

        # Agora 'receita_total' será um float/int
        receita_total = df_transacoes['valor_cupom'].sum()
        comissao_total = df_transacoes['repasse_picmoney'].sum()
        total_transacoes = len(df_transacoes)
        ticket_medio = receita_total / total_transacoes
        clientes_unicos = df_transacoes['celular_norm'].nunique()

        lojas_unicas = df_transacoes['nome_estabelecimento'].nunique()
        total_players = len(df_players)

        print(f"\n--- KPIs Gerais ---")
        print(f"Receita Bruta Total: R$ {receita_total:,.2f}")
        print(f"Comissão PicMoney: R$ {comissao_total:,.2f}")
        print(f"Total de Transações: {total_transacoes:,}")
        print(f"Ticket Médio: R$ {ticket_medio:,.2f}")
        print(f"Clientes Únicos (em transações): {clientes_unicos:,}")
        print(f"Total de Players (cadastrados): {total_players:,}")
        print(f"Lojas Únicas (em transações): {lojas_unicas:,}")

    except Exception as e:
        print(f"ERRO no Bloco 7 (Cálculo de KPIs): {e}")
else:
    print("Dados de transações ou players não carregados. Pule esta célula ou corrija os Blocos 3-4.")

--- Bloco 7: Importando Visualização e Calculando KPIs ---
Locale 'pt_BR.utf8' não encontrado, usando o padrão 'C'.
Bibliotecas de visualização prontas.

--- Visão 1: KPIs Gerais (Cálculo) ---
Forçando conversão numérica robusta para colunas de valor...
Conversão de valores concluída.
Normalizando coluna 'celular' para 'celular_norm'...
Coluna 'celular_norm' criada com sucesso.

--- KPIs Gerais ---
Receita Bruta Total: R$ 5,004,890,395.00
Comissão PicMoney: R$ 642,366,303.00
Total de Transações: 100,000
Ticket Médio: R$ 50,048.90
Clientes Únicos (em transações): 4,813
Total de Players (cadastrados): 10,000
Lojas Únicas (em transações): 33


### **Visão 2: Distribuição de Cupons**

In [17]:
#  Distribuição de Cupons
print("\n--- Bloco 9: Visão 3: Distribuição de Cupons (Gráfico de Pizza) ---")

if not df_transacoes.empty:
    try:
        df_coupon_dist = df_transacoes.groupby('tipo_cupom').agg(
            quantidade=('id_cupom', 'count')
        ).reset_index()

        fig = px.pie(df_coupon_dist, names='tipo_cupom', values='quantidade',
                     title='Distribuição de Cupons Capturados por Tipo',
                     hole=0.4, # Define o "buraco" no meio para virar um Donut Chart
                     template=template_visual)

        fig.update_traces(textinfo='percent+label', pull=[0.05, 0.05, 0.05])
        fig.show()
    except Exception as e:
        print(f"ERRO no Bloco 9: {e}")
else:
    print("Dados de transações não carregados.")


--- Bloco 9: Visão 3: Distribuição de Cupons (Gráfico de Pizza) ---


### **Visão 3: Top 10 Categorias**

In [18]:
# Bloco 10: Visão 4 - Top 10 Categorias
print("\n--- Bloco 10: Visão 4: Top 10 Categorias (Gráfico de Barras) ---")

if not df_transacoes.empty:
    try:
        df_top_cat = df_transacoes.groupby('categoria_estabelecimento').agg(
            valor=('valor_cupom', 'sum')
        ).reset_index().sort_values('valor', ascending=False).head(10)

        fig = px.bar(df_top_cat, x='valor', y='categoria_estabelecimento',
                     orientation='h',
                     title='Top 10 Categorias por Receita Gerada',
                     labels={'valor': 'Receita Total (R$)', 'categoria_estabelecimento': 'Categoria'},
                     template=template_visual)

        # Ordena o eixo Y para mostrar a maior barra no topo
        fig.update_layout(yaxis={'categoryorder':'total ascending'})
        fig.show()
    except Exception as e:
        print(f"ERRO no Bloco 10: {e}")
else:
    print("Dados de transações não carregados.")


--- Bloco 10: Visão 4: Top 10 Categorias (Gráfico de Barras) ---
