In [ ]:
# PROJETO MINI MERCADO INTELIGENTE
import pandas as pd
import numpy as np

arquivo = "SEU_ARQUIVO_AQUI.csv"  # troque na prova

if arquivo.endswith('.csv'):
    df = pd.read_csv(arquivo)
elif arquivo.endswith('.xlsx'):
    df = pd.read_excel(arquivo)
else:
    raise ValueError('Formato não suportado!')

df.head()

In [ ]:
# ETL
df = df.drop_duplicates()
df = df.dropna()
df.columns = df.columns.str.lower().str.strip().str.replace(' ', '_')
df.info()

In [ ]:
# ANÁLISE DESCRITIVA
df['total'] = df['quantidade'] * df['preco']
print(df['produto'].value_counts().head(5))
print(df.groupby('produto')['total'].sum().sort_values(ascending=False).head(5))

In [ ]:
# APRIORI
from mlxtend.frequent_patterns import apriori, association_rules

carrinho = df.pivot_table(index='transacao_id', columns='produto', values='quantidade', aggfunc=lambda x: 1, fill_value=0)
freq = apriori(carrinho, min_support=0.05, use_colnames=True)
regras = association_rules(freq, metric='confidence', min_threshold=0.3)
regras.head()

In [ ]:
# SIMILARIDADE JACCARD
from sklearn.metrics import jaccard_score

matriz = df.pivot_table(index='cliente_id', columns='produto', values='quantidade', aggfunc=lambda x: 1, fill_value=0)

clientes = matriz.index.tolist()
sim = pd.DataFrame(index=clientes, columns=clientes, dtype=float)

for c1 in clientes:
    for c2 in clientes:
        sim.loc[c1, c2] = jaccard_score(matriz.loc[c1], matriz.loc[c2])

sim.head()

In [ ]:
# GRÁFICOS
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(8,5))
df['produto'].value_counts().head(5).plot(kind='bar')
plt.show()