# **Projeto de Data Science e Analytics - Produto**

## 1. Objetivo do Projeto
O objetivo deste projeto é colaborar com a equipe de produto para fornecer insights sobre o comportamento do usuário e análise de produtos mais vendidos, utilizando técnicas de Data Science e Analytics.

## 2. Coleta de Dados
- Fonte de Dados: Dados simulados de transações de usuários.
- Formato: CSV.

In [None]:
# Importando bibliotecas
import pandas as pd
from google.colab import files

In [None]:
## IMPORTAR ARQUIVO / CRIAR DATAFRAME
# Criando dados fictícios
data = {'user_id': [1, 2, 3, 4, 5],
        'product_id': [101, 102, 103, 104, 105],
        'purchase_amount': [50.0, 30.0, 40.0, 60.0, 70.0],
        'category': ['Electronics', 'Clothing', 'Electronics', 'Books', 'Toys']}
df = pd.DataFrame(data)

In [None]:
# Salvando dados em um arquivo CSV
df.to_csv('product_data.csv', index=False)

In [None]:
# Fazendo upload para o Google Colab
uploaded = files.upload()

## 3. Pré-processamento de Dados
- Limpeza e Transformação:
  - Tratar valores ausentes, se houver.
  - Normalizar os dados, se necessário

In [None]:
# Carregando dados
df = pd.read_csv('marketing_data.csv')

In [None]:
# Tratamento de valores ausentes
df.fillna(0, inplace=True)

In [None]:
# Normalização (opcional, dependendo dos algoritmos escolhidos)
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df[['purchase_amount']] = scaler.fit_transform(df[['purchase_amount']])

## 4. Análise Exploratória de Dados (EDA)
- Visualização de Padrões:
  - Identificar padrões de compra por categoria.
  - Visualizar distribuições e tendências.

In [None]:
# Visualizando padrões de compra
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
sns.barplot(x='category', y='purchase_amount', data=df)
plt.title('Padrões de Compra por Categoria')
plt.show()


## 5. Modelagem
- Tarefa: Identificar produtos mais propensos a serem comprados.
- Algoritmo Escolhido: Algoritmo de Regressão Logística para classificação.

In [None]:
# Modelagem ML
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Criando uma variável de resposta binária para classificação (por exemplo, se o produto foi comprado ou não)
df['is_purchased'] = df['purchase_amount'] > df['purchase_amount'].mean()

X = df[['user_id', 'product_id']]
y = df['is_purchased']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LogisticRegression()
model.fit(X_train, y_train)

# Avaliação do Modelo
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)

print(f'Acurácia do Modelo: {accuracy}')


## 6. Avaliação e Validação do Modelo
- Método de Avaliação: Acurácia do Modelo.

In [None]:
# Avaliação do Modelo
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)

print(f'Acurácia do Modelo: {accuracy}')

NameError: ignored