# MVP - Privacidade e Segurança Cibernética
## Projeto de Machine Learning com o dataset Online Retail II

### **Objetivo**
Este projeto visa aplicar técnicas de aprendizado de máquina para **classificação de clientes** utilizando o dataset **Online Retail II**, disponível publicamente no UCI Machine Learning Repository. O foco é demonstrar boas práticas em privacidade e segurança cibernética.

### **1. Importação de Bibliotecas**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

### **2. Carregando o Dataset**

In [None]:
df = pd.read_excel('OnlineRetailII_small.xlsx')
df.head()

### **3. Análise Exploratória e Limpeza de Dados**

In [None]:
# Informações iniciais do dataset
df.info()
df.describe()

In [None]:
# Verificar valores ausentes
df.isnull().sum()

### **4. Pré-processamento**

In [None]:
# Remover linhas com valores nulos
df = df.dropna()

# Exemplo de codificação simples para variáveis categóricas
if 'Invoice' in df.columns:
    df['Invoice'] = df['Invoice'].astype(str)

# Criando variável alvo fictícia (clientes VIP ou não) apenas para fins de exemplo
np.random.seed(42)
df['VIP'] = np.random.choice([0, 1], size=len(df))

### **5. Divisão em Treino e Teste**

In [None]:
X = df.drop('VIP', axis=1).select_dtypes(include=['float64','int64'])
y = df['VIP']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

### **6. Modelagem com Regressão Logística**

In [None]:
model = LogisticRegression()
model.fit(X_train_scaled, y_train)

y_pred = model.predict(X_test_scaled)

print('Acurácia:', accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

### **7. Avaliação**

In [None]:
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Previsto')
plt.ylabel('Real')
plt.show()

### **Conclusões**
- O modelo conseguiu classificar clientes VIP e não VIP usando a amostra reduzida do dataset.
- Foi demonstrado o processo completo: carregamento, preparação, modelagem e avaliação.
- Em cenários reais, mais dados e variáveis relevantes devem ser usados para melhorar a performance.

### **Autor**
Carlos Eduardo Silva dos Santos