# Zadania z klasyfikacji, detekcji anomalii i segmentacji

Ten notatnik zawiera praktyczne zadania wykorzystujące rzeczywiste zbiory danych.

## 1. Klasyfikacja - Diagnoza cukrzycy

**Zbiór danych**: Pima Indians Diabetes Database

**Źródło**: UCI Machine Learning Repository

**Opis**: Zbiór zawiera dane medyczne pacjentek pochodzących z plemienia Pima Indians. Celem jest przewidzenie czy pacjentka choruje na cukrzycę.

**Cechy**:
- Liczba ciąż
- Stężenie glukozy we krwi
- Ciśnienie krwi
- Grubość fałdu skórnego
- Poziom insuliny
- BMI
- Funkcja rodowodu cukrzycy
- Wiek

Pima Indians Diabetes Database:


https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv
Alternatywnie na UCI: https://archive.ics.uci.edu/dataset/267/diabetes


Credit Card Fraud Detection:


https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
Oryginalny zbiór na Kaggle zawiera 284,807 transakcji


Mall Customer Segmentation Data:


https://www.kaggle.com/datasets/vjchoudhary7/customer-segmentation-tutorial-in-python
Alternatywnie dostępny na: https://www.kaggle.com/shwetabh123/mall-customers


Bank Customer Churn:


https://www.kaggle.com/datasets/adammaus/predicting-churn-for-bank-customers
Alternatywnie: https://www.kaggle.com/datasets/shrutimechlearn/churn-modelling


Manufacturing Process Failures:


https://archive.ics.uci.edu/dataset/601/ai4i+2020+predictive+maintenance+dataset
Jest to zbiór AI4I 2020 Predictive Maintenance Dataset


Online Retail Dataset:


https://archive.ics.uci.edu/dataset/352/online+retail
Alternatywnie dostępny na Kaggle: https://www.kaggle.com/datasets/carrie1/ecommerce-data

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# Wczytaj dane
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
column_names = ['pregnancies', 'glucose', 'blood_pressure', 'skin_thickness', 'insulin',
                'bmi', 'diabetes_pedigree', 'age', 'outcome']
df = pd.read_csv(url, names=column_names)

# Zadanie: Zaimplementuj model klasyfikacji
def train_diabetes_classifier(X, y):
    # Twoje rozwiązanie
    pass

## 2. Detekcja anomalii - Wykrywanie oszustw kartami kredytowymi

**Zbiór danych**: Credit Card Fraud Detection

**Źródło**: Kaggle

**Opis**: Zbiór zawiera transakcje kartami kredytowymi, z których część to oszustwa. Celem jest wykrycie podejrzanych transakcji.

**Cechy**:
- 28 przekształconych cech (V1-V28) ze względu na poufność
- Time - czas od pierwszej transakcji
- Amount - kwota transakcji
- Class - zmienna określająca czy transakcja jest oszustwem (1) czy nie (0)

In [None]:
import numpy as np
from sklearn.ensemble import IsolationForest
from sklearn.preprocessing import RobustScaler

def detect_credit_card_fraud(transactions):
    """
    Wykrywanie oszustw z wykorzystaniem Isolation Forest i Local Outlier Factor
    
    1. Przeskaluj cechy używając RobustScaler
    2. Zaimplementuj Isolation Forest
    3. Dodaj Local Outlier Factor jako drugi model
    4. Połącz wyniki z obu modeli
    """
    # Twoje rozwiązanie
    pass

## 3. Segmentacja - Segmentacja klientów sklepu

**Zbiór danych**: Mall Customer Segmentation Data

**Źródło**: Kaggle

**Opis**: Zbiór zawiera dane klientów centrum handlowego. Celem jest podzielenie klientów na grupy o podobnych zachowaniach zakupowych.

**Cechy**:
- CustomerID
- Gender
- Age
- Annual Income (k$)
- Spending Score (1-100)

In [None]:
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score

def segment_mall_customers(customer_data):
    """
    Segmentacja klientów z wykorzystaniem K-means
    
    1. Przygotuj dane (standaryzacja)
    2. Znajdź optymalną liczbę klastrów używając metody łokcia i współczynnika silhouette
    3. Przeprowadź klasteryzację
    4. Przeanalizuj charakterystykę każdego segmentu
    """
    # Twoje rozwiązanie
    pass

## 4. Klasyfikacja - Przewidywanie rezygnacji klientów banku

**Zbiór danych**: Bank Customer Churn

**Źródło**: Kaggle

**Opis**: Zbiór zawiera dane klientów banku. Celem jest przewidzenie, którzy klienci zrezygnują z usług banku.

**Cechy**:
- CreditScore
- Geography
- Gender
- Age
- Tenure
- Balance
- NumOfProducts
- HasCrCard
- IsActiveMember
- EstimatedSalary

In [None]:
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import cross_val_score

def predict_bank_churn(customer_data):
    """
    Przewidywanie rezygnacji klientów
    
    1. Przygotuj dane (kodowanie zmiennych kategorycznych, standaryzacja)
    2. Wybierz istotne cechy
    3. Zbuduj model Gradient Boosting
    4. Przeprowadź walidację krzyżową
    5. Przeanalizuj ważność cech
    """
    # Twoje rozwiązanie
    pass

## 5. Detekcja anomalii - Wykrywanie wadliwych produktów

**Zbiór danych**: Manufacturing Process Failures

**Źródło**: UCI Machine Learning Repository

**Opis**: Zbiór zawiera pomiary z procesu produkcyjnego. Celem jest wykrycie wadliwych produktów.

**Cechy**:
- Temperatura procesu
- Ciśnienie
- Wilgotność
- Wibracje
- Inne parametry procesu produkcyjnego

In [None]:
from sklearn.covariance import EllipticEnvelope
from sklearn.svm import OneClassSVM

def detect_manufacturing_anomalies(process_data):
    """
    Wykrywanie wadliwych produktów
    
    1. Przygotuj dane (usunięcie odstających wartości, normalizacja)
    2. Zastosuj Elliptic Envelope do wykrycia anomalii
    3. Porównaj wyniki z One-Class SVM
    4. Określ progi dla różnych poziomów pewności
    """
    # Twoje rozwiązanie
    pass

## 6. Segmentacja - Grupowanie produktów

**Zbiór danych**: Online Retail Dataset

**Źródło**: UCI Machine Learning Repository

**Opis**: Zbiór zawiera transakcje sprzedaży online. Celem jest pogrupowanie produktów na podstawie wzorców zakupowych.

**Cechy**:
- InvoiceNo
- StockCode
- Description
- Quantity
- InvoiceDate
- UnitPrice
- CustomerID
- Country

In [None]:
from sklearn.cluster import DBSCAN
from sklearn.decomposition import PCA

def segment_products(sales_data):
    """
    Segmentacja produktów
    
    1. Przygotuj cechy (częstość zakupów, średnia wartość koszyka, sezonowość)
    2. Zredukuj wymiarowość używając PCA
    3. Zastosuj DBSCAN do znalezienia klastrów
    4. Przeanalizuj charakterystykę każdego segmentu
    """
    # Twoje rozwiązanie
    pass