# Zadania z uczenia maszynowego w finansach

Ten notatnik zawiera praktyczne zadania wykorzystujące rzeczywiste zbiory danych finansowych.# Źródła danych do zadań

## 1. German Credit Data (Ocena zdolności kredytowej):
- Główne źródło: https://archive.ics.uci.edu/dataset/144/statlog+german+credit+data
- Alternatywnie na Kaggle: https://www.kaggle.com/datasets/uciml/german-credit
- Format: CSV
- Liczba rekordów: 1000
- Liczba atrybutów: 20

## 2. Stock Market Trading Data (Transakcje giełdowe):
- Źródło API Yahoo Finance: https://finance.yahoo.com/quote/%5EGSPC/history
- Alternatywnie gotowy zbiór na Kaggle: https://www.kaggle.com/datasets/borismarjanovic/price-volume-data-for-all-us-stocks-etfs
- API yfinance: https://pypi.org/project/yfinance/
- Dane historyczne S&P 500

## 3. Investor Behavior Dataset (Profile inwestorów):
- Kaggle: https://www.kaggle.com/code/keshariji/influence-of-age-on-investor-behavior/notebook
- Format: CSV
- Zawiera dane o preferencjach inwestycyjnych

## 4. Company Bankruptcy Data (Prognozowanie bankructwa):
- UCI: https://archive.ics.uci.edu/dataset/572/taiwanese+bankruptcy+prediction
- Alternatywnie na Kaggle: https://www.kaggle.com/datasets/fedesoriano/company-bankruptcy-prediction
- Zawiera dane o firmach tajwańskich
- 95 wskaźników finansowych

## 5. Bank Transactions Data (Wykrywanie prania pieniędzy):
- Kaggle: https://www.kaggle.com/datasets/ealaxi/banksim1
- Symulowane transakcje bankowe
- Zawiera oznaczone przypadki podejrzanych transakcji

## 6. Portfolio Performance Data (Analiza portfeli):
- Kaggle: https://www.kaggle.com/datasets/borismarjanovic/price-volume-data-for-all-us-stocks-etfs
- Zawiera historyczne wyniki portfeli
- Wskaźniki efektywności inwestycji

## Dodatkowe źródła danych finansowych:

1. FRED (Federal Reserve Economic Data):
   - https://fred.stlouisfed.org/
   - API dostępne przez pakiet pandas_datareader

2. World Bank Financial Data:
   - https://data.worldbank.org/topic/financial-sector
   - Dostępne przez API World Bank



## 1. Klasyfikacja - Ocena zdolności kredytowej

**Zbiór danych**: German Credit Data

**Źródło**: UCI Machine Learning Repository

**Opis**: Zbiór zawiera dane klientów ubiegających się o kredyt. Celem jest przewidzenie czy klient jest wiarygodny kredytowo.

**Cechy**:
- Status rachunku bieżącego
- Czas trwania kredytu
- Historia kredytowa
- Cel kredytu
- Kwota kredytu
- Oszczędności
- Długość zatrudnienia
- Rata w % dochodu
- Status osobisty i płeć
- Inni dłużnicy / poręczyciele

## 2. Detekcja anomalii - Wykrywanie podejrzanych transakcji giełdowych

**Zbiór danych**: Stock Market Trading Data

**Źródło**: Yahoo Finance

**Opis**: Zbiór zawiera dane transakcji giełdowych. Celem jest wykrycie nietypowych wzorców handlowych.

**Cechy**:
- Data i czas transakcji
- Symbol spółki
- Cena otwarcia/zamknięcia
- Wolumen
- Wysokość/Niskość
- Zmiana procentowa

## 3. Segmentacja - Profilowanie inwestorów

**Zbiór danych**: Investor Behavior Dataset

**Źródło**: Kaggle

**Opis**: Zbiór zawiera dane o zachowaniach inwestorów. Celem jest podzielenie inwestorów na grupy o podobnych strategiach inwestycyjnych.

**Cechy**:
- Wiek
- Kapitał inwestycyjny
- Tolerancja ryzyka (1-10)
- Preferowane klasy aktywów
- Horyzont inwestycyjny
- Częstotliwość transakcji

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier, IsolationForest
from sklearn.cluster import KMeans
from sklearn.metrics import classification_report, silhouette_score

# Zadanie 1: Implementacja modelu oceny zdolności kredytowej
def credit_scoring_model(data):
    """
    Zbuduj model oceny zdolności kredytowej:
    1. Przetwórz zmienne kategoryczne
    2. Obsłuż brakujące dane
    3. Zastosuj techniki balansowania klas
    4. Wytrenuj i oceń model
    """
    pass

# Zadanie 2: Wykrywanie podejrzanych transakcji
def detect_suspicious_trades(data):
    """
    Wykryj podejrzane transakcje:
    1. Oblicz wskaźniki techniczne
    2. Zidentyfikuj wzorce wolumenu
    3. Zastosuj modele detekcji anomalii
    4. Ustal progi alarmowe
    """
    pass

# Zadanie 3: Segmentacja inwestorów
def investor_segmentation(data):
    """
    Przeprowadź segmentację inwestorów:
    1. Przygotuj cechy
    2. Określ optymalną liczbę segmentów
    3. Przeprowadź klasteryzację
    4. Scharakteryzuj profile
    """
    pass

## 4. Klasyfikacja - Prognozowanie bankructwa

**Zbiór danych**: Company Bankruptcy Data

**Opis**: Zbiór zawiera wskaźniki finansowe firm. Celem jest przewidzenie ryzyka bankructwa.

**Cechy**:
- Wskaźniki płynności
- Wskaźniki rentowności
- Wskaźniki zadłużenia
- Wskaźniki operacyjne

In [None]:
def bankruptcy_prediction(data):
    """
    Zbuduj model przewidywania bankructwa:
    1. Analiza wskaźników finansowych
    2. Selekcja najważniejszych cech
    3. Implementacja ensemble learning
    4. Kalibracja prawdopodobieństw
    """
    pass

## 5. Detekcja anomalii - Wykrywanie prania pieniędzy

**Zbiór danych**: Bank Transactions Data

**Opis**: Zbiór zawiera transakcje bankowe. Celem jest wykrycie podejrzanych przepływów pieniężnych.

**Cechy**:
- Typ transakcji
- Kwota
- Kraj pochodzenia/przeznaczenia
- Częstotliwość transakcji
- Historia konta

In [None]:
def money_laundering_detection(data):
    """
    Wykryj podejrzane przepływy pieniężne:
    1. Analiza wzorców transakcji
    2. Budowa grafów transakcji
    3. Wykrywanie cykli przepływów
    4. Scoringowanie ryzyka
    """
    pass

## 6. Segmentacja - Analiza portfeli inwestycyjnych

**Zbiór danych**: Portfolio Performance Data

**Opis**: Zbiór zawiera dane o wynikach różnych portfeli inwestycyjnych. Celem jest grupowanie portfeli o podobnych charakterystykach.

**Cechy**:
- Alokacja aktywów
- Stopa zwrotu
- Zmienność
- Wskaźnik Sharpe'a
- Beta portfela

In [None]:
def portfolio_segmentation(data):
    """
    Przeprowadź segmentację portfeli:
    1. Oblicz miary ryzyka
    2. Analiza efektywności
    3. Klasteryzacja hierarchiczna
    4. Interpretacja profili
    """
    pass