In [1]:
"""
01_data_profiling.ipynb
======================
Pierwsza analiza danych dla Retail Omnichannel Optimization
Autor: Paweł Żołądkiewicz
Data: 12 sierpnia 2025

Cel: Poznanie datasetu, identyfikacja problemów jakościowych,
     przygotowanie do budowy modelu gwiazdy.
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

print("🚀 Rozpoczynamy analizę Online Retail II dataset")
print("=" * 50)
print(f"✅ Python version: {pd.__version__}")
print(f"✅ Current time: {datetime.now().strftime('%Y-%m-%d %H:%M')}")


🚀 Rozpoczynamy analizę Online Retail II dataset
✅ Python version: 2.3.1
✅ Current time: 2025-08-12 19:02


In [2]:
# ==========================================
# WCZYTANIE DATASETU ONLINE RETAIL II
# ==========================================

print("📂 Wczytywanie danych Online Retail II...")

# Ścieżka do pliku (relative path z notebooks/)
file_path = '../data/raw/online_retail_II.xlsx'

try:
    # Wczytanie Excel file
    df = pd.read_excel(file_path)
    
    print(f"✅ SUKCES! Wczytano {len(df):,} rekordów")
    print(f"📊 Kolumny ({len(df.columns)}): {list(df.columns)}")
    print(f"💾 Rozmiar w pamięci: {df.memory_usage(deep=True).sum() / 1024**2:.1f} MB")
    print(f"📅 Zakres dat: {df['InvoiceDate'].min()} → {df['InvoiceDate'].max()}")
    
except FileNotFoundError:
    print("❌ BŁĄD: Nie znaleziono pliku online_retail_II.xlsx")
    print("📍 Sprawdź ścieżkę: projects/Retail-Omnichannel-Optimization/data/raw/")
    print("🔗 Pobierz z: https://archive.ics.uci.edu/ml/datasets/Online+Retail+II")
except Exception as e:
    print(f"❌ BŁĄD: {str(e)}")


📂 Wczytywanie danych Online Retail II...
✅ SUKCES! Wczytano 525,461 rekordów
📊 Kolumny (8): ['Invoice', 'StockCode', 'Description', 'Quantity', 'InvoiceDate', 'Price', 'Customer ID', 'Country']
💾 Rozmiar w pamięci: 122.9 MB
📅 Zakres dat: 2009-12-01 07:45:00 → 2010-12-09 20:01:00


In [3]:
# ==========================================
# PODSTAWOWA ANALIZA STRUKTURY DANYCH
# ==========================================

print("🔍 ANALIZA STRUKTURY DATASETU")
print("=" * 40)

# Podstawowe info
print("📋 BASIC INFO:")
df.info()

print("\n" + "="*40)
print("📈 STATYSTYKI NUMERYCZNE:")
df.describe()

print("\n" + "="*40)
print("🔤 UNIKALNE WARTOŚCI:")
for col in df.columns:
    unique_count = df[col].nunique()
    null_count = df[col].isnull().sum()
    print(f"• {col:<15}: {unique_count:>8,} unique | {null_count:>8,} nulls")


🔍 ANALIZA STRUKTURY DATASETU
📋 BASIC INFO:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 525461 entries, 0 to 525460
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   Invoice      525461 non-null  object        
 1   StockCode    525461 non-null  object        
 2   Description  522533 non-null  object        
 3   Quantity     525461 non-null  int64         
 4   InvoiceDate  525461 non-null  datetime64[ns]
 5   Price        525461 non-null  float64       
 6   Customer ID  417534 non-null  float64       
 7   Country      525461 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 32.1+ MB

📈 STATYSTYKI NUMERYCZNE:

🔤 UNIKALNE WARTOŚCI:
• Invoice        :   28,816 unique |        0 nulls
• StockCode      :    4,632 unique |        0 nulls
• Description    :    4,681 unique |    2,928 nulls
• Quantity       :      825 unique |        0 nulls
• Invoice