# Projekt na zakończenie semestru

## Zbiór danych: E-Commerce Sales Dataset

https://www.kaggle.com/datasets/thedevastator/unlock-profits-with-e-commerce-sales-data


## 1. Analiza eksploracyjna

Tu będzie kiedyś piękny opis

In [2]:
import numpy as np
import pandas as pd

In [3]:
df = pd.read_csv('Amazon Sale Report.csv')

print(f"Wymiary zbioru danych: {df.shape[0]} wierszy × {df.shape[1]} kolumn")

print("PIERWSZE 5 WIERSZY")
print(df.head())

print("PODSTAWOWE INFORMACJE O ZBIORZE")
print(df.info())

print("NAZWY KOLUMN")
print(df.columns.tolist())

print("TYPY DANYCH")
print(df.dtypes)

Wymiary zbioru danych: 128975 wierszy × 24 kolumn
PIERWSZE 5 WIERSZY
   index             Order ID      Date                        Status  \
0      0  405-8078784-5731545  04-30-22                     Cancelled   
1      1  171-9198151-1101146  04-30-22  Shipped - Delivered to Buyer   
2      2  404-0687676-7273146  04-30-22                       Shipped   
3      3  403-9615377-8133951  04-30-22                     Cancelled   
4      4  407-1069790-7240320  04-30-22                       Shipped   

  Fulfilment Sales Channel  ship-service-level    Style              SKU  \
0   Merchant      Amazon.in           Standard   SET389   SET389-KR-NP-S   
1   Merchant      Amazon.in           Standard  JNE3781  JNE3781-KR-XXXL   
2     Amazon      Amazon.in          Expedited  JNE3371    JNE3371-KR-XL   
3   Merchant      Amazon.in           Standard    J0341       J0341-DR-L   
4     Amazon      Amazon.in          Expedited  JNE3671  JNE3671-TU-XXXL   

        Category  ... currency  Amo

  df = pd.read_csv('Amazon Sale Report.csv')


In [4]:
print("KONWERSJA TYPÓW DANYCH")

if 'Amount' in df.columns:
    df['Amount'] = pd.to_numeric(df['Amount'], errors='coerce')
    print("Kolumna 'Amount' przekonwertowana na numeryczną")

if 'Date' in df.columns:
    df['Date'] = pd.to_datetime(df['Date'], format='%m-%d-%y', errors='coerce')
    print("Kolumna 'Date' przekonwertowana na datetime")

if 'Qty' in df.columns:
    df['Qty'] = pd.to_numeric(df['Qty'], errors='coerce')
    print("Kolumna 'Qty' przekonwertowana na numeryczną")

if 'B2B' in df.columns:
    df['B2B'] = df['B2B'].map({'TRUE': True, 'FALSE': False, True: True, False: False})
    print("Kolumna 'B2B' przekonwertowana na boolean")

print("\nTypy danych po konwersji:")
print(df.dtypes)

KONWERSJA TYPÓW DANYCH
Kolumna 'Amount' przekonwertowana na numeryczną
Kolumna 'Date' przekonwertowana na datetime
Kolumna 'Qty' przekonwertowana na numeryczną
Kolumna 'B2B' przekonwertowana na boolean

Typy danych po konwersji:
index                          int64
Order ID                      object
Date                  datetime64[ns]
Status                        object
Fulfilment                    object
Sales Channel                 object
ship-service-level            object
Style                         object
SKU                           object
Category                      object
Size                          object
ASIN                          object
Courier Status                object
Qty                            int64
currency                      object
Amount                       float64
ship-city                     object
ship-state                    object
ship-postal-code             float64
ship-country                  object
promotion-ids                 o

In [8]:
print("ANALIZA KOMPLETNOŚCI DANYCH")

total_objects = len(df)
print(f"Liczba wierszy w zbiorze: {total_objects:,}")

target_column = 'Status'

if target_column in df.columns:
    num_classes = df[target_column].nunique()
    print(f"\nLICZBA KLAS (kolumna '{target_column}'):")
    print(f"Liczba unikalnych klas: {num_classes}")

    print(f"\nLICZBA OBIEKTÓW W KAŻDEJ KLASIE:")
    class_counts = df[target_column].value_counts().sort_index()
    print(class_counts)
    
    print("\nProcent w każdej klasie:")
    class_percent = (df[target_column].value_counts(normalize=True) * 100).sort_index()
    print(class_percent.round(2))
    
else:
    print(f"\nKolumna '{target_column}' nie istnieje w zbiorze danych")
    print("Dostępne kolumny kategoryczne do wyboru jako klasa:")
    print(df.select_dtypes(include='object').columns.tolist()[:10])

num_attributes = df.shape[1]
print(f"\nLICZBA ATRYBUTÓW/CECH:")
print(f"Liczba kolumn: {num_attributes}")

total_missing = df.isnull().sum().sum()
total_cells = df.shape[0] * df.shape[1]
missing_percent = (total_missing / total_cells) * 100

print(f"\nLICZBA BRAKUJĄCYCH DANYCH:")
print(f"Całkowita liczba brakujących wartości: {total_missing:,}")
print(f"Procent brakujących danych: {missing_percent:.2f}%")
print(f"Kompletnych komórek: {total_cells - total_missing:,} / {total_cells:,}")

print(f"\nBRAKUJĄCE WARTOŚCI PO KOLUMNACH:")
missing_by_column = df.isnull().sum()
missing_by_column = missing_by_column[missing_by_column > 0].sort_values(ascending=False)

if len(missing_by_column) > 0:
    print("\nKolumny z brakującymi wartościami:")
    for col, count in missing_by_column.items():
        percent = (count / len(df)) * 100
        print(f"  {col:30s}: {count:6,} ({percent:5.2f}%)")
else:
    print("Brak brakujących wartości w żadnej kolumnie")

print("USUNIĘCIE OBIEKTÓW Z BRAKUJĄCYMI DANYMI")

original_rows = len(df)
df_clean = df.dropna()

new_rows = len(df_clean)
removed_rows = original_rows - new_rows
removed_percent = (removed_rows / original_rows) * 100

print(f"\nLiczba wierszy przed usunięciem: {original_rows:,}")
print(f"Liczba wierszy po usunięciu: {new_rows:,}")
print(f"Usuniętych wierszy: {removed_rows:,} ({removed_percent:.2f}%)")

remaining_missing = df_clean.isnull().sum().sum()
print(f"\nWeryfikacja - pozostałe brakujące wartości: {remaining_missing}")

if remaining_missing == 0:
    print("Wszystkie brakujące wartości zostały usunięte.")
    df = df_clean

print("PODSUMOWANIE PODSTAWOWYCH METRYK:")

print(f"Liczba obiektów (po czyszczeniu): {len(df):,}")
print(f"Liczba klas: {num_classes if target_column in df.columns else 'N/A'}")
print(f"Liczba atrybutów: {num_attributes}")
print(f"Brakujące dane: {df.isnull().sum().sum()} (po usunięciu)")
print(f"Usuniętych wierszy: {removed_rows:,} ({removed_percent:.2f}%)")

ANALIZA KOMPLETNOŚCI DANYCH
Liczba wierszy w zbiorze: 128,975

LICZBA KLAS (kolumna 'Status'):
Liczba unikalnych klas: 13

LICZBA OBIEKTÓW W KAŻDEJ KLASIE:
Status
Cancelled                        18332
Pending                            658
Pending - Waiting for Pick Up      281
Shipped                          77804
Shipped - Damaged                    1
Shipped - Delivered to Buyer     28769
Shipped - Lost in Transit            5
Shipped - Out for Delivery          35
Shipped - Picked Up                973
Shipped - Rejected by Buyer         11
Shipped - Returned to Seller      1953
Shipped - Returning to Seller      145
Shipping                             8
Name: count, dtype: int64

Procent w każdej klasie:
Status
Cancelled                        14.21
Pending                           0.51
Pending - Waiting for Pick Up     0.22
Shipped                          60.32
Shipped - Damaged                 0.00
Shipped - Delivered to Buyer     22.31
Shipped - Lost in Transit         0.0