In [17]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Ścieżka do folderu z plikami CSV
folder_path = r"C:\Analiza danych - projekty\Amazon Sales\Dataset"

# Lista plików CSV w folderze
csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')]

# Funkcja do przeprowadzenia analizy dla pojedynczego pliku
def analysis_csv(file_name):
    print("\n" + "="*80)
    print(f"ANALIZA PLIKU: {file_name}")
    print("="*80)
    
    # Wczytanie pliku CSV do DataFrame
    file_path = os.path.join(folder_path, file_name)
    # low_memory=False - pozwala wczytać wszystkie kategorie danych
    df = pd.read_csv(file_path, low_memory=False)
    
    # 1. Przegląd struktury danych
    print("\nWymiary danych (wiersze, kolumny):")
    print(df.shape)
    
    # 2. Pierwsze wiersze
    print("\nPodgląd pierwszych wierszy:")
    display(df.head())
    
    # 3. Typy danych
    print("\nTypy danych:")
    print(df.dtypes)
    
    # 4. Podstawowe statystyki dla kolumn numerycznych
    print("\nPodstawowe statystyki:")
    display(df.describe().T)  # .T transpozycja dla lepszej czytelności
    
    # 5. Statystyki dla kolumn kategorycznych
    print("\nStatystyki dla danych kategorycznych:")
    display(df.describe(include=['object']).T)
    
    # 6. Sprawdzenie brakujących wartości
    print("\nLiczba brakujących wartości w każdej kolumnie:")
    print(df.isnull().sum())
    
    print("\nProcent brakujących wartości:")
    print(df.isnull().mean().sort_values(ascending=False) * 100)
    
    return df  # Zwracamy DataFrame

# Słownik do przechowywania wszystkich DataFrame'ów
dataframes = {}

# Przeprowadzenie analizy dla każdego pliku CSV
for file in csv_files:
    dataframes[file] = analysis_csv(file)

print("\n" + "="*80)


ANALIZA PLIKU: Amazon Sale Report.csv

Wymiary danych (wiersze, kolumny):
(128975, 24)

Podgląd pierwszych wierszy:


Unnamed: 0,index,Order ID,Date,Status,Fulfilment,Sales Channel,ship-service-level,Style,SKU,Category,...,currency,Amount,ship-city,ship-state,ship-postal-code,ship-country,promotion-ids,B2B,fulfilled-by,Unnamed: 22
0,0,405-8078784-5731545,04-30-22,Cancelled,Merchant,Amazon.in,Standard,SET389,SET389-KR-NP-S,Set,...,INR,647.62,MUMBAI,MAHARASHTRA,400081.0,IN,,False,Easy Ship,
1,1,171-9198151-1101146,04-30-22,Shipped - Delivered to Buyer,Merchant,Amazon.in,Standard,JNE3781,JNE3781-KR-XXXL,kurta,...,INR,406.0,BENGALURU,KARNATAKA,560085.0,IN,Amazon PLCC Free-Financing Universal Merchant ...,False,Easy Ship,
2,2,404-0687676-7273146,04-30-22,Shipped,Amazon,Amazon.in,Expedited,JNE3371,JNE3371-KR-XL,kurta,...,INR,329.0,NAVI MUMBAI,MAHARASHTRA,410210.0,IN,IN Core Free Shipping 2015/04/08 23-48-5-108,True,,
3,3,403-9615377-8133951,04-30-22,Cancelled,Merchant,Amazon.in,Standard,J0341,J0341-DR-L,Western Dress,...,INR,753.33,PUDUCHERRY,PUDUCHERRY,605008.0,IN,,False,Easy Ship,
4,4,407-1069790-7240320,04-30-22,Shipped,Amazon,Amazon.in,Expedited,JNE3671,JNE3671-TU-XXXL,Top,...,INR,574.0,CHENNAI,TAMIL NADU,600073.0,IN,,False,,



Typy danych:
index                   int64
Order ID               object
Date                   object
Status                 object
Fulfilment             object
Sales Channel          object
ship-service-level     object
Style                  object
SKU                    object
Category               object
Size                   object
ASIN                   object
Courier Status         object
Qty                     int64
currency               object
Amount                float64
ship-city              object
ship-state             object
ship-postal-code      float64
ship-country           object
promotion-ids          object
B2B                      bool
fulfilled-by           object
Unnamed: 22            object
dtype: object

Podstawowe statystyki:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
index,128975.0,64487.0,37232.019822,0.0,32243.5,64487.0,96730.5,128974.0
Qty,128975.0,0.904431,0.313354,0.0,1.0,1.0,1.0,15.0
Amount,121180.0,648.561465,281.211687,0.0,449.0,605.0,788.0,5584.0
ship-postal-code,128942.0,463966.236509,191476.764941,110001.0,382421.0,500033.0,600024.0,989898.0



Statystyki dla danych kategorycznych:


Unnamed: 0,count,unique,top,freq
Order ID,128975,120378,171-5057375-2831560,12
Date,128975,91,05-03-22,2085
Status,128975,13,Shipped,77804
Fulfilment,128975,2,Amazon,89698
Sales Channel,128975,2,Amazon.in,128851
ship-service-level,128975,2,Expedited,88615
Style,128975,1377,JNE3797,4224
SKU,128975,7195,JNE3797-KR-L,773
Category,128975,9,Set,50284
Size,128975,11,M,22711



Liczba brakujących wartości w każdej kolumnie:
index                     0
Order ID                  0
Date                      0
Status                    0
Fulfilment                0
Sales Channel             0
ship-service-level        0
Style                     0
SKU                       0
Category                  0
Size                      0
ASIN                      0
Courier Status         6872
Qty                       0
currency               7795
Amount                 7795
ship-city                33
ship-state               33
ship-postal-code         33
ship-country             33
promotion-ids         49153
B2B                       0
fulfilled-by          89698
Unnamed: 22           49050
dtype: int64

Procent brakujących wartości:
fulfilled-by          69.546811
promotion-ids         38.110487
Unnamed: 22           38.030626
currency               6.043807
Amount                 6.043807
Courier Status         5.328164
ship-country           0.025586
ship-postal-

Unnamed: 0,index,Shiprocket,Unnamed: 1,INCREFF
0,0,Heads,Price (Per Unit),Price (Per Unit)
1,1,Inbound (Fresh Stock and RTO),₹4.00,4
2,2,Outbound,₹7.00,11
3,3,Storage Fee/Cft,₹25.00,Rs 0.15/- Per Day
4,4,Customer Return with Detailed QC,₹6.00,15.5



Typy danych:
index          int64
Shiprocket    object
Unnamed: 1    object
INCREFF       object
dtype: object

Podstawowe statystyki:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
index,50.0,24.5,14.57738,0.0,12.25,24.5,36.75,49.0



Statystyki dla danych kategorycznych:


Unnamed: 0,count,unique,top,freq
Shiprocket,21,21,Heads,1
Unnamed: 1,41,40,• Measurement is monthly,2
INCREFF,28,27,<0.2%,2



Liczba brakujących wartości w każdej kolumnie:
index          0
Shiprocket    29
Unnamed: 1     9
INCREFF       22
dtype: int64

Procent brakujących wartości:
Shiprocket    58.0
INCREFF       44.0
Unnamed: 1    18.0
index          0.0
dtype: float64

ANALIZA PLIKU: Expense IIGF.csv

Wymiary danych (wiersze, kolumny):
(17, 5)

Podgląd pierwszych wierszy:


Unnamed: 0,index,Recived Amount,Unnamed: 1,Expance,Unnamed: 3
0,0,Particular,Amount,Particular,Amount
1,1,06-19-22,1000,Large Bag,380
2,2,06-20-22,1500,"Stationary(Soft Pin, Paper pin for Dupatta, Fe...",170
3,3,06-22-22,500,OLA,839
4,4,06-23-22,2000,Auto Rent,520



Typy danych:
index              int64
Recived Amount    object
Unnamed: 1        object
Expance           object
Unnamed: 3        object
dtype: object

Podstawowe statystyki:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
index,17.0,8.0,5.049752,0.0,4.0,8.0,12.0,16.0



Statystyki dla danych kategorycznych:


Unnamed: 0,count,unique,top,freq
Recived Amount,6,6,Particular,1
Unnamed: 1,6,6,Amount,1
Expance,15,15,Particular,1
Unnamed: 3,17,17,Amount,1



Liczba brakujących wartości w każdej kolumnie:
index              0
Recived Amount    11
Unnamed: 1        11
Expance            2
Unnamed: 3         0
dtype: int64

Procent brakujących wartości:
Recived Amount    64.705882
Unnamed: 1        64.705882
Expance           11.764706
index              0.000000
Unnamed: 3         0.000000
dtype: float64

ANALIZA PLIKU: International sale Report.csv

Wymiary danych (wiersze, kolumny):
(37432, 10)

Podgląd pierwszych wierszy:


Unnamed: 0,index,DATE,Months,CUSTOMER,Style,SKU,Size,PCS,RATE,GROSS AMT
0,0,06-05-21,Jun-21,REVATHY LOGANATHAN,MEN5004,MEN5004-KR-L,L,1.0,616.56,617.0
1,1,06-05-21,Jun-21,REVATHY LOGANATHAN,MEN5004,MEN5004-KR-XL,XL,1.0,616.56,617.0
2,2,06-05-21,Jun-21,REVATHY LOGANATHAN,MEN5004,MEN5004-KR-XXL,XXL,1.0,616.56,617.0
3,3,06-05-21,Jun-21,REVATHY LOGANATHAN,MEN5009,MEN5009-KR-L,L,1.0,616.56,617.0
4,4,06-05-21,Jun-21,REVATHY LOGANATHAN,MEN5011,MEN5011-KR-L,L,1.0,616.56,617.0



Typy danych:
index         int64
DATE         object
Months       object
CUSTOMER     object
Style        object
SKU          object
Size         object
PCS          object
RATE         object
GROSS AMT    object
dtype: object

Podstawowe statystyki:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
index,37432.0,18715.5,10805.831975,0.0,9357.75,18715.5,28073.25,37431.0



Statystyki dla danych kategorycznych:


Unnamed: 0,count,unique,top,freq
DATE,37431,1326,MULBERRIES BOUTIQUE,1904
Months,37407,571,Feb-22,3380
CUSTOMER,36392,172,Feb-22,3448
Style,36392,1065,SHIPPING,508
SKU,34958,4598,SHIPPING,508
Size,36392,36,1.00,15300
PCS,36392,658,1.00,16094
RATE,36392,1339,425.00,1276
GROSS AMT,36392,1208,0.00,2080



Liczba brakujących wartości w każdej kolumnie:
index           0
DATE            1
Months         25
CUSTOMER     1040
Style        1040
SKU          2474
Size         1040
PCS          1040
RATE         1040
GROSS AMT    1040
dtype: int64

Procent brakujących wartości:
SKU          6.609318
CUSTOMER     2.778371
Style        2.778371
Size         2.778371
PCS          2.778371
RATE         2.778371
GROSS AMT    2.778371
Months       0.066788
DATE         0.002672
index        0.000000
dtype: float64

ANALIZA PLIKU: May-2022.csv

Wymiary danych (wiersze, kolumny):
(1330, 17)

Podgląd pierwszych wierszy:


Unnamed: 0,index,Sku,Style Id,Catalog,Category,Weight,TP,MRP Old,Final MRP Old,Ajio MRP,Amazon MRP,Amazon FBA MRP,Flipkart MRP,Limeroad MRP,Myntra MRP,Paytm MRP,Snapdeal MRP
0,0,Os206_3141_S,Os206_3141,Moments,Kurta,0.3,538,2178,2295,2295,2295,2295,2295,2295,2295,2295,2295
1,1,Os206_3141_M,Os206_3141,Moments,Kurta,0.3,538,2178,2295,2295,2295,2295,2295,2295,2295,2295,2295
2,2,Os206_3141_L,Os206_3141,Moments,Kurta,0.3,538,2178,2295,2295,2295,2295,2295,2295,2295,2295,2295
3,3,Os206_3141_XL,Os206_3141,Moments,Kurta,0.3,538,2178,2295,2295,2295,2295,2295,2295,2295,2295,2295
4,4,Os206_3141_2XL,Os206_3141,Moments,Kurta,0.3,538,2178,2295,2295,2295,2295,2295,2295,2295,2295,2295



Typy danych:
index              int64
Sku               object
Style Id          object
Catalog           object
Category          object
Weight            object
TP                object
MRP Old           object
Final MRP Old     object
Ajio MRP          object
Amazon MRP        object
Amazon FBA MRP    object
Flipkart MRP      object
Limeroad MRP      object
Myntra MRP        object
Paytm MRP         object
Snapdeal MRP      object
dtype: object

Podstawowe statystyki:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
index,1330.0,664.5,384.082239,0.0,332.25,664.5,996.75,1329.0



Statystyki dla danych kategorycznych:


Unnamed: 0,count,unique,top,freq
Sku,1330,1330,Os206_3141_S,1
Style Id,1330,254,Os160,8
Catalog,1330,9,Mix,830
Category,1330,5,Kurta,820
Weight,1330,4,0.3,820
TP,1330,93,395,139
MRP Old,1330,67,1695,156
Final MRP Old,1330,53,1895,172
Ajio MRP,1330,52,1895,173
Amazon MRP,1330,53,1895,203



Liczba brakujących wartości w każdej kolumnie:
index             0
Sku               0
Style Id          0
Catalog           0
Category          0
Weight            0
TP                0
MRP Old           0
Final MRP Old     0
Ajio MRP          0
Amazon MRP        0
Amazon FBA MRP    0
Flipkart MRP      0
Limeroad MRP      0
Myntra MRP        0
Paytm MRP         0
Snapdeal MRP      0
dtype: int64

Procent brakujących wartości:
index             0.0
Ajio MRP          0.0
Paytm MRP         0.0
Myntra MRP        0.0
Limeroad MRP      0.0
Flipkart MRP      0.0
Amazon FBA MRP    0.0
Amazon MRP        0.0
Final MRP Old     0.0
Sku               0.0
MRP Old           0.0
TP                0.0
Weight            0.0
Category          0.0
Catalog           0.0
Style Id          0.0
Snapdeal MRP      0.0
dtype: float64

ANALIZA PLIKU: P  L March 2021.csv

Wymiary danych (wiersze, kolumny):
(1330, 18)

Podgląd pierwszych wierszy:


Unnamed: 0,index,Sku,Style Id,Catalog,Category,Weight,TP 1,TP 2,MRP Old,Final MRP Old,Ajio MRP,Amazon MRP,Amazon FBA MRP,Flipkart MRP,Limeroad MRP,Myntra MRP,Paytm MRP,Snapdeal MRP
0,0,Os206_3141_S,Os206_3141,Moments,Kurta,0.3,538,435.78,2178,2295,2295,2295,2295,2295,2295,2295,2295,2295
1,1,Os206_3141_M,Os206_3141,Moments,Kurta,0.3,538,435.78,2178,2295,2295,2295,2295,2295,2295,2295,2295,2295
2,2,Os206_3141_L,Os206_3141,Moments,Kurta,0.3,538,435.78,2178,2295,2295,2295,2295,2295,2295,2295,2295,2295
3,3,Os206_3141_XL,Os206_3141,Moments,Kurta,0.3,538,435.78,2178,2295,2295,2295,2295,2295,2295,2295,2295,2295
4,4,Os206_3141_2XL,Os206_3141,Moments,Kurta,0.3,538,435.78,2178,2295,2295,2295,2295,2295,2295,2295,2295,2295



Typy danych:
index              int64
Sku               object
Style Id          object
Catalog           object
Category          object
Weight            object
TP 1              object
TP 2              object
MRP Old           object
Final MRP Old     object
Ajio MRP          object
Amazon MRP        object
Amazon FBA MRP    object
Flipkart MRP      object
Limeroad MRP      object
Myntra MRP        object
Paytm MRP         object
Snapdeal MRP      object
dtype: object

Podstawowe statystyki:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
index,1330.0,664.5,384.082239,0.0,332.25,664.5,996.75,1329.0



Statystyki dla danych kategorycznych:


Unnamed: 0,count,unique,top,freq
Sku,1330,1330,Os206_3141_S,1
Style Id,1330,254,Os160,8
Catalog,1330,9,Mix,830
Category,1330,5,Kurta,820
Weight,1330,4,0.3,820
TP 1,1330,93,395,139
TP 2,1330,93,319.95,139
MRP Old,1330,67,1695,156
Final MRP Old,1330,53,1895,172
Ajio MRP,1330,52,1895,173



Liczba brakujących wartości w każdej kolumnie:
index             0
Sku               0
Style Id          0
Catalog           0
Category          0
Weight            0
TP 1              0
TP 2              0
MRP Old           0
Final MRP Old     0
Ajio MRP          0
Amazon MRP        0
Amazon FBA MRP    0
Flipkart MRP      0
Limeroad MRP      0
Myntra MRP        0
Paytm MRP         0
Snapdeal MRP      0
dtype: int64

Procent brakujących wartości:
index             0.0
Sku               0.0
Paytm MRP         0.0
Myntra MRP        0.0
Limeroad MRP      0.0
Flipkart MRP      0.0
Amazon FBA MRP    0.0
Amazon MRP        0.0
Ajio MRP          0.0
Final MRP Old     0.0
MRP Old           0.0
TP 2              0.0
TP 1              0.0
Weight            0.0
Category          0.0
Catalog           0.0
Style Id          0.0
Snapdeal MRP      0.0
dtype: float64

ANALIZA PLIKU: Sale Report.csv

Wymiary danych (wiersze, kolumny):
(9271, 7)

Podgląd pierwszych wierszy:


Unnamed: 0,index,SKU Code,Design No.,Stock,Category,Size,Color
0,0,AN201-RED-L,AN201,5.0,AN : LEGGINGS,L,Red
1,1,AN201-RED-M,AN201,5.0,AN : LEGGINGS,M,Red
2,2,AN201-RED-S,AN201,3.0,AN : LEGGINGS,S,Red
3,3,AN201-RED-XL,AN201,6.0,AN : LEGGINGS,XL,Red
4,4,AN201-RED-XXL,AN201,3.0,AN : LEGGINGS,XXL,Red



Typy danych:
index           int64
SKU Code       object
Design No.     object
Stock         float64
Category       object
Size           object
Color          object
dtype: object

Podstawowe statystyki:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
index,9271.0,4635.0,2676.451507,0.0,2317.5,4635.0,6952.5,9270.0
Stock,9235.0,26.246454,58.462891,0.0,3.0,8.0,31.0,1234.0



Statystyki dla danych kategorycznych:


Unnamed: 0,count,unique,top,freq
SKU Code,9188,9170,#REF!,15
Design No.,9235,1594,J0096,10
Category,9226,21,KURTA,3726
Size,9235,11,S,1353
Color,9226,62,Blue,782



Liczba brakujących wartości w każdej kolumnie:
index          0
SKU Code      83
Design No.    36
Stock         36
Category      45
Size          36
Color         45
dtype: int64

Procent brakujących wartości:
SKU Code      0.895265
Category      0.485385
Color         0.485385
Design No.    0.388308
Stock         0.388308
Size          0.388308
index         0.000000
dtype: float64

