In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

In [6]:
# === Cesty k datům (očištěné nebo půlvodní)
DATA_DIR = "Original"  # uprav dle struktury
os.makedirs("Statistiky", exist_ok=True)

# === Seznam souborů a jejich popisů
soubory = {
    "Ad_table": "Ad_table (extra).csv",
    "Image_table": "Image_table.csv",
    "Price_table": "Price_table.csv",
    "Sales_table": "Sales_table.csv",
    "Wolt": "Wolt.csv"
}


In [7]:
# === Základní analýza pro každý dataset
for nazev, soubor in soubory.items():
    print(f"=== Dataset: {nazev} ===")
    path = os.path.join(DATA_DIR, soubor)
    df = pd.read_csv(path)

    # Popis
    print(f"Počet řádků: {len(df)}")
    print(f"Počet sloupců: {len(df.columns)}")

    # Nulové hodnoty
    print("Počet null hodnot ve sloupcích:")
    print(df.isnull().sum())

    # Kardinalita
    print("Počet unikátních hodnot ve sloupcích:")
    print(df.nunique())

    # Korelace (pokud jsou číselné hodnoty)
    numeric_cols = df.select_dtypes(include="number").columns
    if len(numeric_cols) > 1:
        corr = df[numeric_cols].corr()
        plt.figure(figsize=(10, 6))
        sns.heatmap(corr, annot=True, cmap="coolwarm")
        plt.title(f"Korelace číselných sloupců – {nazev}")
        plt.tight_layout()
        plt.savefig(f"Statistiky/{nazev}_korelace.png")
        plt.close()

    # Histogramy vybraných sloupců
    for col in numeric_cols[:4]:  # max 4 sloupce na ukázku
        plt.figure(figsize=(6, 4))
        sns.histplot(df[col].dropna(), kde=True)
        plt.title(f"Histogram – {nazev}: {col}")
        plt.xlabel(col)
        plt.ylabel("Frekvence")
        plt.tight_layout()
        plt.savefig(f"Statistiky/{nazev}_hist_{col}.png")
        plt.close()

    # Uložit shrnutí do .txt
    with open(f"Statistiky/{nazev}_summary.txt", "w", encoding="utf-8") as f:
        f.write(f"Dataset: {nazev}\n")
        f.write(f"Počet řádků: {len(df)}\n")
        f.write(f"Počet sloupců: {len(df.columns)}\n\n")
        f.write("Počet null hodnot:\n")
        f.write(df.isnull().sum().to_string())
        f.write("\n\nPočet unikátních hodnot:\n")
        f.write(df.nunique().to_string())

print("Statistiky a grafy jsou uloženy ve složce 'Data/Statistiky'")


=== Dataset: Ad_table ===
Počet řádků: 268255
Počet sloupců: 24
Počet null hodnot ve sloupcích:
Maker               0
 Genmodel           0
 Genmodel_ID        0
Adv_ID              0
Adv_year            0
Adv_month           0
Color           21875
Reg_year            7
Bodytype          954
Runned_Miles     1055
Engin_size       2064
Gearbox           167
Fuel_type         409
Price            1145
Engine_power    31811
Annual_Tax      46675
Wheelbase       27998
Height          27801
Width           28080
Length          27801
Average_mpg     41933
Top_speed       43602
Seat_num         6474
Door_num         4553
dtype: int64
Počet unikátních hodnot ve sloupcích:
Maker               88
 Genmodel          896
 Genmodel_ID       881
Adv_ID          268255
Adv_year            10
Adv_month           15
Color               22
Reg_year            26
Bodytype            18
Runned_Miles     72420
Engin_size          74
Gearbox              3
Fuel_type           13
Price            20456
Eng