In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

In [None]:
# === Cesty k datům (očištěné nebo půlvodní)
DATA_DIR = "Original"  # uprav dle struktury
os.makedirs("Statistiky", exist_ok=True)

# === Seznam souborů a jejich popisů
soubory = {
    "Ad_table": "Ad_table (extra).csv",
    "Image_table": "Image_table.csv",
    "Price_table": "Price_table.csv",
    "Sales_table": "Sales_table.csv",
    "Wolt": "Wolt.csv"
}


In [None]:
# === Základní analýza pro každý dataset
for nazev, soubor in soubory.items():
    print(f"=== Dataset: {nazev} ===")
    path = os.path.join(DATA_DIR, soubor)
    df = pd.read_csv(path)

    # Popis
    print(f"Počet řádků: {len(df)}")
    print(f"Počet sloupců: {len(df.columns)}")

    # Nulové hodnoty
    print("Počet null hodnot ve sloupcích:")
    print(df.isnull().sum())

    # Kardinalita
    print("Počet unikátních hodnot ve sloupcích:")
    print(df.nunique())

    # Korelace (pokud jsou číselné hodnoty)
    numeric_cols = df.select_dtypes(include="number").columns
    if len(numeric_cols) > 1:
        corr = df[numeric_cols].corr()
        plt.figure(figsize=(10, 6))
        sns.heatmap(corr, annot=True, cmap="coolwarm")
        plt.title(f"Korelace číselných sloupců – {nazev}")
        plt.tight_layout()
        plt.savefig(f"Statistiky/{nazev}_korelace.png")
        plt.close()

    # Histogramy vybraných sloupců
    for col in numeric_cols[:4]:  # max 4 sloupce na ukázku
        plt.figure(figsize=(6, 4))
        sns.histplot(df[col].dropna(), kde=True)
        plt.title(f"Histogram – {nazev}: {col}")
        plt.xlabel(col)
        plt.ylabel("Frekvence")
        plt.tight_layout()
        plt.savefig(f"Statistiky/{nazev}_hist_{col}.png")
        plt.close()

    # Uložit shrnutí do .txt
    with open(f"Statistiky/{nazev}_summary.txt", "w", encoding="utf-8") as f:
        f.write(f"Dataset: {nazev}\n")
        f.write(f"Počet řádků: {len(df)}\n")
        f.write(f"Počet sloupců: {len(df.columns)}\n\n")
        f.write("Počet null hodnot:\n")
        f.write(df.isnull().sum().to_string())
        f.write("\n\nPočet unikátních hodnot:\n")
        f.write(df.nunique().to_string())

print("Statistiky a grafy jsou uloženy ve složce 'Data/Statistiky'")


In [None]:

import pymongo
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Připojení k MongoDB
client = pymongo.MongoClient("mongodb://martin:rampouch@127.0.0.1:27117/?authMechanism=DEFAULT")
db = client["RampaBase"]
config_db = client["config"]

# Výstupní složka
os.makedirs("Statistiky", exist_ok=True)

# Získání všech shardovaných kolekcí v databázi RampaBase
collections_info = config_db.collections.find({"_id": {"$regex": "^RampaBase\."}})
collection_entries = list(collections_info)

# Shromáždíme výsledky pro všechny kolekce
all_data = []

for entry in collection_entries:
    ns = entry["_id"]
    collection_name = ns.split(".")[1]
    collection_uuid = entry["uuid"]

    # Chunky podle UUID
    chunks_pipeline = [
        {"$match": {"uuid": collection_uuid}},
        {"$group": {"_id": "$shard", "chunks": {"$sum": 1}}}
    ]
    chunks = list(config_db.chunks.aggregate(chunks_pipeline))
    if not chunks:
        continue
    chunks_df = pd.DataFrame(chunks).rename(columns={"_id": "shard"})

    # Počet dokumentů v kolekci
    try:
        total_docs = db[collection_name].estimated_document_count()
    except Exception:
        total_docs = 0

    total_chunks = chunks_df["chunks"].sum()
    chunks_df["collection"] = collection_name
    chunks_df["documents"] = (chunks_df["chunks"] / total_chunks * total_docs).round().astype(int)

    all_data.append(chunks_df)

# Spojíme vše do jednoho DataFrame
final_df = pd.concat(all_data, ignore_index=True)

# Vykreslíme jeden společný graf: stacked bar plot podle kolekcí
plt.figure(figsize=(12, 7))
sns.barplot(data=final_df, x="collection", y="documents", hue="shard")
plt.title("Odhadovaný počet dokumentů na shardech pro kolekce v RampaBase")
plt.ylabel("Počet dokumentů (odhad)")
plt.xlabel("Kolekce")
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig("Statistiky/shard_summary_all_collections.png")
plt.show()


In [4]:
import pymongo
import pandas as pd
import matplotlib.pyplot as plt
import os

client = pymongo.MongoClient("mongodb://martin:rampouch@127.0.0.1:27117/?authMechanism=DEFAULT")
db = client["RampaBase"]
config_db = client["config"]

os.makedirs("Statistiky", exist_ok=True)

collection_entries = list(config_db.collections.find({"_id": {"$regex": "^RampaBase\\."}}))

for entry in collection_entries:
    ns = entry["_id"]
    collection_name = ns.split(".")[1]
    collection_uuid = entry.get("uuid")
    if not collection_uuid:
        continue

    chunks = list(config_db.chunks.aggregate([
        {"$match": {"uuid": collection_uuid}},
        {"$group": {"_id": "$shard", "chunks": {"$sum": 1}}}
    ]))
    if not chunks:
        continue

    chunks_df = pd.DataFrame(chunks).rename(columns={"_id": "shard"})

    try:
        total_docs = db[collection_name].estimated_document_count()
    except Exception:
        continue

    total_chunks = chunks_df["chunks"].sum()
    if total_chunks == 0 or total_docs == 0:
        continue

    chunks_df["documents"] = (chunks_df["chunks"] / total_chunks * total_docs).round().astype(int)

    if chunks_df["documents"].sum() > 0 and not chunks_df["documents"].isnull().any():
        fig, ax = plt.subplots(figsize=(6, 6))
        ax.pie(chunks_df['documents'], labels=chunks_df['shard'], autopct='%1.1f%%', startangle=90)
        ax.set_title(f"Distribuce dokumentů – {collection_name}")
        plt.tight_layout()
        plt.savefig(f"Statistiky/pie_{collection_name}.png")
        plt.close()
