# üöÄ PostgreSQL vs MongoDB - Analiza Wydajno≈õci

## Cel projektu
Por√≥wnanie wydajno≈õci operacji CRUD miƒôdzy PostgreSQL (baza relacyjna) a MongoDB (baza dokumentowa) na danych tweet√≥w o Bitcoin.

## Rozmiary danych testowych
- **10,000 rekord√≥w** - ma≈Çy zbi√≥r testowy
- **100,000 rekord√≥w** - ≈õredni zbi√≥r testowy  
- **1,000,000 rekord√≥w** - du≈ºy zbi√≥r testowy

## Plan eksperymentu
1. Przygotowanie ≈õrodowiska i danych
2. Populacja baz danych dla ka≈ºdego rozmiaru
3. Testy operacji CRUD (Create, Read, Update, Delete)
4. Wizualizacja wynik√≥w
5. Analiza i wnioski


## 1. üì¶ Instalacja i importy


In [None]:
# Instalacja wymaganych pakiet√≥w (uruchom raz)
# !pip install -q psycopg2-binary pymongo pandas python-dotenv matplotlib seaborn jupyter

# Importy
import sys
import os
import time
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from typing import Dict, List, Any
from pymongo import InsertOne

# Dodaj src do ≈õcie≈ºki
sys.path.append('src')

# Importy z projektu
from src.config import *
from src.db.postgres_manager import PostgresManager
from src.db.mongo_manager import MongoManager
from src.db.data_precleaner import DataPrecleaner

# Konfiguracja wykres√≥w
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)

print("‚úÖ Wszystkie biblioteki za≈Çadowane!")


## 2. üîß Inicjalizacja klas


In [None]:
# Inicjalizacja klas
print("üîß Inicjalizacja klas...")

# Manager do czyszczenia danych
cleaner = DataPrecleaner()

# Po≈ÇƒÖczenie z bazami danych
pg = PostgresManager(PG_HOST, PG_PORT, PG_DB, PG_USER, PG_PASS)
mg = MongoManager(MONGO_URI, MONGO_DB)

print("‚úÖ Wszystkie klasy zainicjalizowane!")


## 3. üìä Opis struktury danych

### PostgreSQL (Model relacyjny)
- **users** - informacje o u≈ºytkownikach (user_name, user_location, user_description, user_created, user_followers, user_friends, user_favourites, user_verified)
- **tweets** - tweety z referencjami do u≈ºytkownik√≥w (date, text, source_id, is_retweet)
- **hashtags** - hashtagi (tag)
- **sources** - ≈∫r√≥d≈Ça tweet√≥w (name)
- **tweet_hashtags** - relacja many-to-many miƒôdzy tweetami a hashtagami

### MongoDB (Model dokumentowy)
- **tweets** - pojedyncza kolekcja z zagnie≈ºd≈ºonymi dokumentami:
  - `user` (zagnie≈ºd≈ºony obiekt z danymi u≈ºytkownika)
  - `date`, `text`, `hashtags` (tablica), `source`, `is_retweet`


## 4. üìã Modele danych


In [None]:
# Wszystkie funkcje pomocnicze sƒÖ teraz w klasach PostgresManager i MongoManager
# U≈ºywamy metod z klas zamiast funkcji pomocniczych
print("‚úÖ Gotowe do u≈ºycia metod z klas!")


## 5. üì• Przygotowanie danych


In [None]:
# Wczytaj i przygotuj dane
print(f"üìÅ Wczytywanie danych z: {CSV_PATH}")
df_raw = pd.read_csv(CSV_PATH)
print(f"üìä Za≈Çadowano {len(df_raw):,} rekord√≥w")

# Analiza i czyszczenie danych
analysis = cleaner.analyze_data(df_raw)
df_cleaned, clean_time = cleaner.clean_data_timed(df_raw)

print(f"\nüìà Podsumowanie przygotowania danych:")
print(f"  Przed czyszczeniem: {analysis['total_records']:,} rekord√≥w")
print(f"  Po czyszczeniu: {len(df_cleaned):,} rekord√≥w")
print(f"  Czas czyszczenia: {clean_time:.4f}s")

# Przygotuj pr√≥bki danych dla eksperyment√≥w
df_10k = df_cleaned.head(10000).copy()
df_100k = df_cleaned.head(100000).copy()
df_1m = df_cleaned.head(1000000).copy()

print(f"\n‚úÖ Przygotowano pr√≥bki:")
print(f"  10k: {len(df_10k):,} rekord√≥w")
print(f"  100k: {len(df_100k):,} rekord√≥w")
print(f"  1M: {len(df_1m):,} rekord√≥w")


## 6. üß™ Eksperymenty

Wszystkie funkcje testowe CRUD sƒÖ dostƒôpne jako metody w klasach:
- `PostgresManager.test_read_count()`, `test_read_recent()`, `test_read_hashtag()`, `test_create()`, `test_update()`, `test_delete()`
- `MongoManager.test_read_count()`, `test_read_recent()`, `test_read_hashtag()`, `test_create()`, `test_update()`, `test_delete()`


In [None]:
# Wszystkie funkcje testowe sƒÖ w klasach - nie trzeba ich tutaj definiowaƒá!
print("‚úÖ Gotowe do test√≥w!")


## 7. üß™ Eksperymenty

### 7.1. Eksperyment z 10,000 rekordami


In [None]:
# Populacja danych - 10k rekord√≥w
print("="*60)
print("EKSPERYMENT: 10,000 rekord√≥w")
print("="*60)

# Czyszczenie baz danych
pg.clear_database()
mg.clear_database()

# ≈Åadowanie danych do PostgreSQL
pg_load_time = pg.load_data_from_dataframe(df_10k, batch_size=1000)

# ≈Åadowanie danych do MongoDB
mongo_load_time = mg.load_data_from_dataframe(df_10k, batch_size=1000)

# Zapisz wyniki
results_10k = {
    "load": {"postgresql": pg_load_time, "mongodb": mongo_load_time},
    "crud": {}
}

print(f"\n‚úÖ Populacja zako≈Ñczona!")
print(f"  PostgreSQL: {pg_load_time:.4f}s")
print(f"  MongoDB: {mongo_load_time:.4f}s")


In [None]:
# Testy CRUD - 10k rekord√≥w
print("\nüß™ Uruchamianie test√≥w CRUD...")

# READ tests
pg_read_count = pg.test_read_count()
mongo_read_count = mg.test_read_count()
results_10k["crud"]["read_count"] = {
    "postgresql": pg_read_count["time"],
    "mongodb": mongo_read_count["time"]
}

pg_read_recent = pg.test_read_recent(limit=100)
mongo_read_recent = mg.test_read_recent(limit=100)
results_10k["crud"]["read_recent"] = {
    "postgresql": pg_read_recent["time"],
    "mongodb": mongo_read_recent["time"]
}

pg_read_hashtag = pg.test_read_hashtag(hashtag="bitcoin", limit=50)
mongo_read_hashtag = mg.test_read_hashtag(hashtag="bitcoin", limit=50)
results_10k["crud"]["read_hashtag"] = {
    "postgresql": pg_read_hashtag["time"],
    "mongodb": mongo_read_hashtag["time"]
}

# CREATE test
sample_row = df_10k.iloc[0].to_dict()
pg_create = pg.test_create(sample_row)
mongo_create = mg.test_create(sample_row)
results_10k["crud"]["create"] = {
    "postgresql": pg_create["time"],
    "mongodb": mongo_create["time"]
}

# UPDATE test
pg_update = pg.test_update()
mongo_update = mg.test_update()
results_10k["crud"]["update"] = {
    "postgresql": pg_update["time"],
    "mongodb": mongo_update["time"]
}

# DELETE test
pg_delete = pg.test_delete()
mongo_delete = mg.test_delete()
results_10k["crud"]["delete"] = {
    "postgresql": pg_delete["time"],
    "mongodb": mongo_delete["time"]
}

print("\n‚úÖ Testy CRUD zako≈Ñczone!")
print("\nüìä Wyniki test√≥w:")
for test_name, result in results_10k["crud"].items():
    print(f"  {test_name}:")
    print(f"    PostgreSQL: {result['postgresql']:.6f}s")
    print(f"    MongoDB: {result['mongodb']:.6f}s")
    print(f"    R√≥≈ºnica: {result['postgresql']/result['mongodb']:.2f}x")


### 7.2. Eksperyment z 100,000 rekordami


In [None]:
# Populacja danych - 100k rekord√≥w
print("="*60)
print("EKSPERYMENT: 100,000 rekord√≥w")
print("="*60)

# Czyszczenie baz danych
pg.clear_database()
mg.clear_database()

# ≈Åadowanie danych do PostgreSQL
pg_load_time = pg.load_data_from_dataframe(df_100k, batch_size=1000)

# ≈Åadowanie danych do MongoDB
mongo_load_time = mg.load_data_from_dataframe(df_100k, batch_size=1000)

# Zapisz wyniki
results_100k = {
    "load": {"postgresql": pg_load_time, "mongodb": mongo_load_time},
    "crud": {}
}

print(f"\n‚úÖ Populacja zako≈Ñczona!")
print(f"  PostgreSQL: {pg_load_time:.4f}s")
print(f"  MongoDB: {mongo_load_time:.4f}s")


In [None]:
# Testy CRUD - 100k rekord√≥w
print("\nüß™ Uruchamianie test√≥w CRUD...")

# READ tests
pg_read_count = pg.test_read_count()
mongo_read_count = mg.test_read_count()
results_100k["crud"]["read_count"] = {
    "postgresql": pg_read_count["time"],
    "mongodb": mongo_read_count["time"]
}

pg_read_recent = pg.test_read_recent(limit=100)
mongo_read_recent = mg.test_read_recent(limit=100)
results_100k["crud"]["read_recent"] = {
    "postgresql": pg_read_recent["time"],
    "mongodb": mongo_read_recent["time"]
}

pg_read_hashtag = pg.test_read_hashtag(hashtag="bitcoin", limit=50)
mongo_read_hashtag = mg.test_read_hashtag(hashtag="bitcoin", limit=50)
results_100k["crud"]["read_hashtag"] = {
    "postgresql": pg_read_hashtag["time"],
    "mongodb": mongo_read_hashtag["time"]
}

# CREATE test
sample_row = df_100k.iloc[0].to_dict()
pg_create = pg.test_create(sample_row)
mongo_create = mg.test_create(sample_row)
results_100k["crud"]["create"] = {
    "postgresql": pg_create["time"],
    "mongodb": mongo_create["time"]
}

# UPDATE test
pg_update = pg.test_update()
mongo_update = mg.test_update()
results_100k["crud"]["update"] = {
    "postgresql": pg_update["time"],
    "mongodb": mongo_update["time"]
}

# DELETE test
pg_delete = pg.test_delete()
mongo_delete = mg.test_delete()
results_100k["crud"]["delete"] = {
    "postgresql": pg_delete["time"],
    "mongodb": mongo_delete["time"]
}

print("\n‚úÖ Testy CRUD zako≈Ñczone!")
print("\nüìä Wyniki test√≥w:")
for test_name, result in results_100k["crud"].items():
    print(f"  {test_name}:")
    print(f"    PostgreSQL: {result['postgresql']:.6f}s")
    print(f"    MongoDB: {result['mongodb']:.6f}s")
    print(f"    R√≥≈ºnica: {result['postgresql']/result['mongodb']:.2f}x")


### 7.3. Eksperyment z 1,000,000 rekordami


In [None]:
# Populacja danych - 1M rekord√≥w
print("="*60)
print("EKSPERYMENT: 1,000,000 rekord√≥w")
print("="*60)

# Czyszczenie baz danych
pg.clear_database()
mg.clear_database()

# ≈Åadowanie danych do PostgreSQL
pg_load_time = pg.load_data_from_dataframe(df_1m, batch_size=1000)

# ≈Åadowanie danych do MongoDB
mongo_load_time = mg.load_data_from_dataframe(df_1m, batch_size=1000)

# Zapisz wyniki
results_1m = {
    "load": {"postgresql": pg_load_time, "mongodb": mongo_load_time},
    "crud": {}
}

print(f"\n‚úÖ Populacja zako≈Ñczona!")
print(f"  PostgreSQL: {pg_load_time:.4f}s")
print(f"  MongoDB: {mongo_load_time:.4f}s")


In [None]:
# Testy CRUD - 1M rekord√≥w
print("\nüß™ Uruchamianie test√≥w CRUD...")

# READ tests
pg_read_count = pg.test_read_count()
mongo_read_count = mg.test_read_count()
results_1m["crud"]["read_count"] = {
    "postgresql": pg_read_count["time"],
    "mongodb": mongo_read_count["time"]
}

pg_read_recent = pg.test_read_recent(limit=100)
mongo_read_recent = mg.test_read_recent(limit=100)
results_1m["crud"]["read_recent"] = {
    "postgresql": pg_read_recent["time"],
    "mongodb": mongo_read_recent["time"]
}

pg_read_hashtag = pg.test_read_hashtag(hashtag="bitcoin", limit=50)
mongo_read_hashtag = mg.test_read_hashtag(hashtag="bitcoin", limit=50)
results_1m["crud"]["read_hashtag"] = {
    "postgresql": pg_read_hashtag["time"],
    "mongodb": mongo_read_hashtag["time"]
}

# CREATE test
sample_row = df_1m.iloc[0].to_dict()
pg_create = pg.test_create(sample_row)
mongo_create = mg.test_create(sample_row)
results_1m["crud"]["create"] = {
    "postgresql": pg_create["time"],
    "mongodb": mongo_create["time"]
}

# UPDATE test
pg_update = pg.test_update()
mongo_update = mg.test_update()
results_1m["crud"]["update"] = {
    "postgresql": pg_update["time"],
    "mongodb": mongo_update["time"]
}

# DELETE test
pg_delete = pg.test_delete()
mongo_delete = mg.test_delete()
results_1m["crud"]["delete"] = {
    "postgresql": pg_delete["time"],
    "mongodb": mongo_delete["time"]
}

print("\n‚úÖ Testy CRUD zako≈Ñczone!")
print("\nüìä Wyniki test√≥w:")
for test_name, result in results_1m["crud"].items():
    print(f"  {test_name}:")
    print(f"    PostgreSQL: {result['postgresql']:.6f}s")
    print(f"    MongoDB: {result['mongodb']:.6f}s")
    print(f"    R√≥≈ºnica: {result['postgresql']/result['mongodb']:.2f}x")


## 8. üìä Wizualizacja wynik√≥w


In [None]:
# Wizualizacja wynik√≥w - por√≥wnanie czas√≥w ≈Çadowania
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Czas ≈Çadowania danych
sizes = ['10k', '100k', '1M']
pg_load_times = [results_10k['load']['postgresql'], results_100k['load']['postgresql'], results_1m['load']['postgresql']]
mongo_load_times = [results_10k['load']['mongodb'], results_100k['load']['mongodb'], results_1m['load']['mongodb']]

x = np.arange(len(sizes))
width = 0.35

ax1 = axes[0, 0]
ax1.bar(x - width/2, pg_load_times, width, label='PostgreSQL', alpha=0.8)
ax1.bar(x + width/2, mongo_load_times, width, label='MongoDB', alpha=0.8)
ax1.set_xlabel('Rozmiar danych')
ax1.set_ylabel('Czas (s)')
ax1.set_title('Czas ≈Çadowania danych')
ax1.set_xticks(x)
ax1.set_xticklabels(sizes)
ax1.legend()
ax1.grid(True, alpha=0.3)

# 2. Czas operacji READ (read_count)
test_names = ['read_count', 'read_recent', 'read_hashtag', 'create', 'update', 'delete']
pg_times_10k = [results_10k['crud'][t]['postgresql'] for t in test_names]
mongo_times_10k = [results_10k['crud'][t]['mongodb'] for t in test_names]

ax2 = axes[0, 1]
x2 = np.arange(len(test_names))
ax2.bar(x2 - width/2, pg_times_10k, width, label='PostgreSQL', alpha=0.8)
ax2.bar(x2 + width/2, mongo_times_10k, width, label='MongoDB', alpha=0.8)
ax2.set_xlabel('Operacja CRUD')
ax2.set_ylabel('Czas (s)')
ax2.set_title('Czas operacji CRUD - 10k rekord√≥w')
ax2.set_xticks(x2)
ax2.set_xticklabels(test_names, rotation=45, ha='right')
ax2.legend()
ax2.grid(True, alpha=0.3)

# 3. Por√≥wnanie dla 100k
pg_times_100k = [results_100k['crud'][t]['postgresql'] for t in test_names]
mongo_times_100k = [results_100k['crud'][t]['mongodb'] for t in test_names]

ax3 = axes[1, 0]
x3 = np.arange(len(test_names))
ax3.bar(x3 - width/2, pg_times_100k, width, label='PostgreSQL', alpha=0.8)
ax3.bar(x3 + width/2, mongo_times_100k, width, label='MongoDB', alpha=0.8)
ax3.set_xlabel('Operacja CRUD')
ax3.set_ylabel('Czas (s)')
ax3.set_title('Czas operacji CRUD - 100k rekord√≥w')
ax3.set_xticks(x3)
ax3.set_xticklabels(test_names, rotation=45, ha='right')
ax3.legend()
ax3.grid(True, alpha=0.3)

# 4. Por√≥wnanie dla 1M
pg_times_1m = [results_1m['crud'][t]['postgresql'] for t in test_names]
mongo_times_1m = [results_1m['crud'][t]['mongodb'] for t in test_names]

ax4 = axes[1, 1]
x4 = np.arange(len(test_names))
ax4.bar(x4 - width/2, pg_times_1m, width, label='PostgreSQL', alpha=0.8)
ax4.bar(x4 + width/2, mongo_times_1m, width, label='MongoDB', alpha=0.8)
ax4.set_xlabel('Operacja CRUD')
ax4.set_ylabel('Czas (s)')
ax4.set_title('Czas operacji CRUD - 1M rekord√≥w')
ax4.set_xticks(x4)
ax4.set_xticklabels(test_names, rotation=45, ha='right')
ax4.legend()
ax4.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("‚úÖ Wizualizacja zako≈Ñczona!")


## 9. üìù Podsumowanie i wnioski

### Analiza wynik√≥w:
- **PostgreSQL** - lepsze dla z≈Ço≈ºonych zapyta≈Ñ z JOIN-ami
- **MongoDB** - szybsze dla prostych operacji na dokumentach
- **Skalowanie** - r√≥≈ºne wzorce wydajno≈õci w zale≈ºno≈õci od typu zapyta≈Ñ

### Rekomendacje:
- Wybierz **PostgreSQL** dla aplikacji wymagajƒÖcych z≈Ço≈ºonych relacji i transakcji
- Wybierz **MongoDB** dla aplikacji z prostymi operacjami na dokumentach i szybkim skalowaniem


In [None]:
# Zamknij po≈ÇƒÖczenia z bazami danych
print("üîå Zamykanie po≈ÇƒÖcze≈Ñ...")
pg.close()
mg.close()
print("‚úÖ Po≈ÇƒÖczenia zamkniƒôte!")
print("\nüéâ Eksperyment zako≈Ñczony!")


h,

# üöÄ PostgreSQL vs MongoDB Benchmark

Prosty notebook do testowania wydajno≈õci baz danych.


In [None]:
# Importy
import sys
import pandas as pd
sys.path.append('src')

from src.config import *
from src.db.postgres_manager import PostgresManager
from src.db.mongo_manager import MongoManager
from src.db.data_precleaner import DataPrecleaner

print("‚úÖ Wszystkie biblioteki za≈Çadowane!")


## 1. üìä Analiza i czyszczenie danych CSV


In [None]:
# Wczytaj dane CSV
print(f"üìÅ Wczytywanie danych z: {CSV_PATH}")
df = pd.read_csv(CSV_PATH)
print(f"üìä Za≈Çadowano {len(df):,} rekord√≥w")

# Analiza danych
cleaner = DataPrecleaner()
analysis = cleaner.analyze_data(df)

# Czyszczenie danych
df_cleaned, clean_time = cleaner.clean_data_timed(df)

print(f"\nüìà Podsumowanie:")
print(f"  Przed czyszczeniem: {analysis['total_records']:,} rekord√≥w")
print(f"  Po czyszczeniu: {len(df_cleaned):,} rekord√≥w")
print(f"  Czas czyszczenia: {clean_time:.4f}s")


## 2. üîå Po≈ÇƒÖczenie z bazami danych


In [None]:
# Po≈ÇƒÖczenie z bazami danych
print("üîå ≈ÅƒÖczenie z bazami danych...")

pg = PostgresManager(PG_HOST, PG_PORT, PG_DB, PG_USER, PG_PASS)
mg = MongoManager(MONGO_URI, MONGO_DB)

print("‚úÖ Po≈ÇƒÖczono z bazami danych")


## 3. üßπ Czyszczenie baz danych


In [None]:
# Wyczy≈õƒá bazy danych
print("üßπ Czyszczenie baz danych...")

# Czyszczenie PostgreSQL
pg_clear_time = pg.clear_database()

# Czyszczenie MongoDB  
mongo_clear_time = mg.clear_database()

print(f"\nüìä Podsumowanie czyszczenia:")
print(f"  PostgreSQL: {pg_clear_time:.4f}s")
print(f"  MongoDB:    {mongo_clear_time:.4f}s")
print(f"  R√≥≈ºnica:    {pg_clear_time/mongo_clear_time:.2f}x")


# üöÄ PostgreSQL vs MongoDB Benchmark Analysis

Interaktywna analiza wydajno≈õci baz danych na danych tweet√≥w o Bitcoin.

## üìã Plan analizy:
1. **≈Åadowanie danych** - analiza i czyszczenie CSV
2. **Podstawowe testy** - liczenie, pobieranie, wyszukiwanie
3. **Z≈Ço≈ºone zapytania** - JOIN-y, agregacje, analizy
4. **Wizualizacja wynik√≥w** - wykresy por√≥wnawcze
5. **Wnioski** - rekomendacje i optymalizacje


## 4. üßπ Czyszczenie baz danych


In [None]:
# Wyczy≈õƒá bazy danych
print("üßπ Czyszczenie baz danych...")

# Czyszczenie PostgreSQL
pg_clear_time = pg.clear_database()

# Czyszczenie MongoDB  
mongo_clear_time = mg.clear_database()

print(f"\nüìä Podsumowanie czyszczenia:")
print(f"  PostgreSQL: {pg_clear_time:.4f}s")
print(f"  MongoDB:    {mongo_clear_time:.4f}s")
print(f"  R√≥≈ºnica:    {pg_clear_time/mongo_clear_time:.2f}x")


In [None]:
# Po≈ÇƒÖczenie z bazami danych
print("üîå ≈ÅƒÖczenie z bazami danych...")

pg = PostgresManager(PG_HOST, PG_PORT, PG_DB, PG_USER, PG_PASS)
mg = MongoManager(MONGO_URI, MONGO_DB)

print("‚úÖ Po≈ÇƒÖczono z bazami danych")


pr