#### Wstęp do Użycia SQLite w Analizie Danych
W dzisiejszych czasach danych jest więcej niż kiedykolwiek, a ich rola w podejmowaniu decyzji biznesowych i naukowych jest nie do przecenienia. Jednak zarządzanie i analiza tych danych wymaga odpowiednich narzędzi. SQLite, jako lekka baza danych, doskonale nadaje się do tego zadania, szczególnie gdy praca odbywa się w środowisku deweloperskim lub testowym, gdzie pełnowymiarowe systemy baz danych mogą być niepraktyczne.

SQLite to biblioteka w języku C, która dostarcza lekki dyskowy system baz danych. Pozwala na dostęp do bazy danych bez konieczności konfiguracji serwera czy wykonywania złożonych procedur instalacyjnych, co czyni ją idealnym wyborem dla indywidualnych deweloperów, małych projektów, a także aplikacji mobilnych i desktopowych.

#### Główne zalety SQLite:

- **Samowystarczalność**: SQLite jest samodzielnym systemem baz danych, który nie wymaga serwera bazy danych, co oznacza mniej konfiguracji i prostszą administrację.
- **Zero konfiguracji**: Nie wymaga od użytkownika konfigurowania. Po prostu jest gotowa do użycia.
- **Przenośność**: Baza danych SQLite jest przechowywana w jednym pliku na dysku, co ułatwia zarządzanie danymi i ich przenoszenie.
- **Niewielki rozmiar**: Jest bardzo lekka i nie obciąża zasobów systemu, co jest ważne w środowiskach z ograniczonymi zasobami.
- **Transakcyjność**: SQLite obsługuje transakcje ACID, co gwarantuje, że wszystkie operacje na bazie są wykonane poprawnie lub w przypadku błędu nie zostaną wykonane wcale.
- **Dynamiczne typowanie**: SQLite stosuje dynamiczne typowanie, co oznacza, że typ danych kolumny może zmieniać się w zależności od wstawionych danych. Pozwala to na większą elastyczność, ale wymaga również większej uwagi podczas wstawiania danych.

#### Inne popularne bazy danych SQL:

1. **MySQL**:
   - **Zalety**:
     - Popularność i szerokie wsparcie społeczności.
     - Wysoka wydajność i skalowalność.
     - Otwarty kod źródłowy z opcją komercyjnego wsparcia (np. przez Oracle).
   - **Wady**:
     - Wymaga konfiguracji serwera.
     - Może być bardziej skomplikowana w zarządzaniu w porównaniu do SQLite.

2. **PostgreSQL**:
   - **Zalety**:
     - Bardzo zaawansowane funkcje, wsparcie dla skomplikowanych zapytań i operacji.
     - Wysoka wydajność i skalowalność.
     - Otwarty kod źródłowy z silnym wsparciem społeczności.
   - **Wady**:
     - Wymaga konfiguracji serwera.
     - Może być bardziej zasobożerna w porównaniu do SQLite.

3. **Microsoft SQL Server**:
   - **Zalety**:
     - Mocna integracja z ekosystemem Microsoft.
     - Zaawansowane funkcje analizy danych i BI.
     - Wsparcie techniczne i regularne aktualizacje.
   - **Wady**:
     - Wysokie koszty licencji.
     - Wymaga konfiguracji serwera.

4. **Oracle Database**:
   - **Zalety**:
     - Bardzo skalowalna i niezawodna baza danych.
     - Szeroki zakres zaawansowanych funkcji.
     - Mocne wsparcie techniczne.
   - **Wady**:
     - Wysokie koszty licencji.
     - Bardzo złożona w konfiguracji i zarządzaniu.

#### Dlaczego użyliśmy SQLite w naszym projekcie?

W naszym projekcie, wykorzystujemy SQLite do przechowywania, zarządzania i analizowania danych związanych z instalacjami fotowoltaicznymi. Wybraliśmy SQLite z kilku powodów:

- **Lekkość i prostota**: SQLite nie wymaga konfiguracji serwera, co znacznie uprościło proces wdrożenia.
- **Przenośność**: Możliwość przechowywania bazy danych w jednym pliku ułatwiła zarządzanie i przenoszenie danych między różnymi środowiskami.
- **Wydajność w małych projektach**: W naszym przypadku, ilość danych i wymagania dotyczące ich przetwarzania idealnie pasują do możliwości SQLite.
- **Brak potrzeby zaawansowanych funkcji**: Nasz projekt nie wymagał zaawansowanych funkcji, które oferują większe systemy baz danych, takie jak PostgreSQL czy Oracle.

SQLite zapewniła nam elastyczność i wydajność, nie obciążając przy tym zasobów systemowych, co było kluczowe w realizacji naszego projektu.


In [1]:
# Importujemy moduł sqlite3 do pracy z bazą danych SQLite
import sqlite3

# Importujemy pandas do manipulacji i analizy danych
import pandas as pd

# Importujemy create_engine i text z SQLAlchemy do zarządzania połączeniami bazodanowymi
from sqlalchemy import create_engine, text

In [2]:
# Ścieżka do przetworzonego pliku danych
csv_file_path = '../2. Data/processed/combined_data_processed.csv'

In [3]:
# Ścieżka do pliku bazy danych SQLite
sqlite_db_path = r'../5. Baza_Danych/projekt_fotowoltaika_2024.db'

In [4]:
# Tworzenie połączenia z bazą danych SQLite za pomocą SQLAlchemy
engine = create_engine(f'sqlite:///{sqlite_db_path}')

In [5]:
# Usunięcie istniejącej tabeli (jeśli istnieje) i stworzenie nowej
with engine.connect() as con:
    # Wykonanie zapytania SQL do usunięcia tabeli
    con.execute(text('DROP TABLE IF EXISTS projekt_fotowoltaika_2024'))

In [6]:
# Usunięcie istniejącej tabeli (jeśli istnieje) i stworzenie nowej
with engine.connect() as con:
    # Wykonanie zapytania SQL do usunięcia tabeli
    con.execute(text('DROP TABLE IF EXISTS projekt_fotowoltaika_2024'))

In [7]:
# Sprawdzenie bazy danych

# Zapytanie o listę tabel w bazie danych
with engine.connect() as con:
    # Wykonanie zapytania SQL do pobrania listy tabel w bazie danych
    tables_list = con.execute(text("SELECT name FROM sqlite_master WHERE type='table';")).fetchall()
    # Wyświetlenie listy tabel
    print('Lista tabel:', tables_list)

Lista tabel: []


In [35]:
# Sprawdzenie kilku pierwszych rekordów z tabeli projekt_fotowoltaika_2024
with engine.connect() as con:
    # Definiowanie zapytania SQL do pobrania pierwszych 5 rekordów z tabeli
    query = text("SELECT * FROM projekt_fotowoltaika_2024 LIMIT 5;")
    # Wykonanie zapytania i załadowanie wyników do DataFrame
    example_data = pd.read_sql(query, con)

# Wyświetlenie pierwszych rekordów w tabeli projekt_fotowoltaika_2024
print('Pierwsze rekordy w tabeli projekt_fotowoltaika_2024:')
print(example_data)

OperationalError: (sqlite3.OperationalError) no such table: projekt_fotowoltaika_2024
[SQL: SELECT * FROM projekt_fotowoltaika_2024 LIMIT 5;]
(Background on this error at: https://sqlalche.me/e/14/e3q8)

In [9]:
# Sprawdzenie struktury tabeli (nazwy kolumn)
with engine.connect() as con:
    # Definiowanie zapytania SQL do pobrania informacji o kolumnach w tabeli
    query = text("PRAGMA table_info(projekt_fotowoltaika_2024);")
    # Wykonanie zapytania i załadowanie wyników do DataFrame
    columns_info = pd.read_sql(query, con)

# Wyświetlenie informacji o kolumnach
print('Informacje o kolumnach:')
print(columns_info)

Informacje o kolumnach:
    cid          name    type  notnull dflt_value  pk
0     0    Unnamed: 0  BIGINT        0       None   0
1     1          date    TEXT        0       None   0
2     2     city_name    TEXT        0       None   0
3     3           lat   FLOAT        0       None   0
4     4           lon   FLOAT        0       None   0
5     5          temp   FLOAT        0       None   0
6     6    feels_like   FLOAT        0       None   0
7     7      temp_min   FLOAT        0       None   0
8     8      temp_max   FLOAT        0       None   0
9     9      pressure   FLOAT        0       None   0
10   10      humidity   FLOAT        0       None   0
11   11    wind_speed   FLOAT        0       None   0
12   12    clouds_all   FLOAT        0       None   0
13   13  weather_main    TEXT        0       None   0
