<a href="https://colab.research.google.com/github/TechnicalMindset/Data-Engineering-Bootcamp--/blob/main/Accessing_Databases_using_Python_Script_LAB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


---

# üß™ Lab: Accessing Databases using Python (ETL Basics)

## üìå **Introduktion ‚Äì Vad √§r ETL?**

ETL st√•r f√∂r **Extract, Transform, Load**. Det √§r en process som anv√§nds inom datateknik f√∂r att hantera data:
- **Extract**: H√§mta data fr√•n en k√§lla (t.ex. en CSV-fil)
- **Transform**: Bearbeta eller konvertera data till r√§tt format
- **Load**: Ladda in datan i en databas

I denna labb ska vi simulera ett enkelt ETL-fl√∂de: h√§mta data fr√•n en CSV-fil, skapa en databas, och ladda in datan till en tabell d√§r vi kan k√∂ra SQL-fr√•gor.

---

## üéØ **Objectives**
I denna labb kommer du att l√§ra dig:
1. Skapa en databas med Python
2. Ladda data fr√•n en CSV-fil till en databas-tabell
3. K√∂ra SQL-fr√•gor p√• datan

---

## üìÅ Steg 1: Skapa en test-CSV-fil (simulate extraction)

Vi b√∂rjar med att skapa en CSV-fil som inneh√•ller personaldata.

```python
import pandas as pd

# Skapa ett exempel-dataset
data = {
    "ID": [101, 102, 103, 104],
    "FNAME": ["Alice", "Bob", "Charlie", "Diana"],
    "LNAME": ["Andersson", "Berg", "Carlsson", "Dahl"],
    "CITY": ["Stockholm", "G√∂teborg", "Malm√∂", "Uppsala"],
    "CCODE": ["SE", "SE", "SE", "SE"]
}

# Konvertera till DataFrame och spara som CSV
df = pd.DataFrame(data)
df.to_csv("instructors.csv", index=False)

print("CSV-filen skapad!")
```

üîé **F√∂rklaring**: Vi anv√§nder `pandas` f√∂r att skapa och spara en enkel CSV-fil som vi kommer anv√§nda i resten av labben.

---

## üóÉÔ∏è Steg 2: Skapa en databas med SQLite

Nu skapar vi en databasfil som heter `STAFF.db` med hj√§lp av `sqlite3` ‚Äì en l√§ttviktsdatabas som fungerar direkt med Python.

```python
import sqlite3

# Skapa och anslut till databasen STAFF
conn = sqlite3.connect("STAFF.db")

# Skapa en cursor ‚Äì anv√§nds f√∂r att k√∂ra SQL-kommandon
cursor = conn.cursor()

print("Databasen STAFF √§r skapad och ansluten.")
```

üîé **F√∂rklaring**: `sqlite3.connect()` skapar databasen om den inte finns. Cursor-objektet anv√§nds f√∂r att exekvera SQL.

---

## üìã Steg 3: Skapa tabellen `INSTRUCTORS`

Innan vi laddar in data, beh√∂ver vi skapa en tabell med r√§tt kolumner.

```python
# Skapa tabellen INSTRUCTORS
cursor.execute("""
CREATE TABLE IF NOT EXISTS INSTRUCTORS (
    ID INTEGER PRIMARY KEY,
    FNAME TEXT,
    LNAME TEXT,
    CITY TEXT,
    CCODE TEXT
)
""")

conn.commit()  # Spara √§ndringarna
print("Tabellen INSTRUCTORS har skapats.")
```

üîé **F√∂rklaring**: Vi definierar kolumnerna enligt CSV-filen. `IF NOT EXISTS` f√∂rhindrar fel om tabellen redan finns.

---

## üì• Steg 4: Ladda CSV-datan till tabellen

Vi l√§ser in CSV-filen och laddar varje rad till tabellen med `INSERT INTO`.

```python
# L√§s CSV-filen
df = pd.read_csv("instructors.csv")

# Ladda varje rad i CSV-filen till tabellen
for row in df.itertuples(index=False):
    cursor.execute("""
    INSERT INTO INSTRUCTORS (ID, FNAME, LNAME, CITY, CCODE)
    VALUES (?, ?, ?, ?, ?)""", tuple(row))

conn.commit()
print("Data har laddats in i INSTRUCTORS-tabellen.")
```

üîé **F√∂rklaring**: `df.itertuples()` anv√§nds f√∂r att l√§sa rader som tuples. `?` anv√§nds f√∂r att skydda mot SQL-injektioner.

---

## üîé Steg 5: K√∂r SQL-fr√•gor p√• databasen

Nu n√§r datan finns i tabellen kan vi h√§mta och analysera den med SQL!

### a) Visa alla rader i tabellen

```python
# H√§mta alla rader
cursor.execute("SELECT * FROM INSTRUCTORS")
rows = cursor.fetchall()

# Visa resultatet
for row in rows:
    print(row)
```

### b) Visa namn p√• alla som bor i G√∂teborg

```python
cursor.execute("SELECT FNAME, LNAME FROM INSTRUCTORS WHERE CITY = 'G√∂teborg'")
rows = cursor.fetchall()

for row in rows:
    print(row)
```

### c) R√§kna antalet personer per stad

```python
cursor.execute("SELECT CITY, COUNT(*) FROM INSTRUCTORS GROUP BY CITY")
rows = cursor.fetchall()

for row in rows:
    print(row)
```

üîé **F√∂rklaring**: Vi anv√§nder klassiska SQL-satser som `SELECT`, `WHERE` och `GROUP BY` f√∂r att h√§mta och filtrera data.

---

## ‚úÖ **Slutsteg: St√§ng anslutningen**

N√§r vi √§r klara √§r det bra att st√§nga databaskopplingen.

```python
conn.close()
print("Databasanslutningen √§r st√§ngd.")
```

---

## üéâ Klar!

Grattis! Du har nu genomf√∂rt ett komplett ETL-fl√∂de:
- **Extract**: CSV-fil
- **Transform**: Skapa tabell
- **Load**: Infoga data i tabellen
- **Access**: Fr√•ga datan med SQL

---

