<a href="https://colab.research.google.com/github/TechnicalMindset/Data-Engineering-Bootcamp--/blob/main/Accessing_Databases_using_Python_Script_LAB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


---

# 🧪 Lab: Accessing Databases using Python (ETL Basics)

## 📌 **Introduktion – Vad är ETL?**

ETL står för **Extract, Transform, Load**. Det är en process som används inom datateknik för att hantera data:
- **Extract**: Hämta data från en källa (t.ex. en CSV-fil)
- **Transform**: Bearbeta eller konvertera data till rätt format
- **Load**: Ladda in datan i en databas

I denna labb ska vi simulera ett enkelt ETL-flöde: hämta data från en CSV-fil, skapa en databas, och ladda in datan till en tabell där vi kan köra SQL-frågor.

---

## 🎯 **Objectives**
I denna labb kommer du att lära dig:
1. Skapa en databas med Python
2. Ladda data från en CSV-fil till en databas-tabell
3. Köra SQL-frågor på datan

---

## 📁 Steg 1: Skapa en test-CSV-fil (simulate extraction)

Vi börjar med att skapa en CSV-fil som innehåller personaldata.

```python
import pandas as pd

# Skapa ett exempel-dataset
data = {
    "ID": [101, 102, 103, 104],
    "FNAME": ["Alice", "Bob", "Charlie", "Diana"],
    "LNAME": ["Andersson", "Berg", "Carlsson", "Dahl"],
    "CITY": ["Stockholm", "Göteborg", "Malmö", "Uppsala"],
    "CCODE": ["SE", "SE", "SE", "SE"]
}

# Konvertera till DataFrame och spara som CSV
df = pd.DataFrame(data)
df.to_csv("instructors.csv", index=False)

print("CSV-filen skapad!")
```

🔎 **Förklaring**: Vi använder `pandas` för att skapa och spara en enkel CSV-fil som vi kommer använda i resten av labben.

---

## 🗃️ Steg 2: Skapa en databas med SQLite

Nu skapar vi en databasfil som heter `STAFF.db` med hjälp av `sqlite3` – en lättviktsdatabas som fungerar direkt med Python.

```python
import sqlite3

# Skapa och anslut till databasen STAFF
conn = sqlite3.connect("STAFF.db")

# Skapa en cursor – används för att köra SQL-kommandon
cursor = conn.cursor()

print("Databasen STAFF är skapad och ansluten.")
```

🔎 **Förklaring**: `sqlite3.connect()` skapar databasen om den inte finns. Cursor-objektet används för att exekvera SQL.

---

## 📋 Steg 3: Skapa tabellen `INSTRUCTORS`

Innan vi laddar in data, behöver vi skapa en tabell med rätt kolumner.

```python
# Skapa tabellen INSTRUCTORS
cursor.execute("""
CREATE TABLE IF NOT EXISTS INSTRUCTORS (
    ID INTEGER PRIMARY KEY,
    FNAME TEXT,
    LNAME TEXT,
    CITY TEXT,
    CCODE TEXT
)
""")

conn.commit()  # Spara ändringarna
print("Tabellen INSTRUCTORS har skapats.")
```

🔎 **Förklaring**: Vi definierar kolumnerna enligt CSV-filen. `IF NOT EXISTS` förhindrar fel om tabellen redan finns.

---

## 📥 Steg 4: Ladda CSV-datan till tabellen

Vi läser in CSV-filen och laddar varje rad till tabellen med `INSERT INTO`.

```python
# Läs CSV-filen
df = pd.read_csv("instructors.csv")

# Ladda varje rad i CSV-filen till tabellen
for row in df.itertuples(index=False):
    cursor.execute("""
    INSERT INTO INSTRUCTORS (ID, FNAME, LNAME, CITY, CCODE)
    VALUES (?, ?, ?, ?, ?)""", tuple(row))

conn.commit()
print("Data har laddats in i INSTRUCTORS-tabellen.")
```

🔎 **Förklaring**: `df.itertuples()` används för att läsa rader som tuples. `?` används för att skydda mot SQL-injektioner.

---

## 🔎 Steg 5: Kör SQL-frågor på databasen

Nu när datan finns i tabellen kan vi hämta och analysera den med SQL!

### a) Visa alla rader i tabellen

```python
# Hämta alla rader
cursor.execute("SELECT * FROM INSTRUCTORS")
rows = cursor.fetchall()

# Visa resultatet
for row in rows:
    print(row)
```

### b) Visa namn på alla som bor i Göteborg

```python
cursor.execute("SELECT FNAME, LNAME FROM INSTRUCTORS WHERE CITY = 'Göteborg'")
rows = cursor.fetchall()

for row in rows:
    print(row)
```

### c) Räkna antalet personer per stad

```python
cursor.execute("SELECT CITY, COUNT(*) FROM INSTRUCTORS GROUP BY CITY")
rows = cursor.fetchall()

for row in rows:
    print(row)
```

🔎 **Förklaring**: Vi använder klassiska SQL-satser som `SELECT`, `WHERE` och `GROUP BY` för att hämta och filtrera data.

---

## ✅ **Slutsteg: Stäng anslutningen**

När vi är klara är det bra att stänga databaskopplingen.

```python
conn.close()
print("Databasanslutningen är stängd.")
```

---

## 🎉 Klar!

Grattis! Du har nu genomfört ett komplett ETL-flöde:
- **Extract**: CSV-fil
- **Transform**: Skapa tabell
- **Load**: Infoga data i tabellen
- **Access**: Fråga datan med SQL

---

