<a href="https://colab.research.google.com/github/TechnicalMindset/Data-Engineering-Bootcamp--/blob/main/Web_Scraping_%26_Data_Extraction_with_Python_LAB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


---

# 🌟 Web Scraping & Data Extraction with Python

---

## 📘 **Introduktion – Vad är ETL?**

**ETL** står för:

- **Extract** – Hämta data (t.ex. från webbsidor eller API:er) 🌐
- **Transform** – Bearbeta datan till ett användbart format 🔧
- **Load** – Spara datan i en databas eller fil 📁

Det används ofta i datavetenskap och affärsanalys för att samla in, rensa och lagra data från olika källor.

---

## 🎯 **Labbmål (Objectives)**

✅ Extrahera data från webbsidor och API:er  
✅ Läsa in data från CSV, JSON och XML  
✅ Transformera datan till enhetligt format  
✅ Spara data i CSV och ladda till en SQLite-databas

---

## 📚 **Del 1: Installera nödvändiga bibliotek**

```python
!pip install requests beautifulsoup4 pandas lxml
```

---

## 🕸️ **Del 2: Web scraping – Extrahera topp 50 filmer**

### 🔽 **Steg 1: Importera bibliotek**

```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
import sqlite3
```

---

### 🔽 **Steg 2: Hämta webbsidan**

```python
url = "https://web.archive.org/web/20230902185655/https://en.everybodywiki.com/100_Most_Highly-Ranked_Films"
response = requests.get(url)

# Kontrollera att sidan laddades korrekt
print("Statuskod:", response.status_code)
```

---

### 🔽 **Steg 3: Analysera och extrahera HTML**

```python
soup = BeautifulSoup(response.text, "html.parser")

# Hitta tabellen med filmer
table = soup.find("table")

# Hämta alla rader i tabellen (förutom rubrikraden)
rows = table.find_all("tr")[1:]

# Skapa en lista för att lagra resultaten
movies_data = []

for row in rows[:50]:  # Begränsa till topp 50
    cols = row.find_all("td")
    if len(cols) >= 3:
        average_rank = cols[0].text.strip()
        film = cols[1].text.strip()
        year = cols[2].text.strip()
        movies_data.append([average_rank, film, year])
```

---

### 🔽 **Steg 4: Spara datan i en DataFrame**

```python
df_movies = pd.DataFrame(movies_data, columns=["Average Rank", "Film", "Year"])
df_movies.head()
```

---

## 💾 **Del 3: Spara till CSV och SQLite**

### 🔽 **Spara till CSV-fil**

```python
df_movies.to_csv("top_50_films.csv", index=False)
print("✅ Sparad till top_50_films.csv")
```

---

### 🔽 **Spara till SQLite-databas**

```python
# Skapa anslutning
conn = sqlite3.connect("Movies.db")

# Spara till tabell "Top_50"
df_movies.to_sql("Top_50", conn, if_exists="replace", index=False)

# Bekräfta lagring
print("✅ Datan har sparats i Movies.db i tabellen 'Top_50'")

# Stäng anslutningen
conn.close()
```

---

## 📄 **Del 4: Läsa in data från CSV, JSON, XML**

### 🔽 **CSV**

```python
df_csv = pd.read_csv("top_50_films.csv")
df_csv.head()
```

---

### 🔽 **JSON (konvertera till JSON först)**

```python
df_csv.to_json("movies.json", orient="records", lines=True)

# Läs tillbaka från JSON
df_json = pd.read_json("movies.json", lines=True)
df_json.head()
```

---

### 🔽 **XML (konvertera till XML)**

```python
def df_to_xml(df, root_tag="Movies", row_tag="Movie"):
    from xml.etree.ElementTree import Element, tostring, SubElement
    root = Element(root_tag)
    for _, row in df.iterrows():
        movie = SubElement(root, row_tag)
        for col in df.columns:
            child = SubElement(movie, col.replace(" ", ""))
            child.text = str(row[col])
    return tostring(root, encoding="unicode")

# Skapa och spara XML
xml_data = df_to_xml(df_csv)
with open("movies.xml", "w") as f:
    f.write(xml_data)

print("✅ XML-fil skapad: movies.xml")
```

---

## 🧠 **Slutsats: Vad har vi lärt oss?**

✅ Extrahera data från HTML med BeautifulSoup  
✅ Spara och läsa data i CSV, JSON och XML  
✅ Transformera data till tabellformat  
✅ Ladda data till SQLite-databas

---

