<a href="https://colab.research.google.com/github/TechnicalMindset/python-labs-/blob/main/%F0%9F%93%9A_Web_Scraping_och_HTML_Grunder.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📚 Web Scraping och HTML Grunder

## 📌 Viktiga punkter och koncept

### 1️⃣ **HTML-struktur och dokumentträd**

HTML (Hypertext Markup Language) är grunden för webbsidor. Att förstå dess struktur är avgörande för web scraping.

- **HTML-träd**: HTML-dokument är strukturerade som träd med **element (taggar)** och **attribut**.
- **Viktiga HTML-taggar**:
  - `<html>`: Roten för dokumentet.
  - `<head>`: Innehåller metadata.
  - `<body>`: Visar sidans innehåll.
  - `<h1> - <h6>`: Rubriker.
  - `<p>`: Stycken.
  - `<table>`: Tabeller.
- **Exempel**:
  ```html
  <html>
      <head>
          <title>Min webbsida</title>
      </head>
      <body>
          <h1>Välkommen</h1>
          <p>Detta är en testwebbsida.</p>
      </body>
  </html>
  ```

### 2️⃣ **Web scraping - Processen**

Web scraping är processen att automatiskt extrahera information från webbplatser.

1. **HTTP-förfrågan**: Skicka en begäran till en webbsida (ofta med Python `requests`).
2. **Hämta HTML-innehållet**: Webbsidans HTML returneras.
3. **Parsing av HTML**: Använd `BeautifulSoup` för att navigera och extrahera data.
4. **Extrahera data**: Identifiera och filtrera specifika HTML-element.
5. **Lagra data**: Spara i databaser, CSV, JSON etc.

- **Exempel på enkel scraping med Python och BeautifulSoup:**
  ```python
  import requests
  from bs4 import BeautifulSoup

  url = 'https://en.wikipedia.org/wiki/IBM'
  response = requests.get(url)
  soup = BeautifulSoup(response.text, 'html.parser')

  for link in soup.find_all('a'):
      print(link.text)
  ```

### 3️⃣ **HTML-tabeller och datautvinning**

Tabeller används ofta för att visa strukturerad data på webbsidor.
- **Struktur:**
  ```html
  <table>
      <tr>
          <th>Namn</th>
          <th>Ålder</th>
      </tr>
      <tr>
          <td>Anna</td>
          <td>25</td>
      </tr>
  </table>
  ```
- **Extrahera tabeller med Pandas:**
  ```python
  import pandas as pd
  tables = pd.read_html('https://example.com')
  print(tables[0])
  ```

---
## ✅ **Frågor för att stärka förståelsen**:

### ✅ **Fråga 1: Vad är syftet med web scraping?**
- a. Skapa webbsidor
- b. Extrahera information från webbplatser
- c. Skicka e-post
- d. Skriva CSS

**🏆️ Rätt svar: b. Extrahera information från webbplatser**

---
### ✅ **Fråga 2: Vilket Python-bibliotek används för att analysera HTML?**
- a. NumPy
- b. BeautifulSoup
- c. Matplotlib
- d. Flask

**🏆️ Rätt svar: b. BeautifulSoup**

---
### ✅ **Fråga 3: Vilken HTML-tagg används för att skapa en tabell?**
- a. `<div>`
- b. `<table>`
- c. `<span>`
- d. `<form>`

**🏆️ Rätt svar: b. `<table>`**

---
## 📋 **Sammanfattning och Reflektion**:

- **HTML-struktur:** Förståelse för HTML-träd och taggar är viktigt för web scraping.
- **Web scraping-processen:** HTTP-förfrågor, HTML-parsing och dataextraktion.
- **Datautvinning:** Pandas och BeautifulSoup används för att navigera och extrahera data effektivt.

💡 Att kunna extrahera och analysera data från webbsidor är en värdefull färdighet för dataanalys, AI och automatisering!

