# Leereenheid 2: Dataversameling met Python

In hierdie notaboek brei ons ons Python-kennis uit en kyk ons na hoe ons data in Python kan inlaai en begin verken. Ons sal leer wat 'n biblioteek is, hoe om Pandas te gebruik, en hoe om 'n werklike datastel vanaf GitHub in te laai.

---
## 1. Biblioteke

Python het 'n basiese stel ingebou funksies soos `print()` en `type()` wat ons reeds ken. Vir meer gespesialiseerde take soos data-analise moet ons addisionele gereedskap invoer. Hierdie gereedskap word *biblioteke* genoem.

Ons voer 'n biblioteek in met die `import`-instruksie. In die praktyk gee ons pandas 'n kortername sodat ons minder hoef te tik:

In [None]:
# Voer die pandas biblioteek in en gee dit die kortername 'pd'
import pandas as pd

print("Pandas is suksesvol ingevoer.")

---
## 2. Die DataFrame

Die kern data-struktuur in pandas is die *DataFrame*. 'n DataFrame is 'n tabel van data met rye en kolomme, konseptueel identies aan 'n Excel-sigblad. Elke kolom het 'n naam, en elke ry verteenwoordig 'n rekord.

Kom ons kyk eers hoe 'n DataFrame van nuuts af gebou word met Boland Meubels se winkelinligting.

### 2.1 Die DataFrame — Stap vir Stap

Die kode bestaan uit drie dele wat saamwerk:

- **`pd.DataFrame()`**: die instruksie wat vir pandas sê om 'n nuwe tabel te skep
- **`{}`**: 'n Python *woordeboek* waar elke sleutel die kolomnaam word en elke waarde 'n lys van data vir daardie kolom is
- **`[]`**: 'n Python *lys* wat die waardes vir een kolom bevat. Alle lyste moet ewe lank wees.

In [None]:
# Bou 'n DataFrame met Boland Meubels se winkelinligting
winkels = pd.DataFrame({
    "winkel":     ["Stellenbosch", "Paarl", "Worcester"],  # kolomnaam: lys van waardes
    "werknemers": [12, 8, 5],                               # drie winkels, drie waardes
    "inkomste":   [1400000, 840000, 560000]                 # drie winkels, drie waardes
})

print(winkels)

---
## 3. Data inlaai vanaf GitHub

In die praktyk gaan ons nie data met die hand intik nie, ons sal dit inlaai vanaf 'n lêer. Die mees algemene lêerformaat vir data-analise is die CSV-lêer (*Comma-Separated Values*).

Omdat ons GitHub as ons sentrale bewaarplek gebruik, kan ons 'n CSV-lêer direk vanaf GitHub inlaai sonder om dit eers af te laai. Ons gebruik die *raw* URL van die lêer op GitHub.

In [None]:
# Laai die Boland Meubels verkopedata direk vanaf GitHub
url = "https://raw.githubusercontent.com/aby-akademia/NGRDA150-2026/main/datastelle/le2_boland_meubels_verkope.csv"
data = pd.read_csv(url)

print("Data suksesvol ingelaai.")

---
## 4. Basiese dataverkenning

Sodra die data ingelaai is, is die eerste stap om te kyk wat ons het. Pandas bied 'n paar basiese funksies om die datastel vinnig te verken.

In [None]:
# Wys die eerste 5 rye van die datastel
# Dit bevestig dat die data korrek ingelaai is
data.head()

In [None]:
# Wys die aantal rye en kolomme
# Die uitvoer is (rye, kolomme)
print(f"Die datastel bevat {data.shape[0]} rye en {data.shape[1]} kolomme.")

In [None]:
# Wys basiese statistiek vir alle numeriese kolomme
# Dit sluit in: telling, gemiddelde, standaardafwyking, minimum, en maksimum
data.describe()

---
## 5. Werk met kolomme

In pandas kan ons 'n enkele kolom uit die DataFrame kies deur die kolomnaam in vierkantige hakies te gebruik. Dit werk soortgelyk aan 'n enkele kolom in Excel wat jy wil ontleed.

Die patroon is altyd: `data["kolomnaam"].funksie()`

In [None]:
# Wys alle unieke winkels in die datastel
print("Winkels in die datastel:")
print(data["winkel"].unique())

In [None]:
# Bereken die totale verkoopswaarde oor alle transaksies
totale_verkope = data["verkoopsprys"].sum()
print(f"Totale verkoopswaarde: R{totale_verkope:,.2f}")

In [None]:
# Bereken die gemiddelde verkoopsprys per transaksie
gemiddelde_verkoop = data["verkoopsprys"].mean()
print(f"Gemiddelde verkoopsprys per transaksie: R{gemiddelde_verkoop:,.2f}")

In [None]:
# Bereken die totale wins (verkoopsprys minus kosprys)
data["wins"] = data["verkoopsprys"] - data["kosprys"]
totale_wins = data["wins"].sum()
print(f"Totale wins: R{totale_wins:,.2f}")

---
## Opsomming

In hierdie notebook het ons die volgende behandel:

- **Biblioteke**: hoe om pandas in te voer met `import pandas as pd`
- **DataFrame**: hoe om 'n tabel van data te skep en te verstaan
- **CSV inlaai**: hoe om 'n datastel direk vanaf GitHub te laai met `pd.read_csv(url)`
- **Dataverkenning**: `head()`, `shape`, en `describe()`
- **Kolombewerkings**: `unique()`, `sum()`, en `mean()`
