# Sesiunea 4: Vizualizarea Datelor

## De ce vizualizăm datele?

**Vizualizarea** transformă numerele în **imagini** care sunt mai ușor de înțeles.

**Avantaje:**
1. **Identificăm pattern-uri** - tendințe, grupări, anomalii
2. **Comunicăm rezultate** - un grafic bun spune mai mult decât 100 de numere
3. **Explorăm datele** - descoperim relații neașteptate
4. **Validăm analizele** - verificăm dacă rezultatele au sens

**Dataset:** `eusilc_with_quintiles.csv` - datele cu quintilele din Sesiunea 3

## Obiectivele sesiunii

1. **Matplotlib** - biblioteca principală pentru grafice în Python
2. **Tipuri de grafice** - bar, line, pie, scatter, histogram, boxplot
3. **Personalizare** - culori, titluri, etichete, legende
4. **Subplots** - mai multe grafice într-o singură figură
5. **Salvarea graficelor** - export pentru rapoarte

---
## Partea 1: Introducere în Matplotlib
---

### Ce este Matplotlib?

**Matplotlib** este biblioteca standard pentru vizualizare în Python.

- Creată în 2003
- Inspirată de MATLAB (de aici numele)
- Foarte flexibilă și personalizabilă
- Stă la baza multor alte biblioteci (seaborn, pandas plotting)

**Structura unui grafic Matplotlib:**

```
┌─────────────────────────────────────┐
│           FIGURE (figura)           │
│  ┌─────────────────────────────┐   │
│  │         AXES (axe)          │   │
│  │    ┌─────────────────┐      │   │
│  │    │                 │      │   │
│  │    │    PLOT         │      │   │
│  │    │   (grafic)      │      │   │
│  │    │                 │      │   │
│  │    └─────────────────┘      │   │
│  │    xlabel, ylabel, title    │   │
│  └─────────────────────────────┘   │
└─────────────────────────────────────┘
```

- **Figure** = "pânza" pe care desenăm (poate conține mai multe grafice)
- **Axes** = un singur grafic cu axele sale
- **Plot** = datele reprezentate vizual

### Importarea bibliotecilor

**Convenție standard:**
```python
import matplotlib.pyplot as plt
```

- `matplotlib.pyplot` = modulul pentru grafice
- `plt` = alias scurt (convenție universală)

**`%matplotlib inline`** = comandă specială pentru Jupyter care afișează graficele direct în notebook.

In [None]:
# Importăm bibliotecile necesare
import pandas as pd                    # pentru manipularea datelor
import numpy as np                     # pentru calcule numerice
import matplotlib.pyplot as plt        # pentru vizualizare

# Afișează graficele în notebook
%matplotlib inline

# Setări pentru grafice mai mari și mai clare
plt.rcParams['figure.figsize'] = [10, 6]   # dimensiunea default
plt.rcParams['font.size'] = 12              # mărimea fontului

### Încărcarea datelor

In [None]:
# Încărcăm datele din sesiunea anterioară
# TODO: Citiți fișierul '../datasets/eusilc_with_quintiles.csv' în variabila df

# TODO: Afișați numărul de rânduri, coloane și lista de coloane

In [None]:
# Verificăm primele rânduri
# TODO: Afișați primele 5 rânduri folosind df.head()

---
## Partea 2: Primul Grafic - Structura de Bază
---

### Metoda `plt.plot()` - Grafic de linie

**Ce face:** Creează un grafic simplu de linie.

**Sintaxa de bază:**
```python
plt.plot(x, y)      # x și y sunt liste sau array-uri de valori
plt.show()          # afișează graficul
```

**Exemplu simplu:** Să creăm un grafic cu numere de la 1 la 5.

In [None]:
# Exemplu simplu: grafic de linie
x = [1, 2, 3, 4, 5]           # valorile pe axa X
y = [10, 25, 15, 30, 20]      # valorile pe axa Y

# TODO: Creați graficul cu plt.plot(x, y)
# TODO: Afișați graficul cu plt.show()

### Adăugarea elementelor: titlu, etichete, grid

**Funcții pentru personalizare:**

| Funcție | Ce face | Exemplu |
|:--------|:--------|:--------|
| `plt.title()` | Adaugă titlu | `plt.title('Titlul graficului')` |
| `plt.xlabel()` | Eticheta axei X | `plt.xlabel('Ani')` |
| `plt.ylabel()` | Eticheta axei Y | `plt.ylabel('Venit (EUR)')` |
| `plt.grid()` | Adaugă grid (linii ajutătoare) | `plt.grid(True)` |
| `plt.legend()` | Adaugă legendă | `plt.legend()` |

In [None]:
# Același grafic, dar cu elemente adăugate
x = [1, 2, 3, 4, 5]
y = [10, 25, 15, 30, 20]

# TODO: Creați graficul cu plt.plot(x, y)
# TODO: Adăugați titlu cu plt.title('Exemplu de grafic de linie')
# TODO: Adăugați eticheta X cu plt.xlabel('Puncte de date')
# TODO: Adăugați eticheta Y cu plt.ylabel('Valori')
# TODO: Adăugați grid cu plt.grid(True)
# TODO: Afișați cu plt.show()

### Interpretare: Structura unui grafic

**Ce am învățat:**
- Fiecare grafic are nevoie de **date** (x și y)
- **Titlul** explică ce arată graficul
- **Etichetele** pe axe explică ce reprezintă valorile
- **Grid-ul** ajută la citirea valorilor exacte

**Regulă de aur:** Un grafic bun se explică singur - cititorul trebuie să înțeleagă ce vede fără explicații suplimentare.

---
## Partea 3: Grafic cu Bare (Bar Chart)
---

### Când folosim grafice cu bare?

**Utilizare:** Pentru a compara valori între **categorii diferite**.

**Exemple:**
- Venituri pe regiuni
- Număr de gospodării pe mărime
- Comparații între grupuri

**Reguli:**
- Barele încep de la **zero** (altfel distorsionăm percepția)
- Folosim aceeași **culoare** pentru categorii similare
- Ordonăm barele logic (alfabetic, după valoare, etc.)

### Metoda `plt.bar()` - Grafic cu bare verticale

**Sintaxa:**
```python
plt.bar(x, height, color='blue', edgecolor='black')
```

**Parametri:**
- `x` = pozițiile barelor (categorii)
- `height` = înălțimea barelor (valori)
- `color` = culoarea barelor
- `edgecolor` = culoarea conturului

In [None]:
# Calculăm venitul mediu pe număr de membri
# TODO: Grupați df după 'numar_membri' și calculați media pentru 'venit_total'
# TODO: Salvați în venit_per_membri și afișați rotunjit

In [None]:
# Grafic cu bare: venit mediu pe număr membri
# TODO: Creați grafic cu plt.bar(x=venit_per_membri.index, height=venit_per_membri.values, color='steelblue', edgecolor='black')

# TODO: Adăugați titlu 'Venit mediu pe mărimea gospodăriei'
# TODO: Adăugați eticheta X 'Număr de membri'
# TODO: Adăugați eticheta Y 'Venit mediu anual (EUR)'
# TODO: Adăugați grid doar pe Y: plt.grid(axis='y', alpha=0.3)

# TODO: plt.show()

### Interpretare: Venit vs Mărime Gospodărie

**Ce vedem în grafic:**
- Venitul **crește** odată cu numărul de membri
- Gospodăriile cu 1 membru: ~7,400 EUR/an
- Gospodăriile cu 6 membri: ~17,300 EUR/an

**Ce înseamnă:**
- Mai mulți membri = **mai multe surse de venit** (mai mulți adulți care muncesc)
- Creșterea nu este liniară: de la 5 la 6 membri, creșterea e mai mică
- **Atenție:** Venitul total nu înseamnă și venit per persoană mai mare!

### Adăugarea valorilor pe bare

**Funcția `plt.text()`** permite adăugarea de text pe grafic.

**Sintaxa:**
```python
plt.text(x, y, text, ha='center')   # ha = horizontal alignment
```

In [None]:
# Grafic cu bare + valori afișate
# TODO: Creați graficul bar ca mai sus

# Adăugăm valorile deasupra fiecărei bare
for i, (membri, venit) in enumerate(venit_per_membri.items()):
    plt.text(
        x=membri,                    # poziția pe X
        y=venit + 300,               # poziția pe Y (puțin deasupra barei)
        s=f'{venit:,.0f}',           # textul (venitul formatat)
        ha='center',                 # aliniere orizontală: centrat
        fontsize=10                  # mărimea fontului
    )

# TODO: Adăugați titlu, etichete, plt.ylim(0, 20000), grid
# TODO: plt.show()

### Grafic cu bare orizontale - `plt.barh()`

**Când folosim bare orizontale:**
- Când avem multe categorii
- Când etichetele sunt lungi
- Când vrem să evidențiem un "clasament"

**Sintaxa:**
```python
plt.barh(y, width)   # y = categorii, width = lungimea barelor
```

In [None]:
# Venit mediu pe grad de urbanizare
# TODO: Grupați df după 'grad_urbanizare', calculați media 'venit_total' și sortați valorile
# TODO: Salvați în venit_per_urban

# Dicționar pentru etichete descriptive
etichete_urban = {
    1: 'Urban dens',
    2: 'Urban mediu', 
    3: 'Urban mic',
    4: 'Rural'
}

# Creăm etichetele
labels = [etichete_urban[x] for x in venit_per_urban.index]

# TODO: Afișați venitul mediu pe grad urbanizare

In [None]:
# Grafic cu bare orizontale
# TODO: Creați grafic cu plt.barh(y=labels, width=venit_per_urban.values, color=[...], edgecolor='black')

# TODO: Adăugați titlu 'Venit mediu pe grad de urbanizare'
# TODO: Adăugați eticheta X 'Venit mediu anual (EUR)'
# TODO: Adăugați grid pe X: plt.grid(axis='x', alpha=0.3)

# Adăugăm valorile la sfârșitul barelor
for i, venit in enumerate(venit_per_urban.values):
    plt.text(venit + 200, i, f'{venit:,.0f}', va='center')

# TODO: plt.tight_layout() și plt.show()

### Interpretare: Venit vs Urbanizare

**Ce vedem în grafic:**
- **Urban mediu** are cele mai mari venituri (~16,700 EUR)
- **Urban mic** are cele mai mici venituri (~10,600 EUR)
- **Rural** și **Urban dens** sunt la mijloc

**Surpriză:**
- Ne-am aștepta ca zonele urbane dense să fie cele mai bogate
- Dar în Estonia 2013, zona **urban mediu** conduce
- Zona **urban mic** (orașe mici) are venituri chiar mai mici decât ruralul

---
## Partea 4: Histogramă
---

### Când folosim histograma?

**Utilizare:** Pentru a vedea **distribuția** unei variabile continue.

**Diferența față de bar chart:**
- **Bar chart** = categorii distincte (urban, rural)
- **Histogramă** = intervale de valori continue (0-10000, 10000-20000, ...)

**Ce ne arată:**
- Unde sunt concentrate cele mai multe valori (vârful)
- Cât de împrăștiate sunt datele
- Dacă există outliers (valori extreme)

### Metoda `plt.hist()` - Histogramă

**Sintaxa:**
```python
plt.hist(data, bins=30, color='blue', edgecolor='black', alpha=0.7)
```

**Parametri importanți:**
- `data` = valorile de vizualizat
- `bins` = numărul de intervale (bare)
- `alpha` = transparența (0=transparent, 1=opac)
- `edgecolor` = culoarea conturului barelor

In [None]:
# Histogramă: distribuția venitului total
# TODO: Creați histogramă cu plt.hist(df['venit_total'], bins=30, color='steelblue', edgecolor='black', alpha=0.7)

# TODO: Adăugați titlu 'Distribuția venitului total'
# TODO: Adăugați eticheta X 'Venit total anual (EUR)'
# TODO: Adăugați eticheta Y 'Număr de gospodării'
# TODO: Adăugați grid pe Y

# TODO: plt.show()

### Interpretare: Histograma Veniturilor

**Ce vedem:**
- **Vârful** distribuției este în zona 0-15,000 EUR
- Există o **coadă lungă la dreapta** (right-skewed)
- Puține gospodării au venituri peste 50,000 EUR
- Există valori **negative** (stânga zero) - pierderi din afaceri

**Forma distribuției:**
- Nu este o "curbă normală" (clopot)
- Este **asimetrică** - mai multe valori mici, puține foarte mari
- Tipică pentru distribuția veniturilor în orice țară

### Adăugarea liniilor de referință

**Funcțiile `plt.axvline()` și `plt.axhline()`** adaugă linii verticale/orizontale.

**Sintaxa:**
```python
plt.axvline(x=valoare, color='red', linestyle='--', label='Eticheta')
```

In [None]:
# Histogramă cu linii pentru medie și mediană
# TODO: Calculați media și mediana pentru 'venit_total'

# TODO: Creați histograma cu label='Distribuție'

# TODO: Adăugați linia pentru medie cu plt.axvline(x=media, color='red', linestyle='--', linewidth=2, label=f'Media: {media:,.0f} EUR')

# TODO: Adăugați linia pentru mediană cu plt.axvline() similar, dar color='green', linestyle='-.'

# TODO: Adăugați titlu, etichete, plt.legend(), grid
# TODO: plt.show()

### Interpretare: Media vs Mediana vizualizată

**Ce vedem:**
- **Linia verde (mediana)** este în vârful distribuției
- **Linia roșie (media)** este trasă la dreapta

**Ce confirmă:**
- Distribuția este **right-skewed** (asimetrică la dreapta)
- Valorile mari (bogații) **trag media în sus**
- **Mediana** este mai reprezentativă pentru venitul "tipic"

### Experimentare: efectul numărului de bins

Numărul de **bins** (intervale) afectează cum arată histograma:
- **Prea puține bins** → pierdem detalii
- **Prea multe bins** → grafic "zgomotos"
- **Regula** → de obicei între 20-50 pentru seturi mari de date

In [None]:
# Comparație: diferite numere de bins
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

bins_options = [10, 30, 100]

for ax, bins in zip(axes, bins_options):
    # TODO: Creați histogramă pe fiecare ax cu ax.hist(df['venit_total'], bins=bins, ...)
    # TODO: Setați titlul cu ax.set_title(f'bins = {bins}')
    # TODO: Setați xlabel și ylabel
    pass

plt.tight_layout()
plt.show()

### Interpretare: Efectul bins

**Ce observăm:**
- **10 bins** → forma generală, dar pierdem detalii
- **30 bins** → echilibru bun între detaliu și claritate
- **100 bins** → prea multe detalii, grafic "nervos"

**Recomandare:** Începeți cu 30 bins și ajustați după nevoie.

---
## Partea 5: Boxplot
---

### Ce este un boxplot?

**Boxplot** (diagrama cutie) arată:
- **Mediana** (linia din cutie)
- **Quartilele** Q1 și Q3 (marginile cutiei)
- **Intervalul** datelor (mustățile)
- **Outliers** (punctele izolate)

```
              ┌───────┐
    ○         │   │   │         ○
  outlier   ──┤   │   ├──    outlier
              │   │   │
              └───────┘
  whisker    Q1  Q2  Q3    whisker
(min fără      (cutia)   (max fără
 outliers)               outliers)
```

**Când folosim:**
- Comparăm distribuții între grupuri
- Identificăm outliers
- Vedem "întinderea" datelor

### Metoda `plt.boxplot()` - Diagrama cutie

**Sintaxa:**
```python
plt.boxplot(data, labels=['Eticheta'])
```

**Parametri:**
- `data` = lista sau array cu valori
- `labels` = etichetele pentru fiecare box

In [None]:
# Boxplot simplu pentru venit total
# TODO: Creați boxplot cu plt.boxplot(df['venit_total'], labels=['Venit Total'])

# TODO: Adăugați titlu 'Boxplot: Distribuția venitului total'
# TODO: Adăugați eticheta Y 'Venit anual (EUR)'
# TODO: Adăugați grid pe Y

# TODO: plt.show()

### Interpretare: Boxplot Venit

**Ce vedem:**
- **Cutia** (50% din date) este între ~5,000 și ~20,000 EUR
- **Mediana** (linia portocalie) ≈ 10,500 EUR
- Multe **outliers sus** (gospodării foarte bogate)
- Câteva **outliers jos** (venituri negative)

**Ce înseamnă:**
- Majoritatea gospodăriilor sunt într-un interval relativ îngust
- Există un număr semnificativ de gospodării **excepțional de bogate**

### Boxplot pentru comparații între grupuri

Boxplot-ul este excelent pentru a compara distribuții între categorii.

In [None]:
# Pregătim datele: venituri pe grad de urbanizare
date_urbanizare = [
    df[df['grad_urbanizare'] == 1]['venit_total'],   # Urban dens
    df[df['grad_urbanizare'] == 2]['venit_total'],   # Urban mediu
    df[df['grad_urbanizare'] == 3]['venit_total'],   # Urban mic
    df[df['grad_urbanizare'] == 4]['venit_total']    # Rural
]

etichete = ['Urban\ndens', 'Urban\nmediu', 'Urban\nmic', 'Rural']

In [None]:
# Boxplot comparativ
# TODO: Creați boxplot cu plt.boxplot(date_urbanizare, labels=etichete)

# TODO: Adăugați titlu 'Distribuția venitului pe grad de urbanizare'
# TODO: Adăugați eticheta X 'Grad de urbanizare'
# TODO: Adăugați eticheta Y 'Venit anual (EUR)'
# TODO: Adăugați grid pe Y

# TODO: plt.show()

### Interpretare: Venit pe Urbanizare (Boxplot)

**Ce vedem:**
- **Urban mediu** are mediana cea mai mare și cele mai multe outliers sus
- **Urban mic** are cea mai mică mediană și interval
- **Rural** are un interval mare - variabilitate în venituri
- Toate categoriile au outliers (gospodării bogate)

**Avantajul boxplot-ului:**
- Vedem simultan: centrul, întinderea și outliers
- Comparația între grupuri e imediată

### Boxplot orizontal și personalizat

In [None]:
# Boxplot orizontal cu mai multe opțiuni
fig, ax = plt.subplots(figsize=(10, 6))

# TODO: Creați boxplot cu ax.boxplot(date_urbanizare, labels=etichete, vert=False, patch_artist=True, notch=True)
# TODO: Salvați rezultatul în variabila bp

# Colorăm cutiile diferit
colors = ['#3498db', '#2ecc71', '#f39c12', '#e74c3c']
for patch, color in zip(bp['boxes'], colors):
    patch.set_facecolor(color)
    patch.set_alpha(0.7)

# TODO: Setați titlu, xlabel, grid

plt.tight_layout()
plt.show()

---
## Partea 6: Grafic Pie (Plăcintă)
---

### Când folosim graficul pie?

**Utilizare:** Pentru a arăta **proporții dintr-un întreg** (100%).

**Bun pentru:**
- Puține categorii (max 5-6)
- Când suma = 100%
- Când vrem să evidențiem o parte majoră

**NU folosim când:**
- Avem multe categorii (greu de citit)
- Vrem să comparăm valori precise (ochiul uman e slab la unghiuri)
- Valorile sunt similare (diferențele nu se văd)

### Metoda `plt.pie()` - Grafic circular

**Sintaxa:**
```python
plt.pie(values, labels=labels, autopct='%1.1f%%', colors=colors)
```

**Parametri:**
- `values` = valorile (nu trebuie să fie procente, se calculează automat)
- `labels` = etichetele sectoarelor
- `autopct` = formatul procentelor pe grafic
- `explode` = "explodează" sectoare (le separă de centru)
- `startangle` = unghiul de început (90 = de la nord)

In [None]:
# Distribuția pe grad de urbanizare
# TODO: Folosiți value_counts().sort_index() pe coloana 'grad_urbanizare'
# TODO: Salvați în distributie_urban

etichete_urban = ['Urban dens', 'Urban mediu', 'Urban mic', 'Rural']
culori = ['#3498db', '#2ecc71', '#f39c12', '#e74c3c']

# TODO: Afișați distribuția pe urbanizare cu numere și procente

In [None]:
# Grafic pie simplu
# TODO: Creați grafic cu plt.pie(distributie_urban.values, labels=etichete_urban, autopct='%1.1f%%', colors=culori, startangle=90)

# TODO: Adăugați titlu
# TODO: plt.axis('equal') pentru cerc perfect

# TODO: plt.show()

### Interpretare: Distribuția Urbanizare

**Ce vedem:**
- **Rural domină** cu 55% din gospodării
- **Urban dens** pe locul 2 cu 30%
- **Urban mediu** și **Urban mic** împreună sub 15%

**Ce înseamnă pentru Estonia 2013:**
- Țară cu populație **preponderent rurală**
- Dar cu o concentrare semnificativă în **orașe mari** (Tallinn)
- Orașele mici și mijlocii sunt mai puțin populate

In [None]:
# Grafic pie cu "explozie" pentru evidențiere
explode = [0, 0.1, 0, 0]    # evidențiem "Urban mediu" (cel mai bogat)

plt.figure(figsize=(10, 8))

# TODO: Creați grafic pie cu explode=explode, shadow=True, textprops={'fontsize': 12}

# TODO: Adăugați titlu cu notă despre Urban mediu
# TODO: plt.axis('equal')

# TODO: plt.show()

### Grafic pie: distribuția pe quintile

In [None]:
# Distribuția pe quintile
# TODO: Folosiți value_counts().sort_index() pe coloana 'quintila'

culori_quintile = ['#e74c3c', '#f39c12', '#f1c40f', '#2ecc71', '#27ae60']

# TODO: Creați grafic pie pentru quintile

# TODO: plt.show()

### Interpretare: Quintilele

**Ce vedem:**
- Fiecare quintilă are **~20%** din gospodării
- Este exact ceea ce ne așteptăm (quintilele împart în 5 părți egale)

**Acest grafic arată:**
- Quintilele sunt **definite corect**
- Dar **NU arată inegalitatea** - pentru asta avem nevoie de venituri, nu numere

---
## Partea 7: Grafic de Linie (Line Chart)
---

### Când folosim graficul de linie?

**Utilizare:** Pentru a arăta **tendințe** și **evoluție** în timp sau pe o scară continuă.

**Bun pentru:**
- Date temporale (venituri pe ani)
- Valori ordonate (quintile: Q1→Q5)
- Comparații de tendințe între grupuri

**NU folosim când:**
- Categorii fără ordine (culori, orașe)
- Valori discrete fără legătură între ele

### Metoda `plt.plot()` - opțiuni avansate

**Sintaxa completă:**
```python
plt.plot(x, y, color='blue', marker='o', linestyle='-', linewidth=2, label='Eticheta')
```

**Stiluri de linie (`linestyle`):**
- `'-'` = linie continuă
- `'--'` = linie întreruptă
- `'-.'` = linie punct-linie
- `':'` = linie punctată

**Markere (`marker`):**
- `'o'` = cerc
- `'s'` = pătrat
- `'^'` = triunghi
- `'*'` = stea

In [None]:
# Venit mediu pe quintile (arată "creșterea" de la săraci la bogați)
# TODO: Grupați df după 'quintila' și calculați media pentru 'venit_total'
# TODO: Folosiți observed=True în groupby

# TODO: Afișați venitul mediu pe quintile

In [None]:
# Grafic de linie: venit pe quintile
# TODO: Creați grafic cu plt.plot(range(1, 6), venit_quintile.values, color='steelblue', marker='o', markersize=10, linewidth=2, linestyle='-')

# TODO: Adăugați titlu 'Venit mediu pe quintile'
# TODO: Adăugați etichete X și Y
# TODO: Setați etichetele pe X cu plt.xticks(range(1, 6), ['Q1\n(săraci)', 'Q2', 'Q3', 'Q4', 'Q5\n(bogați)'])
# TODO: Adăugați grid

# TODO: plt.show()

### Interpretare: Grafic Venit pe Quintile

**Ce vedem:**
- Linia **crește** de la Q1 la Q5
- Creșterea **NU este liniară** - se accelerează spre Q5
- Saltul de la Q4 la Q5 este **cel mai mare**

**Ce înseamnă:**
- Inegalitatea este **concentrată în vârf**
- Cei mai bogați 20% câștigă **disproporționat** mai mult
- Între Q1-Q4, creșterea e mai graduală

### Mai multe linii pe același grafic

In [None]:
# Venit total și venit din muncă pe quintile
# TODO: Grupați și calculați media pentru 'venit_total' și 'venit_munca' pe quintile

# TODO: Calculați diferența (alte_venituri = venit_total - venit_munca)

# TODO: Afișați comparația

In [None]:
# Grafic cu două linii
x = range(1, 6)

# TODO: Creați prima linie pentru venit_total cu marker='o', label='Venit Total'

# TODO: Creați a doua linie pentru venit_munca cu marker='s', linestyle='--', label='Venit din Muncă'

# TODO: Adăugați titlu, etichete, xticks, legend, grid

# TODO: plt.show()

### Interpretare: Venit Total vs Muncă

**Ce vedem:**
- Cele două linii sunt **foarte apropiate** (confirmat de corelația 0.97)
- Venitul din muncă reprezintă **majoritatea** venitului total
- Diferența (alte surse) este mică în toate quintilele

**Ce înseamnă:**
- Gospodăriile din Estonia 2013 depind aproape **exclusiv de muncă**
- Alte surse (pensii, ajutoare, investiții) contribuie marginal

---
## Partea 8: Grafic Scatter (Împrăștiere)
---

### Când folosim scatter plot?

**Utilizare:** Pentru a vedea **relația** între două variabile numerice.

**Ce ne arată:**
- **Corelație pozitivă** → punctele merg de la stânga-jos la dreapta-sus
- **Corelație negativă** → punctele merg de la stânga-sus la dreapta-jos
- **Fără corelație** → punctele sunt împrăștiate aleatoriu

**Folosim când:**
- Explorăm relații între variabile
- Căutăm outliers
- Vizualizăm clustere (grupări)

### Metoda `plt.scatter()` - Grafic de împrăștiere

**Sintaxa:**
```python
plt.scatter(x, y, c='blue', s=50, alpha=0.5, marker='o')
```

**Parametri:**
- `x`, `y` = coordonatele punctelor
- `c` = culoarea (poate fi o listă pentru colorare pe categorii)
- `s` = mărimea punctelor
- `alpha` = transparența (important când punctele se suprapun)

In [None]:
# Scatter plot: venit total vs venit muncă
# TODO: Creați scatter cu plt.scatter(df['venit_munca'], df['venit_total'], alpha=0.3, s=30, c='steelblue')

# TODO: Adăugați titlu 'Relația: Venit total vs Venit din muncă'
# TODO: Adăugați etichete X și Y
# TODO: Adăugați grid

# TODO: plt.show()

### Interpretare: Scatter Venit Total vs Muncă

**Ce vedem:**
- Punctele formează o **linie aproape dreaptă**
- Direcția: de la stânga-jos la dreapta-sus (corelație pozitivă)
- Foarte puțină "împrăștiere" în jurul liniei

**Ce confirmă:**
- Corelația de **0.97** se vede clar
- Venitul din muncă **determină** aproape complet venitul total
- Gospodăriile care nu muncesc au venituri foarte mici

In [None]:
# Scatter cu linia de referință (x = y)
# TODO: Creați scatter ca mai sus cu label='Gospodării'

# Adăugăm linia x = y (unde venit_total = venit_munca)
max_val = max(df['venit_munca'].max(), df['venit_total'].max())
# TODO: Adăugați linia cu plt.plot([0, max_val], [0, max_val], 'r--', linewidth=2, label='Linia x=y')

# TODO: Adăugați titlu, etichete, legend, grid

# TODO: plt.show()

### Interpretare: Cu linia de referință

**Ce vedem:**
- Majoritatea punctelor sunt **ușor deasupra** liniei roșii
- Asta înseamnă: venit_total > venit_munca (au și alte surse de venit)
- Punctele sunt foarte **aproape de linie** (diferența e mică)

**Ce înseamnă:**
- Alte surse de venit (pensii, ajutoare) adaugă **puțin** la venitul total
- Economia Estoniei 2013 era bazată pe **salarii**, nu pe transferuri sociale

### Scatter colorat pe categorii

In [None]:
# Scatter: venit vs număr membri, colorat pe urbanizare
culori_urbanizare = {1: '#3498db', 2: '#2ecc71', 3: '#f39c12', 4: '#e74c3c'}
etichete_urbanizare = {1: 'Urban dens', 2: 'Urban mediu', 3: 'Urban mic', 4: 'Rural'}

fig, ax = plt.subplots(figsize=(12, 6))

for urban_cod in [1, 2, 3, 4]:
    subset = df[df['grad_urbanizare'] == urban_cod]
    # TODO: Creați scatter pe ax pentru fiecare subset
    # ax.scatter(subset['numar_membri'], subset['venit_total'], alpha=0.4, s=40, c=culori_urbanizare[urban_cod], label=etichete_urbanizare[urban_cod])

# TODO: Setați titlu, etichete, legend, grid

plt.show()

### Interpretare: Scatter Colorat

**Ce vedem:**
- Punctele de **toate culorile** sunt amestecate
- Nu există o separare clară între urban și rural
- Variabilitatea mare în toate categoriile

**Ce înseamnă:**
- Gradul de urbanizare **NU este** un predictor puternic al venitului
- Există gospodării bogate și sărace în toate zonele
- Alți factori (educație, ocupație) sunt probabil mai importanți

---
## Partea 9: Subplots - Mai Multe Grafice Într-o Figură
---

### De ce folosim subplots?

**Avantaje:**
- Comparăm mai multe grafice **simultan**
- Economisim spațiu
- Creăm dashboarduri informative

**Structura:**
```
┌─────────────────────────────────────┐
│           FIGURE (figura)           │
│  ┌───────────┐  ┌───────────┐      │
│  │  Subplot  │  │  Subplot  │      │
│  │   (1,1)   │  │   (1,2)   │      │
│  └───────────┘  └───────────┘      │
│  ┌───────────┐  ┌───────────┐      │
│  │  Subplot  │  │  Subplot  │      │
│  │   (2,1)   │  │   (2,2)   │      │
│  └───────────┘  └───────────┘      │
└─────────────────────────────────────┘
```

### Metoda `plt.subplots()` - Creare subplots

**Sintaxa:**
```python
fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(12, 8))
```

**Returnează:**
- `fig` = figura principală
- `axes` = array de axe (subplot-uri)

**Acces la subplot-uri:**
- `axes[0, 0]` = primul subplot (rând 0, coloană 0)
- `axes[0, 1]` = al doilea subplot
- etc.

In [None]:
# Dashboard cu 4 grafice (2x2)
fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(14, 10))

# Subplot 1: Histogramă venit total (stânga sus)
# TODO: axes[0, 0].hist(...)
# TODO: axes[0, 0].axvline(...) pentru mediană
# TODO: axes[0, 0].set_title(...), set_xlabel(...), set_ylabel(...), legend()

# Subplot 2: Boxplot pe urbanizare (dreapta sus)
# TODO: axes[0, 1].boxplot(date_urbanizare, labels=[...])
# TODO: set_title, set_ylabel

# Subplot 3: Bar chart venit pe membri (stânga jos)
# TODO: axes[1, 0].bar(...)
# TODO: set_title, set_xlabel, set_ylabel

# Subplot 4: Pie chart urbanizare (dreapta jos)
# TODO: axes[1, 1].pie(...)
# TODO: set_title

# Ajustăm spațierea
plt.tight_layout()

plt.show()

### Interpretare: Dashboard

**Avantajul dashboard-ului:**
- Vedem **simultan** mai multe perspective ale datelor
- Putem compara și identifica pattern-uri

**Ce observăm:**
1. **Histogramă:** Distribuție asimetrică, mediana sub medie
2. **Boxplot:** Urban mediu are cele mai mari venituri
3. **Bar chart:** Venitul crește cu numărul de membri
4. **Pie:** Majoritatea gospodăriilor sunt rurale

### Subplots cu dimensiuni diferite

In [None]:
# Layout personalizat: un grafic mare + două mici
fig = plt.figure(figsize=(14, 8))

# Grafic mare (ocupă 2/3 din lățime)
ax1 = fig.add_subplot(1, 3, (1, 2))    # rând 1, coloane 1-2
# TODO: ax1.scatter(...) pentru venit_total vs venit_munca
# TODO: ax1.plot(...) pentru linia x=y
# TODO: set_title, set_xlabel, set_ylabel, grid

# Grafic mic sus (1/3 din lățime)
ax2 = fig.add_subplot(2, 3, 3)         # rând 1, coloana 3
# TODO: ax2.hist(...)
# TODO: set_title, set_xlabel

# Grafic mic jos (1/3 din lățime)
ax3 = fig.add_subplot(2, 3, 6)         # rând 2, coloana 3
# TODO: ax3.boxplot(...)
# TODO: set_title, set_ylabel

plt.tight_layout()
plt.show()

---
## Partea 10: Personalizare Avansată și Stil
---

### Stiluri predefinite în Matplotlib

Matplotlib oferă **stiluri** predefinite care schimbă aspectul graficelor.

**Sintaxa:**
```python
plt.style.use('numele_stilului')
```

**Stiluri populare:**
- `'default'` = stilul standard
- `'seaborn-v0_8'` = stil modern, elegant
- `'ggplot'` = inspirat de R ggplot2
- `'dark_background'` = fundal negru

In [None]:
# Vedem stilurile disponibile
print("Stiluri disponibile:")
print(plt.style.available)

In [None]:
# Comparăm câteva stiluri
stiluri = ['default', 'seaborn-v0_8-whitegrid', 'ggplot', 'bmh']

fig, axes = plt.subplots(2, 2, figsize=(14, 10))

for ax, stil in zip(axes.flat, stiluri):
    with plt.style.context(stil):    # aplică stilul temporar
        # TODO: ax.hist(df['venit_total'], bins=25, alpha=0.7, edgecolor='black')
        # TODO: ax.set_title(f"Stil: '{stil}'")
        # TODO: ax.set_xlabel('Venit (EUR)')
        pass

plt.tight_layout()
plt.show()

### Culori personalizate

**Moduri de a specifica culori:**
1. **Nume:** `'red'`, `'blue'`, `'green'`
2. **Cod hex:** `'#3498db'`, `'#e74c3c'`
3. **RGB tuple:** `(0.2, 0.4, 0.6)` (valori 0-1)
4. **Palete predefinite:** `plt.cm.Blues`, `plt.cm.viridis`

In [None]:
# Grafic cu paletă de culori profesională
culori_corporate = ['#1a365d', '#2c5282', '#3182ce', '#63b3ed', '#90cdf4']

# TODO: Obțineți venit_quintile ca mai sus

# TODO: Creați grafic bar cu culorile corporate

# TODO: Adăugați titlu bold, etichete, xticks pentru quintile

# Adăugăm valorile pe bare
for i, val in enumerate(venit_quintile.values):
    plt.text(i, val + 500, f'{val:,.0f}', ha='center', fontsize=10, fontweight='bold')

plt.tight_layout()
plt.show()

---
## Partea 11: Salvarea Graficelor
---

### Metoda `plt.savefig()` - Salvarea în fișier

**Sintaxa:**
```python
plt.savefig('nume_fisier.png', dpi=300, bbox_inches='tight')
```

**Parametri:**
- `dpi` = rezoluția (dots per inch) - 300 pentru print, 100 pentru web
- `bbox_inches='tight'` = elimină spațiul alb în exces
- `transparent=True` = fundal transparent (pentru PNG)

**Formate suportate:**
- `.png` = recomandat pentru web/prezentări
- `.pdf` = vector, ideal pentru rapoarte
- `.svg` = vector, editabil în software grafic
- `.jpg` = compresie cu pierderi, nu recomandat

In [None]:
# Creăm un grafic pentru salvare
fig, ax = plt.subplots(figsize=(10, 6))

# TODO: Creați histogramă cu medie și mediană
# TODO: Adăugați titlu, etichete, legendă, grid

# Salvăm în PNG
# TODO: plt.savefig('distributie_venit_estonia.png', dpi=300, bbox_inches='tight')

print("Grafic salvat: distributie_venit_estonia.png")

plt.show()

In [None]:
# Salvăm și în format PDF (pentru rapoarte)
fig, ax = plt.subplots(figsize=(10, 6))

# TODO: Creați grafic bar pentru venit pe membri

# TODO: plt.savefig('venit_pe_membri.pdf', bbox_inches='tight')

print("Grafic salvat: venit_pe_membri.pdf")

plt.show()

---
## Recapitulare: Ce am învățat
---

### Tipuri de grafice și când le folosim

| Tip grafic | Când îl folosim | Funcția |
|:-----------|:----------------|:--------|
| **Bar chart** | Comparăm categorii | `plt.bar()` / `plt.barh()` |
| **Histogramă** | Distribuția unei variabile | `plt.hist()` |
| **Boxplot** | Quartile, outliers, comparații | `plt.boxplot()` |
| **Pie chart** | Proporții dintr-un întreg | `plt.pie()` |
| **Line chart** | Tendințe, evoluție | `plt.plot()` |
| **Scatter** | Relații între 2 variabile | `plt.scatter()` |

### Funcții de personalizare

| Funcție | Ce face |
|:--------|:--------|
| `plt.title()` | Adaugă titlu |
| `plt.xlabel()`, `plt.ylabel()` | Etichete pe axe |
| `plt.legend()` | Afișează legenda |
| `plt.grid()` | Adaugă linii de ghidaj |
| `plt.axvline()`, `plt.axhline()` | Linii de referință |
| `plt.text()` | Adaugă text pe grafic |
| `plt.xticks()`, `plt.yticks()` | Personalizează etichetele axelor |
| `plt.xlim()`, `plt.ylim()` | Setează limitele axelor |
| `plt.tight_layout()` | Ajustează spațierea |
| `plt.savefig()` | Salvează graficul |

### Concluzii despre Estonia (2013) - vizualizate

1. **Distribuție asimetrică** → Histograma cu coadă la dreapta
2. **Inegalitate mare** → Graficul de linie cu quintilele (Q5/Q1 = 13.7x)
3. **55% rural** → Graficul pie arată clar
4. **Venitul crește cu mărimea familiei** → Bar chart
5. **Venit ≈ Venit muncă** → Scatter aproape diagonal
6. **Urban mediu > Rural** (surpriză) → Boxplot comparativ

### Reguli pentru grafice bune

1. **Titlu clar** - Spune ce arată graficul
2. **Etichete pe axe** - Cu unități de măsură
3. **Legendă** - Când sunt mai multe serii
4. **Culori cu sens** - Nu aleatorii
5. **Simplitate** - Eliminăm ce nu e necesar
6. **Tipul potrivit** - Bar pentru categorii, line pentru tendințe
7. **Scale corecte** - Barele încep de la zero