# Sesiunea 3: Exploratory Data Analysis (EDA)

## Ce este EDA?

**Exploratory Data Analysis** = Analiza Exploratorie a Datelor

Este procesul prin care:
1. **Înțelegem** structura și conținutul datelor
2. **Vizualizăm** distribuțiile și pattern-urile
3. **Identificăm** relații între variabile
4. **Formulăm** ipoteze pentru analize ulterioare

**Dataset:** `eusilc_clean.csv` - datele curate din Sesiunea 2

## Obiectivele noastre

1. **Analiza univariată** - Înțelegerea fiecărei variabile individual
2. **Analiza bivariată** - Relații între două variabile
3. **Gruparea datelor** - Comparații între categorii
4. **Vizualizări** - Grafice pentru înțelegere și comunicare

---
## Partea 1: Încărcarea Datelor
---

In [None]:
# Importăm bibliotecile necesare
import pandas as pd
import numpy as np

# Setări pentru afișare
pd.set_option('display.max_columns', 20)

In [None]:
# Încărcăm datele curate din sesiunea anterioară
# TODO: Citiți fișierul '../datasets/eusilc_clean.csv' în variabila df

# TODO: Afișați numărul de rânduri și coloane folosind df.shape

In [None]:
# Verificăm primele rânduri
# TODO: Afișați primele 5 rânduri folosind df.head()

In [None]:
# Verificăm că nu avem valori lipsă
# TODO: Afișați numărul de valori lipsă per coloană folosind df.isnull().sum()

---
## Partea 2: Concepte Statistice de Bază
---

### Ce sunt statisticile descriptive?

Statisticile descriptive ne ajută să **rezumăm** datele în câteva numere cheie.

Există două categorii principale:

**1. Măsuri de tendință centrală** (unde e "centrul" datelor):
- **Media** (mean) - suma valorilor împărțită la numărul de valori
- **Mediana** (median) - valoarea din mijloc când datele sunt ordonate
- **Moda** (mode) - valoarea care apare cel mai frecvent

**2. Măsuri de dispersie** (cât de "împrăștiate" sunt datele):
- **Deviația standard** (std) - cât de departe sunt valorile de medie
- **Minim și Maxim** - valorile extreme
- **Quartile** - împart datele în 4 părți egale

### Media vs Mediana - Care e diferența?

**Exemplu simplu:**

Venituri: [1000, 2000, 3000, 4000, **50000**]

- **Media** = (1000+2000+3000+4000+50000) / 5 = **12,000**
- **Mediana** = valoarea din mijloc = **3,000**

**Concluzie:**
- Media este **sensibilă** la valori extreme (outliers)
- Mediana este **robustă** - nu e afectată de outliers
- Când Media > Mediana → avem valori foarte mari care trag media în sus

### Quartile - Ce sunt?

**Quartilele** împart datele ordonate în **4 părți egale**:

```
   25%      25%      25%      25%
|-------|-------|-------|-------|
Min    Q1      Q2      Q3     Max
       (25%)  (50%)   (75%)
              Mediana
```

- **Q1 (25%)** = 25% din valori sunt sub această valoare
- **Q2 (50%)** = Mediana - 50% sunt sub, 50% peste
- **Q3 (75%)** = 75% din valori sunt sub această valoare
- **IQR** = Q3 - Q1 = intervalul în care se află 50% din date (mijlocul)

---
## Partea 3: Analiza Venitului Total
---

### Metoda `.mean()` - Calcularea mediei

**Ce face:** Calculează media aritmetică (suma / numărul de valori).

**Sintaxa:**
```python
df['coloana'].mean()
```

In [None]:
# Calculăm media venitului total
# TODO: Calculați media coloanei 'venit_total' și salvați în media_venit

# TODO: Afișați rezultatul formatat cu 2 zecimale

### Metoda `.median()` - Calcularea medianei

**Ce face:** Returnează valoarea din mijloc când datele sunt ordonate.

**Sintaxa:**
```python
df['coloana'].median()
```

In [None]:
# Calculăm mediana venitului total
# TODO: Calculați mediana coloanei 'venit_total' și salvați în mediana_venit

# TODO: Afișați rezultatul formatat cu 2 zecimale

### Comparăm media cu mediana

In [None]:
# Comparație media vs mediana
# TODO: Afișați media, mediana și diferența dintre ele

### Interpretare: Media vs Mediana

**Ce observăm:**
- Media (~14,600 EUR) este mai mare decât Mediana (~10,500 EUR)
- Diferența este de ~4,100 EUR

**Ce înseamnă:**
- Distribuția veniturilor este **asimetrică la dreapta** (right-skewed)
- Există gospodării cu venituri **foarte mari** care trag media în sus
- **Mediana** (10,500 EUR) este un indicator mai bun al venitului "tipic"
- Jumătate din gospodării câștigă sub 10,500 EUR pe an

### Metoda `.std()` - Deviația standard

**Ce face:** Măsoară cât de **împrăștiate** sunt valorile în jurul mediei.

**Interpretare:**
- Std mic → valorile sunt **apropiate** de medie
- Std mare → valorile sunt **împrăștiate** departe de medie

**Sintaxa:**
```python
df['coloana'].std()
```

In [None]:
# Calculăm deviația standard
# TODO: Calculați deviația standard a coloanei 'venit_total' și salvați în std_venit

# TODO: Afișați rezultatul formatat cu 2 zecimale

### Interpretare: Deviația Standard

**Ce observăm:**
- Std = ~13,360 EUR (aproape la fel de mare ca media!)

**Ce înseamnă:**
- Veniturile sunt **foarte împrăștiate** - variabilitate mare
- Există diferențe mari între gospodării
- Unele gospodării au venituri foarte mici, altele foarte mari

### Metoda `.min()` și `.max()` - Valori extreme

**Ce fac:** Returnează valoarea minimă și maximă.

**Sintaxa:**
```python
df['coloana'].min()
df['coloana'].max()
```

In [None]:
# Valorile extreme
# TODO: Calculați valoarea minimă și maximă a coloanei 'venit_total'
# TODO: Salvați în variabilele minim și maxim

# TODO: Afișați minimul, maximul și diferența (range)

### Interpretare: Valori Extreme

**Ce observăm:**
- Minim = **-37,048 EUR** (valoare negativă!)
- Maxim = **131,049 EUR**
- Range = ~168,000 EUR

**Ce înseamnă:**
- Valoarea negativă = **pierderi din afaceri** (am discutat în sesiunea de curățare)
- Diferența enormă între min și max arată **inegalitate mare**
- Cea mai bogată gospodărie câștigă de ~3.5 ori mai mult decât media

### Metoda `.quantile()` - Calcularea quartilelor

**Ce face:** Returnează valoarea la o anumită percentilă.

**Sintaxa:**
```python
df['coloana'].quantile(0.25)   # Q1 (25%)
df['coloana'].quantile(0.50)   # Q2 (50%) = Mediana
df['coloana'].quantile(0.75)   # Q3 (75%)
```

In [None]:
# Calculăm quartilele
# TODO: Calculați q1 (25%), q2 (50%), q3 (75%) pentru 'venit_total'
# TODO: Calculați iqr = q3 - q1

# TODO: Afișați Q1, Q2, Q3 și IQR

### Interpretare: Quartile

**Ce observăm:**
- Q1 = ~5,142 EUR → 25% din gospodării câștigă sub această sumă
- Q2 = ~10,500 EUR → 50% câștigă sub această sumă (mediana)
- Q3 = ~19,914 EUR → 75% câștigă sub această sumă
- IQR = ~14,772 EUR → intervalul în care se află 50% din gospodării

**Ce înseamnă pentru Estonia 2013:**
- O gospodărie "tipică" (mijlocul distribuției) câștigă între **5,142 și 19,914 EUR/an**
- Asta înseamnă aproximativ **428-1,660 EUR/lună** pentru întreaga gospodărie
- 25% din gospodării trăiesc cu mai puțin de **428 EUR/lună**

### Metoda `.describe()` - Toate statisticile odată

**Ce face:** Calculează automat toate statisticile principale.

**Returnează:** count, mean, std, min, 25%, 50%, 75%, max

In [None]:
# Toate statisticile pentru venit_total
# TODO: Folosiți .describe() pe coloana 'venit_total'

---
## Partea 4: Vizualizarea Distribuțiilor
---

### De ce vizualizăm datele?

Statisticile descriptive sunt utile, dar **graficele** ne arată:
- **Forma** distribuției (simetrică, asimetrică)
- **Outliers** (valori extreme)
- **Pattern-uri** care nu se văd în numere

### Histograma - Distribuția unei variabile

**Ce este:**
- Împarte valorile în **intervale** (bins)
- Arată **câte valori** sunt în fiecare interval

**Cum o interpretăm:**
- **Vârf** = unde sunt cele mai multe valori
- **Coadă** = valori rare, extreme
- **Right-skewed** = coadă lungă la dreapta (valori mari rare)

In [None]:
# Histogramă pentru venit_total
# TODO: Creați histogramă cu df['venit_total'].plot(kind='hist', bins=30, figsize=(10, 5), title='...')

### Interpretare: Histograma Veniturilor

**Ce vedem în grafic:**
- **Vârful** distribuției este în zona 0-15,000 EUR
- Există o **coadă lungă la dreapta** (venituri mari, dar rare)
- Câteva gospodării au **venituri negative** (stânga zero)

**Ce înseamnă:**
- Majoritatea gospodăriilor au venituri **modeste** (sub 20,000 EUR/an)
- Puține gospodării au venituri **foarte mari** (peste 50,000 EUR)
- Distribuția este **inegală** - nu e o "curbă normală"

### Boxplot - Vizualizarea quartilelor și outliers

**Ce arată un boxplot:**

```
              ┌───────┐
    ○         │       │         ○
  outlier   ──┤   │   ├──    outlier
              │       │
              └───────┘
             Q1  Q2  Q3
           (cutia)
```

- **Cutia** = intervalul Q1-Q3 (50% din date)
- **Linia din cutie** = mediana (Q2)
- **Mustățile** = extinderea datelor (fără outliers)
- **Punctele** = outliers (valori extreme)

In [None]:
# Boxplot pentru venit_total
# TODO: Creați boxplot cu df['venit_total'].plot(kind='box', figsize=(8, 5), title='...')

### Interpretare: Boxplot Venituri

**Ce vedem în grafic:**
- **Cutia** (50% din date) este între ~5,000 și ~20,000 EUR
- **Mediana** (linia din cutie) ≈ 10,500 EUR
- **Outliers sus** (puncte) = gospodării cu venituri foarte mari (peste ~40,000 EUR)
- **Outliers jos** = gospodării cu venituri negative sau foarte mici

**Ce înseamnă:**
- Majoritatea gospodăriilor sunt concentrate într-un interval relativ îngust
- Există un număr semnificativ de **gospodării foarte bogate** (outliers)
- Acești outliers **trag media în sus** față de mediană

---
## Partea 5: Analiza Variabilelor Categoriale
---

### Ce sunt variabilele categoriale?

**Variabile categoriale** = au un număr limitat de valori posibile (categorii).

Exemple din datele noastre:
- `grad_urbanizare`: 1=Urban dens, 2=Urban mediu, 3=Urban mic, 4=Rural
- `numar_membri`: 1, 2, 3, etc.

### Metoda `.value_counts()` pentru categorii

**Ce face:** Numără câte observații sunt în fiecare categorie.

**Sintaxa:**
```python
df['coloana'].value_counts()                    # numere absolute
df['coloana'].value_counts(normalize=True)      # procente (0-1)
df['coloana'].value_counts(normalize=True) * 100  # procente (0-100)
```

In [None]:
# Distribuția numărului de membri
# TODO: Folosiți value_counts().sort_index() pe coloana 'numar_membri'

In [None]:
# Același lucru în procente
# TODO: Folosiți value_counts(normalize=True).sort_index() * 100 și rotunjiți la 1 zecimală

### Interpretare: Mărimea Gospodăriilor

**Ce observăm:**
- Cele mai frecvente sunt gospodăriile cu **4 membri** (28.8%)
- Urmate de cele cu **3 membri** (23.1%) și **2 membri** (17.4%)
- Gospodăriile cu **1 membru** sunt foarte rare (0.5%)
- Există și gospodării mari cu **5-6 membri** (~30% împreună)

**Ce înseamnă pentru Estonia:**
- Familia "tipică" din Estonia (2013) are **3-4 membri**
- Persoanele singure sunt **foarte rare** în dataset
- Aceasta poate reflecta structura socială sau modul de colectare a datelor

In [None]:
# Bar plot pentru număr membri
# TODO: Creați bar plot cu df['numar_membri'].value_counts().sort_index().plot(kind='bar', ...)

In [None]:
# Distribuția gradului de urbanizare
# TODO: Afișați value_counts() pentru 'grad_urbanizare' (în numere și procente)

### Interpretare: Urbanizare

**Ce observăm:**
- **55% din gospodării** sunt în zone **rurale** (cod 4)
- **30% sunt în zone urban dense** (cod 1)
- Restul (~15%) sunt în zone intermediare

**Ce înseamnă pentru Estonia:**
- Estonia este o țară cu populație **preponderent rurală**
- Această distribuție va afecta analizele ulterioare
- Trebuie să ținem cont de acest lucru când comparăm venituri

---
## Partea 6: Analiza Bivariată - Relații între Variabile
---

### Ce este analiza bivariată?

**Analiza bivariată** = studierea relației dintre **două** variabile.

Întrebări pe care le punem:
- Gospodăriile mai mari au venituri mai mari?
- Există diferențe de venit între urban și rural?
- Numărul de camere e legat de venit?

### Metoda `.groupby()` - Gruparea datelor

**Ce face:** Împarte datele în grupuri și calculează statistici pentru fiecare grup.

**Sintaxa:**
```python
df.groupby('coloana_grupare')['coloana_analizata'].mean()
df.groupby('coloana_grupare')['coloana_analizata'].median()
```

**Exemplu:** Media venitului pentru fiecare grad de urbanizare.

In [None]:
# Venit mediu pe grad de urbanizare
# TODO: Grupați df după 'grad_urbanizare' și calculați media pentru 'venit_total'
# TODO: Salvați în venit_per_urbanizare și afișați rotunjit

### Metoda `.agg()` - Mai multe statistici odată

**Ce face:** Calculează mai multe statistici pentru fiecare grup.

**Sintaxa:**
```python
df.groupby('grupare')['coloana'].agg(['mean', 'median', 'count'])
```

In [None]:
# Mai multe statistici pentru venit pe urbanizare
# TODO: Grupați după 'grad_urbanizare' și folosiți .agg(['mean', 'median', 'std', 'count'])
# TODO: Redenumiți coloanele în ['Media', 'Mediana', 'Std', 'Numar']

### Interpretare: Venit vs Urbanizare

**Ce observăm:**

| Grad | Media | Mediana | Interpretare |
|:-----|------:|--------:|:-------------|
| 1 (Urban dens) | 15,285 | 11,025 | Venituri mari, dar inegale |
| 2 (Urban mediu) | 16,710 | 13,162 | Cele mai mari venituri! |
| 3 (Urban mic) | 10,651 | 7,574 | Cele mai mici venituri |
| 4 (Rural) | 14,452 | 10,265 | Venituri medii |

**Concluzie:**
- **Surpriză!** Zona rural (4) nu are cele mai mici venituri
- Zonele **urban mic** (3) au cele mai mici venituri
- Zonele **urban mediu** (2) au cele mai mari venituri
- Diferențele între medie și mediană arată **inegalitate** în toate zonele

In [None]:
# Boxplot: venit pe grad urbanizare
# TODO: Creați boxplot cu df.boxplot(column='venit_total', by='grad_urbanizare', figsize=(10, 5))

### Analiza: Venit vs Număr membri

In [None]:
# Venit mediu pe număr de membri
# TODO: Grupați după 'numar_membri' și folosiți .agg(['mean', 'median', 'count']) pe 'venit_total'
# TODO: Redenumiți coloanele și afișați

### Interpretare: Venit vs Mărime Gospodărie

**Ce observăm:**
- Venitul **crește** odată cu numărul de membri
- Gospodăriile cu 1 membru: ~7,384 EUR
- Gospodăriile cu 6 membri: ~17,321 EUR

**Ce înseamnă:**
- Este **logic**: mai mulți membri = mai multe surse de venit
- Dar atenție: venitul **per persoană** poate fi mai mic în familiile mari
- Gospodăriile mici (1-2 membri) au venituri mai mici, dar și costuri mai mici

In [None]:
# Vizualizare: bar plot cu venit mediu pe mărime gospodărie
# TODO: Selectați coloana 'Media' din venit_per_membri și creați bar plot

---
## Partea 7: Corelația între Variabile
---

### Ce este corelația?

**Corelația** măsoară **cât de puternic** sunt legate două variabile.

**Valori posibile:** de la **-1** la **+1**

| Valoare | Interpretare |
|:--------|:-------------|
| +1 | Corelație pozitivă perfectă (când una crește, cealaltă crește) |
| +0.7 | Corelație pozitivă puternică |
| +0.3 | Corelație pozitivă slabă |
| 0 | Fără corelație (variabilele nu sunt legate) |
| -0.3 | Corelație negativă slabă |
| -0.7 | Corelație negativă puternică |
| -1 | Corelație negativă perfectă (când una crește, cealaltă scade) |

### Metoda `.corr()` - Calcularea corelației

**Ce face:** Calculează corelația între două variabile sau între toate variabilele.

**Sintaxa:**
```python
# Corelația între două variabile
df['var1'].corr(df['var2'])

# Matricea de corelație (toate variabilele)
df.corr()
```

In [None]:
# Corelația dintre venit_total și numar_membri
# TODO: Calculați corelația dintre 'venit_total' și 'numar_membri'
# TODO: Afișați rezultatul cu 3 zecimale

### Interpretare: Corelația Venit - Membri

**Rezultat:** r = 0.124 (corelație pozitivă **slabă**)

**Ce înseamnă:**
- Există o legătură **slabă** între mărimea gospodăriei și venit
- Gospodăriile mai mari **tind** să aibă venituri mai mari, dar relația nu e puternică
- Alte factori (educație, ocupație, locație) sunt probabil mai importanți

In [None]:
# Corelația venit_total cu venit_munca
# TODO: Calculați corelația dintre 'venit_total' și 'venit_munca'

### Interpretare: Corelația Venit Total - Venit Muncă

**Rezultat:** r = 0.970 (corelație pozitivă **foarte puternică**)

**Ce înseamnă:**
- Venitul din muncă reprezintă **sursa principală** de venit pentru majoritatea gospodăriilor
- Aproape tot venitul total vine din muncă
- Alte surse (pensii, ajutoare sociale, investiții) contribuie mai puțin

In [None]:
# Matricea de corelație
variabile_numerice = ['venit_total', 'venit_munca', 'numar_membri', 'numar_camere']

# TODO: Calculați matricea de corelație pentru variabile_numerice
# TODO: Rotunjiți la 2 zecimale și afișați

### Interpretare: Matricea de Corelație

**Observații importante:**
1. **venit_total - venit_munca = 0.97** → aproape identice
2. **venit_total - numar_camere = -0.17** → corelație negativă slabă (!)
3. **numar_membri - numar_camere = -0.10** → aproape fără legătură

**Surpriză:**
- Venitul este **ușor negativ** corelat cu numărul de camere
- Aceasta poate indica că gospodăriile din mediul rural au mai multe camere dar venituri mai mici

---
## Partea 8: Crearea Quintilelor de Venit
---

### Ce sunt quintilele?

**Quintilele** împart datele în **5 grupuri egale** (fiecare cu 20% din observații).

```
   20%     20%     20%     20%     20%
|------|------|------|------|------|
  Q1      Q2      Q3      Q4      Q5
(sărac)                        (bogat)
```

**De ce le folosim:**
- Pentru a compara grupuri de venit (săraci vs bogați)
- Pentru a măsura inegalitatea

### Funcția `pd.qcut()` - Împărțirea în quantile

**Ce face:** Împarte datele în grupuri cu număr egal de observații.

**Sintaxa:**
```python
pd.qcut(df['coloana'], q=5, labels=['Q1', 'Q2', 'Q3', 'Q4', 'Q5'])
```

**Parametri:**
- `q=5` = împarte în 5 grupuri (quintile)
- `labels` = numele grupurilor

In [None]:
# Creăm quintilele de venit
# TODO: Folosiți pd.qcut() pentru a crea coloana 'quintila'
# TODO: Folosiți q=5 și labels=['Q1 (sarac)', 'Q2', 'Q3', 'Q4', 'Q5 (bogat)']

# TODO: Afișați distribuția pe quintile cu value_counts().sort_index()

In [None]:
# Venit pentru fiecare quintilă
# TODO: Grupați după 'quintila' și calculați min, max, mean pentru 'venit_total'
# TODO: Folosiți observed=True în groupby

### Interpretare: Quintilele de Venit

**Ce observăm:**

| Quintilă | Venit Min | Venit Max | Venit Mediu | Descriere |
|:---------|----------:|----------:|------------:|:----------|
| Q1 (săraci) | -37,048 | 4,077 | 2,620 | Cei mai săraci 20% |
| Q2 | 4,078 | 8,067 | 6,130 | Venituri mici |
| Q3 | 8,070 | 13,677 | 10,671 | Clasa de mijloc |
| Q4 | 13,689 | 22,991 | 17,767 | Venituri bune |
| Q5 (bogați) | 23,011 | 131,049 | 35,925 | Cei mai bogați 20% |

**Ce înseamnă:**
- **Q1** include și gospodării cu pierderi (venituri negative)
- **Q5** are un range foarte mare (23,000 - 131,000) → inegalitate și în top
- Diferența între Q1 și Q5 este **enormă** (2,620 vs 35,925 EUR)

In [None]:
# Calculăm raportul Q5/Q1
# TODO: Filtrați df pentru quintila 'Q1 (sarac)' și calculați media venit_total → venit_q1
# TODO: Filtrați df pentru quintila 'Q5 (bogat)' și calculați media venit_total → venit_q5
# TODO: Calculați raportul = venit_q5 / venit_q1

# TODO: Afișați venit_q1, venit_q5 și raportul

### Interpretare: Raportul Q5/Q1

**Rezultat:** Raport Q5/Q1 = **13.7x**

**Ce înseamnă:**
- Cei mai bogați 20% câștigă de **13.7 ori** mai mult decât cei mai săraci 20%
- Aceasta indică un nivel **ridicat de inegalitate**

**Context internațional:**
- În țările nordice (Suedia, Norvegia): raportul e ~4-5x
- În SUA: raportul e ~8-10x
- Estonia 2013 avea inegalitate **mai mare** decât media europeană

In [None]:
# Boxplot pentru venit pe quintile
# TODO: Creați boxplot cu df.boxplot(column='venit_total', by='quintila', figsize=(12, 5))

---
## Partea 9: Analiza Combinată
---

In [None]:
# Crosstab: quintilă vs urbanizare
# TODO: Folosiți pd.crosstab() cu df['quintila'] și df['grad_urbanizare']
# TODO: Folosiți normalize='index' și înmulțiți cu 100
# TODO: Rotunjiți la 1 zecimală

### Interpretare: Quintilă vs Urbanizare

**Ce observăm:**
- În **Q1 (săraci)**: 57% sunt din rural, 28% din urban dens
- În **Q5 (bogați)**: 55% sunt din rural, 31% din urban dens
- Zona **urban mic (3)** scade de la 9.5% (Q1) la 3.4% (Q5)

**Concluzie:**
- Distribuția urban/rural este relativ **similară** între quintile
- Diferența majoră: zona **urban mic** are proporție mai mare în quintilele sărace
- **Ruralul** nu e neapărat mai sărac - sunt gospodării bogate și în rural

---
## Partea 10: Salvarea Rezultatelor
---

In [None]:
# Salvăm dataset-ul cu quintilele adăugate
# TODO: Salvați df în '../datasets/eusilc_with_quintiles.csv' folosind to_csv(index=False)

---
## Recapitulare: Ce am descoperit despre Estonia (2013)
---

### Principalele concluzii

**1. Distribuția veniturilor:**
- Venitul median = **10,500 EUR/an** (~875 EUR/lună per gospodărie)
- Distribuție **asimetrică** (right-skewed) - puțini foarte bogați
- 50% din gospodării câștigă între 5,142 și 19,914 EUR/an

**2. Inegalitate:**
- Raport Q5/Q1 = **13.7x** - inegalitate ridicată
- Cei mai bogați 20% câștigă în medie 35,925 EUR
- Cei mai săraci 20% câștigă în medie 2,620 EUR

**3. Structura gospodăriilor:**
- Mărimea tipică: **3-4 membri**
- Gospodăriile mai mari au venituri totale mai mari
- Corelația venit-mărime este slabă (r=0.12)

**4. Urban vs Rural:**
- 55% din gospodării sunt în zone rurale
- Surpriză: zonele **urban mic** au cele mai mici venituri
- Zonele **urban mediu** au cele mai mari venituri

**5. Sursa venitului:**
- Corelația venit_total - venit_munca = **0.97**
- Aproape tot venitul vine din muncă

### Funcții pandas învățate

| Funcție | Ce face | Exemplu |
|:--------|:--------|:--------|
| `.mean()` | Calculează media | `df['col'].mean()` |
| `.median()` | Calculează mediana | `df['col'].median()` |
| `.std()` | Deviația standard | `df['col'].std()` |
| `.quantile()` | Quartile | `df['col'].quantile(0.25)` |
| `.describe()` | Toate statisticile | `df['col'].describe()` |
| `.value_counts()` | Numără categorii | `df['col'].value_counts()` |
| `.groupby()` | Grupează datele | `df.groupby('a')['b'].mean()` |
| `.agg()` | Mai multe funcții | `df.groupby('a').agg(['mean', 'count'])` |
| `.corr()` | Corelația | `df['a'].corr(df['b'])` |
| `pd.qcut()` | Împarte în quantile | `pd.qcut(df['col'], q=5)` |
| `pd.crosstab()` | Tabel de contingență | `pd.crosstab(df['a'], df['b'])` |