# Sesiunea 1: Introducere în Pandas

## Obiective

- Ce este pandas și de ce îl folosim
- Înțelegerea structurilor DataFrame și Series
- Citirea datelor din CSV
- Explorarea și selecția datelor
- Operații de bază: filtrare, sortare, calcule

**Durata:** 1.5 ore

**Format:** Live coding interactiv

## Partea 1: Ce este Pandas?

**Pandas** = **Pan**el **Da**ta - biblioteca standard pentru manipulare și analiză date tabulare în Python

### De ce pandas?

| Caracteristică | Beneficiu |
|----------------|----------|
| Cod concis | O linie de cod în loc de 10+ |
| Performanță | Implementat în C, rapid pentru date mari |
| Funcții integrate | Statistici, grupări, pivot tables built-in |
| Gestionare NaN | Valori lipsă tratate automat |
| Ecosistem | Integrare cu matplotlib, seaborn, scikit-learn |

### Import și convenții

```python
import pandas as pd    # convenție standard - toți folosesc 'pd'
import numpy as np     # numpy pentru operații numerice
```

**De ce `pd`?** Este convenția universală în comunitatea Python. Orice tutorial, documentație sau cod online va folosi `pd`.

In [None]:
import pandas as pd
import numpy as np

# TODO: Afișați versiunile pandas și numpy folosind pd.__version__ și np.__version__


### Structurile principale în Pandas

Pandas are două structuri de date fundamentale:

#### 1. DataFrame
- Tabel bidimensional (rânduri × coloane)
- Similar cu: Excel spreadsheet, SQL table, R data.frame
- Fiecare coloană poate avea tip diferit (int, float, str, datetime)

#### 2. Series
- Array unidimensional cu etichete (index)
- O singură coloană dintr-un DataFrame
- Similar cu: o coloană din Excel

```
DataFrame (2D)                    Series (1D)
┌─────────┬───────────┬─────────┐    ┌───────────┐
│ regiune │ populatie │ venit   │    │ populatie │
├─────────┼───────────┼─────────┤    ├───────────┤
│ Chișinău│   532513  │  8750   │    │   532513  │
│ Bălți   │   102457  │  6420   │    │   102457  │
│ Cahul   │    28763  │  5340   │    │    28763  │
└─────────┴───────────┴─────────┘    └───────────┘
```

---
## Partea 2: Crearea unui DataFrame

### 2.1 `pd.DataFrame()` - Creare din dicționar

**Sintaxă:**
```python
pd.DataFrame(data, index=None, columns=None)
```

**Parametri:**
| Parametru | Descriere | Exemplu |
|-----------|-----------|----------|
| `data` | Datele sursă (dict, list, array) | `{'col1': [1,2], 'col2': [3,4]}` |
| `index` | Etichetele pentru rânduri (opțional) | `['a', 'b']` sau `[0, 1]` |
| `columns` | Numele coloanelor (opțional) | `['Coloana1', 'Coloana2']` |

In [None]:
# Metoda 1: Dicționar cu liste (cheile = nume coloane)
date_regiuni = {
    'regiune': ['Chișinău', 'Bălți', 'Cahul'],
    'populatie': [532513, 102457, 28763],
    'venit_mediu': [8750, 6420, 5340]
}

# TODO: Creați df_simplu din date_regiuni folosind pd.DataFrame()
# TODO: Afișați "DataFrame creat din dicționar:", tipul și df_simplu


In [None]:
# Metoda 2: Listă de dicționare (fiecare dict = un rând)
lista_regiuni = [
    {'regiune': 'Chișinău', 'populatie': 532513, 'sector': 'Servicii'},
    {'regiune': 'Bălți', 'populatie': 102457, 'sector': 'Industrie'},
    {'regiune': 'Cahul', 'populatie': 28763, 'sector': 'Agricultură'}
]

# TODO: Creați df_din_lista din lista_regiuni folosind pd.DataFrame()
# TODO: Afișați "DataFrame creat din listă de dicționare:" și df_din_lista


### 2.2 `pd.read_csv()` - Citirea din fișier CSV

Cea mai folosită metodă pentru încărcarea datelor.

**Sintaxă:**
```python
pd.read_csv(filepath, sep=',', header=0, index_col=None, usecols=None, dtype=None, na_values=None, encoding=None)
```

**Parametri principali:**
| Parametru | Descriere | Valoare implicită | Exemplu |
|-----------|-----------|-------------------|----------|
| `filepath` | Calea către fișier | - | `'date.csv'` sau `'../folder/date.csv'` |
| `sep` | Separatorul de coloane | `','` | `';'` pentru CSV european |
| `header` | Rândul cu numele coloanelor | `0` (primul rând) | `None` dacă nu există header |
| `index_col` | Coloana pentru index | `None` | `0` sau `'id'` |
| `usecols` | Doar anumite coloane | `None` (toate) | `['col1', 'col2']` |
| `dtype` | Tipuri de date forțate | auto-detect | `{'col1': str}` |
| `na_values` | Valori considerate NaN | `''`, `'NA'`, `'null'` | `['N/A', '-']` |
| `encoding` | Encoding-ul fișierului | `'utf-8'` | `'latin-1'`, `'cp1252'` |

In [None]:
# Citire simplă
# TODO: Citiți fișierul '../datasets/regiuni_moldova.csv' în variabila df
# TODO: Afișați "CSV încărcat cu succes!" și dimensiunile folosind df.shape


In [None]:
# Citire cu parametri specifici (exemplu)
# df = pd.read_csv(
#     '../datasets/date.csv',
#     sep=';',                    # separator punct-virgulă
#     encoding='utf-8',           # encoding pentru caractere speciale
#     usecols=['col1', 'col2'],   # doar anumite coloane
#     na_values=['N/A', '-']      # tratează aceste valori ca lipsă
# )

---
## Partea 3: Explorarea Datelor

După încărcarea datelor, primul pas este **explorarea** - înțelegerea structurii și conținutului.

### 3.1 Vizualizare rapidă: `head()` și `tail()`

**Sintaxă:**
```python
df.head(n=5)  # primele n rânduri
df.tail(n=5)  # ultimele n rânduri
```

**Parametri:**
| Parametru | Descriere | Valoare implicită |
|-----------|-----------|-------------------|
| `n` | Numărul de rânduri de afișat | `5` |

In [None]:
# Primele 5 rânduri (implicit)
# TODO: Afișați "Primele 5 rânduri:" și df.head()


In [None]:
# Ultimele 3 rânduri
# TODO: Afișați "Ultimele 3 rânduri:" și df.tail(3)


### 3.2 Dimensiuni și structură: `shape`, `columns`, `len()`

| Atribut/Metodă | Ce returnează | Exemplu rezultat |
|----------------|---------------|------------------|
| `df.shape` | Tuple (rânduri, coloane) | `(10, 8)` |
| `df.columns` | Index cu numele coloanelor | `Index(['col1', 'col2', ...])` |
| `len(df)` | Numărul de rânduri | `10` |
| `df.columns.tolist()` | Listă cu numele coloanelor | `['col1', 'col2', ...]` |

In [None]:
# TODO: Afișați dimensiunile DataFrame-ului
# Folosiți: df.shape, len(df), len(df.columns), df.columns.tolist()


### 3.3 Tipuri de date și memorie: `info()`

**Sintaxă:**
```python
df.info(verbose=True, show_counts=True)
```

**Ce afișează:**
- Tipul obiectului (DataFrame)
- Numărul de rânduri (RangeIndex)
- Lista coloanelor cu:
  - Numărul de valori non-null
  - Tipul de date (dtype)
- Utilizarea memoriei

**Tipuri de date comune în pandas:**
| Dtype | Descriere | Exemple |
|-------|-----------|----------|
| `int64` | Numere întregi | `1`, `42`, `-5` |
| `float64` | Numere cu virgulă | `3.14`, `2.0`, `NaN` |
| `object` | Text (string) | `'abc'`, `'Chișinău'` |
| `bool` | Boolean | `True`, `False` |
| `datetime64` | Date și timp | `2024-01-15` |

In [None]:
# TODO: Afișați "Informații detaliate despre DataFrame:" și df.info()


### 3.4 Statistici descriptive: `describe()`

**Sintaxă:**
```python
df.describe(percentiles=[.25, .5, .75], include=None, exclude=None)
```

**Parametri:**
| Parametru | Descriere | Valoare implicită |
|-----------|-----------|-------------------|
| `percentiles` | Percentilele de calculat | `[0.25, 0.5, 0.75]` |
| `include` | Tipurile de coloane de inclus | `None` (doar numerice) |
| `exclude` | Tipurile de coloane de exclus | `None` |

**Statisticile returnate pentru coloane numerice:**
| Statistică | Descriere |
|------------|----------|
| `count` | Numărul de valori non-null |
| `mean` | Media aritmetică |
| `std` | Deviația standard (dispersia) |
| `min` | Valoarea minimă |
| `25%` | Percentila 25 (Q1) |
| `50%` | Percentila 50 (mediana, Q2) |
| `75%` | Percentila 75 (Q3) |
| `max` | Valoarea maximă |

In [None]:
# TODO: Afișați "Statistici descriptive (coloane numerice):" și df.describe()


In [None]:
# Pentru a include și coloanele text:
# TODO: Afișați "Statistici pentru TOATE coloanele:" și df.describe(include='all')


---
## Partea 4: Selecția Datelor

Selectarea datelor este una dintre cele mai frecvente operații. Pandas oferă mai multe metode.

### 4.1 Selecția coloanelor

| Sintaxă | Ce returnează | Exemplu |
|---------|---------------|----------|
| `df['coloana']` | Series (o coloană) | `df['populatie']` |
| `df[['col1', 'col2']]` | DataFrame (mai multe coloane) | `df[['regiune', 'populatie']]` |
| `df.coloana` | Series (acces ca atribut) | `df.populatie` |

**Notă:** Accesul ca atribut (`df.coloana`) nu funcționează dacă numele conține spații sau caractere speciale.

In [None]:
# O singură coloană -> returnează Series
# TODO: Afișați coloana 'regiune' și tipul ei


In [None]:
# Mai multe coloane -> returnează DataFrame
# ATENȚIE: folosim [[]] (listă în interiorul [])
# TODO: Creați df_subset cu coloanele 'regiune', 'populatie', 'venit_mediu'
# TODO: Afișați tipul și df_subset


### 4.2 Selecția rândurilor cu `loc[]` și `iloc[]`

Pandas oferă două metode principale pentru selectarea rândurilor:

| Metodă | Tip selecție | Folosește |
|--------|--------------|----------|
| `df.loc[]` | **Label-based** | Etichete (index, nume coloane) |
| `df.iloc[]` | **Integer-based** | Poziții numerice (0, 1, 2, ...) |

**Sintaxă `loc`:**
```python
df.loc[row_label]                    # un rând
df.loc[[label1, label2]]             # mai multe rânduri
df.loc[label1:label2]                # interval (INCLUSIV ambele capete!)
df.loc[row_label, 'coloana']         # valoare specifică
df.loc[row_label, ['col1', 'col2']]  # mai multe coloane
```

**Sintaxă `iloc`:**
```python
df.iloc[0]                # primul rând
df.iloc[[0, 2, 4]]        # rândurile 0, 2, 4
df.iloc[0:3]              # rândurile 0, 1, 2 (EXCLUSIV capătul!)
df.iloc[0, 1]             # rândul 0, coloana 1
```

In [None]:
# Selectare un rând cu loc (folosind indexul/eticheta)
# TODO: Afișați "Primul rând (index 0):" și df.loc[0]


In [None]:
# Mai multe rânduri specifice
# TODO: Afișați "Rândurile 0, 2, 4:" și df.loc[[0, 2, 4]]


In [None]:
# Rând și coloană specifică
# TODO: Afișați valoarea din df.loc[0, 'regiune']
# TODO: Afișați df.loc[0:2, ['regiune', 'populatie']] - notă: 0:2 include și 2!


In [None]:
# Diferența între loc și iloc pentru intervale
# TODO: Demonstrați că loc[0:2] returnează 3 rânduri (INCLUSIV)
# TODO: Demonstrați că iloc[0:2] returnează 2 rânduri (EXCLUSIV)


---
## Partea 5: Operații de Bază

### 5.1 Calcule pe coloane (metode de agregare)

Pandas oferă metode vectorizate pentru calcule rapide pe coloane întregi.

| Metodă | Descriere | Exemplu |
|--------|-----------|----------|
| `sum()` | Suma valorilor | `df['col'].sum()` |
| `mean()` | Media aritmetică | `df['col'].mean()` |
| `median()` | Mediana (valoarea din mijloc) | `df['col'].median()` |
| `min()` | Valoarea minimă | `df['col'].min()` |
| `max()` | Valoarea maximă | `df['col'].max()` |
| `std()` | Deviația standard | `df['col'].std()` |
| `var()` | Varianța | `df['col'].var()` |
| `count()` | Numărul de valori non-null | `df['col'].count()` |
| `nunique()` | Numărul de valori unice | `df['col'].nunique()` |
| `idxmax()` | Indexul valorii maxime | `df['col'].idxmax()` |
| `idxmin()` | Indexul valorii minime | `df['col'].idxmin()` |

In [None]:
# TODO: Calculați și afișați statistici pentru coloana 'populatie':
# - Suma totală cu sum()
# - Media cu mean()
# - Mediana cu median()
# - Minimul cu min()
# - Maximul cu max()
# - Deviația standard cu std()


### 5.2 Găsirea valorilor extreme cu `idxmax()` și `idxmin()`

Aceste metode returnează **indexul** (eticheta rândului) unde se află valoarea maximă/minimă.

**Flux de lucru tipic:**
1. Găsește indexul: `idx = df['coloana'].idxmax()`
2. Extrage rândul: `df.loc[idx]`

In [None]:
# Găsim regiunea cu cea mai mare populație
# TODO: Găsiți idx_max cu df['populatie'].idxmax()
# TODO: Afișați detaliile cu df.loc[idx_max, ['regiune', 'populatie']]


In [None]:
# Găsim regiunea cu cel mai mic venit
# TODO: Găsiți idx_min cu df['venit_mediu'].idxmin()
# TODO: Afișați detaliile cu df.loc[idx_min, ['regiune', 'venit_mediu']]


### 5.3 Filtrarea datelor (Boolean Indexing)

Filtrarea în pandas folosește **mască boolean** - o Serie de valori True/False.

**Sintaxă:**
```python
df[conditie]  # returnează doar rândurile unde condiția este True
```

**Operatori de comparație:**
| Operator | Descriere | Exemplu |
|----------|-----------|----------|
| `==` | Egal | `df['col'] == 'valoare'` |
| `!=` | Diferit | `df['col'] != 'valoare'` |
| `>` | Mai mare | `df['col'] > 100` |
| `>=` | Mai mare sau egal | `df['col'] >= 100` |
| `<` | Mai mic | `df['col'] < 100` |
| `<=` | Mai mic sau egal | `df['col'] <= 100` |

**Combinarea condițiilor:**
| Operator | Descriere | Exemplu |
|----------|-----------|----------|
| `&` | AND (ambele adevărate) | `(cond1) & (cond2)` |
| `\|` | OR (cel puțin una adevărată) | `(cond1) \| (cond2)` |
| `~` | NOT (negare) | `~conditie` |

**IMPORTANT:** Când combinați condiții, fiecare condiție trebuie pusă în **paranteze**!

In [None]:
# Pas 1: Creăm masca boolean
# TODO: Creați masca = df['populatie'] > 50000
# TODO: Afișați masca pentru a vedea valorile True/False


In [None]:
# Pas 2: Aplicăm masca pentru a filtra
# TODO: Creați regiuni_mari = df[masca]
# TODO: Afișați numărul de rezultate și regiuni_mari


In [None]:
# Variantă scurtă (totul într-o linie)
# TODO: Afișați regiunile cu sector_dominant == 'Servicii'


In [None]:
# Condiții multiple cu AND (&)
# TODO: Filtrați regiunile cu populație > 20000 ȘI rata_somaj < 8
# ATENȚIE: Puneți fiecare condiție în paranteze!


In [None]:
# Condiții multiple cu OR (|)
# TODO: Filtrați regiunile cu sector 'Servicii' SAU 'Industrie'


### 5.4 Sortarea datelor: `sort_values()`

**Sintaxă:**
```python
df.sort_values(by, ascending=True, inplace=False, na_position='last')
```

**Parametri:**
| Parametru | Descriere | Valoare implicită |
|-----------|-----------|-------------------|
| `by` | Coloana sau lista de coloane | - (obligatoriu) |
| `ascending` | Ordine crescătoare? | `True` |
| `inplace` | Modifică DataFrame-ul original? | `False` |
| `na_position` | Unde plasează valorile NaN | `'last'` |

In [None]:
# Sortare după o coloană (descrescător)
# TODO: Sortați după venit_mediu descrescător
# TODO: Afișați doar coloanele 'regiune' și 'venit_mediu'


In [None]:
# Sortare după mai multe coloane
# Prima: sector (A-Z), apoi: venit (descrescător)
# TODO: Folosiți by=['sector_dominant', 'venit_mediu'] și ascending=[True, False]


### 5.5 Gruparea datelor: `groupby()`

Gruparea permite calcularea statisticilor pe categorii (similar cu GROUP BY din SQL).

**Sintaxă:**
```python
df.groupby(by)['coloana'].funcție()
df.groupby(by).agg({'col1': 'sum', 'col2': 'mean'})
```

**Funcții de agregare comune:**
| Funcție | Descriere |
|---------|----------|
| `sum` | Suma |
| `mean` | Media |
| `count` | Numărul de valori |
| `min` / `max` | Minim / Maxim |
| `first` / `last` | Prima / Ultima valoare |

In [None]:
# Grupare simplă: populație totală per sector
# TODO: Folosiți df.groupby('sector_dominant')['populatie'].sum()


In [None]:
# Grupare cu mai multe statistici folosind agg()
# TODO: Grupați după sector_dominant și calculați:
# - populatie: sum
# - venit_mediu: mean
# - rata_somaj: mean
# - regiune: count


### 5.6 Crearea coloanelor noi

Putem crea coloane noi prin:
1. **Calcul vectorizat** - operații pe coloane existente
2. **Atribuire directă** - valoare fixă pentru toate rândurile

**Sintaxă:**
```python
df['coloana_noua'] = expresie
```

In [None]:
# Coloană nouă prin calcul
# Densitatea întreprinderilor = întreprinderi per 1000 locuitori
# TODO: Creați df['densitate_intreprinderi'] = (df['numar_intreprinderi'] / df['populatie']) * 1000
# TODO: Afișați coloanele relevante


In [None]:
# Sortăm după noua coloană
# TODO: Afișați top regiuni după densitate_intreprinderi (descrescător)


---
## Partea 6: Exerciții Practice

### Referință rapidă pentru exerciții:

| Sarcină | Metodă |
|---------|--------|
| Găsește min/max | `df['col'].idxmin()`, `df['col'].idxmax()` |
| Filtrează rânduri | `df[df['col'] == valoare]` |
| Calculează medie | `df['col'].mean()` |
| Numără valori | `df['col'].value_counts()` |

In [None]:
# Reîncărcăm datele curate
df = pd.read_csv('../datasets/regiuni_moldova.csv')
df.head()

In [None]:
# Exercițiul 1: Găsiți regiunea cu cea mai mică rată a șomajului
# Pași: 1) găsește indexul cu idxmin(), 2) extrage cu loc[]
# TODO: Scrieți codul aici


In [None]:
# Exercițiul 2: Afișați toate regiunile cu sector dominant "Agricultură"
# Folosiți: df[df['coloana'] == 'valoare']
# TODO: Scrieți codul aici


In [None]:
# Exercițiul 3: Calculați venitul mediu pentru regiunile cu rata ocupare > 60%
# Pași: 1) filtrați, 2) selectați coloana, 3) aplicați mean()
# TODO: Scrieți codul aici


In [None]:
# Exercițiul 4 (Bonus): Câte regiuni are fiecare sector dominant?
# Folosiți: df['coloana'].value_counts()
# TODO: Scrieți codul aici


---
## Soluții Exerciții

In [None]:
# Soluție Ex 1:
idx_min = df['rata_somaj'].idxmin()
print("Regiunea cu cea mai mică rată a șomajului:")
print(df.loc[idx_min, ['regiune', 'rata_somaj']])

In [None]:
# Soluție Ex 2:
print("Regiuni cu sector dominant 'Agricultură':")
df[df['sector_dominant'] == 'Agricultură'][['regiune', 'sector_dominant']]

In [None]:
# Soluție Ex 3:
venit_mediu = df[df['rata_ocupare'] > 60]['venit_mediu'].mean()
print(f"Venitul mediu pentru regiunile cu rata ocupare > 60%: {venit_mediu:.2f} lei")

In [None]:
# Soluție Ex 4:
print("Numărul de regiuni per sector:")
print(df['sector_dominant'].value_counts())

---
## Recapitulare

### Metodele învățate în această sesiune:

| Categorie | Metodă | Descriere |
|-----------|--------|----------|
| **Creare** | `pd.DataFrame()` | Crează DataFrame din dict/list |
| **Citire** | `pd.read_csv()` | Încarcă date din CSV |
| **Explorare** | `head()`, `tail()` | Primele/ultimele rânduri |
| | `info()` | Tipuri de date, valori non-null |
| | `describe()` | Statistici descriptive |
| | `shape`, `columns` | Dimensiuni, nume coloane |
| **Selecție** | `df['col']` | O coloană (Series) |
| | `df[['col1','col2']]` | Mai multe coloane (DataFrame) |
| | `loc[]`, `iloc[]` | Selecție rânduri |
| **Calcule** | `sum()`, `mean()`, `median()` | Agregări |
| | `min()`, `max()` | Extreme |
| | `idxmin()`, `idxmax()` | Index valori extreme |
| **Filtrare** | `df[conditie]` | Boolean indexing |
| **Sortare** | `sort_values()` | Ordonare după coloane |
| **Grupare** | `groupby()` | Agregare pe categorii |

### Următoarea sesiune:
- Curățarea datelor
- Valori lipsă: `isna()`, `fillna()`, `dropna()`
- Duplicate: `duplicated()`, `drop_duplicates()`
- Conversii: `astype()`

### Resurse:
- [Pandas Documentation](https://pandas.pydata.org/docs/)
- [10 Minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html)
- [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)