# Sesiunea 1: Introducere în Pandas

## Obiective

- Ce este pandas și de ce îl folosim
- Înțelegerea structurilor DataFrame și Series
- Citirea datelor din CSV
- Explorarea și selecția datelor
- Operații de bază: filtrare, sortare, calcule

**Durata:** 1.5 ore

**Format:** Live coding interactiv

## Partea 1: Ce este Pandas?

**Pandas** = **Pan**el **Da**ta - biblioteca standard pentru manipulare și analiză date tabulare în Python

### De ce pandas?

| Caracteristică | Beneficiu |
|----------------|----------|
| Cod concis | O linie de cod în loc de 10+ |
| Performanță | Implementat în C, rapid pentru date mari |
| Funcții integrate | Statistici, grupări, pivot tables built-in |
| Gestionare NaN | Valori lipsă tratate automat |
| Ecosistem | Integrare cu matplotlib, seaborn, scikit-learn |

### Import și convenții

```python
import pandas as pd    # convenție standard - toți folosesc 'pd'
import numpy as np     # numpy pentru operații numerice
```

**De ce `pd`?** Este convenția universală în comunitatea Python. Orice tutorial, documentație sau cod online va folosi `pd`.

In [1]:
import pandas as pd
import numpy as np

print(f"Pandas versiune: {pd.__version__}")
print(f"NumPy versiune: {np.__version__}")

Pandas versiune: 2.3.3
NumPy versiune: 2.3.5


### Structurile principale în Pandas

Pandas are două structuri de date fundamentale:

#### 1. DataFrame
- Tabel bidimensional (rânduri × coloane)
- Similar cu: Excel spreadsheet, SQL table, R data.frame
- Fiecare coloană poate avea tip diferit (int, float, str, datetime)

#### 2. Series
- Array unidimensional cu etichete (index)
- O singură coloană dintr-un DataFrame
- Similar cu: o coloană din Excel

```
DataFrame (2D)                    Series (1D)
┌─────────┬───────────┬─────────┐    ┌───────────┐
│ regiune │ populatie │ venit   │    │ populatie │
├─────────┼───────────┼─────────┤    ├───────────┤
│ Chișinău│   532513  │  8750   │    │   532513  │
│ Bălți   │   102457  │  6420   │    │   102457  │
│ Cahul   │    28763  │  5340   │    │    28763  │
└─────────┴───────────┴─────────┘    └───────────┘
```

---
## Partea 2: Crearea unui DataFrame

### 2.1 `pd.DataFrame()` - Creare din dicționar

**Sintaxă:**
```python
pd.DataFrame(data, index=None, columns=None)
```

**Parametri:**
| Parametru | Descriere | Exemplu |
|-----------|-----------|----------|
| `data` | Datele sursă (dict, list, array) | `{'col1': [1,2], 'col2': [3,4]}` |
| `index` | Etichetele pentru rânduri (opțional) | `['a', 'b']` sau `[0, 1]` |
| `columns` | Numele coloanelor (opțional) | `['Coloana1', 'Coloana2']` |

In [2]:
# Metoda 1: Dicționar cu liste (cheile = nume coloane)
date_regiuni = {
    'regiune': ['Chișinău', 'Bălți', 'Cahul'],
    'populatie': [532513, 102457, 28763],
    'venit_mediu': [8750, 6420, 5340]
}

df_simplu = pd.DataFrame(date_regiuni)

print("DataFrame creat din dicționar:")
print(f"Tip: {type(df_simplu)}")
df_simplu.head(1)

DataFrame creat din dicționar:
Tip: <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,regiune,populatie,venit_mediu
0,Chișinău,532513,8750


In [3]:
# Metoda 2: Listă de dicționare (fiecare dict = un rând)
lista_regiuni = [
    {'regiune': 'Chișinău', 'populatie': 532513, 'sector': 'Servicii'},
    {'regiune': 'Bălți', 'populatie': 102457, 'sector': 'Industrie'},
    {'regiune': 'Cahul', 'populatie': 28763, 'sector': 'Agricultură'}
]

df_din_lista = pd.DataFrame(lista_regiuni)
print("DataFrame creat din listă de dicționare:")
df_din_lista

DataFrame creat din listă de dicționare:


Unnamed: 0,regiune,populatie,sector
0,Chișinău,532513,Servicii
1,Bălți,102457,Industrie
2,Cahul,28763,Agricultură


### 2.2 `pd.read_csv()` - Citirea din fișier CSV

Cea mai folosită metodă pentru încărcarea datelor.

**Sintaxă:**
```python
pd.read_csv(filepath, sep=',', header=0, index_col=None, usecols=None, dtype=None, na_values=None, encoding=None)
```

**Parametri principali:**
| Parametru | Descriere | Valoare implicită | Exemplu |
|-----------|-----------|-------------------|----------|
| `filepath` | Calea către fișier | - | `'date.csv'` sau `'../folder/date.csv'` |
| `sep` | Separatorul de coloane | `','` | `';'` pentru CSV european |
| `header` | Rândul cu numele coloanelor | `0` (primul rând) | `None` dacă nu există header |
| `index_col` | Coloana pentru index | `None` | `0` sau `'id'` |
| `usecols` | Doar anumite coloane | `None` (toate) | `['col1', 'col2']` |
| `dtype` | Tipuri de date forțate | auto-detect | `{'col1': str}` |
| `na_values` | Valori considerate NaN | `''`, `'NA'`, `'null'` | `['N/A', '-']` |
| `encoding` | Encoding-ul fișierului | `'utf-8'` | `'latin-1'`, `'cp1252'` |

In [4]:
# Citire simplă
df = pd.read_csv('../datasets/regiuni_moldova.csv')

print("CSV încărcat cu succes!")
print(f"Dimensiuni: {df.shape[0]} rânduri × {df.shape[1]} coloane")

CSV încărcat cu succes!
Dimensiuni: 10 rânduri × 8 coloane


In [5]:
# Citire cu parametri specifici (exemplu)
# df = pd.read_csv(
#     '../datasets/date.csv',
#     sep=';',                    # separator punct-virgulă
#     encoding='utf-8',           # encoding pentru caractere speciale
#     usecols=['col1', 'col2'],   # doar anumite coloane
#     na_values=['N/A', '-']      # tratează aceste valori ca lipsă
# )

---
## Partea 3: Explorarea Datelor

După încărcarea datelor, primul pas este **explorarea** - înțelegerea structurii și conținutului.

### 3.1 Vizualizare rapidă: `head()` și `tail()`

**Sintaxă:**
```python
df.head(n=5)  # primele n rânduri
df.tail(n=5)  # ultimele n rânduri
```

**Parametri:**
| Parametru | Descriere | Valoare implicită |
|-----------|-----------|-------------------|
| `n` | Numărul de rânduri de afișat | `5` |

In [6]:
# Primele 5 rânduri (implicit)
print("Primele 5 rânduri:")
df.head()

Primele 5 rânduri:


Unnamed: 0,regiune,populatie,rata_ocupare,venit_mediu,rata_alfabetizare,sector_dominant,numar_intreprinderi,rata_somaj
0,Chișinău,532513,67.5,8750,99.8,Servicii,15420,5.2
1,Bălți,102457,63.2,6420,98.5,Industrie,3840,6.8
2,Cahul,28763,59.8,5340,97.2,Agricultură,1250,8.4
3,Ungheni,32828,61.4,5890,98.1,Agricultură,1580,7.9
4,Soroca,22196,58.3,5120,97.8,Agricultură,980,7.6


In [7]:
# Ultimele 3 rânduri
print("Ultimele 3 rânduri:")
df.tail(3)

Ultimele 3 rânduri:


Unnamed: 0,regiune,populatie,rata_ocupare,venit_mediu,rata_alfabetizare,sector_dominant,numar_intreprinderi,rata_somaj
7,Comrat,20113,60.2,5670,98.7,Agricultură,1120,7.5
8,Strășeni,18376,62.8,5980,98.0,Servicii,1340,6.5
9,Hîncești,16900,59.5,5230,97.9,Agricultură,890,8.2


### 3.2 Dimensiuni și structură: `shape`, `columns`, `len()`

| Atribut/Metodă | Ce returnează | Exemplu rezultat |
|----------------|---------------|------------------|
| `df.shape` | Tuple (rânduri, coloane) | `(10, 8)` |
| `df.columns` | Index cu numele coloanelor | `Index(['col1', 'col2', ...])` |
| `len(df)` | Numărul de rânduri | `10` |
| `df.columns.tolist()` | Listă cu numele coloanelor | `['col1', 'col2', ...]` |

In [8]:
print("Dimensiuni:")
print(f"  Shape: {df.shape}")
print(f"  Rânduri: {len(df)}")
print(f"  Coloane: {len(df.columns)}")
print(f"\nNume coloane:")
print(df.columns.tolist())

Dimensiuni:
  Shape: (10, 8)
  Rânduri: 10
  Coloane: 8

Nume coloane:
['regiune', 'populatie', 'rata_ocupare', 'venit_mediu', 'rata_alfabetizare', 'sector_dominant', 'numar_intreprinderi', 'rata_somaj']


### 3.3 Tipuri de date și memorie: `info()`

**Sintaxă:**
```python
df.info(verbose=True, show_counts=True)
```

**Ce afișează:**
- Tipul obiectului (DataFrame)
- Numărul de rânduri (RangeIndex)
- Lista coloanelor cu:
  - Numărul de valori non-null
  - Tipul de date (dtype)
- Utilizarea memoriei

**Tipuri de date comune în pandas:**
| Dtype | Descriere | Exemple |
|-------|-----------|----------|
| `int64` | Numere întregi | `1`, `42`, `-5` |
| `float64` | Numere cu virgulă | `3.14`, `2.0`, `NaN` |
| `object` | Text (string) | `'abc'`, `'Chișinău'` |
| `bool` | Boolean | `True`, `False` |
| `datetime64` | Date și timp | `2024-01-15` |

In [9]:
print("Informații detaliate despre DataFrame:")
df.info()

Informații detaliate despre DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 8 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   regiune              10 non-null     object 
 1   populatie            10 non-null     int64  
 2   rata_ocupare         10 non-null     float64
 3   venit_mediu          10 non-null     int64  
 4   rata_alfabetizare    10 non-null     float64
 5   sector_dominant      10 non-null     object 
 6   numar_intreprinderi  10 non-null     int64  
 7   rata_somaj           10 non-null     float64
dtypes: float64(3), int64(3), object(2)
memory usage: 772.0+ bytes


### 3.4 Statistici descriptive: `describe()`

**Sintaxă:**
```python
df.describe(percentiles=[.25, .5, .75], include=None, exclude=None)
```

**Parametri:**
| Parametru | Descriere | Valoare implicită |
|-----------|-----------|-------------------|
| `percentiles` | Percentilele de calculat | `[0.25, 0.5, 0.75]` |
| `include` | Tipurile de coloane de inclus | `None` (doar numerice) |
| `exclude` | Tipurile de coloane de exclus | `None` |

**Statisticile returnate pentru coloane numerice:**
| Statistică | Descriere |
|------------|----------|
| `count` | Numărul de valori non-null |
| `mean` | Media aritmetică |
| `std` | Deviația standard (dispersia) |
| `min` | Valoarea minimă |
| `25%` | Percentila 25 (Q1) |
| `50%` | Percentila 50 (mediana, Q2) |
| `75%` | Percentila 75 (Q3) |
| `max` | Valoarea maximă |

In [10]:
print("Statistici descriptive (coloane numerice):")
df.describe()

Statistici descriptive (coloane numerice):


Unnamed: 0,populatie,rata_ocupare,venit_mediu,rata_alfabetizare,numar_intreprinderi,rata_somaj
count,10.0,10.0,10.0,10.0,10.0,10.0
mean,82341.1,61.42,5950.0,98.18,2929.0,7.34
std,160231.867096,3.191586,1101.231634,0.722342,4481.243503,1.166381
min,15624.0,56.8,4890.0,97.2,720.0,5.2
25%,18810.25,59.575,5257.5,97.825,1015.0,6.575
50%,25479.5,60.8,5780.0,98.05,1295.0,7.55
75%,33437.75,63.1,6152.5,98.45,2007.5,8.125
max,532513.0,67.5,8750.0,99.8,15420.0,9.1


In [11]:
# Pentru a include și coloanele text:
print("Statistici pentru TOATE coloanele:")
df.describe(include='all')

Statistici pentru TOATE coloanele:


Unnamed: 0,regiune,populatie,rata_ocupare,venit_mediu,rata_alfabetizare,sector_dominant,numar_intreprinderi,rata_somaj
count,10,10.0,10.0,10.0,10.0,10,10.0,10.0
unique,10,,,,,3,,
top,Chișinău,,,,,Agricultură,,
freq,1,,,,,6,,
mean,,82341.1,61.42,5950.0,98.18,,2929.0,7.34
std,,160231.867096,3.191586,1101.231634,0.722342,,4481.243503,1.166381
min,,15624.0,56.8,4890.0,97.2,,720.0,5.2
25%,,18810.25,59.575,5257.5,97.825,,1015.0,6.575
50%,,25479.5,60.8,5780.0,98.05,,1295.0,7.55
75%,,33437.75,63.1,6152.5,98.45,,2007.5,8.125


---
## Partea 4: Selecția Datelor

Selectarea datelor este una dintre cele mai frecvente operații. Pandas oferă mai multe metode.

### 4.1 Selecția coloanelor

| Sintaxă | Ce returnează | Exemplu |
|---------|---------------|----------|
| `df['coloana']` | Series (o coloană) | `df['populatie']` |
| `df[['col1', 'col2']]` | DataFrame (mai multe coloane) | `df[['regiune', 'populatie']]` |
| `df.coloana` | Series (acces ca atribut) | `df.populatie` |

**Notă:** Accesul ca atribut (`df.coloana`) nu funcționează dacă numele conține spații sau caractere speciale.

In [12]:
# O singură coloană -> returnează Series
print("O singură coloană (Series):")
print(df['regiune'])
print(f"\nTip returnat: {type(df['regiune'])}")

O singură coloană (Series):
0    Chișinău
1       Bălți
2       Cahul
3     Ungheni
4      Soroca
5       Orhei
6      Edineț
7      Comrat
8    Strășeni
9    Hîncești
Name: regiune, dtype: object

Tip returnat: <class 'pandas.core.series.Series'>


In [13]:
# Mai multe coloane -> returnează DataFrame
# ATENȚIE: folosim [[]] (listă în interiorul [])
print("Mai multe coloane (DataFrame):")
df_subset = df[['regiune', 'populatie', 'venit_mediu']]
print(f"Tip returnat: {type(df_subset)}")
df_subset

Mai multe coloane (DataFrame):
Tip returnat: <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,regiune,populatie,venit_mediu
0,Chișinău,532513,8750
1,Bălți,102457,6420
2,Cahul,28763,5340
3,Ungheni,32828,5890
4,Soroca,22196,5120
5,Orhei,33641,6210
6,Edineț,15624,4890
7,Comrat,20113,5670
8,Strășeni,18376,5980
9,Hîncești,16900,5230


### 4.2 Selecția rândurilor cu `loc[]` și `iloc[]`

Pandas oferă două metode principale pentru selectarea rândurilor:

| Metodă | Tip selecție | Folosește |
|--------|--------------|----------|
| `df.loc[]` | **Label-based** | Etichete (index, nume coloane) |
| `df.iloc[]` | **Integer-based** | Poziții numerice (0, 1, 2, ...) |

**Sintaxă `loc`:**
```python
df.loc[row_label]                    # un rând
df.loc[[label1, label2]]             # mai multe rânduri
df.loc[label1:label2]                # interval (INCLUSIV ambele capete!)
df.loc[row_label, 'coloana']         # valoare specifică
df.loc[row_label, ['col1', 'col2']]  # mai multe coloane
```

**Sintaxă `iloc`:**
```python
df.iloc[0]                # primul rând
df.iloc[[0, 2, 4]]        # rândurile 0, 2, 4
df.iloc[0:3]              # rândurile 0, 1, 2 (EXCLUSIV capătul!)
df.iloc[0, 1]             # rândul 0, coloana 1
```

In [14]:
# Selectare un rând cu loc (folosind indexul/eticheta)
print("Primul rând (index 0):")
print(df.loc[0])

Primul rând (index 0):
regiune                Chișinău
populatie                532513
rata_ocupare               67.5
venit_mediu                8750
rata_alfabetizare          99.8
sector_dominant        Servicii
numar_intreprinderi       15420
rata_somaj                  5.2
Name: 0, dtype: object


In [15]:
# Mai multe rânduri specifice
print("Rândurile 0, 2, 4:")
df.loc[[0, 2, 4]]

Rândurile 0, 2, 4:


Unnamed: 0,regiune,populatie,rata_ocupare,venit_mediu,rata_alfabetizare,sector_dominant,numar_intreprinderi,rata_somaj
0,Chișinău,532513,67.5,8750,99.8,Servicii,15420,5.2
2,Cahul,28763,59.8,5340,97.2,Agricultură,1250,8.4
4,Soroca,22196,58.3,5120,97.8,Agricultură,980,7.6


In [16]:
# Rând și coloană specifică
print("Valoare specifică (rând 0, coloana 'regiune'):")
print(df.loc[0, 'regiune'])

print("\nMai multe coloane pentru un interval de rânduri:")
df.loc[0:2, ['regiune', 'populatie']]  # ATENȚIE: 0:2 include și 2!

Valoare specifică (rând 0, coloana 'regiune'):
Chișinău

Mai multe coloane pentru un interval de rânduri:


Unnamed: 0,regiune,populatie
0,Chișinău,532513
1,Bălți,102457
2,Cahul,28763


In [17]:
# Diferența între loc și iloc pentru intervale
print("loc[0:2] - INCLUSIV (returnează 3 rânduri):")
print(df.loc[0:2, 'regiune'].tolist())

print("\niloc[0:2] - EXCLUSIV (returnează 2 rânduri):")
print(df.iloc[0:2, 0].tolist())  # coloana 0 = 'regiune'

loc[0:2] - INCLUSIV (returnează 3 rânduri):
['Chișinău', 'Bălți', 'Cahul']

iloc[0:2] - EXCLUSIV (returnează 2 rânduri):
['Chișinău', 'Bălți']


---
## Partea 5: Operații de Bază

### 5.1 Calcule pe coloane (metode de agregare)

Pandas oferă metode vectorizate pentru calcule rapide pe coloane întregi.

| Metodă | Descriere | Exemplu |
|--------|-----------|----------|
| `sum()` | Suma valorilor | `df['col'].sum()` |
| `mean()` | Media aritmetică | `df['col'].mean()` |
| `median()` | Mediana (valoarea din mijloc) | `df['col'].median()` |
| `min()` | Valoarea minimă | `df['col'].min()` |
| `max()` | Valoarea maximă | `df['col'].max()` |
| `std()` | Deviația standard | `df['col'].std()` |
| `var()` | Varianța | `df['col'].var()` |
| `count()` | Numărul de valori non-null | `df['col'].count()` |
| `nunique()` | Numărul de valori unice | `df['col'].nunique()` |
| `idxmax()` | Indexul valorii maxime | `df['col'].idxmax()` |
| `idxmin()` | Indexul valorii minime | `df['col'].idxmin()` |

In [18]:
print("Statistici pentru coloana 'populatie':")
print(f"  Suma totală:  {df['populatie'].sum():,}")
print(f"  Media:        {df['populatie'].mean():,.0f}")
print(f"  Mediana:      {df['populatie'].median():,.0f}")
print(f"  Minimul:      {df['populatie'].min():,}")
print(f"  Maximul:      {df['populatie'].max():,}")
print(f"  Deviația std: {df['populatie'].std():,.0f}")

Statistici pentru coloana 'populatie':
  Suma totală:  823,411
  Media:        82,341
  Mediana:      25,480
  Minimul:      15,624
  Maximul:      532,513
  Deviația std: 160,232


### 5.2 Găsirea valorilor extreme cu `idxmax()` și `idxmin()`

Aceste metode returnează **indexul** (eticheta rândului) unde se află valoarea maximă/minimă.

**Flux de lucru tipic:**
1. Găsește indexul: `idx = df['coloana'].idxmax()`
2. Extrage rândul: `df.loc[idx]`

In [41]:
# Găsim regiunea cu cea mai mare populație
idx_max = df['populatie'].idxmax()
print(f"Indexul cu populația maximă: {idx_max}")
print(f"\nDetalii despre această regiune:")
print(df.loc[ df['populatie'].idxmax(), ['regiune', 'populatie']])

Indexul cu populația maximă: 0

Detalii despre această regiune:
regiune      Chișinău
populatie      532513
Name: 0, dtype: object


In [20]:
# Găsim regiunea cu cel mai mic venit
idx_min = df['venit_mediu'].idxmin()
print(f"Regiunea cu venitul minim:")
print(df.loc[idx_min, ['regiune', 'venit_mediu']])

Regiunea cu venitul minim:
regiune        Edineț
venit_mediu      4890
Name: 6, dtype: object


### 5.3 Filtrarea datelor (Boolean Indexing)

Filtrarea în pandas folosește **mască boolean** - o Serie de valori True/False.

**Sintaxă:**
```python
df[conditie]  # returnează doar rândurile unde condiția este True
```

**Operatori de comparație:**
| Operator | Descriere | Exemplu |
|----------|-----------|----------|
| `==` | Egal | `df['col'] == 'valoare'` |
| `!=` | Diferit | `df['col'] != 'valoare'` |
| `>` | Mai mare | `df['col'] > 100` |
| `>=` | Mai mare sau egal | `df['col'] >= 100` |
| `<` | Mai mic | `df['col'] < 100` |
| `<=` | Mai mic sau egal | `df['col'] <= 100` |

**Combinarea condițiilor:**
| Operator | Descriere | Exemplu |
|----------|-----------|----------|
| `&` | AND (ambele adevărate) | `(cond1) & (cond2)` |
| `\|` | OR (cel puțin una adevărată) | `(cond1) \| (cond2)` |
| `~` | NOT (negare) | `~conditie` |

**IMPORTANT:** Când combinați condiții, fiecare condiție trebuie pusă în **paranteze**!

In [21]:
# Pas 1: Creăm masca boolean
masca = df['populatie'] > 50000
print("Masca boolean (True = îndeplinește condiția):")
print(masca)

Masca boolean (True = îndeplinește condiția):
0     True
1     True
2    False
3    False
4    False
5    False
6    False
7    False
8    False
9    False
Name: populatie, dtype: bool


In [42]:
# Pas 2: Aplicăm masca pentru a filtra
regiuni_mari = df[df['populatie'] > 50000]
print(f"Regiuni cu populație > 50,000 ({len(regiuni_mari)} rezultate):")
regiuni_mari

Regiuni cu populație > 50,000 (2 rezultate):


Unnamed: 0,regiune,populatie,rata_ocupare,venit_mediu,rata_alfabetizare,sector_dominant,numar_intreprinderi,rata_somaj
0,Chișinău,532513,67.5,8750,99.8,Servicii,15420,5.2
1,Bălți,102457,63.2,6420,98.5,Industrie,3840,6.8


In [23]:
# Variantă scurtă (totul într-o linie)
print("Regiuni cu sector dominant 'Servicii':")
df[df['sector_dominant'] == 'Servicii']

Regiuni cu sector dominant 'Servicii':


Unnamed: 0,regiune,populatie,rata_ocupare,venit_mediu,rata_alfabetizare,sector_dominant,numar_intreprinderi,rata_somaj
0,Chișinău,532513,67.5,8750,99.8,Servicii,15420,5.2
8,Strășeni,18376,62.8,5980,98.0,Servicii,1340,6.5


In [24]:
# Condiții multiple cu AND (&)
print("Regiuni cu populație > 20,000 ȘI rata șomaj < 8%:")
df[(df['populatie'] > 20000) & (df['rata_somaj'] < 8)]

Regiuni cu populație > 20,000 ȘI rata șomaj < 8%:


Unnamed: 0,regiune,populatie,rata_ocupare,venit_mediu,rata_alfabetizare,sector_dominant,numar_intreprinderi,rata_somaj
0,Chișinău,532513,67.5,8750,99.8,Servicii,15420,5.2
1,Bălți,102457,63.2,6420,98.5,Industrie,3840,6.8
3,Ungheni,32828,61.4,5890,98.1,Agricultură,1580,7.9
4,Soroca,22196,58.3,5120,97.8,Agricultură,980,7.6
5,Orhei,33641,64.7,6210,98.3,Industrie,2150,6.2
7,Comrat,20113,60.2,5670,98.7,Agricultură,1120,7.5


In [25]:
# Condiții multiple cu OR (|)
print("Regiuni cu sector 'Servicii' SAU 'Industrie':")
df[(df['sector_dominant'] == 'Servicii') | (df['sector_dominant'] == 'Industrie')]

Regiuni cu sector 'Servicii' SAU 'Industrie':


Unnamed: 0,regiune,populatie,rata_ocupare,venit_mediu,rata_alfabetizare,sector_dominant,numar_intreprinderi,rata_somaj
0,Chișinău,532513,67.5,8750,99.8,Servicii,15420,5.2
1,Bălți,102457,63.2,6420,98.5,Industrie,3840,6.8
5,Orhei,33641,64.7,6210,98.3,Industrie,2150,6.2
8,Strășeni,18376,62.8,5980,98.0,Servicii,1340,6.5


### 5.4 Sortarea datelor: `sort_values()`

**Sintaxă:**
```python
df.sort_values(by, ascending=True, inplace=False, na_position='last')
```

**Parametri:**
| Parametru | Descriere | Valoare implicită |
|-----------|-----------|-------------------|
| `by` | Coloana sau lista de coloane | - (obligatoriu) |
| `ascending` | Ordine crescătoare? | `True` |
| `inplace` | Modifică DataFrame-ul original? | `False` |
| `na_position` | Unde plasează valorile NaN | `'last'` |

In [26]:
# Sortare după o coloană (descrescător)
print("Top regiuni după venit mediu:")
df.sort_values('venit_mediu', ascending=False)[['regiune', 'venit_mediu']]

Top regiuni după venit mediu:


Unnamed: 0,regiune,venit_mediu
0,Chișinău,8750
1,Bălți,6420
5,Orhei,6210
8,Strășeni,5980
3,Ungheni,5890
7,Comrat,5670
2,Cahul,5340
9,Hîncești,5230
4,Soroca,5120
6,Edineț,4890


In [27]:
# Sortare după mai multe coloane
# Prima: sector (A-Z), apoi: venit (descrescător)
print("Sortare după sector și venit:")
df.sort_values(
    by=['sector_dominant', 'venit_mediu'], 
    ascending=[True, False]
)[['regiune', 'sector_dominant', 'venit_mediu']]

Sortare după sector și venit:


Unnamed: 0,regiune,sector_dominant,venit_mediu
3,Ungheni,Agricultură,5890
7,Comrat,Agricultură,5670
2,Cahul,Agricultură,5340
9,Hîncești,Agricultură,5230
4,Soroca,Agricultură,5120
6,Edineț,Agricultură,4890
1,Bălți,Industrie,6420
5,Orhei,Industrie,6210
0,Chișinău,Servicii,8750
8,Strășeni,Servicii,5980


### 5.5 Gruparea datelor: `groupby()`

Gruparea permite calcularea statisticilor pe categorii (similar cu GROUP BY din SQL).

**Sintaxă:**
```python
df.groupby(by)['coloana'].funcție()
df.groupby(by).agg({'col1': 'sum', 'col2': 'mean'})
```

**Funcții de agregare comune:**
| Funcție | Descriere |
|---------|----------|
| `sum` | Suma |
| `mean` | Media |
| `count` | Numărul de valori |
| `min` / `max` | Minim / Maxim |
| `first` / `last` | Prima / Ultima valoare |

In [28]:
# Grupare simplă: populație totală per sector
print("Populație totală per sector:")
df.groupby('sector_dominant')['populatie'].sum()

Populație totală per sector:


sector_dominant
Agricultură    136424
Industrie      136098
Servicii       550889
Name: populatie, dtype: int64

In [29]:
# Grupare cu mai multe statistici folosind agg()
print("Statistici per sector:")
df.groupby('sector_dominant').agg({
    'populatie': 'sum',       # suma populației
    'venit_mediu': 'mean',    # media venitului
    'rata_somaj': 'mean',     # media șomajului
    'regiune': 'count'        # numărul de regiuni
}).round(2)

Statistici per sector:


Unnamed: 0_level_0,populatie,venit_mediu,rata_somaj,regiune
sector_dominant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Agricultură,136424,5356.67,8.12,6
Industrie,136098,6315.0,6.5,2
Servicii,550889,7365.0,5.85,2


### 5.6 Crearea coloanelor noi

Putem crea coloane noi prin:
1. **Calcul vectorizat** - operații pe coloane existente
2. **Atribuire directă** - valoare fixă pentru toate rândurile

**Sintaxă:**
```python
df['coloana_noua'] = expresie
```

In [30]:
# Coloană nouă prin calcul
# Densitatea întreprinderilor = întreprinderi per 1000 locuitori
df['densitate_intreprinderi'] = (df['numar_intreprinderi'] / df['populatie']) * 1000

print("Coloană nouă creată - densitate întreprinderi:")
df[['regiune', 'numar_intreprinderi', 'populatie', 'densitate_intreprinderi']].round(2)

Coloană nouă creată - densitate întreprinderi:


Unnamed: 0,regiune,numar_intreprinderi,populatie,densitate_intreprinderi
0,Chișinău,15420,532513,28.96
1,Bălți,3840,102457,37.48
2,Cahul,1250,28763,43.46
3,Ungheni,1580,32828,48.13
4,Soroca,980,22196,44.15
5,Orhei,2150,33641,63.91
6,Edineț,720,15624,46.08
7,Comrat,1120,20113,55.69
8,Strășeni,1340,18376,72.92
9,Hîncești,890,16900,52.66


In [31]:
# Sortăm după noua coloană
print("\nTop regiuni după densitatea întreprinderilor:")
df.sort_values('densitate_intreprinderi', ascending=False)[['regiune', 'densitate_intreprinderi']].round(2)


Top regiuni după densitatea întreprinderilor:


Unnamed: 0,regiune,densitate_intreprinderi
8,Strășeni,72.92
5,Orhei,63.91
7,Comrat,55.69
9,Hîncești,52.66
3,Ungheni,48.13
6,Edineț,46.08
4,Soroca,44.15
2,Cahul,43.46
1,Bălți,37.48
0,Chișinău,28.96


---
## Partea 6: Exerciții Practice

### Referință rapidă pentru exerciții:

| Sarcină | Metodă |
|---------|--------|
| Găsește min/max | `df['col'].idxmin()`, `df['col'].idxmax()` |
| Filtrează rânduri | `df[df['col'] == valoare]` |
| Calculează medie | `df['col'].mean()` |
| Numără valori | `df['col'].value_counts()` |

In [32]:
# Reîncărcăm datele curate
df = pd.read_csv('../datasets/regiuni_moldova.csv')
df.head()

Unnamed: 0,regiune,populatie,rata_ocupare,venit_mediu,rata_alfabetizare,sector_dominant,numar_intreprinderi,rata_somaj
0,Chișinău,532513,67.5,8750,99.8,Servicii,15420,5.2
1,Bălți,102457,63.2,6420,98.5,Industrie,3840,6.8
2,Cahul,28763,59.8,5340,97.2,Agricultură,1250,8.4
3,Ungheni,32828,61.4,5890,98.1,Agricultură,1580,7.9
4,Soroca,22196,58.3,5120,97.8,Agricultură,980,7.6


In [33]:
# Exercițiul 1: Găsiți regiunea cu cea mai mică rată a șomajului
# Pași: 1) găsește indexul cu idxmin(), 2) extrage cu loc[]
# TODO: Scrieți codul aici


In [34]:
# Exercițiul 2: Afișați toate regiunile cu sector dominant "Agricultură"
# Folosiți: df[df['coloana'] == 'valoare']
# TODO: Scrieți codul aici


In [35]:
# Exercițiul 3: Calculați venitul mediu pentru regiunile cu rata ocupare > 60%
# Pași: 1) filtrați, 2) selectați coloana, 3) aplicați mean()
# TODO: Scrieți codul aici


In [36]:
# Exercițiul 4 (Bonus): Câte regiuni are fiecare sector dominant?
# Folosiți: df['coloana'].value_counts()
# TODO: Scrieți codul aici


---
## Soluții Exerciții

In [37]:
# Soluție Ex 1:
idx_min = df['rata_somaj'].idxmin()
print("Regiunea cu cea mai mică rată a șomajului:")
print(df.loc[idx_min, ['regiune', 'rata_somaj']])

Regiunea cu cea mai mică rată a șomajului:
regiune       Chișinău
rata_somaj         5.2
Name: 0, dtype: object


In [38]:
# Soluție Ex 2:
print("Regiuni cu sector dominant 'Agricultură':")
df[df['sector_dominant'] == 'Agricultură'][['regiune', 'sector_dominant']]

Regiuni cu sector dominant 'Agricultură':


Unnamed: 0,regiune,sector_dominant
2,Cahul,Agricultură
3,Ungheni,Agricultură
4,Soroca,Agricultură
6,Edineț,Agricultură
7,Comrat,Agricultură
9,Hîncești,Agricultură


In [39]:
# Soluție Ex 3:
venit_mediu = df[df['rata_ocupare'] > 60]['venit_mediu'].mean()
print(f"Venitul mediu pentru regiunile cu rata ocupare > 60%: {venit_mediu:.2f} lei")

Venitul mediu pentru regiunile cu rata ocupare > 60%: 6486.67 lei


In [40]:
# Soluție Ex 4:
print("Numărul de regiuni per sector:")
print(df['sector_dominant'].value_counts())

Numărul de regiuni per sector:
sector_dominant
Agricultură    6
Servicii       2
Industrie      2
Name: count, dtype: int64


---
## Recapitulare

### Metodele învățate în această sesiune:

| Categorie | Metodă | Descriere |
|-----------|--------|----------|
| **Creare** | `pd.DataFrame()` | Crează DataFrame din dict/list |
| **Citire** | `pd.read_csv()` | Încarcă date din CSV |
| **Explorare** | `head()`, `tail()` | Primele/ultimele rânduri |
| | `info()` | Tipuri de date, valori non-null |
| | `describe()` | Statistici descriptive |
| | `shape`, `columns` | Dimensiuni, nume coloane |
| **Selecție** | `df['col']` | O coloană (Series) |
| | `df[['col1','col2']]` | Mai multe coloane (DataFrame) |
| | `loc[]`, `iloc[]` | Selecție rânduri |
| **Calcule** | `sum()`, `mean()`, `median()` | Agregări |
| | `min()`, `max()` | Extreme |
| | `idxmin()`, `idxmax()` | Index valori extreme |
| **Filtrare** | `df[conditie]` | Boolean indexing |
| **Sortare** | `sort_values()` | Ordonare după coloane |
| **Grupare** | `groupby()` | Agregare pe categorii |

### Următoarea sesiune:
- Curățarea datelor
- Valori lipsă: `isna()`, `fillna()`, `dropna()`
- Duplicate: `duplicated()`, `drop_duplicates()`
- Conversii: `astype()`

### Resurse:
- [Pandas Documentation](https://pandas.pydata.org/docs/)
- [10 Minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html)
- [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)