# Manipularea Avansată a Datelor cu Pandas

Bun venit! În acest capitol, vom explora tehnici mai avansate de manipulare a datelor folosind biblioteca **Pandas**. Dacă până acum am învățat să selectăm și să filtrăm date, acum vom trece la un nivel superior: aplicarea funcțiilor personalizate, gruparea datelor pentru analiză agregată și reorganizarea seturilor de date. Aceste operațiuni sunt fundamentale în orice proiect de analiză de date, permițându-ne să transformăm datele brute în informații valoroase.

## Operarea pe date: Metoda `.apply()`

Una dintre cele mai puternice unelte din arsenalul Pandas este metoda `.apply()`. Aceasta ne permite să aplicăm o funcție de-a lungul unei axe a unui DataFrame (adică pe fiecare rând sau pe fiecare coloană). Este extrem de utilă atunci când operațiile vectorizate standard (cum ar fi adunarea sau înmulțirea) nu sunt suficiente pentru a realiza transformarea de care avem nevoie.

Cel mai adesea, vom folosi `.apply()` în combinație cu funcții **lambda**, care sunt mici funcții anonime, perfecte pentru operații rapide și concise.

In [None]:
# Exemplu: Crearea unui DataFrame pentru exemplele noastre
import pandas as pd
import numpy as np

date_angajati = {
    'Nume': ['Andrei Popescu', 'Maria Ionescu', 'Ion Gheorghe', 'Elena Vasile', 'Vasile Costin'],
    'Departament': ['IT', 'Vânzări', 'IT', 'Marketing', 'Vânzări'],
    'Salariu_Brut_EUR': [3000, 2500, 2800, 2200, 2600],
    'Vechime_ani': [5, 3, 4, 2, 4]
}

df_angajati = pd.DataFrame(date_angajati)

print("DataFrame-ul de angajați:")
print(df_angajati)

print()

date_produse = {
    'Produs': ['Tricou', 'Pantaloni', 'Adidași', 'Șapcă', 'Geacă', 'Hanorac'],
    'Categorie': ['Îmbrăcăminte', 'Îmbrăcăminte', 'Încălțăminte', 'Accesorii', 'Îmbrăcăminte', 'Îmbrăcăminte'],
    'Pret_RON': [80, 250, 400, 50, 500, np.nan],
    'Stoc': [100, 50, 75, 200, 25, 40]
}

df_produse = pd.DataFrame(date_produse)

print("DataFrame-ul de produse:")
print(df_produse)

DataFrame-ul inițial:
             Nume Departament  Salariu_Brut_EUR  Vechime_ani
0  Andrei Popescu          IT              3000            5
1   Maria Ionescu     Vânzări              2500            3
2    Ion Gheorghe          IT              2800            4
3    Elena Vasile   Marketing              2200            2
4   Vasile Costin     Vânzări              2600            4

DataFrame-ul pentru exerciții:
      Produs     Categorie  Pret_RON  Stoc
0     Tricou  Îmbrăcăminte      80.0   100
1  Pantaloni  Îmbrăcăminte     250.0    50
2    Adidași  Încălțăminte     400.0    75
3      Șapcă     Accesorii      50.0   200
4      Geacă  Îmbrăcăminte     500.0    25
5    Hanorac  Îmbrăcăminte       NaN    40


In [None]:
# Exemplu: Folosirea .apply() pentru a calcula salariul net

# Să presupunem un impozit de 45% pe salariul brut.
# Vom crea o nouă coloană 'Salariu_Net_EUR' aplicând o funcție lambda pe coloana
# 'Salariu_Brut_EUR'.

df_angajati['Salariu_Net_EUR'] = df_angajati['Salariu_Brut_EUR'].apply(lambda salariu: salariu * 0.55)

print("DataFrame-ul cu salariul net calculat:")
print(df_angajati)

# OBS.: Funcția `lambda` este o funcție anonimă, definită direct în locul unde
# este folosită.
# `lambda salariu: salariu * 0.55` poate fi citit ca: "creează o funcție care
# ia un argument `salariu` și returnează `salariu` înmulțit cu 0.55".

DataFrame-ul cu salariul net calculat:
             Nume Departament  Salariu_Brut_EUR  Vechime_ani  Salariu_Net_EUR
0  Andrei Popescu          IT              3000            5           1650.0
1   Maria Ionescu     Vânzări              2500            3           1375.0
2    Ion Gheorghe          IT              2800            4           1540.0
3    Elena Vasile   Marketing              2200            2           1210.0
4   Vasile Costin     Vânzări              2600            4           1430.0


In [None]:
# Exemplu: Categorisirea prețurilor folosind if-elif-else
# Creăm o coloană numită 'Evaluare_Pret' folosind .apply() pe coloana 'Pret_RON'.

def evalueaza_pret(pret):
    if pret < 100:
        return 'Ieftin'
    elif 100 <= pret <= 300:
        return 'Moderat'
    else:
        return 'Scump'

df_produse['Evaluare_Pret'] = df_produse['Pret_RON'].apply(evalueaza_pret)

print(df_produse)

# OBS.: Pentru o logică mai complexă, cum este cea cu if-elif-else, este mai
# curat să definim o funcție separată și să o pasăm metodei .apply().

In [None]:
# __EXERCIȚIU__
# Adăugați o nouă coloană, 'Pret_cu_TVA', care conține prețul produselor cu un
# TVA de 19% adăugat. Folosiți metoda .apply() pe coloana 'Pret_RON'.

In [None]:
# __EXERCIȚIU__
# Folosind DataFrame-ul `df_angajati`, creați o nouă coloană numită
# 'Nivel_Vechime'.
# Aplicați o funcție pe coloana 'Vechime_ani' care să returneze următoarele
# valori:
# - 'Junior' dacă vechimea este mai mică de 3 ani
# - 'Mediu' dacă vechimea este între 3 și 4 ani (inclusiv)
# - 'Senior' dacă vechimea este mai mare de 4 ani
# Afișați DataFrame-ul modificat.

## Gruparea datelor: Metoda `.groupby()`

Gruparea datelor este un proces fundamental în analiza de date, adesea descris prin modelul **Split-Apply-Combine** (Împarte-Aplică-Combină).

1.  **Split (Împarte)**: Datele sunt împărțite în grupuri pe baza unor criterii (de exemplu, toți angajații din același departament).
2.  **Apply (Aplică)**: O funcție este aplicată pe fiecare grup în parte (de exemplu, calculăm media salariilor pentru fiecare departament).
3.  **Combine (Combină)**: Rezultatele sunt combinate într-o nouă structură de date.

Metoda `.groupby()` din Pandas este unealta perfectă pentru acest proces. O putem asemăna cu sortarea rufelor în coșuri diferite pe baza culorii, înainte de a le spăla.

In [None]:
# Exemplu: Gruparea după departament și calcularea salariului mediu

# Mai întâi, grupăm DataFrame-ul după coloana 'Departament'.
grup_departament = df_angajati.groupby('Departament')

# Apoi, aplicăm o funcție de agregare, cum ar fi .mean(), pentru a calcula media
# pe fiecare grup.
salariu_mediu_departament = grup_departament['Salariu_Brut_EUR'].mean()

print("Salariul mediu brut pe departament:")
print(salariu_mediu_departament)

# OBS.: Operația poate fi scrisă și într-o singură linie, ceea ce este practica
# uzuală:
# salariu_mediu_dep = df_angajati.groupby('Departament')['Salariu_Brut_EUR'].mean()

Salariul mediu brut pe departament:
Departament
IT           2900.0
Marketing    2200.0
Vânzări      2550.0
Name: Salariu_Brut_EUR, dtype: float64


In [None]:
# Exemplu: Numărarea produselor pe categorie
# Grupăm DataFrame-ul `df_produse` după coloana 'Categorie' și afișăm numărul de
# produse din fiecare.

numar_produse_categorie = df_produse.groupby('Categorie').size()

print(numar_produse_categorie)

# OBS.: Metoda `.size()` este o modalitate eficientă de a număra rândurile
# pentru fiecare grup format.

In [None]:
# Exemplu: Agregări multiple

# Putem aplica mai multe funcții de agregare simultan folosind metoda .agg()
agregari_multiple = df_angajati.groupby('Departament')['Salariu_Brut_EUR'].agg(['mean', 'sum', 'min', 'max', 'count'])

print("Statistici multiple pentru salarii, pe departament:")
print(agregari_multiple)

# OBS.: Metoda .agg() este foarte flexibilă și ne permite să obținem o imagine
# de ansamblu rapidă asupra datelor noastre grupate.

Statistici multiple pentru salarii, pe departament:
               mean   sum   min   max  count
Departament                                 
IT           2900.0  5800  2800  3000      2
Marketing    2200.0  2200  2200  2200      1
Vânzări      2550.0  5100  2500  2600      2


In [None]:
# __EXERCIȚIU__
# În tabela `df_angajati`, calculați vechimea medie și vechimea maximă pentru
# fiecare departament, într-o singură operație. Afișați rezultatul.

In [None]:
# __EXERCIȚIU__
# În tabela `df_produse`, găsiți cel mai scump produs din fiecare categorie.

---
# Capitolul 2: Pregătirea și Curățarea Datelor

Rareori datele cu care lucrăm sunt perfecte. Adesea, ele conțin valori lipsă, coloane inutile sau nu sunt sortate într-un mod util. În acest capitol, vom învăța cum să "curățăm" și să pregătim datele pentru analiză. Vom explora cum să eliminăm rânduri și coloane, cum să tratăm valorile lipsă (`NaN`) și cum să sortăm datele pentru a le face mai ușor de interpretat.

## Eliminarea datelor: `.drop()` și `.dropna()`

Pentru a menține setul de date relevant și curat, trebuie să eliminăm informațiile care nu ne sunt necesare.

* `.drop()`: Este folosită pentru a elimina rânduri sau coloane specificate. Trebuie să specificăm axa: `axis=0` pentru rânduri (index) și `axis=1` pentru coloane.
* `.dropna()`: Este o metodă specializată pentru a elimina rândurile sau coloanele care conțin valori lipsă (**NaN** - Not a Number).

In [None]:
# Exemplu: Eliminarea unei coloane
# Creăm un nou DataFrame, `df_fara_stoc`, care este identic cu `df_produse`,
# dar fără coloana 'Stoc'.

df_fara_stoc = df_produse.drop('Stoc', axis=1)

print(df_fara_stoc)

# OBS.: `axis=1` este esențial pentru a specifica faptul că dorim să eliminăm o
# coloană. Valoarea implicită `axis=0` ar căuta un rând cu indexul 'Stoc', ceea
# ce ar produce o eroare.

In [None]:
# Exemplu: Eliminarea unei coloane folosind .drop()

# Să presupunem că nu mai avem nevoie de coloana 'Nivel_Vechime' (creată
# într-un exercițiu anterior)
# Pentru a rula acest cod, asigurați-vă că ați rezolvat exercițiul care
# creează coloana.

if 'Nivel_Vechime' in df_angajati.columns:
    df_fara_nivel = df_angajati.drop('Nivel_Vechime', axis=1)
    print("DataFrame după eliminarea coloanei 'Nivel_Vechime':")
    print(df_fara_nivel)
else:
    print("Coloana 'Nivel_Vechime' nu a fost găsită. Rulează exercițiul anterior.")

# OBS.: Metoda .drop() returnează un nou DataFrame fără coloana specificată.
# DataFrame-ul original, `df_angajati`, rămâne neschimbat. Pentru a modifica
# DataFrame-ul original direct, putem folosi parametrul `inplace=True`.

Coloana 'Nivel_Vechime' nu a fost găsită. Rulează exercițiul anterior.


In [None]:
# __EXERCIȚIU__
# Creați o copie a DataFrame-ului `df_angajati` numită `df_copie`.
# Din `df_copie`, eliminați rândul corespunzător lui 'Ion Gheorghe' (indexul 2).
# Afișați `df_copie` pentru a verifica rezultatul.

# HINT: `axis=0` specifică faptul că vrem să eliminăm un rând (index).

In [None]:
# Exemplu: Eliminarea rândurilor cu valori lipsă
# Produsul 'Hanorac' are prețul lipsă (NaN). Creăm un nou DataFrame, `df_complet`,
# care elimină toate rândurile cu valori lipsă.

df_complet = df_produse.dropna()

print(df_complet)

# OBS.: Metoda `.dropna()` a identificat și a eliminat automat rândul cu indexul 5 ('Hanorac'),
# deoarece conținea o valoare NaN în coloana 'Pret_RON'.

## Sortarea datelor: `.sort_values()`

Sortarea ne ajută să aranjăm datele într-o ordine logică, de exemplu, de la cel mai mare la cel mai mic salariu sau în ordine alfabetică a numelor. Metoda `.sort_values()` este instrumentul principal pentru această sarcină.

După sortare, indexul original se păstrează, ceea ce poate fi derutant. De aceea, adesea vom folosi și `.reset_index(drop=True)` pentru a reseta indexul la o secvență ordonată (0, 1, 2, ...).

In [None]:
# Exemplu: Sortarea angajaților după salariul brut, în ordine descrescătoare

df_sortat_salariu = df_angajati.sort_values(by='Salariu_Brut_EUR', ascending=False)

print("Angajații sortați după salariu (descrescător):")
print(df_sortat_salariu)

# OBS.: Parametrul `ascending=False` sortează datele de la cea mai mare valoare
# la cea mai mică. Valoarea implicită este `True` (crescător).

Angajații sortați după salariu (descrescător):
             Nume Departament  Salariu_Brut_EUR  Vechime_ani  Salariu_Net_EUR
0  Andrei Popescu          IT              3000            5           1650.0
2    Ion Gheorghe          IT              2800            4           1540.0
4   Vasile Costin     Vânzări              2600            4           1430.0
1   Maria Ionescu     Vânzări              2500            3           1375.0
3    Elena Vasile   Marketing              2200            2           1210.0


In [None]:
# Exemplu: Sortarea și resetarea indexului

df_sortat_resetat = df_angajati.sort_values(by='Nume').reset_index(drop=True)

print("\nAngajații sortați alfabetic, cu indexul resetat:")
print(df_sortat_resetat)

# OBS.: `drop=True` previne adăugarea vechiului index ca o nouă coloană în
# DataFrame. Dacă am omite acest parametru, Pandas ar crea o coloană numită
# 'index' cu valorile vechi.


Angajații sortați alfabetic, cu indexul resetat:
             Nume Departament  Salariu_Brut_EUR  Vechime_ani  Salariu_Net_EUR
0  Andrei Popescu          IT              3000            5           1650.0
1    Elena Vasile   Marketing              2200            2           1210.0
2    Ion Gheorghe          IT              2800            4           1540.0
3   Maria Ionescu     Vânzări              2500            3           1375.0
4   Vasile Costin     Vânzări              2600            4           1430.0


In [None]:
# Exemplu: Sortare după criterii multiple
# Sortăm `df_produse` după 'Categorie' în ordine alfabetică (crescător).
# Pentru produsele din aceeași categorie, le sortăm după 'Pret_RON' în ordine
# descrescătoare.

df_sortat_multiplu = df_produse.sort_values(by=['Categorie', 'Pret_RON'], ascending=[True, False])

print(df_sortat_multiplu)

# OBS.: Am pasat liste de coloane și de direcții de sortare. Pandas sortează mai
# întâi după 'Categorie' (crescător). Apoi, pentru grupul 'Îmbrăcăminte',
# sortează după 'Pret_RON' (descrescător).

In [None]:
# __EXERCIȚIU__
# Sortați `df_produse` în funcție de stoc ('Stoc') în ordine crescătoare și
# afișați rezultatul.

In [None]:
# __EXERCIȚIU__
# Sortați DataFrame-ul `df_angajati` după 'Vechime_ani' în ordine descrescătoare.
# În caz de vechime egală, sortați alfabetic după 'Nume' (ordine crescătoare).
# Afișați rezultatul.