# Python pentru AI - Nitro NLP Workshop
Python este unul dintre cele mai populare limbaje de programare. Ușurința cu care scrii cod, forma prietenoasă și varietatea bibliotecilor sale sunt doar câteva dintre motivele pentru care a câștigat rapid popularitate.

În acest notebook, vom învăța câteva concepte de bază despre Python pentru a-l putea folosi în proiectele noastre de AI.

# 1. List and dictionary comprehension

Această tehnică permite construirea concisă a unei liste sau a unui dicționar, de obicei chiar într-un singur rând. Cunoașterea acesteia este esențială pentru înțelegerea codului Python, deoarece se aliniază paradigmei „pitonice” de a scrie cod clar și concis. Comparativ cu C++, acest stil este mai compact, dar uneori poate părea mai puțin explicit.



# 1.1 Teorie

In [2]:
# Să presupunem că vrem să luăm o listă și să ridicăm fiecare element al său la puterea a doua
# Am putea scrie o funcție simplă pentru a rezolva această problemă:

def get_patrate(lista):
    patrate_lista = []
    for x in lista:
        patrate_lista.append(x**2)
    return patrate_lista


lista = [1, 2, 3, 4, 5]
print(get_patrate(lista))

# Deși această variantă funcționează, necesită destul de mult cod pentru o operație simplă
# Hai să vedem cum putem rescrie acest cod folosind list comprehensions:

def get_patrate_nou(lista):
    patrate_lista = [x ** 2 for x in lista]
    return patrate_lista

print(get_patrate_nou(lista))
# Wow! Codul este mult mai scurt și chiar mai elegant. Hai să încercăm un alt exemplu

[1, 4, 9, 16, 25]
[1, 4, 9, 16, 25]


In [None]:
# Să presupunem că vrem să aplicăm un hash foarte simplu asupra unei liste de numere,
# aplicând operația de modulo cu 666013
# Deoarece această operație poate fi lentă dacă este repetată frecvent,
# vrem să folosim un dicționar pentru a stoca valorile precalculate

# Hai să scriem o funcție pentru asta:
def get_hash(lista):
    hash_map = {}
    for x in lista:
        hash_map[x] = x % 666013
    return hash_map

lista = [1, 666020, 10, 15, 666017]
print(get_hash(lista))

# La fel ca înainte, codul funcționează, dar îl putem scrie mai concis folosind dictionary comprehensions:
def get_hash_nou(lista):
    hash_map = {x: x % 666013 for x in lista}
    return hash_map

print(get_hash_nou(lista))

# Încă o dată, am reușit să comprimăm codul într-un mod elegant și simplu

Acum că am înțeles importanța acestei tehnici, să vedem cum funcționează.

În primul rând, avem nevoie de o secvență iterabilă, cum ar fi o listă sau un range. Apoi, trebuie să decidem dacă formula noastră necesită o condiție sau nu.

In [None]:
# 1. Comprehensions fără condiție
# În această formă, mai întâi specificăm forma obiectului, apoi folosim for
# pentru a itera prin listă și a genera elementele

# Spre exemplu, o listă cu pătratele numerelor de la 1 la 7:
lista_patrate = [x ** 2 for x in range(1, 8)]
print(lista_patrate)

# Sau un dicționar cu hash-urile unei liste:
lista = [1, 666020, 10, 15, 666017]
hash_map = {x: x % 666013 for x in lista}
print(hash_map)


In [None]:
# 2. Comprehensions cu if, dar fără else
# Comparativ cu cele fără condiție, aici adăugăm un if la final, urmat de condiția dorită

# Spre exemplu, o listă care reține doar multiplii de 5 dintr-o altă listă:
lista = [3, 10, 8, 5, 5]
multiplii_5 = [x for x in lista if x % 5 == 0]
print(multiplii_5)


In [None]:
# 3. Comprehensions cu if și else
# Similar celor fără condiție, mai întâi specificăm expresia, apoi folosim un for
# Aici, expresia va avea forma: valoare_dacă_adevărat if condiție else valoare_dacă_fals

# Spre exemplu, un dicționar în care fiecare element dintr-o listă de vârste va fi o cheie,
# iar valoarea asociată va fi 'MAJOR' dacă vârsta este de cel puțin 18 ani, altfel 'MINOR'.
lista = [12, 20, 27, 31, 8]
stare = {x: 'MAJOR' if x >= 18 else 'MINOR' for x in lista}
print(stare)


# 1.2 Exerciții

In [None]:
# 1. Creați o listă nouă cu ultimele cifre ale fiecărui număr din lista de mai jos
lista = [15, 29, 13, 27, 41]
sol = []
print(sol)

In [None]:
# 2. Fiind dată o listă de numere naturale, creați o altă listă în care pentru fiecare element din lista originală
# să rețină 'DA' dacă numărul este par, în caz contrar, 'NU'
lista = [10, 3, 8, 6, 5, 7]
sol = []
print(sol)

In [None]:
# 3. Pe baza unei liste, creați o altă listă care conține doar elementele aflate pe pozițiile de forma 3k + 2
lista = [0, 1, 2, 3, 4, 5, 6, 7, 8]
sol = []
print(sol)

In [None]:
# 4. Pentru a antrena un model, sunt necesare două dicționare: id2label și label2id
# Creați aceste două dicționare, știind că label2id are forma {label: poziția în șir},
# iar id2label are forma {poziția în șir: label}.

labels = ['cat', 'dog', 'car', 'duck', 'airplane', 'train', 'teddy bear']
label2id = {}
id2label = {}
print(label2id, id2label)

In [None]:
# 5. Dat fiind un șir de caractere, s,
# generați o listă, litere, care să conțină fiecare caracter din s cu majusculele și minusculele inversate.
# hint: Folosiți funcțiile islower() și isupper() pentru a determina tipul fiecărei litere
# și funcțiile lower() și upper() pentru a le transforma în minusculă, respectiv majusculă.

s = "Succes la NITRO NLP!"
litere = []
print(litere)

# 2. NumPy

NumPy este o bibliotecă fundamentală pentru Python, folosită pentru calcule matematice pe array-uri multidimensionale și nu numai. Pe lângă o sintaxă elegantă, oferă și o îmbunătățire semnificativă a timpului de rulare, datorită vectorizării operațiilor. Fără această optimizare, multe calcule ar deveni impracticabile, având timpi de execuție mult prea mari.

# 2.1 Array-uri in NumPy

In [None]:
import numpy as np  # 'as' se folosește după un import pentru a defini un 'alias'.
# Astfel, în loc să scriem numpy de fiecare dată, vom folosi np pentru a apela funcțiile bibliotecii

# În NumPy, toate operațiile se fac pe array-uri
x = np.array([5, 9, 4])
y = np.array([3, 2, 6])

print("x:", x)
print("y:", y)

In [None]:
# Mai întâi, să aflăm câte ceva despre aceste array-uri

print(x.shape)  # Putem vedea că x este un șir cu 3 elemente
print(x.size)   # Putem vedea dimensiunea lui x
print(x.ndim)   # Câte dimensiuni are x?

In [None]:
# Deocamdată, array-urile din NumPy nu par foarte diferite de listele obișnuite din Python,
# însă biblioteca NumPy oferă multe funcții utile.

suma = x + y  # Putem aduna două array-uri element cu element
print(suma)

diferenta = x - y  # Putem calcula diferența element cu element
print(diferenta)

produs_per_element = x * y  # Putem înmulți elementele corespunzătoare din cele două array-uri
print(produs_per_element)

dot_product = x.dot(y)  # Putem calcula produsul scalar (dot product) între cele două array-uri
print(dot_product)

In [None]:
# NumPy nu doar că simplifică operațiile între două array-uri, ci și prelucrarea fiecărui element în parte.

x = np.array([1, 2, 3, 4, 5])

print(x + 7)  # Pot aduna o constantă la fiecare element din x.
print(x * 4.5)  # Pot înmulți fiecare element cu o constantă.
print(x ** 3)  # Pot ridica fiecare element la o putere.
print(x ** 2 + 2 * x + 1)  # Pot combina aceste operații într-o expresie matematică.

In [None]:
# NumPy oferă funcții integrate pentru a efectua diverse operații pe array-uri. De exemplu:

x = np.array([5, 10, 2, 7, 15])

suma = np.sum(x)  # Suma elementelor din array
print(suma)

medie = np.mean(x)  # Media aritmetică a elementelor
print(medie)

median = np.median(x)  # Mediana (elementul din mijloc, după sortare)
print(median)

std = np.std(x)  # Deviația standard a elementelor
print(std)

minn, maxx = np.min(x), np.max(x)  # Valoarea minimă și maximă din array
print(minn, maxx)

poz_min, poz_max = np.argmin(x), np.argmax(x)  # Indicii elementelor minim și maxim
print(poz_min, poz_max)

# 2.2 Matrice în NumPy

In [None]:
# Un aspect important: NumPy se descurcă excelent cu matrici și alte structuri multidimensionale

A = np.array([[6, 1, 8], [5, 5, 4]])
B = np.array([[3, 2], [7, 9], [9, 2]])

print(A, '\n -------- \n', B)

In [None]:
transpusa = A.T  # Așa aflăm transpusa unei matrice
print(transpusa)

In [None]:
# Putem înmulți matricele folosind operatorul '@' sau funcția .dot()
prod = A @ B  # sau prod = A.dot(B)
print(prod)

In [None]:
# Funcțiile de la array-urile unidimensionale funcționează și pe matrice
suma = np.sum(A)  # suma tuturor elementelor matricei A
print(suma)

# Totuși, adesea vom avea nevoie de suma pe rânduri sau pe coloane. Pentru asta, folosim argumentul axis
suma_pe_randuri = np.sum(A, axis=1)  # Cum știți ce să puneți aici? Ei bine, vă gândiți ce axă vreți să eliminați
suma_pe_coloane = np.sum(A, axis=0)  # În cazul coloanelor, a trebuit să eliminăm rândurile (axa 0) ca să rămânem cu coloanele
print(suma_pe_randuri, suma_pe_coloane)

# În mod identic se procedează și cu celelalte funcții

# 2.3 Alte funcții folositoare in NumPy

In [None]:
# De multe ori, va fi nevoie să schimbăm forma unui array în numpy
# Ei bine, biblioteca face acest proces foarte simplu

# Să zicem că vrem să transformăm array-ul x dintr-un șir cu 6 elemente într-o matrice de forma (2, 3)
x = np.array([1, 2, 3, 4, 5, 6])
print(x, x.shape)

# Folosim funcția reshape cu tuplul (2, 3) ca argument pentru a-i schimba forma într-o matrice de 2x3
x = x.reshape((2, 3))
print(x, x.shape)

# Poți folosi -1 pentru a "aplatiza" array-ul și a scăpa de dimensiunile neprecizate
x = x.reshape(-1)
print(x)

In [None]:
# Numpy este foarte folositor și pentru generarea rapidă de date sintetice. Hai să vedem câteva exemple

# Funcția linspace generează 11 numere egal distanțate în intervalul [0, 5]
x = np.linspace(0, 5, 11)
print(x)

# Funcția arange este asemănătoare cu linspace, dar primește pasul ca argument în loc de numărul de elemente
# Atenție: arange NU include sfârșitul intervalului!
x = np.arange(0, 5, 0.5)  # Generează numere de la 0 la 5 (fără 5) cu pasul 0.5
print(x)

# Cu random.randint, putem genera un șir de 15 numere întregi aleatoare în intervalul [0, 100)
x = np.random.randint(0, 100, 15)
print(x)

# random.rand generează un șir de 15 numere de tip float aleatoare în intervalul [0, 1)
x = np.random.rand(15)
print(x)

# Putem genera și date dintr-o distribuție normală
mu, sigma = 0, 0.1  # media (mu) și deviația standard (sigma)
s = np.random.normal(mu, sigma, 15)  # Generează 1000 de numere cu media 0 și deviația standard 0.1
print(s)

In [None]:
# Funcția np.ones este folosită pentru a genera un șir de 1-uri de lungime 10
unu = np.ones(10)
print(unu)

# Funcția np.zeros este folosită pentru a genera un șir de 0-uri de lungime 10
zero = np.zeros(10)
print(zero)

# Dacă avem o matrice existentă, putem genera o matrice de 1-uri cu aceeași formă folosind np.ones_like
# sau de 0-uri folosind np.zeros_like
A = np.array([[1, 2, 3], [4, 5, 6]])
unu_A = np.ones_like(A)  # Generează o matrice de 1-uri cu aceeași formă ca A
zero_A = np.zeros_like(A) # Generează o matrice de 0-uri cu aceeași formă ca A
print(unu_A, zero_A)

# 2.4 Indexare și slicing

Este important să înțelegem cum funcționează accesarea submatricelor în NumPy, deoarece este un concept foarte des întâlnit.

In [None]:
# Pentru început, vom crea o matrice A de dimensiune (5, 5) cu elemente numere de la 1 la 25
A = np.arange(1, 26, 1).reshape((5, 5))
print(A)

In [None]:
# Mai întâi, să accesăm elementul de pe al 3-lea rând și a 4-a coloană
print(A[2][3])  # În Python, indexarea începe de la 0, iar în NumPy este la fel. Astfel, elementul de pe poziția (2, 3) este cel căutat.

In [None]:
# Cum selectăm rânduri sau coloane în NumPy? Ei bine:

# Selectarea unui rând se face la fel ca în Python
primul_rand = A[0]  # Aici selectăm primul rând (indexul 0)
print(primul_rand)

# Selectarea unei coloane se face folosind notația ':' pentru a specifica toate rândurile
a_treia_coloana = A[:, 2]  # ':' înseamnă "toate rândurile", iar 2 este indexul coloanei
print(a_treia_coloana)

# Deși nu este necesar, putem folosi ':' și pentru rânduri, pentru o înțelegere mai clară
primul_rand = A[0, :]  # Pentru primul rând, vreau fiecare coloană
print(primul_rand)

In [None]:
# Cum selectăm o submatrice? Ei bine, va trebui să specificăm intervalul folosind ':'
# Să zicem că vrem să selectăm submatricea cu colțul stânga-sus la (1, 2) și colțul dreapta-jos la (4, 3). Atunci:
submatrice = A[1:5, 2:4]  # Mă interesează rândurile 1, 2, 3 și 4 (1:5) și pentru fiecare rând coloanele 2 și 3 (2:4)
print(submatrice)

In [None]:
# Se poate realiza și selectarea mai multor rânduri sau coloane 'fixe'. De exemplu:

B = A[[0, 1, 4]]  # Păstrez din A rândurile 0, 1 și 4
print(B)

C = A[:, [1, 2, 4]]  # Păstrez din A coloanele 1, 2 și 4
print(C)

In [None]:
# Pentru a combina selectarea unor rânduri fixe și a unor coloane fixe, este nevoie de slicing avansat

# Definim rândurile și coloanele pe care vrem să le selectăm
randuri = [0, 1, 4]
coloane = [1, 2, 4]

# Folosim np.ix_ pentru a selecta combinația dorită de rânduri și coloane
M = A[np.ix_(randuri, coloane)]  # Păstrez elementele de pe rândurile 0, 1 și 4, care se află pe coloanele 1, 2 sau 4
print(M)

In [None]:
# Nu în ultimul rând, avem selectarea unor elemente pe baza unei condiții

# Creăm o matrice A de dimensiune 3x3 cu elemente de la 1 la 9
A = np.arange(1, 10).reshape(3, 3)

# Să zicem că vrem să găsim toți multiplii de 2 din matricea A
# Putem folosi ca index array-ul de adevăr A % 2 == 0
print(A, '\n-------------\n', A % 2 == 0)
# Observăm că A % 2 == 0 are aceeași formă ca A, iar rezultatul este o matrice de valori booleene (True/False)

# Selectăm elementele din A care îndeplinesc condiția (A % 2 == 0)
multiplii_2 = A[A % 2 == 0]
print(multiplii_2)
# Observăm că multiplii_2 este un array care conține toate elementele care erau pe poziții de 'True'

# 2.5 De ce NumPy?

Până acum am explorat doar cum ne face viața mai ușoară, dar nu am spus nimic despre viteza bibliotecii. Mai jos, o să demonstrez prin câteva exemple practice de ce operațiile vectorizate oferite de NumPy sunt absolut necesare.

In [None]:
# Suma elementelor cu un for versus folosind np.sum()

def media_elementelor_fara_np(x):
    media = 0
    for nr in x:
        media += nr
    media /= len(x)
    return media

def media_elementelor_np(x):
  return np.mean(x)

In [None]:
x = np.random.rand(10000000)

In [None]:
%%timeit
media_elementelor_fara_np(x)

In [None]:
%%timeit
media_elementelor_np(x)

In [None]:
def inmultire_matrice_fara_np(A, B):
    if A.shape[1] != B.shape[0]:
        return False

    N, M, K = A.shape[0], B.shape[1], A.shape[1]
    C = [[0 for i in range(N)] for j in range(M)]
    for i in range(N):
        for j in range(M):
            for k in range(K):
                C[i][j] += A[i][k] * B[k][j]
    return C


def inmultire_matrice_np(A, B):
    if A.shape[1] != B.shape[0]:
        return False
    return A @ B

In [None]:
A = np.random.rand(10000).reshape(100, 100)
B = np.random.rand(10000).reshape(100, 100)

In [None]:
%%timeit
inmultire_matrice_fara_np(A, B)

In [None]:
%%timeit
inmultire_matrice_np(A, B)

Wow! Suma elementelor a fost de aproximativ **100** de ori mai rapidă, iar înmulțirea matricelor a fost de aproape **10.000** de ori mai rapidă! Pe lângă factorul de viteză, codul a fost și mult, mult mai scurt și elegant. NumPy nu doar că optimizează calculele, dar și face codul mai ușor de citit și de întreținut.

Din acest motiv, NumPy nu trebuie să lipsească din arsenalul niciunui utilizator de Python, mai ales atunci când lucrezi cu date numerice sau calcule matematice complexe. Este o unealtă esențială pentru orice proiect care implică analiza de date, învățare automată, sau simulări științifice.

# 2.6 Exerciții

In [None]:
# 1. Generați un sir, x, de 25 de elemente intregi aflate în intervalul [5, 30] și aflați:
# minimul, maximul, media, mediana și deviația standard a elementelor din sir

In [None]:
# 2. Folosind sirul x de la exercițiul 1, transformați-l într-o matrice de marime (5, 5) și afișați:
#    a) elementul de pe poziția (2, 3)
#    b) a doua coloană
#    c) suma elementelor de pe diagonala principală

In [None]:
# 3. Creați o matrice A de marime (4, 4) cu elemente random de tip întreg cu valori aflate în intervalul [1, 50]
#    a) afișați suma elementelor de pe fiecare rând
#    b) afișați produsul elementelor de pe fiecare coloană
#    c) extrageți submatricea cu colțul stânga sus (1, 1) și colțul dreapta jos (3, 3)

In [None]:
# 4. Creați două matrici B și C de marime (3, 3) cu elemente random întregi în intervalul [1, 10] și realizați:
#    a) suma matricelor
#    b) produsul element cu element
#    c) produsul matriceal
#    d) transpusa matricei rezultate la punctul c)

In [None]:
# 5. Recreați această matrice fără a scrie vreun for:
# [[ 1  2  5  4  5]
#  [ 6  7  10  9 10]
#  [13 14 15 16 17]
#  [16 17 17 19 20]
#  [21 22 25 24 25]]

# 3. Pandas

**Pandas** este o bibliotecă pentru analiza datelor, care oferă structuri precum **DataFrame** și **Series** pentru organizarea și manipularea datelor tabulare.  

În această secțiune a tutorialului, vom folosi un set de date din **Nitro AI Warmup Round**, care conține informații despre jocuri de pe Steam. Vă voi prezenta câteva funcții utile pe care le puteți folosi pentru a lucra cu un **DataFrame**.  

Fișierul **steam_data.csv** se află în același repository și trebuie adăugat în notebook înainte de a putea fi utilizat în cod.

# 3.1 Familiarizarea cu setul de date  

Înainte de a începe orice proiect, este esențial să înțelegem datele cu care vom lucra. Din fericire, **Pandas** ne simplifică această sarcină!

In [None]:
import pandas as pd  # Folosim un alias, la fel ca în NumPy, pentru a scurta numele bibliotecii

# În pandas, vom lucra de cele mai multe ori cu date citite dintr-un fișier de tip CSV
# Pentru a citi dintr-un astfel de fișier, folosim comanda read_csv
df = pd.read_csv('steam_data.csv') # Numele de df este adesea folosit, întrucat este prescurtarea de la DataFrame

In [None]:
# Acum că am introdus setul de date in notebook, haideti să îl și vedem

df.head(10) # folosind funcția head(n) putem vedea primele n filme din setul de date

Un DataFrame este, de fapt, doar un tabel cu un nume mai pompos.
Este o structură de date tabulară, similară cu o foaie de calcul din excel.
Are rânduri (observații) și coloane (variabile sau caracteristici).

De exemplu, `df` este un DataFrame care conține datele noastre din fișierul CSV.

In [None]:
# Acum că ne-am făcut o primă impresie asupra setului de date, este momentul să studiem fiecare coloană în parte
# Pentru a găsi numele coloanelor, putem accesa atributul columns al DataFrame-ului df

df.columns

In [None]:
# Hai să vedem și ce tip de date folosește fiecare coloană.

# Funcția `info()` oferă informații utile, cum ar fi:
# numărul de elemente non-nule de pe fiecare coloană și tipul de date al acestora.
df.info()

In [None]:
# Funcția describe() ne oferă un rezumat matematic al coloanelor numerice.
# Ea calculează statistici precum media, deviația standard, valorile minime și maxime, precum și quartilele.

df.describe()

# 3.2 Lucrul simplu cu datele

In [None]:
# Pentru a accesa o coloană a unui DataFrame, o putem trata ca și cum ar fi o cheie într-un dicționar
# De exemplu, dacă avem o coloană numită "Price", o putem accesa astfel:

coloana_pret = df['Price']
coloana_pret
# Aceasta va returna un Series (o listă de valori) care conține toate datele din coloana respectivă

In [None]:
type(coloana_pret) # Este de tip Series, adică un șir de valori

In [None]:
# Pe coloane putem aplica transformări similare cu cele de pe array-urile din NumPy
# De exemplu, putem face operații matematice pe o coloană, cum ar fi cea de preț:

df['Price'] ** 2 - 2 * df['Price'] + 1
# ATENȚIE! Cu această linie, doar afișăm rezultatul operației, dar nu modificăm coloana Price din df

# 3.3 Augmentarea setului de date

Eliminarea, adăugarea și prelucrarea coloanelor

# 3.3.1 Eliminarea coloanelor
Nu întotdeauna fiecare coloană va fi folositoare pentru analiza noastră a setului de date.
Din acest motiv, este util să putem elimina coloanele care nu ne sunt de folos.
Din fericire, în pandas, este foarte ușor să ștergi coloane.

De exemplu, să zicem că vrem să prezicem cât va costa un joc.
Intuitiv, am crede că numele (`Name`) și ID-ul (`AppID`) jocului nu afectează deloc prețul.
Atunci, ar fi bine să eliminăm aceste informații inutile.
Astfel, modelul nostru se poate concentra doar pe informațiile relevante.

Putem face asta folosind funcția `drop`, care primește ca parametru coloanele pe care vrem să le eliminăm.
Parametrul `inplace=True` este necesar pentru ca modificarea să se aplice direct DataFrame-ului `df`.

In [None]:
df.drop(columns=['AppID', 'Name'], inplace=True)

Copy

# 3.3.2 Adăugarea coloanelor

Atunci când lucrăm cu un set de date nou, este esențial să observăm ce informații nu ne sunt furnizate direct, dar pot fi extrase din coloanele existente ale tabelului. Aceste informații suplimentare, adăugate modelului, pot face o mare diferență în acuratețea sa finală.

Forma curentă a datei de lansare a jocului este nefolositoare, deoarece este stocată ca un șir de caractere (string).
Cum prețul jocurilor variază mai degrabă de la an la an, intuitia ne spune că informația utilă ce trebuie extrasă este, de fapt, anul lansării.
Așadar, haideți să creăm o nouă coloană numită 'Year', care să rețină anul în care se lansează jocul.

In [None]:
# Putem face asta folosind funcția `to_datetime`, care știe să extragă valorile utile dintr-o dată.
# Apoi, accesăm atributul `year` din interiorul obiectului rezultat pentru a obține anul.

df['Year'] = pd.to_datetime(df['Release date']).dt.year

# 3.3.3 Prelucrarea coloanelor

Uneori, o coloană conține informații folositoare, dar este utilă schimbarea formei ei, pentru a o transforma în ceva ce modelul poate înțelege mai ușor.

Spre exemplu, coloana 'Estimated owners' are forma unui interval (de exemplu, "10000-20000"),
și, din acest motiv, nu ar fi utilă direct pentru un model.
O simplificare ar fi să luăm doar media capetelor intervalului.
Astfel, transformăm coloana într-un număr pe care modelele îl pot interpreta și folosi.

Pentru a face asta, vom folosi o funcție care să extragă capetele intervalului și să calculeze media.

În cod, vom folosi funcția `apply`, care va aplica funcția introdusă ca parametru peste fiecare rând din tabel.
Aceasta este o metodă foarte puternică pentru a transforma datele dintr-o coloană.


In [None]:
def calculate_average_owners(interval):
    # Despărțim intervalul în două părți folosind caracterul '-'
    minim, maxim = interval.split('-')
    minim = int(minim) # Convertim părțile în numere întregi
    maxim = int(maxim)
    return (minim + maxim) / 2

# Aplicăm funcția pe coloana 'Estimated owners' pentru a modifica coloana
df['Estimated owners'] = df['Estimated owners'].apply(calculate_average_owners)
# ATENTIE! Functia apply poate fi folosită și pentru a adauga coloane noi

# 3.4 Indexarea și filtrarea datelor

Voi prezenta trei metode: loc, iloc si apply(din nou)

# 3.4.1 df.loc

`.loc` se folosește de etichete (numele rândurilor sau ale coloanelor) pentru a selecta date.Este o metodă puternică pentru a accesa și filtra date într-un DataFrame.

In [None]:
# Spre exemplu:
# Selectăm toate rândurile și coloana 'Metacritic score'
df.loc[:, 'Metacritic score']

# Selectăm rândurile de la indexul 0 la 4 și coloanele 'Metacritic score' și 'Price'
df.loc[0:4, ['Metacritic score', 'Price']]

# Selectăm rândurile unde coloana 'Year' este mai mare decât 2020
df.loc[df['Year'] > 2020, :] #OBSERVATIE! putem folosi și condiționale înauntrul lui loc

# 3.4.2 df.iloc

`.iloc`, față de `.loc`, se folosește numai de pozițiile numerice ale rândurilor sau ale coloanelor (indici) pentru a selecta date. Este o metodă foarte utilă când vrei să accesezi date bazându-te pe poziții, nu pe etichete.


In [None]:
# Exemplu de utilizare:
# Selectăm primele 5 rânduri și primele 3 coloane
df.iloc[0:5, 0:3]

# Selectăm rândurile 1, 3, 5 și coloanele 2 și 4
df.iloc[[1, 3, 5], [2, 4]]

# 3.4.3 df.apply

Am văzut cum funcția `apply` poate fi folosită pentru prelucrarea datelor, însă aceasta poate fi folosită și pentru filtrarea datelor. Diferența este că funcția aplicată peste fiecare rând trebuie să returneze o valoare booleană (True/False), care reprezintă condiția după care vrem să filtrăm.

In [None]:
# Spre exemplu, să zicem că am vrea să găsim jocurile cu recenzii foarte foarte bune
# Să le considerăm pe acestea, cele care au procentul de recenzii pozitive de cel puțin 90%

# Definim o funcție care verifică dacă un joc are cel puțin 90% recenzii pozitive
# OBSERVATIE! Adăugăm un număr foarte mic (0.0001) la numitor pentru a evita împărțirea la zero

def joc_buuun(row):
    return row['Positive'] / (row['Positive'] + row['Negative'] + 0.0001) >= 0.90

# Aplicăm funcția pe fiecare rând al DataFrame-ului și filtrăm doar rândurile care îndeplinesc condiția
jocuri_bune = df[df.apply(joc_buuun, axis=1)]

# Afișăm jocurile cu recenzii foarte bune
jocuri_bune

# 3.5 Exerciții

In [None]:
# 1. Creați o coloană nouă 'Parere', care să fie raportul dintre numărul de recenzii pozitive ('Positive')
# și numărul de recenzii negative ('Negative'). Adăugați 0.0001 la numitor pentru a evita împărțirea la zero.

In [None]:
# 2. Folosind noua coloană creată, găsiți jocurile care se află în extreme:
# - Jocuri cu 'Parere' <= 0.10 (foarte multe recenzii negative raportat la cele pozitive).
# - Jocuri cu 'Parere' >= 0.90 (foarte multe recenzii pozitive raportat la cele negative).

In [None]:
# 3. Creați o coloană nouă numită 'este_RPG', care trebuie să fie:
# - True pentru jocurile care conțin 'RPG' în coloana 'Genres'.
# - False pentru celelalte jocuri.
# Apoi, găsiți jocurile care sunt de tip RPG și se află în extreme.

In [None]:
# 4. Găsiți jocurile pentru care opinia criticilor ('Metacritic score') a fost mai rea decât opinia publicului ('Parere').
# ATENTIE! Aveți grija la unitățile de măsură