# Modelarea datelor in Python

Abilitatea de a prelucra si interpreta date este poate cea mai puternica arma din arsenalul fiecarui analist. Acest tutorial are rolul de a introduce notiunile de baza ale bibliotecilor NumPy, Pandas si Matplotlib.

Videoclipul suport pentru parcurgerea acestui notebook este, de asemenea, disponibil pe canalul de youtube al Olimpiadei de IA: https://www.youtube.com/live/IETq9BwaEtA?si=pH63w5tS3Crmex6L.

# 1. NumPy

NumPy este o biblioteca fundamentala pentru Python, fiind folosita pentru calcule matematice pe array-uri multidimensionale si nu numai. Pe langa sintaxa eleganta ofera si o imbunatatire semnificativa a timpului de rulare, folosindu-se de vectorizarea operatiilor. Adesea, fara a profita de aceasta, calculele devin imposibile, avand timpi de rulare mult prea mari pentru a putea fi considerate practice.

# 1.1 Array-uri in NumPy


In [None]:
import numpy as np # acest as se foloseste dupa un import pentru a defini un 'alias'
# cand vom folosi libraria vom scrie doar np, in loc de numpy, de fiecare data cand vom vrea sa apelam o functie

# In numpy toate operatiile se fac pe array-uri.
x = np.array([4, 3, 8])
y = np.array([1, 2, 7])

print(x, y)

In [None]:
# Mai intai sa aflam cate ceva despre aceste array-uri

print(x.shape) # putem vedea ca x este sir cu 3 elemente
print(x.size) # putem vedea dimensiunile lui x
print(x.ndim) # cate dimensiuni are x

In [None]:
# Momentan nu se observa nimic special la array-uri fata de listele obisnuite din python,
# insa numpy adauga multe functii folositoare

suma = x + y # putem aduna doua array-rui
print(suma)
diferenta = x - y # putem face diferenta dintre ele
print(diferenta)
produs_per_element = x * y # putem inmulti fiecare element in parte
print(produs_per_element)
dot_product = x.dot(y) # putem face si dot productul dintre ei
print(dot_product)

In [None]:
# Numpy nu usureaza numai operatiile dintre doua array-uri, ci si prelucrarea individuala a lor

x = np.array([1, 2, 3, 4, 5])

print(x + 7) # pot aduna o constanta la fiecare element al lui x
print(x * 4.5) # pot inmulti fiecare element cu o constanta
print(x ** 3) # pot chiar ridica fiecare element la o putere
print(x ** 2 + 2 * x + 1) # pot chiar si combina aceste operatii

In [None]:
# Numpy ofera si operatii deja implementate ce se pot aplica pe array, spre exemplu:

x = np.array([1, 3, 8, 10, 11])

suma = np.sum(x) # suma elementelor
print(suma)
medie = np.mean(x) # media elementelor
print(medie)
median = np.median(x) # elementul median
print(median)
std = np.std(x) # deviatia standard
print(std)
minn, maxx = np.min(x), np.max(x)
print(minn, maxx) # elementul minim si cel maxim
poz_min, poz_max = np.argmin(x), np.argmax(x)
print(poz_min, poz_max)

# 1.2 Matrice in NumPy

In [None]:
# Poate cel mai important, numpy se descurca excelent si cu matrice sau orice container multidimensional

A = np.array([[5, 2, 4], [3, 2, 6]])
B = np.array([[1, 7], [9, 9], [2, 2]])

print(A, '\n -------- \n', B)

In [None]:
transpusa = A.T # asa putem afla transpusa unei matrice
print(transpusa)

In [None]:
# Evident putem si inmulti matricele folosind operatorul '@' sau functia .dot()

prod = A @ B  # sau prod = A.dot(B)
print(prod)

In [None]:
# Functiile de la array-urile unidimensionale functioneaza si pe matrice

suma = np.sum(A) # suma tuturor elemenetelor matricei A
print(suma)

# Totusi adesea vom avea nevoie de suma pe coloane sau pe randuri, pentru asta vom folosi argumentul axis
suma_pe_randuri = np.sum(A, axis=1) # Cum stiti ce sa puneti aici? Ei bine va ganditi ce axa vreti sa eliminati.
suma_pe_coloane = np.sum(A, axis=0) # In cazul coloanelor a trebuit sa eliminam randurile(axa 0) ca sa ramanem cu coloanele
print(suma_pe_randuri, suma_pe_coloane)

# In mod identic se procedeaza si cu celelalte functii

# 1.3 Alte funcii folositoare in NumPy

In [None]:
# De multe ori va fi nevoie sa schimbam forma unui array in numpy
# Ei bine, libraria face acest proces foarte simplu

# Sa zicem ca vrem sa il transformam pe x dintr-un sir cu 6 elemente intr-o matrice de forma (2, 3)
x = np.array([1, 2, 3, 4, 5, 6])
print(x, x.shape)
x = x.reshape((2, 3)) # Atunci este nevoie de functia reshape si de tuple-ul (2, 3) ca argument
print(x, x.shape)
x = x.reshape(-1) # Poti folosi -1 pentru a scapa de dimensiunile ce nu au fost mentionate explicit anterior
print(x)

In [None]:
# Numpy este folositor si pentru generarea rapida de date sintetice, spre exemplu

x = np.linspace(0, 5, 11) # functia linspace va genera 11 numere egal departate din intervalul [0, 10]
print(x)

x = np.arange(0, 5, 0.5) # functia arange este fratele lui linspace, insa va primi ca argument pasul, nu cantitatea de numere si NU include sfarsitul intervalului
print(x)

x = np.random.randint(0, 100, 15) # Asa generam un sir de 15 numere intregi random aflate in intervalul [0, 100)
print(x)

x = np.random.rand(15) # Astfel generam un sir de 15 numere de tip float random aflate in intervalul [0, 1)
print(x)

mu, sigma = 0, 0.1 # media si deviatia standard
s = np.random.normal(mu, sigma, 1000) # genereaza o distributie normala cu 1000 de elemente ce au media mu si deviatia standard sigma

In [None]:
unu = np.ones(10) # Folosit pentru a genera un sir de 1-uri de lungime 10
print(unu)

zero = np.zeros(10)# Folosit pentru a genera un sir de 0-uri de lungime 10
print(zero)

A = np.array([[1, 2, 3], [4, 5, 6]])
unu_A = np.ones_like(A) # Adaugand like putem genera o matrice de 1-uri identice in forma cu argumentul
print(unu_A)

# 1.4 Indexare si slicing

Este important sa intelegem cum functioneaza accesarea submatricelor in numpy, deoarece este un concept foarte des intalnit.

In [None]:
# Pentru inceput vom face o matrice A de marime (5, 5) cu elemente numerele de la 1 la 25
A = np.arange(1, 26, 1).reshape((5, 5))
print(A)

In [None]:
# Mai intai sa accesam elementul de pe al 3-lea rand si a 4-a coloana
print(A[2][3]) # Asa cum in python indexarea incepe de la 0, asa incepe si in numpy, astfel trebuie sa accesam elementul de pe pozitia (2, 3)

In [None]:
# Cum selectam randuri sau coloane in numpy? Ei bine
primul_rand = A[0] # selectarea unui rand se va face ca in python
print(primul_rand)

a_treia_coloana = A[:, 2]
print(a_treia_coloana) # la fel si cu coloanele. Acel ';' semnifica selectarea tuturor randurilor in cadrul celei de a treia coloana

# desi nu l-am folosit si la rand, deoarece pythonul il considera implicit, il putem adauga si acolo pentru o intelegere mai clara
primul_rand = A[0, :] # pentru primul rand imi doresc fiecare coloana
print(primul_rand)

In [None]:
# Cum selectam o submatrice? Ei bine va trebui sa specificam range-ul in jurul lui ':'
# Sa zicem ca vrem sa selctam submatricea cu coltul stanga sus (1, 2) si coltul dreapta jos (4, 3) atunci:
submatrice = A[1:5, 2:4] # ma intereseaza randurile 1, 2, 3 si 4 => 1:5 si pentru fiecare rand coloanele 2 si 3 => 2:4
print(submatrice)

In [None]:
# Se poate realiza si selectarea mai multor randuri sau coloane 'fixe', spre exemplu:
B = A[[0, 1, 4]] # Voi pastra din A randurile 0, 1 si 4
print(B)

C = A[:, [1, 2, 4]] # Voi pastra din A coloanele 1, 2 si 4
print(C)

In [None]:
# Pentru a combina selectarea si a unor randuri fixe, dar si a unor coloane fixe este nevoie de slicing avansat

randuri = [0, 1, 4]
coloane = [1, 2, 4]
M = A[np.ix_(randuri, coloane)] # Am pastrat elementele de pe randurile 0, 1 si 4, care se afla pe coloanele 1, 2 sau 4
print(M)

# 1.5 De ce NumPy?

Pana acum am explorat doar de ce ne face viata mai usoara, dar nu am zis nimic despre viteza bibliotecii. Mai jos, o sa demonstrez prin cateva exemple practice, de ce operatiile vectorizante sunt absolut necesare

In [None]:
# Suma elementelor cu un for versus np.sum()
def suma_elementelor_fara_np(x):
  suma = 0
  for nr in x:
    suma += nr
  return suma

def suma_elementelor_np(x):
  return np.sum(x)

In [None]:
x = np.random.rand(10000000)

In [None]:
%%timeit
suma_elementelor_fara_np(x)

In [None]:
%%timeit
suma_elementelor_np(x)

In [None]:
def inmultire_matrice_fara_np(A, B):
  if A.shape[1] != B.shape[0]:
    return False

  N, M, K = A.shape[0], B.shape[1], A.shape[1]


  C = [[0 for i in range(N)] for j in range(M)]
  for i in range(N):
    for j in range(M):
      for k in range(K):
        C[i][j] += A[i][k] * B[k][j]

  return C

def inmultire_matrice_np(A, B):
  if A.shape[1] != B.shape[0]:
    return False

  return A @ B

In [None]:
A = np.random.rand(10000).reshape(100, 100)
B = np.random.rand(10000).reshape(100, 100)

In [None]:
%%timeit
inmultire_matrice_fara_np(A, B)

In [None]:
%%timeit
inmultire_matrice_np(A, B)

WOW! Suma elementelor a fost de aproximativ **100** de ori mai rapida si inmultirea matricelor a fost de aproape **10.000** de ori mai rapida. Pe langa factorul de viteza, codul a fost si mult muult mai scurt si elegant. Din acest motiv NumPy nu trebuie sa lipseasca din arsenalul niciunui utilizator de Python.

# 1.6 Exercitii

In [None]:
# 1. Generati un sir 'x' de 20 de elemente intregi aflate in intervalul [10, 25] si aflati:
# minimul, maximul, media si suma elementelor din sir

In [None]:
# 2. Folosind sirul 'x' de la exercitiul 1, transformati-l intr-o matrice de marime (2, 2, 3) si afisati elementul de pe pozitia (0, 1, 2)
# iar apoi transformati-l intr-o matrice de marime (4, 5) si sa afisati suma elementelor de fiecare rand si de pe fiecare coloana

In [None]:
# 3. Creati o matrice de marime (5, 6) cu elemente random de tip float cu valori aflate in intervalul (0, 1]
# si afisati submatricea cu coltul stanga sus (1, 3) si coltul dreapta jos (4, 5)

In [None]:
# 4. Recreati aceasta matrice fara a folosi for-uri:
# [[ 2  3  4  5  6  7]
#  [ 6  7  8  9 10 11]
#  [14 15 16 17 18 19]
#  [18 19 20 21 22 23]
#  [26 27 28 29 30 31]
#  [30 31 32 33 34 35]]

# 2. Pandas

Pandas este o biblioteca de analiza a datelor, care ofera structuri precum DataFrame si Series pentru a organiza datele tabulare.

Pentru aceasta parte a tutorialului am pregatit un set de date despre filmele de pe IMDb. Pe aceste filme voi prezenta cateva functii si operatii pe care le puteti folosi pe un DataFrame. Fisierul filme.csv poate fi gasit in acelasi repo si trebuie adaugat in notebook, inainte sa fie folosit in cod.

Acest set de date este o versiune simplificata a acestuia de pe kaggle: https://www.kaggle.com/datasets/raedaddala/top-500-600-movies-of-each-year-from-1960-to-2024.

# 2.1 Familiarizarea cu setul de date

Inainte de ne apuca de orice proiect este necesar sa intelegem datele cu care va trebui sa lucram. Din fericire, Pandas ne face treaba usoara.

In [None]:
import pandas as pd # folosim un alias asemanator ca la numpy

# In pandas vom lucra de cele mai multe ori cu date citite dintr-un fisier de tip csv.
# Pentru a citi dintr-nu astfel de fisier folosim comanda read_csv
data = pd.read_csv('filme.csv')

In [None]:
mini_data = data.loc[:25]
mini_data.to_csv('mini_filme.csv', index=False)

In [None]:
# Acum ca am introdus setul de date in notebook, haideti sa il si vedem

data.head(10) # folosind functia head() putem vedea primele 10 filme din setul de date

In [None]:
# Acum ca ne-am facut o prima impresie, a venit momentul sa studiem fiecare coloana in parte
# Pentru a gasi coloanele, putem accesa atributul columns al lui data

data.columns

In [None]:
data.info() # info() ne ofera informatii despre tipul de date si cate valori nu lipsesc

In [None]:
data.describe() # describe() ne ofera un rezumat matematic al coloanelor ce contin numere

# 2.2 Lucrul cu date

In [None]:
# Putem accesa coloanele de parca lucram cu un dictionar si anume:

data['Year'] # asta va returna coloana ce contine aniii

In [None]:
type(data['Year']) # Vedem ca o coloana este de fapt un Series, adica un sir

In [None]:
print(data['Year'].mean(), np.mean(data['Year'])) # Putem afisa media unei coloane, fie cu mean() direct sau cu numpy

In [None]:
# Pe serii putem aplica transformari asemanatoare cu cele de pe siruri
# Spre exemplu
data['Year'] ** 2 + data['Year'] + 5 # ATENTIE! Cu aceasta linie doar afisez, nu si schimb coloana cu ani

In [None]:
# Cand analizam date, de multe ori vrem sa scapam de numere prea mari sau prea mici
# Asa ca una dintre cele mai comune metode de a scapa de acele valori cidudate este prin a normaliza
# Poate cea mai simpla normalizare este Min-Max, care va reduce fiecare numar intre 0 si 1, adica:
# v[i] = (v[i] - min(v)) / (max(v) + eps), unde eps este un numar foarte mic folosit pentru a evita impartirea la 0
# Haideti sa normalizam coloana noastra de buget

(data['budget'] - data['budget'].min()) / (data['budget'].max() + 1e-6)

In [None]:
# Adesea va fi nevoie sa cream coloane noi care sa ne ajute in analiza datelor
# Sa zicem ca ne-a angajat un studio care se ocupa de filme de groaza sa facem o analiza de piata
# Astfel, ar fi util sa vedem ce filme sunt Horror si daca au fost profitabile sau nu

# O sa facem mai intai un 'feature' este_horror, care va dicta daca filmul este horror sau nu
data['este_horror'] = data['genres'].str.contains('Horror', case=False)
data.head()

In [None]:
# Acum vom face o coloana este_profitabil, care ne va spune daca filmul a fost profitabil sau nu
# Fie un film profitabil daca grossWorldWide > budget, atunci:

data['este_profitabil'] = data['grossWorldWide'] > data['budget']
data.head()

# 2.3 Filtrarea datelor

Cum putem aplica filtre usoare asupra setului nostru de date?

In [None]:
# Pentru localizarea unor celule specifice ne folosim  2 metode: .loc si .iloc

# Prima varianta este .loc si ea arata cam asa:
# data.loc[randuri, coloane] => selecteaza din data toate randurile din 'randuri' si pastraza doar coloanele din 'coloane'
# De retinut este ca .loc se foloseste atat de etichete cat si indexuri(similar cu ce avem la liste)
# Spre exemplu, sa zicem ca vrem sa gasim primele 100 de randuri si sa pastram doar coloanele 'MPA' si 'Rating', atunci:
data.loc[:99, ['MPA', 'Rating']] # ATENTIE! .loc include si capatul range-ului

In [None]:
# Cea de a doua varianta este .iloc si este destul de similara cu .loc
# data.iloc[randuri, coloane] => selecteaza din data toate randurile din 'randuri' si pastraza doar coloanele din 'coloane'
# Fata de .loc, .iloc foloseste numai indexuri, asa ca selectia de mai sus folosind .iloc va arata asa:
data.iloc[:100, [5, 6]]

In [None]:
# Haideti sa ne intoarcem la exemplul nostru cu filmele horror, care sunt si profitabile
# Pentru a realiza filtrarile necesare pentru a le gasi va voi prezenta doua variante: .loc si apply

# .loc este varianta mai simpla in opinia mea, dar si mai putin flexibila
filme_bune = data.loc[data['este_horror'] & data['este_profitabil']] # observatie! poate fi omis .loc
filme_bune.head()

In [None]:
# .apply() este mai flexibila, intrucat foloseste o functie de filtrare, dar e si mai lunga de scris

def este_bun(film):
  return film['este_horror'] and film['este_profitabil']

filme_bune = data[data.apply(este_bun, axis=1)]
filme_bune.head()

# 2.4 Exercitii

In [None]:
# 1. Gasiti filmele care au fost lansate in anul 2000 sau mai tarziu


In [None]:
# 2. Gasiti filmele care se incadreaza in a doua jumatate a castigurilor('grossWorldWide)


In [None]:
# 3. Adaugati o coloana noua numita 'este_comedie' care sa verifice daca filmul este de comedie sau nu


In [None]:
# 4. Pentru filmele de comedie sa se gaseasca cele cu rating mai mare ca 9


In [None]:
# 5. Sa se calculeze profitul minim, maxim si media profiturilor pentru filmele gasite la exercitiul 4
# unde profitul este definit ca (grossWorldWide - budget)


# 3. Matplotlib.pyplot

Matplotlib.pyplot sau plt pe scurt este cea mai populara biblioteca de vizualizare a datelor. In continuare va voi arata cateva tipuri de grafice.

In [None]:
import matplotlib.pyplot as plt

# 3.1 Grafice liniare

Graficul liniar este utilizat pentru a afisa o relatie continua intre doua variabile. De obicei, arta cum o variabila (pe axa y) se modifica in functie de alta (pe axa x).

In [None]:
x = np.linspace(0, 10, 100)  # 100 de valori între 0 și 10
y = np.sin(x)
plt.figure(figsize=(6, 4))
plt.plot(x, y, label="sin(x)", color="blue")
plt.title("Grafic Liniar")
plt.xlabel("x")
plt.ylabel("sin(x)")
plt.legend()
plt.grid(True)
plt.show()

# 3.2 Grafic scatter

Graficul scatter utilizeaza puncte pentru a reprezenta valori dintr-un set de date. Fiecare punct reprezinta o observatie, coordonatele acesteia fiind definite de doua variabile.

In [None]:
x = np.random.rand(50)
y = np.random.rand(50)
plt.figure(figsize=(6, 4))
plt.scatter(x, y, color="red", alpha=0.7)
plt.title("Grafic Scatter")
plt.xlabel("x")
plt.ylabel("y")
plt.show()

# 3.3 Grafic de bare

Graficul de bare reprezinta datele categorice folosind bare dreptunghiulare, unde lungimea fiecarei bare este proportionala cu valoarea sa.

In [None]:
categories = ['A', 'B', 'C', 'D']
values = [5, 7, 3, 8]
plt.figure(figsize=(6, 4))
plt.bar(categories, values, color='green')
plt.title("Grafic de Bare")
plt.xlabel("Categorii")
plt.ylabel("Valori")
plt.show()

# 3.4 Grafic histograma

O histograma este utilizata pentru a repartiza distributia frecventei unei singure variabile. Datele sunt grupate in intervale (bins).

In [None]:
data = np.random.randn(1000)  # 1000 de valori dintr-o distribuție normală
plt.figure(figsize=(6, 4))
plt.hist(data, bins=20, color='purple', alpha=0.8)
plt.title("Histogramă")
plt.xlabel("Valori")
plt.ylabel("Frecvență")
plt.show()

# 3.5 Exercitii

Pentru a le rezolva ne vom intoarce la setul de date din pandas, pentru a demonstra cat de bine se integreaza plt alaturi de pandas.

In [None]:
# 1. Creeaza un grafic de bare care sa arate numarul de filme lansate in fiecare an


In [None]:
# 2. Creeaza un scatter plot care sa arate relatia dintre buget(budget) si incasarile globale(grossWorldWide)


In [None]:
# 3. Creeaza o histograma pentru a analiza cum sunt distribuite ratingurile(Rating) in setul de date


In [None]:
# 4. Creeaza un grafic liniar care sa arate cum a evoluat bugetul mediu al filmelor de-a lungul anilor(Year)
