# Capitol 1: Introducere în Vizualizarea Datelor

Bun venit la un nou modul! Astăzi vom explora lumea **vizualizării datelor**. Aceasta este arta și știința de a reprezenta datele într-un format grafic, cum ar fi diagrame, grafice și hărți. Scopul principal este de a face informațiile complexe mai ușor de înțeles și de a descoperi **modele** (patterns), **tendințe** (trends) și **valori aberante** (outliers) care ar putea fi greu de observat într-un tabel plin de numere.

Gândiți-vă la vizualizarea datelor ca la o poveste. O imagine bună poate spune o poveste mult mai captivantă și mai rapidă decât o mie de cuvinte (sau, în cazul nostru, o mie de rânduri într-un fișier Excel). Prin vizualizare, transformăm datele brute în **cunoștințe acționabile**.

## De ce este importantă Vizualizarea Datelor?

Vizualizarea eficientă a datelor permite publicului să tragă concluzii, să identifice tendințe și să ia decizii bazate pe fapte. Fără o vizualizare adecvată, există riscul ca publicul să fie copleșit de date și să ia decizii nefondate.

În esență, o vizualizare bună combină trei elemente cheie:
* **Datele**: Informația brută pe care o analizăm.
* **Narațiunea**: Povestea pe care vrem să o spunem cu acele date, contextul de business.
* **Elementele Vizuale**: Graficele și diagramele pe care le folosim pentru a ilustra povestea.



## Tipuri Principale de Grafice

Există multe tipuri de vizualizări, iar alegerea corectă depinde de ce anume dorim să evidențiem. De asemenea, tipul datelor (categorice sau cantitative) influențează alegerea graficului. Să trecem în revistă câteva dintre cele mai comune tipuri de grafice pe care le vom învăța să le creăm.

### 1. Graficul Liniar (Line Plot)
**Când îl folosim?** Pentru a arăta cum o valoare se schimbă în timp. Este perfect pentru a vizualiza tendințe.

**Exemplu**: Evoluția temperaturii medii lunare pe parcursul unui an, fluctuațiile prețului unei acțiuni.

### 2. Diagrama cu Bare (Bar Chart)
**Când o folosim?** Pentru a compara valori între diferite categorii.

**Exemplu**: Compararea vânzărilor pentru diferite produse, numărul de studenți în diferite clase.

### 3. Diagrama de Împrăștiere (Scatter Plot)
**Când o folosim?** Pentru a vizualiza relația dintre două variabile numerice. Ne ajută să vedem dacă există o corelație între ele.

**Exemplu**: Relația dintre numărul de ore de studiu și nota obținută la un examen.

### 4. Histograma (Histogram)
**Când o folosim?** Pentru a înțelege distribuția unei singure variabile numerice. Ne arată frecvența valorilor într-un set de date.

**Exemplu**: Distribuția înălțimilor într-o populație, frecvența notelor la un test.

### 5. Diagrama Boxplot (Box Plot)
**Când o folosim?** Pentru a afișa un rezumat statistic al unei variabile numerice. Este excelentă pentru a compara distribuțiile între mai multe grupuri și pentru a identifica valorile aberante (outliers).

**Exemplu**: Compararea salariilor între diferite departamente ale unei companii.

### 6. Harta de Căldură (Heatmap)
**Când o folosim?** Pentru a reprezenta o matrice de date unde valorile individuale sunt reprezentate prin culori. Este foarte utilă pentru a vizualiza corelațiile între multe variabile simultan.

**Exemplu**: Matricea de corelație a caracteristicilor dintr-un set de date.

___
# Capitol 2: Matplotlib - Fundamentele Vizualizării

**Matplotlib** este una dintre cele mai utilizate biblioteci din Python pentru vizualizarea datelor. Este considerată "baza" tuturor bibliotecilor de vizualizare din Python, deoarece multe altele (cum ar fi Seaborn, pe care o vom studia mai târziu) sunt construite pornind de la ea. Matplotlib ne oferă un control foarte detaliat asupra fiecărui aspect al unui grafic.

Vom lucra în principal cu modulul `pyplot` din Matplotlib, pe care, prin convenție, îl importăm sub aliasul `plt`. Acesta ne oferă o interfață simplă pentru a crea grafice. Conceptele cheie cu care vom lucra sunt **Figura** (`Figure`) și **Axele** (`Axes`).

* **Figura**: Gândiți-vă la ea ca la o pânză goală pe care vom desena. Este containerul principal pentru toate elementele graficului.
* **Axele**: Reprezintă graficul în sine, adică zona pe care se trasează datele, cu axele X și Y, etichete, etc. O figură poate conține una sau mai multe axe.

In [None]:
# Exemplu 1: Pregătirea mediului

# Importăm bibliotecile necesare
import matplotlib.pyplot as plt
import numpy as np

# Această comandă este specifică pentru Jupyter Notebooks
# și asigură afișarea graficelor direct în interiorul celulei.
%matplotlib inline

# OBS.: Am importat `matplotlib.pyplot` ca `plt` - aceasta este o convenție standard.
# Vom folosi Numpy adesea pentru a genera date de test pentru graficele noastre.

## Primul Nostru Grafic Liniar

Pentru a crea un grafic, folosim de obicei funcția `plt.subplots()`. Aceasta creează o figură și un set de axe, pe care le putem apoi manipula.

In [None]:
# Exemplu 2: Crearea unui grafic simplu

# Generăm niște date simple folosind NumPy
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

# Creăm o figură (pânza) și o axă (graficul)
fig, ax = plt.subplots()

# Desenăm datele pe axă sub formă de grafic liniar
ax.plot(x, y)

# Afișăm graficul final
plt.show()

# OBS.: `fig, ax = plt.subplots()` este o modalitate foarte comună de a începe.
# `fig` este containerul, iar `ax` este obiectul cu care interacționăm cel mai mult
# pentru a desena și customiza graficul. `plt.show()` este necesar pentru a afișa
# fereastra cu graficul.

In [None]:
# __EXERCIȚIU__
# Să se creeze un grafic liniar pentru funcția y = x^2.
# Generați valori pentru x de la 0 la 10. Calculați valorile corespunzătoare
# pentru y. Afișați graficul.



# HINT: Țineți mine că puteți folosi np.arange() pentru a genera numerele.

## Customizarea Graficelor

Un grafic fără titlu sau etichete este ca o hartă fără legendă - greu de înțeles. Matplotlib ne permite să customizăm aproape orice aspect al unui grafic.

In [None]:
# Exemplu 3: Adăugarea de titluri și etichete

x = np.arange(0, 10, 0.5) # Numere de la 0 la 10, din 0.5 în 0.5
y = x ** 2 * 3 - 2 * x + 5

fig, ax = plt.subplots()
ax.plot(x, y)

# Adăugăm elemente de customizare
ax.set_title("Graficul funcției y = 3x^2-2x+5")
ax.set_xlabel("Axa X - Valori de intrare")
ax.set_ylabel("Axa Y - Rezultate")

plt.show()

# OBS.: Titlurile și etichetele sunt esențiale pentru ca oricine se uită la
# grafic să înțeleagă ce reprezintă datele.

In [None]:
# __EXERCIȚIU__
# Creați un grafic pentru funcția x^2-4x+4 și folosiți puncte de la -20 la 20
# pentru a-l vizualiza. Adăugați:
# 1. Un titlu: "Graficul funcției (x-2)^2 -- Parabolă"
# 2. O etichetă pentru axa X: "Valoarea lui x"
# 3. O etichetă pentru axa Y: "Valoarea lui y (x^2-4x+4)"

In [None]:
# Exemplu 4: Stilul liniilor, culori și marcatori

x = np.array([1, 2, 3, 4, 5])
y1 = x * 2
y2 = x ** 2

fig, ax = plt.subplots()

# Desenăm prima linie cu un stil specific
ax.plot(x, y1, color='red', linestyle='--', marker='o', label='y = 2x')

# Desenăm a doua linie cu alt stil
ax.plot(x, y2, color='blue', linestyle=':', marker='x', label='y = x^2')

# Adăugăm legenda pentru a explica ce reprezintă fiecare linie
ax.legend()

# Adăugăm o grilă (grid) pentru a citi valorile mai ușor
ax.grid(True)

plt.show()

# OBS.: Parametrul `label` este folosit de funcția `ax.legend()` pentru a crea
# legenda.
# Există multe stiluri pentru linii ('-', '--', ':', '-.'), culori și marcatori
# ('o', 'x', 's', '^'). Puteți înlocui simbolurile în exemplu pentru a vedea
# alte variații.

In [None]:
# __EXERCIȚIU__
# Creați un singur grafic care să conțină două funcții:
# 1. y1 = x
# 2. y2 = -x + 10
# Pentru valori ale lui x de la 0 la 10.

# Cerințe de stil:
# - Prima funcție (y1) să fie o linie verde, continuă, cu marcatori circulari ('o').
# - A doua funcție (y2) să fie o linie mov, întreruptă ('--'), cu marcatori triunghiulari ('^').
# - Adăugați titlu, etichete pe axe, o legendă și o grilă.

## Alte Tipuri de Grafice în Matplotlib

### Diagrama de Împrăștiere (Scatter Plot)
Folosim `ax.scatter()` pentru a crea acest tip de grafic.

In [None]:
# Exemplu 5: Scatter Plot

# Date fictive: ore de studiu vs. nota la examen
ore_studiu = np.array([1, 2, 2.5, 3, 4, 4.5, 5, 6, 7, 8])
note_examen = np.array([5, 6, 6, 7, 8, 8, 9, 8, 10, 9])

fig, ax = plt.subplots()
ax.scatter(ore_studiu, note_examen, color='purple')

ax.set_title("Relația dintre Orele de Studiu și Nota la Examen")
ax.set_xlabel("Ore de Studiu")
ax.set_ylabel("Nota Obținută")
ax.grid(True)

plt.show()

# OBS.: Un scatter plot este ideal pentru a observa dacă există o tendință sau
# o corelație între două seturi de date numerice. Aici, se pare că o creștere a
# orelor de studiu este asociată cu o notă mai mare.

In [None]:
# __EXERCIȚIU__
# Să presupunem că avem date despre vechimea unei mașini și prețul ei.
# Creați un scatter plot pentru a vizualiza relația dintre aceste două variabile.

vechime_masina = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) # în ani
pret_masina = np.array([20, 18, 16, 15, 13, 11, 10, 8, 7, 5]) # în mii de euro

# Adăugați un titlu și etichete corespunzătoare.

### Diagrama cu Bare (Bar Chart)
Folosim `ax.bar()` pentru a desena bare verticale.

In [None]:
# Exemplu 6: Bar Chart

# Date: numărul de medalii câștigate de câteva țări
tari = ['SUA', 'China', 'Japonia', 'România']
medalii = [113, 88, 18, 34]

fig, ax = plt.subplots()
ax.bar(tari, medalii, color=['blue', 'red', 'pink', 'gold'])

ax.set_title("Medalii câștigate la Jocurile Olimpice")
ax.set_ylabel("Număr de Medalii")

plt.show()

# OBS.: `ax.bar()` primește două argumente principale: categoriile (pe axa X)
# și valorile corespunzătoare (înălțimea barelor, pe axa Y). Putem oferi o listă
# de culori pentru a colora fiecare bară diferit.

In [None]:
# __EXERCIȚIU__
# Creați o diagramă cu bare pentru a compara numărul de vorbitori nativi
# pentru câteva limbi străine.

limbi = ['Engleză', 'Spaniolă', 'Franceză', 'Germană', 'Chineză', 'Rusă']
vorbitori = [380, 480, 77, 76, 1542, 218] # în milioane

# Adăugați un titlu și etichete pe axe.

### Histograma
Folosim `ax.hist()` pentru a vizualiza distribuția datelor.

In [None]:
# Exemplu 7: Histogramă

# Generăm 200 de note fictive, distribuite în jurul mediei 7
note = np.random.normal(loc=7.5, scale=1.5, size=200)

# Adăugăm o limită superioară de 10 pentru note
note = np.clip(note, 0, 10)

fig, ax = plt.subplots()
# `bins` controlează numărul de intervale în care împărțim datele
ax.hist(note, bins=15, color='skyblue', edgecolor='black')

ax.set_title("Distribuția Notelor la Examen")
ax.set_xlabel("Notă")
ax.set_ylabel("Frecvență (Nr. Studenți)")

plt.show()

# OBS.: Histograma ne arată că majoritatea notelor sunt concentrate în jurul
# valorilor 7 și 8, cu mai puține note la extreme.

In [None]:
# __EXERCIȚIU__
# Imaginați-vă că aveți date despre înălțimile (în cm) a 100 de persoane.
# Creați o histogramă pentru a vizualiza distribuția acestor înălțimi.

# Folosiți acest cod pentru a genera datele:
inaltimi = np.random.normal(loc=175, scale=10, size=100)

# Creați o histogramă cu 10 intervale.
# Adăugați titlu și etichete.

### Salvarea Graficelor

După ce am creat un grafic frumos, poate dorim să îl salvăm ca fișier imagine. Putem face asta foarte simplu cu `fig.savefig()`.

In [None]:
# Exemplu 8: Salvarea unui grafic

tari = ['SUA', 'China', 'Japonia', 'România']
medalii = [113, 88, 18, 34]

fig, ax = plt.subplots()
ax.bar(tari, medalii, color='cyan')
ax.set_title("Medalii Olimpice")

# Salvăm figura într-un fișier. Numele fișierului determină formatul.
fig.savefig("medalii_olimpice.png")

# OBS.: Funcția `savefig` trebuie apelată înainte de `plt.show()`.
# Putem salva în diverse formate: .png, .jpg, .pdf, .svg, etc.

___
# Capitol 3: Seaborn - Vizualizări Statistice Avansate

**Seaborn** este o altă bibliotecă de vizualizare a datelor, construită **peste Matplotlib**. Dacă Matplotlib ne oferă control total, Seaborn ne oferă o interfață de **nivel mai înalt**, cu funcții optimizate pentru vizualizări statistice comune și cu un aspect vizual mai plăcut din start.

Principalele avantaje ale Seaborn sunt:
* **Sintaxă simplificată**: Putem crea grafice complexe cu mai puțin cod.
* **Stil implicit atractiv**: Graficele arată mai bine fără a necesita customizări manuale.
* **Integrare perfectă cu Pandas**: Funcționează excelent cu structurile de date **DataFrame** din Pandas, făcând explorarea datelor foarte intuitivă.

In [None]:
# Exemplu 1: Pregătirea mediului și încărcarea datelor

import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt # Încă avem nevoie de el, de obicei pentru plt.show()

# Seaborn vine cu câteva seturi de date de test. Vom folosi setul de date "tips".
df_tips = sns.load_dataset('tips')

print("Primele 5 rânduri din setul de date 'tips':")
display(df_tips.head())

# OBS.: Convenția este să importăm `seaborn` ca `sns`.
# Setul de date `tips` conține informații despre bacșișurile lăsate la un restaurant.
# `df.head()` este o metodă Pandas care ne arată primele rânduri dintr-un DataFrame.

## Tipuri de Grafice în Seaborn

### Scatter Plot cu Linie de Regresie

Seaborn excelează la vizualizarea relațiilor statistice. Funcția `sns.lmplot()` (linear model plot) creează un scatter plot și, în plus, desenează automat o linie de regresie pentru a evidenția tendința.

In [None]:
# Exemplu 2: sns.lmplot()

sns.lmplot(x='total_bill', y='tip', data=df_tips, hue='smoker', fit_reg=True)

plt.title("Relația dintre Nota de Plată și Bacșiș")
plt.xlabel("Notă de plată (USD)")
plt.ylabel("Bacșiș (USD)")

plt.show()

# OBS.: Am specificat coloanele pentru x și y și am furnizat DataFrame-ul prin
# parametrul `data`.
# `hue='smoker'` colorează punctele diferit pentru fumători și nefumători.
# `fit_reg=True` este implicit și desenează linia de regresie.
# Putem seta `fit_reg=False` pentru a obține un scatter plot simplu.

In [None]:
# __EXERCIȚIU__
# Folosind setul de date `tips` (`df_tips`), creați un `lmplot` pentru a
# vizualiza relația dintre `total_bill` (nota de plată) și `size` (numărul de
# persoane la masă).
# Colorați punctele în funcție de `time` (prânz/cină) folosind parametrul `hue`.
# Nu afișați linia de regresie.

### Vizualizarea Distribuțiilor
Pentru histograme și curbe de densitate (KDE), Seaborn oferă funcții puternice precum `sns.histplot`.

In [None]:
# Exemplu 3: sns.histplot()

sns.histplot(data=df_tips, x='total_bill', kde=True, bins=20)

plt.title("Distribuția Notei de Plată")
plt.show()

# OBS.: `kde=True` adaugă o curbă de estimare a densității (Kernel Density
# Estimate) peste histogramă. Această curbă netezește histograma și ne ajută să
# vedem mai clar forma distribuției.

In [None]:
# __EXERCIȚIU__
# Creați o histogramă cu curbă KDE pentru a vizualiza distribuția bacșișurilor
# din setul de date `df_tips`.

### Diagrame cu Bare (Count Plot)
`sns.countplot` este perfect pentru a număra și afișa frecvența fiecărei categorii dintr-o coloană.

In [None]:
# Exemplu 4: sns.countplot()

sns.countplot(data=df_tips, x='day', order=['Thur', 'Fri', 'Sat', 'Sun'])

plt.title("Numărul de Clienți pe Zi")
plt.xlabel("Ziua Săptămânii")
plt.ylabel("Număr Clienți")

plt.show()

# OBS.: Spre deosebire de `plt.bar()`, `sns.countplot()` nu are nevoie de o axă Y.
# El calculează automat numărul de apariții pentru fiecare categorie de pe axa X.

In [None]:
# __EXERCIȚIU__
# Creați un `countplot` pentru a vedea câți clienți sunt fumători și câți sunt
# nefumători în setul de date `df_tips`.

### Box Plot
`sns.boxplot` este excelent pentru a compara distribuțiile numerice între diferite categorii.

In [None]:
# Exemplu 5: sns.boxplot()

sns.boxplot(data=df_tips, x='day', y='total_bill', order=['Thur', 'Fri', 'Sat', 'Sun'])

plt.title("Distribuția Notei de Plată în funcție de Zi")
plt.xlabel("Ziua Săptămânii")
plt.ylabel("Notă de Plată (USD)")

plt.show()

# OBS.: Acest grafic ne arată foarte clar cum variază nota de plată în weekend
# față de zilele lucrătoare. Cutia reprezintă intervalul intercuartilic (IQR),
# linia din mijloc este mediana, iar punctele de deasupra sunt valori aberante
# (outliers).

In [None]:
# __EXERCIȚIU__
# Creați un `boxplot` pentru a compara distribuția bacșișurilor (`tip`) în
# funcție de sex (`sex`).

### Harta de Căldură (Heatmap)
`sns.heatmap` este folosită pentru a vizualiza date matriceale, cum ar fi o matrice de corelație.

In [None]:
# Exemplu 6: sns.heatmap()

# Mai întâi, calculăm matricea de corelație pentru coloanele numerice
matrice_corelatie = df_tips.corr(numeric_only=True)

plt.figure(figsize=(8, 6)) # Mărim figura pentru o vizualizare mai bună
sns.heatmap(matrice_corelatie, annot=True, cmap='coolwarm')

plt.title("Matricea de Corelație a Datelor din 'tips'")
plt.show()

# OBS.: Corelația măsoară relația liniară dintre două variabile (de la -1 la 1).
# `annot=True` afișează valorile numerice în fiecare celulă.
# `cmap` ne permite să alegem o schemă de culori. 'coolwarm' este bună pentru
# corelații, unde valorile pozitive sunt calde (roșu) și cele negative sunt reci
# (albastru).

In [None]:
# __EXERCIȚIU__
# Încărcați setul de date 'iris' de la Seaborn:
# `df_iris = sns.load_dataset('iris')`.

# Calculați matricea de corelație și afișați-o folosind un heatmap.
# Activați afișarea valorilor în celule.