# Calcul Numeric - Laborator 3 - Data Visualization

## Data science este OSEMN

Conform unui model popular, elementele data science-ului modern sunt:

- **Obținerea datelor**. Datele pot fi obținute în mai multe moduri, fie direct prin citirea și preprocesarea datelor din surse diferite, fie prin simulare, fie prin colectarea propriului set de date sau prin alte metode.
- **Sistemarea datelor**. Se referă la pre-procesarea și pregătirea datelor pentru analiză, identificând și rezolvând erori, inconsistențe și inexactități. Scopul este de a îmbunătăți calitatea setului de date și de a asigura că este potrivit pentru analiza sau sarcina de învățare automată planificată.
- **Explorarea/vizualizarea datelor**. În timpul etapei de explorare, lumea analizează și explorează datele pentru a obține insights, identifica modele și înțelege relațiile dintre variabile. Tehnici de vizualizare sau statistice sunt adesea utilizate în această etapă.
- **Modelarea datelor**. Implică construirea modelelor de învățare automată sau modelelor statistice pentru a face predicții, clasifica datele sau pentru a avea o înțelegere mai profundă a modelelor identificate în etapa de explorare.
- **Interpretarea datelor**. Interpretarea rezultatelor analizei este ultimul pas. Aici, se atribuie o semnificație la ceea ce a fost obținut și se pun o mulțime de întrebări. De ce arată așa rezultatele? Trebuia să ne așteptăm la asta? Ce putem concluziona?


Și de aici acronimul OSEMN, pronunțat „Awesome”.


### Obiectivul laboratorului

În acest laborator ne vom concentra asupra modului în care se obțin, preprocesează și vizualizează datele - în principal, pe primele trei etape.

## Obținerea datelor - citirea/scrierea fișierelor

Accesul la date este un aspect critic. Datele pot exista fie în domenii publice, fie pe servere remote. Tratarea datelor publice este adesea simplă, dar când vine vorba de date externe, există anumite chestiuni de luat în considerare.

Indiferent de locația datelor, gestionarea seturilor de date poate deveni complexă, în special cu seturi de date mai mari. Deși nu vom intra în detaliile gestionării a astfel de date, este bine de știut. Stocarea datelor direct într-un repository de Git nu este recomandată.

Acum veți crea simplu un director dedicat și veți copia acolo seturile de date. Acest lucru poate fi realizat într-un terminal urmând următorii pași:

- creați un director de date în directorul curent

``mkdir ./data/``

- verificați conținutul (care acum este gol, desigur)

``ls -ltr ./data/`` sau ``dir ./data/``

- în cazul în care doriți să vă deplasați acolo:

``cd ./data/``

### Descărcarea datelor 
Acest server găzduiește o colecție de seturi de date intrigante - https://archive.ics.uci.edu/datasets, create special pentru ML. În secțiunile următoare, vom utiliza setul de date Iris, unul dintre cele mai vechi seturi de date.

In [None]:
# deci descărcăm setul de data
!wget https://archive.ics.uci.edu/static/public/53/iris.zip -P ./data/
# facem unzip
!tar -xf ./data/iris.zip -C ./data/
# dacă nu merge comanda, încearcă să îl dezarhivezi manual

### Formate 
Seturile de date prezintă o multitudine de formate de stocare, adesea adaptate la aplicații specifice, deși eforturile de a stabili standarde sunt în creștere. Python are instrumente pentru o gamă largă de formate - vom folosi azi câteva dintre acestea.

### Fișiere text
Fișierele de text simplu sunt folosite în mod obișnuit pentru că sunt "citibile", la prețul unei eficiențe de stocare foarte reduse datorită densității scăzute de informație. UTF-8 este cea mai comună codare.

Citirea (și scrierea) fișierelor text în Python este simplă:

In [None]:
# in python
with open('./data/iris.names', 'r') as file:   # deschidem fișierul în read mode ('r')
    file_content = file.read() # citim conținutul?

print(file_content)


# windows - in notepad
# !notepad ./data/iris.names

# linux - cu cat, stiti voi
# !cat ./data/iris.names

### Fișiere în format CSV 

Ele sunt deja pre-structurate într-un mod tabular. Aceste fișiere sunt cunoscute în mod obișnuit sub denumirea de „comma separated values” (valori separate prin virgulă) (CSV), dar nu folosesc neapărat simbolul "," ca separator. Python oferă un pachet pentru a gestiona astfel de fișiere:

In [None]:
import csv

with open('./data/iris.data') as data_file:
    for line in csv.reader(data_file, delimiter=','):  # delimitatorul este adesea ghicit de cititor
        # observați că elementele fiecărei linii sunt tratate ca stringuri
        # dacă doriți să le convertiți în numere, trebuie să faceți asta manual
        sepalLength, sepalWidth, \
        petalLength, petalWidth = map(float, line[:-1])  # aici folosim map cu funcția float pentru a converti fiecare string
        category = line[-1]
        print(sepalLength, sepalWidth, petalLength, petalWidth)
        break  # afișăm doar prima linie - adică oprim cu break for-ul de mai sus



Uneori, fișierele CSV conțin comentarii (de exemplu, începând cu '#'), care nu pot fi interpretate de cititor. Ar fi utile trucuri precum:

```csv.reader(row for row in f if not row.startswith('#'))```


### Fișierele JSON
JSON reprezintă JavaScript Object Notation - un format folosit pe scară largă pentru partajarea resurselor web. Este foarte similar în structură cu un dicționar Python. Iată un exemplu:

In [None]:
%%file example.json
{
  "employees": [
    {
      "id": 1,
      "name": "John Doe",
      "position": "Software Engineer",
      "department": "Engineering",
      "salary": 80000
    },
    {
      "id": 2,
      "name": "Jane Smith",
      "position": "Data Scientist",
      "department": "Data Science",
      "salary": 90000
    }
  ]
}

In [None]:
import json
data = json.load(open('example.json'))
print(data)

In [None]:
# poate fi manipulat în continuare ca și un dicționar obișnuit
data['employees'][0]

### Pandas
Pandas se evidențiază ca instrumentul cel mai convenabil pentru citirea și prelucrarea seturilor de date formatate. Modulul `numpy` este excelent pentru calcul numeric, dar pentru a gestiona datele lipsă sau matricele cu tipuri mixte este necesară o muncă mai susținută. Modulul `pandas` este în prezent cel mai folosit instrument pentru manipularea datelor, furnizând structuri de date cu performanțe ridicate, ușor de utilizat și instrumente avansate de analiză a datelor.

In [None]:
import pandas as pd
file_name = "./data/iris.data"
data = pd.read_csv(file_name, nrows=1000)
data.columns = ['sepalLength', 'sepalWidth', 'petalLength', 'petalWidth', 'category']
data

In [None]:
%matplotlib inline
data.plot.scatter("sepalLength","sepalWidth",)  
data.hist("petalLength")

### Salvarea datelor - scriere în fișiere

Există multiple posibilități pentru a-ți salva datele. Aici, vom explora trei posibilități.

In [None]:
data_to_be_saved = data[['petalLength', 'petalWidth']] # deci vrem să salvăm mărimile petalelor
data_to_be_saved['petalWidth'][100]

In [None]:
# METODA 1 - cu write
text_file = open("data.txt", "w")
for col in data_to_be_saved:
    for idx in range(len(data_to_be_saved['petalLength'])):
        text_file.write(str(data_to_be_saved['petalLength'][idx]) + ', ' + str(data_to_be_saved['petalWidth'][idx]))
        # new line
        text_file.write('\n')
text_file.close()

# METODA 2 - cu numpy
import numpy as np
np.savetxt('data_np.txt', data_to_be_saved)

# METODA 3 - cu panda
data_to_be_saved.to_csv('data_pd.txt', header=False, index=False)

Verifică dacă cele trei fișiere s-au creat și aruncă o privire asupra lor.

### Exercițiu

- Creați o listă aleatoare de numere și salvați-o într-un fișier text numit "simple_data.txt".
- Creați o matrice aleatoare de dimensiune 5x5 și salvați-o într-un fișier text numit "data.txt".
- Încărcați fișierul text salvat în punctul 2 și convertiți-l într-un fișier CSV (manual - fără a utiliza numpy, librarie csv sau pandas).


## Data Visualization - Partea I
Graficele ar trebui să transmită cât mai multă informație posibil într-un mod intuitiv. Există multe reprezentări posibile.
În acest laborator vom discuta despre histograme și scatter plots.

### Scatter plots
Diagramele de tip „scatter” sunt folosite pentru a compara două cantități, având ca principal obiectiv afișarea posibilelor corelații dintre ele.

Este posibilă și afișarea mai multor seturi de valori pe același grafic, marcând punctele de date diferit, de exemplu, cu culori sau semne diferite.

În cadrul acestui laborator vom folosi pachetul `matplotlib`. Dacă nu îl aveți instalat, folosiți `pip` - vezi laboratorul precedent.

In [None]:
import matplotlib.pyplot as plt

%matplotlib inline   
# this is required only for Jupyter Notebooks - skip it if you will use another standard IDE

import numpy as np
# always useful

Un grafic este o ierarhie de obiecte Python. Un obiect **Figure** este containerul extern pentru o reprezentare grafică matplotlib, care poate conține mai multe obiecte **Axes**. Un **Axes** se traduce în ceea ce considerăm a fi un singur plot sau grafic (fiți atenți deoarece în engleză plural la axes este axis, deci fiecare obiect Axes va avea doua axe - doua **axis**).

Un obiect **Figure** este ca un container care conține unul sau mai multe obiecte **Axes** (reprezentări grafice efective). Sub **Axes** în ierarhie sunt obiecte mai mici cum ar fi marcajele de divizare, linii individuale, legende și casete de text. Aproape fiecare "element" al unui grafic este propriul său obiect manipulabil în Python.


![](https://files.realpython.com/media/fig_map.bc8c7cabd823.png)

In [None]:
fig, _ = plt.subplots()
print (type(fig))

Deasupra, am creat două variabile cu plt.subplots(). Prima este un obiect **Figure** de nivel superior. A doua este o variabilă "temporară" de care nu avem nevoie încă, indicată cu o bară jos. Ierarhia figurii este ușor de accesat și putem de exemplu vedea tick-urile majore ale axei y a primului obiect Axes:

In [None]:
one_tick = fig.axes[0].yaxis.get_major_ticks()[0]
print(one_tick.label1)
print(type(one_tick))

Mai sus, fig (o instanță de clasă **Figure**) are mai multe **Axes** (o listă, din care luăm primul element). Fiecare **Axes** are o yaxis și xaxis, fiecare având o colecție de "major ticks", și noi luăm primul.

Documentația Matplotlib prezintă acest lucru ca o anatomie a figurii, mai degrabă decât o ierarhie explicită:

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.ticker import AutoMinorLocator, MultipleLocator, FuncFormatter


np.random.seed(19680801)

X = np.linspace(0.5, 3.5, 100)
Y1 = 3+np.cos(X)
Y2 = 1+np.cos(1+X/0.75)/2
Y3 = np.random.uniform(Y1, Y2, len(X))

fig = plt.figure(figsize=(8, 8))
ax = fig.add_subplot(1, 1, 1, aspect=1)


def minor_tick(x, pos):
    if not x % 1.0:
        return ""
    return "%.2f" % x

ax.xaxis.set_major_locator(MultipleLocator(1.000))
ax.xaxis.set_minor_locator(AutoMinorLocator(4))
ax.yaxis.set_major_locator(MultipleLocator(1.000))
ax.yaxis.set_minor_locator(AutoMinorLocator(4))
ax.xaxis.set_minor_formatter(FuncFormatter(minor_tick))

ax.set_xlim(0, 4)
ax.set_ylim(0, 4)

ax.tick_params(which='major', width=1.0)
ax.tick_params(which='major', length=10)
ax.tick_params(which='minor', width=1.0, labelsize=10)
ax.tick_params(which='minor', length=5, labelsize=10, labelcolor='0.25')

ax.grid(linestyle="--", linewidth=0.5, color='.25', zorder=-10)

ax.plot(X, Y1, c=(0.25, 0.25, 1.00), lw=2, label="Blue signal", zorder=10)
ax.plot(X, Y2, c=(1.00, 0.25, 0.25), lw=2, label="Red signal")
ax.plot(X, Y3, linewidth=0,
        marker='o', markerfacecolor='w', markeredgecolor='k')

ax.set_title("Anatomy of a figure", fontsize=20, verticalalignment='bottom')
ax.set_xlabel("X axis label")
ax.set_ylabel("Y axis label")

ax.legend()


def circle(x, y, radius=0.15):
    from matplotlib.patches import Circle
    from matplotlib.patheffects import withStroke
    circle = Circle((x, y), radius, clip_on=False, zorder=10, linewidth=1,
                    edgecolor='black', facecolor=(0, 0, 0, .0125),
                    path_effects=[withStroke(linewidth=5, foreground='w')])
    ax.add_artist(circle)


def text(x, y, text):
    ax.text(x, y, text, backgroundcolor="white",
            ha='center', va='top', weight='bold', color='blue')


# Minor tick
circle(0.50, -0.10)
text(0.50, -0.32, "Minor tick label")

# Major tick
circle(-0.03, 4.00)
text(0.03, 3.80, "Major tick")

# Minor tick
circle(0.00, 3.50)
text(0.00, 3.30, "Minor tick")

# Major tick label
circle(-0.15, 3.00)
text(-0.15, 2.80, "Major tick label")

# X Label
circle(1.80, -0.27)
text(1.80, -0.45, "X axis label")

# Y Label
circle(-0.27, 1.80)
text(-0.27, 1.6, "Y axis label")

# Title
circle(1.60, 4.13)
text(1.60, 3.93, "Title")

# Blue plot
circle(1.75, 2.80)
text(1.75, 2.60, "Line\n(line plot)")

# Red plot
circle(1.20, 0.60)
text(1.20, 0.40, "Line\n(line plot)")

# Scatter plot
circle(3.20, 1.75)
text(3.20, 1.55, "Markers\n(scatter plot)")

# Grid
circle(3.00, 3.00)
text(3.00, 2.80, "Grid")

# Legend
circle(3.70, 3.80)
text(3.70, 3.60, "Legend")

# Axes
circle(0.5, 0.5)
text(0.5, 0.3, "Axes")

# Figure
circle(-0.3, 0.65)
text(-0.3, 0.45, "Figure")

color = 'blue'
ax.annotate('Spines', xy=(4.0, 0.35), xycoords='data',
            xytext=(3.3, 0.5), textcoords='data',
            weight='bold', color=color,
            arrowprops=dict(arrowstyle='->',
                            connectionstyle="arc3",
                            color=color))

ax.annotate('', xy=(3.15, 0.0), xycoords='data',
            xytext=(3.45, 0.45), textcoords='data',
            weight='bold', color=color,
            arrowprops=dict(arrowstyle='->',
                            connectionstyle="arc3",
                            color=color))

ax.text(4.0, -0.4, "Made with http://matplotlib.org",
        fontsize=10, ha="right", color='.5')

plt.show()

### Ok, să trecem la exemple 


In [None]:
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

fig, ax = plt.subplots()

ax.scatter(x, y, label='Linear Function') 
# ax.plot(x, y, label='Linear Function') # decomenteaza linia să vezi ce se întâmplă
# ax.plot(x, y, 'o', label='Linear Function') # decomenteaza linia să vezi ce se întâmplă
ax.set_xlabel('X-axis')
ax.set_ylabel('Y-axis')
ax.set_title('Basic Plot Example')
ax.legend()

plt.show()

In [None]:
x = np.linspace(0, 10, 100)  # generam x-uri pt a calcula valorile functiilor sin si cos mai jos
y_1 = np.sin(x)
y_2 = np.cos(x)

fig, (ax1, ax2) = plt.subplots(nrows=1, ncols=2, figsize=(12, 5))

ax1.plot(x, y_1, marker='o', color='red')
ax1.set_title(r'$y=\sin(x)$')
ax1.set_xlabel('$x$')
ax1.set_ylabel('$sin(x)$')


ax2.plot(x, y_2, '^-b', label='cos')  # argumentul cheie label va fi folosit in legenda 
ax2.set_title(r'$y=\cos(x)$')
ax2.set_xlabel(r'$x$')
ax2.set_ylabel(r'$cos(x)$')
ax2.legend(loc=(0.65, 0.8)) # cu loc stabilim unde punem legenda, incearca s-o muti unde doresti
ax2.yaxis.tick_right() # mutam tick urile pe dreapta

plt.show()


Câteva comentarii:

- Odată ce se creează o Figură "1x2", rezultatul returnat de `plt.subplots(1, 2)` este acum un obiect Figure și un tablou NumPy de obiecte Axes. Alternativ:
```
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(8, 4))
# ax este acum un tablou NumPy de axe
```
Lucrăm cu ax1 și ax2 individual, deci dacă facem ceva cu ax2, nimic nu se va întâmpla cu ax1 (vedeți mai sus cum am folosit tick_right doar pentru ax2)

Textul dintre semnele de dolar utilizează marcare TeX (puteți încerca lucruri mai sofisticate LaTeX).

### Exercițiu

- Utilizați datele setului Iris și plotați lungimea sepalei în funcție de lungimea petalei.
- Personalizați graficul cu diferite culori, marcaje și o legendă. Luați în considerare și documentația pentru mai multe opțiuni de personalizare: [Opțiuni de personalizare Matplotlib](https://matplotlib.org/1.3.1/api/pyplot_api.html#matplotlib.pyplot.plot)
- Pe aceeași axă, plotați și lățimea petalei în funcție de lungimea petalei. Alegeți o culoare și un marcaj diferit și adăugați etichete sugestive pentru legendă pentru a le distinge între ele.


### Histograme

Histograma reprezintă o funcție scalară, $f(x): {\rm I\!R}^n \to {\rm I\!R}$, unde cel mult $n=2$. Sunt folosite în general pentru a evidenția caracteristicile distribuției datelor. Histograma este adesea utilizată pentru comparații între mai multe distribuții.

#### O scurtă introducere matematică pentru cei curioși

Histograma este "îmbinată", adică domeniul este împărțit în clase (binuri), adică pentru binul $i$-th avem $x_i<x\le x_{i+1}$ și conținutul binului (să zicem $h(x)$) este $h(x)=\frac{\int_{x_{i}}^{x_{i+1}} f(x)}{x_{i+1}- x_{i}}$. Binurile nu trebuie să aibă neapărat aceeași dimensiune, adică ar putea fi cazul ca $(x_{i+1}- x_{i}) \neq (x_{j+1}- x_{j})$ pentru $i\neq j$. 
Dacă dimensiunea binului este mică, $h(x)\simeq f(\frac{x_{i+1}+x_{i}}{2})$.

Alegerea numărului de binuri și a dimensiunii lor necesită multă atenție. În mod tipic, conținutul fiecărui bin $i$, $N_i$, ar trebui să fie statistic semnificativ, adică incertitudinea Poisson, $1/\sqrt{N_i}$, ar trebui să fie mică.

Adesea, o astfel de incertitudine merită să fie indicată, în special dacă distribuția este normalizată sau dacă conținutul binului provine dintr-o simulare (și, prin urmare, trebuie ponderat).

#### Formă și Normalizare

Există în esență două cantități care sunt transmise de o histogramă:
   * Cantitatea totală de date, adică normalizarea acestora
   * Forma sau distribuția diferențială, adică distribuția de probabilitate

Ambele cantități pot fi exprimate separat, citând $N=\sum f(x_i)$ numărul de intrări și afișând
$f(x)/N$. De fapt, definiția factorului de normalizare ar putea fi ambiguă; ar putea fi fie $N$, fie 
$I=\int f(x) dx$. Prima este cea mai frecvent utilizată (și cea mai utilă), dar cea din urmă este adesea implicită în metodele incorporate ale mai multor pachete de vizualizare.


#### Exemplu pe setul de date Iris

In [None]:
# extragem coloana 'sepalLength'
sepal_length = data['sepalLength']

# generam histrograma
plt.hist(sepal_length, bins=20, color='skyblue', edgecolor='black', label='Iris data')

plt.xlabel('Lungime sepală')
plt.ylabel('Frecvență')
plt.title('Lungimea Sepalei - Iris Dataset')

plt.legend()
plt.show()

Observă că în cazul histogramei, am folosit direct `plt.hist` în loc să folosim un Axes `ax` și `ax.hist`. Această metodă este convenabilă pentru plotări rapide, dar poate fi mai puțin flexibilă atunci când dorești să ai mai mult control asupra figurii și a mai multor subploturi. De asemenea, poți folosi `plt.plot` și acesta va crea automat Axes pentru tine.


### Exercițiu

- Creează aceeași histogramă folosind datele Iris, dar definește-ți propriul ax și plotează-o folosind `ax.hist`. Folosește $\sqrt{N}$ binuri, unde $N$ este numărul de mostre utilizate în crearea histogramei.
- Realizează un grafic cu `plt.plot` folosind oricare dintre datele Iris. Folosește o linie întreruptă (dashed line --).
