# Sprint 3.4: Programació Numèrica

## Objectius

* Arrays
* Matrius
* Funcions

## Exercicis

### Exercici 1

**Crea una funció que donat un Array d’una dimensió, et faci un resum estadístic bàsic de les dades. Si detecta que l’array té més d’una dimensió, ha de mostrar un missatge d’error.**

In [1]:
import numpy as np

In [2]:
def get_info(array):
    if (array.ndim > 1):
        print("\nThis array is bigger than 1 dimension.")
        return
    
    print("\nDimension: ", array.ndim)
    print("Number of elements: ", array.shape[0])
    print("Type of elements: ", array.dtype)
    print("Min: ", np.amin(array))
    print("Max: ", np.amax(array))
    print("Median: ", np.median(array))
    print("Mean: ", np.mean(array))
    print("Average: ", np.average(array))
    print("Standard deviation: ", np.std(array))
    print("Variance: ", np.var(array))


In [3]:
array = np.random.randint(500, size=8, dtype='int64')
print(array)
get_info(array)

[ 75 464  36 175 194 216  76 465]

Dimension:  1
Number of elements:  8
Type of elements:  int64
Min:  36
Max:  465
Median:  184.5
Mean:  212.625
Average:  212.625
Standard deviation:  157.10660194593987
Variance:  24682.484375


### Exercici 2

**Crea una funció que et generi un quadrat NxN de nombres aleatoris entre el 0 i el 100.**

In [4]:
def create_matrix(n):
    matrix = np.random.randint(1, 100, (n, n))
    return matrix

n_size = 7
print(create_matrix(n_size))

[[40 18 71 42 83 72 44]
 [63 95 30  7  9 56 60]
 [36  3 77 15 99 80 81]
 [44  5 60 50 61 21 13]
 [23 69 23 38 11 96 74]
 [14 50 37  8 90 21 93]
 [83 13 24 60 69 35 43]]


### Exercici 3

**Crea una funció que donada una taula de dues dimensions, et calculi els totals per fila i els totals per columna.**

In [5]:
def get_totals(matrix):
    if (matrix.ndim > 2):
        print("This matrix has more than 2 dimensions.")
    else:
        sum_cols = matrix.sum(axis=0)
        sum_rows = matrix.sum(axis=1)
        return sum_rows, sum_cols
        
matrix = np.random.randint(1, 100, (5, 3))
print(matrix)
result = get_totals(matrix)
print("\nTotal sum rows: ", result[0])
print("\nTotal sum cols: ", result[1])

[[60 35 93]
 [46 15 81]
 [66 51 82]
 [ 1 30 33]
 [65 25 29]]

Total sum rows:  [188 142 199  64 119]

Total sum cols:  [238 156 318]


In [6]:
# Not related test
matrix = np.array([1, 2, 3, 4, 5], ndmin=5)
print(matrix)
print(matrix.ndim)
print(matrix.shape)

[[[[[1 2 3 4 5]]]]]
5
(1, 1, 1, 1, 5)


### Exercici 4

**Implementa manualment una funció que calculi el coeficient de correlació. Informa’t-en sobre els seus usos i interpretació.**

> Els **coeficients de correlació** són uns estadístics que avaluen numèricament la relació entre les variables. 
El més apropiat per a variables numèriques és el **coeficient de correlació de Pearson**, que avalua el grau de relació lineal.
Per a dades ordinals s'usa el **coeficient de correlació de Spearman**.

<br/>
<u>Definició</u>: Donades dues variables numèriques X i Y , definides en els mateixos individus objectes, i que prenen conjuntament n parelles de valors (x<sub>1</sub>, y<sub>1</sub>), ... , (x <sub>i</sub>, y <sub>i</sub>), ..., (x<sub>n</sub>, y<sub>n</sub>), 

es defineix el **coeficient de correlació de Pearson de X i Y** (que denotarem _r_<sub>X,Y</sub> o bé _Corr_(X, Y ), o simplement _r_) com l’estadístic donat per l’expressió següent:


$$r_{X,Y} = \frac{Cov(X, Y)}{\sqrt{Var(X)Var(Y)}} = \frac{\displaystyle\sum_{i=1}^{n} (x_i - \overline{X})(y_i - \overline{Y})}{\sqrt{\displaystyle\sum_{i=1}^{n} (x_i - \overline{X})²\displaystyle\sum_{i=1}^{n}(y_i - \overline{Y})²}}$$

<br/><br/>
Les propietats del coeficient de correlació són les següents:
- És un valor entre [-1, 1]
- El signe del coeficient indica el sentit de la relació (+: directa o creixent, -: inversa o decreixent).
- El valor absolut indica el grau o intensitat de la relació, de manera que si és 0 vol dir que les variables X i Y són independents. 

<br/>

Font: https://mat.uab.cat/~natalia/docencia-actual/politiques0708/classereg.pdf

<br/>

In [7]:
def correlation_coeficient(x, y):
    avg_x = np.average(x)
    avg_y = np.average(y)
    
    cov = np.sum(np.subtract(x, avg_x) * np.subtract(y, avg_y))
    var_x = np.sum(np.power(np.subtract(x, avg_x), 2))
    var_y = np.sum(np.power(np.subtract(y, avg_y), 2))
    
    #print(cov)
    #print(var_x)
    #print(var_y)
    
    coeficient = cov / (var_x * var_y)**0.5
    
    return coeficient


In [8]:
#rng = np.random.default_rng(seed=42)
#x = rng.random((12, 1))
#y = rng.random((12, 1))

x = np.random.randint(20, size=12)
y = np.random.randint(20, size=12)
print("X = ", x)
print("Y = ", y)

coef = correlation_coeficient(x, y)
print('{:.7f}'.format(coef))

X =  [ 3 14 19  5  4 19  7 17 16 14 16  5]
Y =  [14 15 14 17 17 19  4  9  9  6  2  4]
-0.0317184


Comprovació amb funcions de Numpy:

In [9]:
r1 = np.corrcoef(x, y)
print(r1)

[[ 1.         -0.03171837]
 [-0.03171837  1.        ]]


## Resources

* https://www.w3schools.com/python/numpy/numpy_intro.asp
* https://numpy.org/doc/stable/reference/routines.array-manipulation.html
* https://numpy.org/doc/stable/reference/random/generated/numpy.random.randint.html
* https://www.tutorialspoint.com/numpy/numpy_statistical_functions.htm
* https://mat.uab.cat/~natalia/docencia-actual/politiques0708/classereg.pdf
* https://numpy.org/doc/stable/reference/generated/numpy.corrcoef.html
* https://realpython.com/numpy-array-programming/
* https://stackoverflow.com/questions/36241608/numpy-broadcasting-calculating-sum-of-squared-differences-between-two-arrays