# **07. Inici a la ciència de dades: Llibreria NumPy**
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1a/NumPy_logo.svg/775px-NumPy_logo.svg.png" 
width="200" align="right">


Numerical Python ([NumPy](http://www.numpy.org/)) és un dels paquets de Python fonamentals per a la computació científica i *Data Science*. Ofereix suport per a **arrays** multidimensionals (vectors i matrius) d'alt rendiment i eines per a treballar-hi com:

- La classe `ndarray` (n-dimensional array): 
- Operacions i funcions **vectoritzades** sobre arrays (molt més eficients que iterar sobre llistes)
- Eines per a la integració amb codi C/C++ i Fortran.
- Operacions d'àlgebra lineal, generació de nombres aleatoris, transformada de Fourier, etc d'alt rendiment.

**[User Guide](https://docs.scipy.org/doc/numpy/user/index.html)** <br>
**[Reference](https://docs.scipy.org/doc/numpy/reference)**


In [5]:
#Per conveni importem numpy com a np
import numpy as np

In [7]:
%%timeit 
# executarà el codi diverses vegades i retornarà informació sobre el temps mitjà d'execució, la desviació estàndard i altres dades estadístiques. 
# Això t'ajuda a tenir una idea precisa de quan temps el teu codi triga a ser executat.
# és sum_ perquè ja existeix la funció sum()
n = 1000000
sum_ = 0
for i in range(n):
    sum_ += i ** 2
sum_

94.1 ms ± 2.61 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [4]:
%%timeit
n = 1000000
sum([x**2 for x in range(n)])

297 ms ± 5.08 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [5]:
%%timeit
n = 1000000
(np.arange(n) ** 2).sum()

2.72 ms ± 112 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/> Jupyter ofereix el que anomena [*magic functions*](https://ipython.readthedocs.io/en/stable/interactive/magics.html) que afegeixen diferents funcionalitats a la cel·la com per exemple `%%time`, `%%timeit` o `%%bash`

## 7.1 Arrays



Un *array* és una col·lecció (vector, matriu, tensor) de dades:

- **homogeni**: tots els elements són del mateix tipus
- indexat per una tuple d'enters no negatius
- de tamany fixat des de la seva creació.

> <img src="https://jakevdp.github.io/PythonDataScienceHandbook/figures/array_vs_list.png" width="800" align="center"/>

A nivell d'[implementació](https://jakevdp.github.io/PythonDataScienceHandbook/figures/array_vs_list.png), un array conté essencialment un únic punter a bloc de dades que són **contigus en la memòria**. En canvi, una llista conté un punter a un bloc de punters, cada un dels quals apunta a un objecte. El principal avantatge de les llistes és la seva flexibilitat. Com que cada element conté les dades i la informació del tipus d'objecte, la llista es pot omplir dels objectes que vulguem. Els arrays de numpy no tenen aquesta flexibilitat, però a canvi són més eficients per guardar i manipular dades.

> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/> No confondre la classe `numpy.ndarray`amb la classe `array.array` de la biblioteca estàndard de Python. Aquesta última només permet vectors unidimensionals i ofereix moltes menys funcionalitats. 

A NumPy les dimensions s’anomenen eixos. Per exemple, les coordenades d'un punt en l'espai 3D [1, 2, 1] tenen un eix i aquest eix té 3 elements, de manera que diem té una longitud de 3.

Els atributs més rellevants d'un array són:
+ `ndarray.ndim`: El nombre d'eixos (dimensions) de l'array

+ `ndarray.shape`: Les dimensions de l'array. Una tupla d'enters indicant la longitud de l'array en cada eix. Per una matriu amb m files i n columns la *shape* serà (m, n). La tupla tindrà una longitud igual a `ndim`

+ `ndarray.dtype`: Un objecte describint el tipus d'elements de l'array. Es poden crear utilitzant els tipus de dades estàndards de python. Addicionalment NumPy proporciona alguns [**tipus propis**](https://numpy.org/doc/stable/user/basics.types.html) com `numpy.int32`, `numpy.int16` o `numpy.float64`.

+ `ndarray.size`: Nombre total d'elements a l'array

In [4]:
array = np.array([1, 2, 3])         

print ("ARRAY:", array)
print ("CLASSE: ", type(array))
print ("DIMENSIONS:", array.ndim)
print ("SHAPE:", array.shape)
print ("SIZE:", array.size)
print ("TIPUS: ",  array.dtype)

ARRAY: [1 2 3]
CLASSE:  <class 'numpy.ndarray'>
DIMENSIONS: 1
SHAPE: (3,)
SIZE: 3
TIPUS:  int32


Els _ndarray_ són objectes **multidimensionals** això vol dir que poden servir per emmagatzemar dades que depenguin de diferents paràmetres. Per exemple, imagineu-vos la següent situació:

> Es disposa d'estacions meteorològiques en 41 comarques de Catalunya. Aquestes envien a un registre central un resum mensual de les dades pluviomètriques, en $L m^{-2}$.

En quin tipus d'objecte podríem recollir aquestes dades? Si ho fessim en paper o fent sevir un full de càlcul, probablement escriuríem una taula amb, per exemple, les comarques com a files i els mesos com a columna. Vegeu per exemple les dades de pluja recollida a Catalunya el 2019 segons l'Institut d'Estadística de Catalunya (idescat), [clickeu el següent enllaç](http://www.idescat.cat/pub/?id=aec&n=217&t=2019).

Els _ndarray_ de NumPy ens permeten emmagatzemar les dades de pluja de les (41) comarques al llarg dels (12) mesos de l'any emprant una **variable indexada de dimensió 2**. Això equivaldria a una matriu de 41 files (1 per cada comarca) i 12 columnes (1 per cada mes). 

A continuació veurem un exemple d'array amb més d'una dimensió: 

In [5]:
# A l'exemple que es mostra a continuació, l'array té 2 eixos. 
# El primer eix té una longitud de 2, el segon eix té una longitud de 3. El que significa és que tenim 2 files i 3 columnes. 

a = np.array([[ 1., 0., 0.],
[ 0., 1., 2.]])

print("ARRAY:", a)
print("CLASSE: ", type(a))
print("DIMENSIONS:", a.ndim) # Les dimensions són l'eix de les x i el numero de files
print("SHAPE:", a.shape) # (2 files, 3 columnes) (eix x, eix y)
print("SIZE:",a.size) # 2 * 3 = 6
print("TIPUS: ",  a.dtype) # float64 perquè té 1., 0., el punt

ARRAY: [[1. 0. 0.]
 [0. 1. 2.]]
CLASSE:  <class 'numpy.ndarray'>
DIMENSIONS: 2
SHAPE: (2, 3)
SIZE: 6
TIPUS:  float64


## 7.2 Creació d'arrays

Hi ha diverses maneres de generar un array de NumPy, com per exemple:

- a partir d'una llista.
- utilitzant funcions NumPy per creació d'arrays.
- aplicant funcions NumPy sobre arrays prèviament existents.
- utilitzant dades introduïdes per l'usuari.

A continuació veureu com crear un array a partir d’una llista o tupla normal de Python mitjançant la funció `array()`. El tipus d'array resultant es dedueix a partir del tipus d’elements en la llista. Podríem emprar qualsevol tipus de variable, un diccionari per exemple, però el més habitual és una llista.

In [7]:
a = np.array([2,3,4])
print("ARRAY:", a)
print("TIPUS:", a.dtype)
print()

b = np.array([1.2, 3.5, 5.1])
print("ARRAY:", b)
print("TIPUS:", b.dtype)
print()

c = np.array({"a": 1, "b": 2})# té clau i valor i per això surt object per qué es el més genteral que inclou les dues
print("ARRAY:", c)
print("TIPUS:", c.dtype)

ARRAY: [2 3 4]
TIPUS: int32

ARRAY: [1.2 3.5 5.1]
TIPUS: float64

ARRAY: {'a': 1, 'b': 2}
TIPUS: object


> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/>  Un error freqüent és cridar la funció `array()` amb diversos arguments en lloc de donar una única sentència com argument.

In [8]:
a = np.array(1,2,3,4)
a

TypeError: array() takes from 1 to 2 positional arguments but 4 were given

In [9]:
a = np.array([1,2,3,4])
a

array([1, 2, 3, 4])

> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/> Els arrays són **homogenis** però les llistes no. Si emprem una llista formada per valors de diferents tipus, NumPy crearà l'array amb el tipus més general.

In [10]:
a = [1.5, 1j + 2, 3] # [float, complex, enter]
[type(element) for element in a]

[float, complex, int]

In [11]:
a = np.array(a)

In [12]:
print ("ARRAY:", a)
print ("CLASSE: ", type(a))
print ("DIMENSIONS:", a.ndim)
print ("SHAPE:", a.shape)
print ("SIZE:",a.size)
print("TIPUS: ",  a.dtype)

ARRAY: [1.5+0.j 2. +1.j 3. +0.j]
CLASSE:  <class 'numpy.ndarray'>
DIMENSIONS: 1
SHAPE: (3,)
SIZE: 3
TIPUS:  complex128


Fixeu-vos que s'escriuen tots els elements en forma de nombre complex. 

La funció `array()` transforma llistes de llistes en *arrays* bidimensionals, llistes de llists de llistes en *arrays* tridimensionals, etc.

In [13]:
array = np.array([(1.5,2,3), (4,5,6)])
array

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

NumPy propoprciona diverses funcions per crear arrays:
* `zeros()`: Zeros
* `ones()`:  Uns
* `empty()`: Contingut aleatòri (depèn de l'estat de la memòria)
* `full()`: Omple l'array amb un valor
* `eye()`: [Matriu identitat](https://ca.wikipedia.org/wiki/Matriu_identitat).

In [14]:
np.zeros((3,4)) 

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [15]:
np.ones((3,4), dtype=int)

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

In [16]:
np.empty((2,2))

array([[2.12199579e-314, 9.48532119e-312],
       [5.15804534e-321, 9.48532119e-312]])

In [17]:
np.full((3,4), 5.)

array([[5., 5., 5., 5.],
       [5., 5., 5., 5.],
       [5., 5., 5., 5.]])

In [18]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

* `arange()`: Similar al la funció `range` de python estàndard. Genera un vector NumPy que conté una seqüència de valors  entre el valor *start* i un valor *stop* (no inclòs!) amb increments de *step*.

```python
x = numpy.arange(start, stop, step=1)
```

In [22]:
r = range(12)
print("range:", list(r))
a = np.arange(12)
print("arange:", a)

range: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
arange: [ 0  1  2  3  4  5  6  7  8  9 10 11]


> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/> `np.arange()`,  a diferència de `range()`permet valors de *step* decimals

In [23]:
np.arange(0, 10, 0.5) # Del 0 al 10 amb distancia de 0.5

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. ,
       6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5])

Quan s’utilitza la funció `np.arange` amb *floats*, generalment és difícil anticipar el nombre d’elements obtinguts, normalment és més convenient utilitzar la funció `np.linspace()` que rep com argument el nombre d'elements que volem, en lloc del *step*:


```python
x = numpy.linspace(start, stop, num, endpoint)
```

- `num`: nombre de valors que ha de contenir l'array (valor enter). Si no s'especifica cap valor la funció pren per defecte 50 valors.
- `endpoint`: incloure el punt final en la seqüència (valor booleà). Si no s'especifica cap valor la funció pren per defecte el valor `True` i el punt final s'inclou a la seqüència de valors.

In [24]:
np.linspace( 0, 2, 9 ) # 9 numeros del 0 al 2

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

+ Per crear un *array* amb nombres aleatòris utilitzarem la funció `random()`. 

In [25]:
np.random.random((2,3))

array([[0.34720152, 0.63634651, 0.01109365],
       [0.188092  , 0.83790036, 0.93174177]])

+ La funció `zeros_like`manté les dimensions de l'array entre parètesi, però amb zeros 

In [27]:
#Manté les dimensions de l'array entre parèntesi, però amb zeros

a = np.array([1,2,3,4])
b = np.array([(1.5,2,3), (4,5,6)])

print("ARRAY a:\n", a)
print("ARRAY b:\n", b)

print("canviem a zeros l'array a:\n", np.zeros_like(a))
print("canviem a zeros l'array b:\n",np.zeros_like(b))

b.dtype

ARRAY a:
 [1 2 3 4]
ARRAY b:
 [[1.5 2.  3. ]
 [4.  5.  6. ]]
canviem a zeros l'array a:
 [0 0 0 0]
canviem a zeros l'array b:
 [[0. 0. 0.]
 [0. 0. 0.]]


dtype('float64')

Cal remarcar que si un array és molt gran per printa-lo, NumPy automàticament només printarà les cantonades de la matriu. Per desactivar aquest comportament i forçar a NumPy a imprimir tota la matriu, podeu canviar les opcions d'impressió mitjançant
`set_printoptions`(mòdul del sistema que s'ha d'importar per a fer-ho). 

In [28]:
print(np.arange(10000))

[   0    1    2 ... 9997 9998 9999]


Una matriu pot estar emmagatzemada en una llista en la forma de _una llista de llistes_. És a dir, una llista on cada un dels seus elements és a la seva vegada una llista, totes amb el mateix nombre d'elements. 

Per exemple, en la següent instrucció es genera una llista que conté 3 elements i cada un dels elements és una llista de 4 elements:

In [30]:
mat_llista = [[1, 2, 3, 4] , [5, 6, 7, 8], [9, 10, 11, 12] ]
#mat_llista

[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]

Si imaginem els elements de la llista _apilats un sobre l'altre_, podem visualitzar la matriu corresponent que seria de forma:

$$
\left ( \begin{array}{cccc}
1 & 2 & 3 & 4 \\ 5 & 6 & 7 & 8 \\ 9 & 10 & 11 & 12
\end{array} \right )
$$

Una matriu de 3 files i 4 columnes (diem que és una matriu 3x4). Els _ndarray_ de NumPy són molt més eficients per operar numèricament que no pas les llistes de Python. Aquesta llista es transforma en una matriu NumPy executant la següent cel·la:

In [31]:
mat = np.array(mat_llista)

## 7.3 Manipulació d'arrays

Tenim moltes funcions per manipular arrays: **[Array manipulation routines](https://docs.scipy.org/doc/numpy/reference/routines.array-manipulation.html)**

* `ravel()`: Retorna l'array en un sol eix
* `reshape()`: Canvia la `shape`de l'array


Tingueu en compte que les tres ordres següents tornen l'array modificat, però no canvia l'array original:

In [32]:
a = np.array([(2,5,9),(1,0,14),(-6,28,37)])
print (a)
a.ravel() # returns the array, flattened

[[ 2  5  9]
 [ 1  0 14]
 [-6 28 37]]


array([ 2,  5,  9,  1,  0, 14, -6, 28, 37])

In [33]:
b = np.random.random((4,3))
print (b)
b.shape

[[0.81415358 0.60887019 0.19335723]
 [0.79785239 0.8051851  0.61323221]
 [0.77599919 0.0781683  0.77043169]
 [0.53034146 0.88397868 0.70527517]]


(4, 3)

In [34]:
b.reshape(3,4)

array([[0.81415358, 0.60887019, 0.19335723, 0.79785239],
       [0.8051851 , 0.61323221, 0.77599919, 0.0781683 ],
       [0.77043169, 0.53034146, 0.88397868, 0.70527517]])

In [38]:
# Si la nova shape no és compatible dona error
a.reshape(6, 3)

ValueError: cannot reshape array of size 9 into shape (1,3)

> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/> Si una dimensió pren el valor -1 en la funció `reshape` és calcula automàticament per a què quadri amb la forma de l'array original i els tamanys de la resta de dimensions.

In [36]:
c = np.random.random(12)
c.reshape(4,3)

array([[0.76172364, 0.48600118, 0.72776372],
       [0.61333709, 0.94385248, 0.7831386 ],
       [0.8144234 , 0.90434816, 0.12935281],
       [0.49224958, 0.41490999, 0.88814137]])

+ El mètode `reshape()` retorna un array amb la forma modificada, mentre que el mètode `resize()` el modifica *in-place*

In [39]:
c = c.reshape((3,4))
c

array([[0.76172364, 0.48600118, 0.72776372, 0.61333709],
       [0.94385248, 0.7831386 , 0.8144234 , 0.90434816],
       [0.12935281, 0.49224958, 0.41490999, 0.88814137]])

In [40]:
c.resize((4,3))
c

array([[0.76172364, 0.48600118, 0.72776372],
       [0.61333709, 0.94385248, 0.7831386 ],
       [0.8144234 , 0.90434816, 0.12935281],
       [0.49224958, 0.41490999, 0.88814137]])

+ `T()`: transposa l'array

In [41]:
a = np.arange(0,9).reshape((3,3))
print(a)
print()
print(a.T)

[[0 1 2]
 [3 4 5]
 [6 7 8]]

[[0 3 6]
 [1 4 7]
 [2 5 8]]


## 7.4 Indexing i  Slicing

https://numpy.org/devdocs/user/basics.indexing.html

+ **Arrays unidimensionals (1D)**

Podem accedir a un element de l'array pel seu índex, de la mateixa manera que ho feiem amb les llistes

In [42]:
a = np.arange(10) ** 2
print(a)

[ 0  1  4  9 16 25 36 49 64 81]


In [43]:
a[2]

4


Per obtenir un _slice_ (segment o subconjunt) d'un vector NumPy podem utilitzar la mateixa sintàxi que en el cas de les llistes.
Per especificar un slice d'un array monodimensional NumPy podem utilitzar les següents variants:

```python
vec[start:end:step] # slice de "vec" des de la posició "start" fins a l'anterior a "end" amb salts de "step"
vec[start:end]      # tots els elements de "vec" des de "start" fins a "end-1"
vec[start:]         # tots els elements de "vec" des de "start" fins el FINAL
vec[:end]           # tots els elements de "vec" del PRIMER fins a "end-1"
vec[:]              # tot el vector
```

> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/> Si s'especifica el límit final del slice, aquest queda exclòs del resultat. És certament una característica no intuïtiva que cal recordar. 


In [44]:
# Agafarem de la posició 2 a la 4 (recorda la última no s'agafa!)
a[2:5]

array([ 4,  9, 16])

In [45]:
# Des del començament fins a la poició 6, no inclosa amb un step de 2
a[:6:2]

array([ 0,  4, 16])

In [46]:
# Un step de -1 fa un reverse de l'array
a[ : :-1]

array([81, 64, 49, 36, 25, 16,  9,  4,  1,  0])

+ **Arrays multidimensionals (2D)**

Per especificar un slice d'un array multidimensional cal que seguim la mateixa sintàxi que per llistes i vectors, **separant els diferents índexs de files i columnes per una coma**. 

```python
slice[rows, colums]
```


<img src="https://vertex-academy.com/tutorials/wp-content/uploads/2017/12/Java-two-dimensional-array-vertex-academy.jpg" width="200" align="center"/>

En el cas d'una matriu:

```python
variable[start:stop:step, start:stop:step]
```


Igual que en llistes Python, quan realitzem un _slice_ el valor final no s'inclou. També recordeu que, si deixem el valor inicial buit, s'agafa des del primer element i, si deixem el valor final buit, aleshores s'agafa fins al darrer element. El darrer valor, que en l'exemple hem anomenat "`step`", correspon a l'increment o pas i és opcional, si no s'inclou s'entén que és 1.


No cal separar l'index de cada dimensió en diferents claudàtors, podem separar els índexs de cada eix fent servir **comes**.

In [8]:
a = np.arange(16).reshape((4,4))
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [9]:
a[1][2] #1 == fila 1, 2 == columna 2

6

In [49]:
a[1][2] == a[1,2] 

True

Aquesta sintaxi és més eficient i ens permet més versatilitat en fer les seleccions. <br>
Això passa perquè `a[1][2]` en realitat es fa en dues passses i genera un array temporal intermig. També limita les seleccions ja que en el primer pas només podem seleccionar files senceres.

In [50]:
temp = a[1]
print(temp)
temp[2]

[4 5 6 7]


6

La notació separada per comes ens permet fer seleccions de diferents parts de l'array. 

A continuació alguns exemples en els que volem seleccionar la part sombrejada dels arrays:


**1. Selecció d'una posició determinada de l'array**


<table>
  <tr>
    <td style="background-color:#FFFFFF">0</td>
    <td style="background-color:#FFFFFF">1</td>
    <td style="background-color:#FFFFFF">2</td>
    <td style="background-color:#FFFFFF">3</td>
  </tr>
  <tr>
    <td style="background-color:#FFFFFF">4</td>
    <td style="background-color:#FFFFFF">5</td>
    <td style="background-color:#FFFFFF">6</td>
    <td style="background-color:#FFFFFF">7</td>
  </tr>
  <tr>
    <td style="background-color:#FFFFFF">8</td>
    <td style="background-color:#DAF7A6">9</td>
    <td style="background-color:#FFFFFF">10</td>
    <td style="background-color:#FFFFFF">11</td>
  </tr>
  <tr>
    <td style="background-color:#FFFFFF">12</td>
    <td style="background-color:#FFFFFF">13</td>
    <td style="background-color:#FFFFFF">14</td>
    <td style="background-color:#FFFFFF">15</td>
  </tr>

In [51]:
a[2 , 1] #Row , Column

9

In [52]:
a[2,1] == a[(2,1)]

True

**2. Selecció d'una secció de l'array**

<table>
  <tr>
    <td style="background-color:#DAF7A6">0</td>
    <td style="background-color:#FFFFFF">1</td>
    <td style="background-color:#FFFFFF">2</td>
    <td style="background-color:#FFFFFF">3</td>
  </tr>
  <tr>
    <td style="background-color:#DAF7A6">4</td>
    <td style="background-color:#FFFFFF">5</td>
    <td style="background-color:#FFFFFF">6</td>
    <td style="background-color:#FFFFFF">7</td>
  </tr>
  <tr>
    <td style="background-color:#DAF7A6">8</td>
    <td style="background-color:#FFFFFF">9</td>
    <td style="background-color:#FFFFFF">10</td>
    <td style="background-color:#FFFFFF">11</td>
  </tr>
  <tr>
    <td style="background-color:#FFFFFF">12</td>
    <td style="background-color:#FFFFFF">13</td>
    <td style="background-color:#FFFFFF">14</td>
    <td style="background-color:#FFFFFF">15</td>
  </tr>

In [53]:
#1. Seleccionem les files: FEM UN TALL HORITZONTAL
a[:3] # mostra 3 files, :3 indica l'end

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [54]:
#2. Seleccionem les columnes: FEM UN TALL VERTICAL
a[0] # es l'start

array([0, 1, 2, 3])

In [55]:
# De la primera a la última fila (no inclosa), la primera columna
#Opció 1
a[:3, 0]

array([0, 4, 8])

In [56]:
# De la primera a la última fila (no inclosa), la primera columna
#Opció 2
a[:-1, 0]

array([0, 4, 8])

<table>
  <tr>
    <td style="background-color:#FFFFFF">0</td>
    <td style="background-color:#FFFFFF">1</td>
    <td style="background-color:#FFFFFF">2</td>
    <td style="background-color:#FFFFFF">3</td>
  </tr>
  <tr>
    <td style="background-color:#DAF7A6">4</td>
    <td style="background-color:#DAF7A6">5</td>
    <td style="background-color:#DAF7A6">6</td>
    <td style="background-color:#FFFFFF">7</td>
  </tr>
  <tr>
    <td style="background-color:#DAF7A6">8</td>
    <td style="background-color:#DAF7A6">9</td>
    <td style="background-color:#DAF7A6">10</td>
    <td style="background-color:#FFFFFF">11</td>
  </tr>
  <tr>
    <td style="background-color:#FFFFFF">12</td>
    <td style="background-color:#FFFFFF">13</td>
    <td style="background-color:#FFFFFF">14</td>
    <td style="background-color:#FFFFFF">15</td>
  </tr>

In [57]:
# De la segona a la última fila (no inclosa), de la primera a la última fila (no inclosa)
# Opció 1
a[1:3,    0:3]

array([[ 4,  5,  6],
       [ 8,  9, 10]])

In [58]:
# De la segona a la última fila (no inclosa), de la primera a la última fila (no inclosa)
# Opció2
a[1:-1,  :-1] 

array([[ 4,  5,  6],
       [ 8,  9, 10]])

**2. Selecció de certes coordenades de l'array**

En aquest cas, seleccionem les FILES (o les X) de les coordenades d'interès, que es relacionaran amb les COLUMNES (o les Y) dos a dos. Per tal d'agrupar totes les X i les Y, farem servir els claudàtors per tal d'indicar que es tracta d'una llista. En aquest exemple:
 - 0 es troba a (0,0)
 - 7 es troba a (1,3)
 - 13 es troba a (3,1)
 

<table>
  <tr>
    <td style="background-color:#DAF7A6">0</td>
    <td style="background-color:#FFFFFF">1</td>
    <td style="background-color:#FFFFFF">2</td>
    <td style="background-color:#FFFFFF">3</td>
  </tr>
  <tr>
    <td style="background-color:#FFFFFF">4</td>
    <td style="background-color:#FFFFFF">5</td>
    <td style="background-color:#FFFFFF">6</td>
    <td style="background-color:#DAF7A6">7</td>
  </tr>
  <tr>
    <td style="background-color:#FFFFFF">8</td>
    <td style="background-color:#FFFFFF">9</td>
    <td style="background-color:#FFFFFF">10</td>
    <td style="background-color:#FFFFFF">11</td>
  </tr>
  <tr>
    <td style="background-color:#FFFFFF">12</td>
    <td style="background-color:#DAF7A6">13</td>
    <td style="background-color:#FFFFFF">14</td>
    <td style="background-color:#FFFFFF">15</td>
  </tr>

In [10]:
# En una llista específiquem tots els índex per a cada eix de les posicions d'interès
a[[0, 1, 3], [0, 3, 1]] 

array([ 0,  7, 13])

**3. Selecció de certes seccions i posicions de l'array**

Combinem les dues maneres de seleccionar que hem vist. Per tant, en primer lloc seleccionem per slicing la secció de files que ens interessa. A continuació, fem servir els claudàtors per a generar una llista que limiti les columnes que volem. 

<hr>
<table>
  <tr>
    <td style="background-color:#DAF7A6">0</td>
    <td style="background-color:#FFFFFF">1</td>
    <td style="background-color:#DAF7A6">2</td>
    <td style="background-color:#DAF7A6">3</td>
  </tr>
  <tr>
    <td style="background-color:#FFFFFF">4</td>
    <td style="background-color:#FFFFFF">5</td>
    <td style="background-color:#FFFFFF">6</td>
    <td style="background-color:#FFFFFF">7</td>
  </tr>
  <tr>
    <td style="background-color:#DAF7A6">8</td>
    <td style="background-color:#FFFFFF">9</td>
    <td style="background-color:#DAF7A6">10</td>
    <td style="background-color:#DAF7A6">11</td>
  </tr>
  <tr>
    <td style="background-color:#FFFFFF">12</td>
    <td style="background-color:#FFFFFF">13</td>
    <td style="background-color:#FFFFFF">14</td>
    <td style="background-color:#FFFFFF">15</td>
  </tr>


In [20]:
"""Opció errònea: Si fem servir els claudàtors per a les files, en aquest cas, 
intentarà relacionarles coordenades de X i Y"""
a[[0,2] ,[0,2,3]]

IndexError: shape mismatch: indexing arrays could not be broadcast together with shapes (2,) (3,) 

In [21]:
print("array a:\n", a, "\n")

array a:
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]] 



In [22]:
"""Si ho fem per llistes, hauríem de fer-ho en dos passos"""
b = a[[0,2]] # selecciona les files 0 i 2 de la matriu a i crea una nova matriu b amb aquestes files. Això significa que b contindrà les files 0 i 2 de la matriu a
print("array b:\n", b)
b[:,[0,2,3]] # El primer : indica que volem mantenir totes les files de b, i [0, 2, 3] especifica les columnes que desitges seleccionar.

array b:
 [[ 0  1  2  3]
 [ 8  9 10 11]]


array([[ 0,  2,  3],
       [ 8, 10, 11]])

In [19]:
"""Opció correcta: selecció per slicing"""
a[::2, [0, 2, 3]] 
# El primer índex ::2 es refereix a les files i utilitza una notació de llescat (*slicing). En particular, ::2 significa que seleccionarà totes les files de començant des de la primera fila (índex 0) 
# i avançant de 2 en 2 files. Això significa que seleccionarà les files 0, 2, 4, 6, i així successivament.
# El segon índex [0, 2, 3] es refereix a les columnes que desitges seleccionar. Estàs especificant explícitament les columnes 0, 2 i 3.

array([[ 0,  2,  3],
       [ 8, 10, 11]])

## **Modificacions del contingut dels arrays**

Els arrays admeten assignació per tal de modificar el contingut

In [24]:
a[0] = -1
print(a)

a[-3::2] = -1
a

[[-1 -1 -1 -1]
 [-1 -1 -1 -1]
 [ 8  9 10 11]
 [-1 -1 -1 -1]]


array([[-1, -1, -1, -1],
       [-1, -1, -1, -1],
       [ 8,  9, 10, 11],
       [-1, -1, -1, -1]])

## **Exercici 1**

Emprant els _atributs_ dels _ndarray_ esbrineu en la següent cel·la:

In [25]:
mat_llista = [[1, 2, 3, 4] , [5, 6, 7, 8], [9, 10, 11, 12] ]
mat = np.array(mat_llista)
mat

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

- les dimensions de la variable `mat`

In [26]:
print ("DIMENSIONS:", mat.ndim)

DIMENSIONS: 2


- la seva forma, nombre de files i columnes

In [27]:
print ("SHAPE:", mat.shape)

SHAPE: (3, 4)


- el nombre d'elements que conté

In [28]:
print ("SIZE:", mat.size)

SIZE: 12


- comproveu que l'element de la tercera fila, segona columna de la llista i la matriu NumPy són el mateix. Comproveu-ho en les dues variables.

In [30]:
# llista == array
mat_llista[2][1] == mat[2, 1]

True

- creeu la mateixa matriu utilizant les funcions `arange` i `reshape`

In [33]:
mat_numpy = np.arange(1, 10).reshape(3, 3)
mat_numpy

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

## 7.5 Cerques i filtres:  Boolean array indexing

NumPy permet filtrar o fer *slices* amb arrays booleans, obtinguts per exemple d'operacions de comparació.

In [34]:
a = np.arange(4,16)
print(a)

idx = a > 10
print(idx)

a[idx]

[ 4  5  6  7  8  9 10 11 12 13 14 15]
[False False False False False False False  True  True  True  True  True]


array([11, 12, 13, 14, 15])

In [35]:
a[(a>2) & (a<7)]

array([4, 5, 6])

La funció `where()` retorna els índexs de l'array que compleixen una condició.

In [36]:
#Posicions dels valors que cumpleixen una determinada posició
idx = np.where(a>10)
print(idx)

a[idx]

(array([ 7,  8,  9, 10, 11], dtype=int64),)


array([11, 12, 13, 14, 15])

> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/> L'*slicing* crea una *vista* 
de l'array, no una copia com passa en llistes, tuples o strings. L'slice fa referència a la matriu original i modificacions en l'slice afecten a l'array original.
Per evitar aquest comportament es recomana fer servir la  funció `copy()`

In [37]:
a = np.arange(12)
print(a)

a_slice = a[3:5]
print(a_slice)

a_slice[:] = -1
print(a_slice)

a

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[3 4]
[-1 -1]


array([ 0,  1,  2, -1, -1,  5,  6,  7,  8,  9, 10, 11])

## **Exercici 2**

Crear el següent array de 3x3 i llavors:

```python
a = np.array( [[ 1,2,3], [4,5,6], [7,8,9]] )
```

1) selecciona el número 6
2) selecciona els números 4, 5, 7 i 8. 
3) selecciona l'última fila
4) selecciona la primera fila
5) inverteix l'ordre de les files de l'array
6) selecciona els números: 2, 6, 7.

In [48]:
a = np.array( [[ 1,2,3], [4,5,6], [7,8,9]] )
numero_sis = a[1, 2]
print("1. ", numero_sis, "\n")

res = a[1:3, 0:2]
print("2. ", res, "\n")

res3 = a[2, :]
print("3. ", res3, "\n")

res4 = a[0]
print("4. ", res4, "\n")

a_invertida = a[::-1, :]
print("5. ", a_invertida, "\n")

res6 = a[0:2, 1:2]
print("6. ", res6, "\n")

1.  6 

2.  [[4 5]
 [7 8]] 

3.  [7 8 9] 

4.  [1 2 3] 

5.  [[7 8 9]
 [4 5 6]
 [1 2 3]] 

6.  [[2]
 [5]] 



## 7.6 Operacions bàsiques entre arrays

Els operadors aritmètics dels arrays s'apliquen d'element a element (*element-wise*).

In [49]:
a = np.array([[1,2],[3,4]], dtype=np.float64)
a

array([[1., 2.],
       [3., 4.]])

In [50]:
b = np.array([[5,6],[7,8]], dtype=np.float64)
b

array([[5., 6.],
       [7., 8.]])

In [51]:
#Suma de dos arrays. ATENCIÓ: si no tenen igual dimensions, ens donarà error
a + b

array([[ 6.,  8.],
       [10., 12.]])

In [52]:
#Resta de dos arrays
a - b

array([[-4., -4.],
       [-4., -4.]])

In [53]:
# Arrel Quadrada
np.sqrt(a)

array([[1.        , 1.41421356],
       [1.73205081, 2.        ]])

In [54]:
a ** 2

array([[ 1.,  4.],
       [ 9., 16.]])

In [55]:
np.sin(a)

array([[ 0.84147098,  0.90929743],
       [ 0.14112001, -0.7568025 ]])

In [56]:
#Multiplicació de dos arrays
a * b

array([[ 5., 12.],
       [21., 32.]])

> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/> El símbol `*` fa una multiplicació *elementwise* (element a element) dels dos arrays. Això és diferent del producte escalar entre matrius, que es pot obtenir utilitzant la funció `dot()` (dot product)

In [57]:
np.dot(a,b)

array([[19., 22.],
       [43., 50.]])

## Funcions Universals

Les **[funcions universals](https://docs.scipy.org/doc/numpy/reference/ufuncs.html)** de numpy (ufunc) són funcions que operen en objectes *ndarray* element per element. Es a dir, dins de NumPy, aquestes funcions funcionen de manera elemental en un array, produint una matriu com a sortida.

- `numpy.min()` proporciona el valor mínim de l'array
- `numpy.argmin()` retorna la **posició** que ocupa el valor mínim dins de l'array
- `numpy.max()` proporciona el valor màxim de l'array
- `numpy.argmax()` retorna la **posició** que ocupa el valor màxim dins de l'array
- `numpy.mean()` proporciona la [mitjana aritmètica](https://ca.wikipedia.org/wiki/Mitjana_aritm%C3%A8tica) dels valors de l'array
- `numpy.var()`  proporciona la [variància](https://ca.wikipedia.org/wiki/Vari%C3%A0ncia) dels valors de l'array
- `numpy.std()` proporciona la [desviació estàndard](https://ca.wikipedia.org/wiki/Desviaci%C3%B3_tipus)
- `numpy.sum()` retorna el sumatori de tots els valors de l'array
- `numpy.prod()` retorna el productori de tots els valors de l'array

Per defecte, aquestes operacions s'apliquen a l'array independentment de la seva forma. Especificant el paràmetre `axis`, es pot aplicar una operació al llarg d'un eix concret de l'array



In [58]:
# Genera un array de 3x3 amb nombres enters de forma random
a = np.random.seed(0)
a = np.random.randint(50, size=(3,3))
a

array([[44, 47,  0],
       [ 3,  3, 39],
       [ 9, 19, 21]])

In [61]:
print(a.sum())
print(a.sum(axis=0))
print(a.sum(axis=1))
# print(a.sum(axis=2)) no detecta mai la última fila

185
[56 69 60]
[91 45 49]


In [62]:
print(a.min())
print(a.min(axis=0))
print(a.min(axis=1))

0
[3 3 0]
[0 3 9]


> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/> La majoria de funcions de NumPy es poden executar com a *funcions* `np.max(array)` o com a *métodes* `array.max()`

Adaptat de: http://www.labri.fr/perso/nrougier/teaching/numpy.100/

## **Exercici 3**

Crea un vector nul (que contingui únicament 0s) de mida 10, però en que el cinquè valor sigui 1

In [63]:
vector = np.zeros(10)
vector[4] = 1
vector

array([0., 0., 0., 0., 1., 0., 0., 0., 0., 0.])

## **Exercici 4**

Crea una matriu 3x3 amb valors de 0 a 8

In [64]:
mat = np.arange(9).reshape(3, 3)
mat

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

## **Exercici 5**

Normalitza una matriu random 5x5

**NOTA:** La normalizació (feature scaling) consisteix en estandaritzar un conjunt de variables independents. 
Aquesta acció és molt comú en el processat de dades. 

El mètode més senzill consisteix en reescalar les variables entre 0.0 i 1.0 seguint la fórmula seguent:


$$x'={\frac  {x-{\text{min}}(x)}{{\text{max}}(x)-{\text{min}}(x)}}$$

In [67]:
#comença així ...

np.random.seed(0)
x = np.random.random((5,5)) * 30 

min = x.min()
max = x.max()

x_normalized = (x - min) / (max - min)
x_normalized

array([[0.55153917, 0.7251367 , 0.60783077, 0.54743825, 0.42094786],
       [0.65283363, 0.43548501, 0.90938507, 0.98439526, 0.37898909],
       [0.80499445, 0.530756  , 0.57160496, 0.94467685, 0.05302344],
       [0.06981522, 0.        , 0.84766433, 0.79083723, 0.88667967],
       [1.        , 0.81275064, 0.46041422, 0.79331263, 0.10231222]])

## **Exercici 6**

Crea un array 10x10  amb uns a tots els marges i zeros a l'interior
<table>
  <tr>
    <td>1</td>
    <td>1</td> 
    <td>1</td>
    <td>1</td>
  </tr>
  <tr>
    <td>1</td>
    <td>0</td> 
    <td>0</td>
    <td>1</td>
  </tr>
    <tr>
    <td>1</td>
    <td>0</td> 
    <td>0</td>
    <td>1</td>
  </tr>
    <tr>
    <td>1</td>
    <td>1</td> 
    <td>1</td>
    <td>1</td>
  </tr>
  
</table>

In [72]:
mat = np.zeros((10, 10), dtype=int)
mat[0, :] = 1  # Primera fila
mat[-1, :] = 1  # Ùltima fila
mat[:, 0] = 1  # Primera columna
mat[:, -1] = 1  # Ùltima columna
mat

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])

## **Exercici 7**

Crea un array 10x10  amb un patró de tauler d'escacs.
<table>
  <tr>
    <td>1</td>
    <td>0</td> 
    <td>1</td>
    <td>0</td>
  </tr>
  <tr>
    <td>0</td>
    <td>1</td> 
    <td>0</td>
    <td>1</td>
  </tr>
    <tr>
    <td>1</td>
    <td>0</td> 
    <td>1</td>
    <td>0</td>
  </tr>
    <tr>
    <td>0</td>
    <td>1</td> 
    <td>0</td>
    <td>1</td>
  </tr>
  
</table>

In [74]:
mat = np.zeros((10, 10), dtype=int)
mat[0::2, 0::2] = 1 # seleccionem totes les files i columnes amb un pas de 2. En altres paraules, estem seleccionant les files i columnes en posicions pareixes(par) en la matriu.
mat[1::2, 1::2] = 1 # 1::2 comença en 1 i salta de 2 en 2
mat

array([[1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1, 0, 1]])

## **Exercici 8**

Donat una array Z d'una dimensió, canvia el signe dels elements entre els valors 3 i 8

In [77]:
Z = np.arange(11)
Z
rang = np.where((Z >= 3) & (Z <= 8))
Z[rang] *= -1
Z

array([ 0,  1,  2, -3, -4, -5, -6, -7, -8,  9, 10])

## **Exercici 9**

Crea un vector random de tamany 10 i de valors de 0-100. Canvia el seu valor màxim per zero

In [80]:
v = np.random.randint(0, 101, size=10)
print("vector: ", v, "\n")
im = np.argmax(v)
v[im] = 0
print("valor maxim == 0: ", v)

vector:  [79  4 42 58 31  1 65 41 57 35] 

valor maxim == 0:  [ 0  4 42 58 31  1 65 41 57 35]


## **Exercici 10**

Troba quin és el valor més proper dins un array (Z) a un valor donat (z). Pista: fes-ho a partir de la difència de Z amb el valor z.

In [82]:
Z = np.random.uniform(0,1,10)
z = 0.5

In [86]:
print(Z, "\n")
dif = np.abs(Z - z)

# Troba quin és el valor més proper dins un array (Z) a un valor donat (z)
prop = np.argmin(dif)

# el valor més proper
val_prop = Z[prop]

print("Valor més proper:", val_prop)
print("Index del valor més proper:", prop)

[0.65314004 0.17090959 0.35815217 0.75068614 0.60783067 0.32504723
 0.03842543 0.63427406 0.95894927 0.65279032] 

Valor més proper: 0.6078306687154678
Index del valor més proper: 4


## **Exercici 11**

Substitueix tots els nombres parells d'un array per -1

In [92]:
X = np.arange(20)
print("Sene canvis: ", X, "\n")

Sene canvis:  [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19] 



In [93]:
X[X % 2 == 0] = -1
print("Amb canvis: ", X, "\n")

Amb canvis:  [-1  1 -1  3 -1  5 -1  7 -1  9 -1 11 -1 13 -1 15 -1 17 -1 19] 



## **Exercici 12**

Troba les posicions (índex) on els array a i b coincideixin. 


In [95]:
x = np.array([1,2,3,2,3,4,3,4,5,6])
y = np.array([7,2,10,2,7,4,9,4,9,8])

In [97]:
res = np.where(x == y)
print("Posiciones donde a y b coinciden:", res)

Posiciones donde a y b coinciden: (array([1, 3, 5, 7], dtype=int64),)
