# Pràctiques de Nous Usos de la Informàtica

#### Requeriments per fer les pràctiques:

1) Una forma simple d'instal·lar tots els paquets necessaris és instal·lar la plataforma de distribució de Python Anaconda: https://store.continuum.io/
Aquesta plataforma instal·la automàticament un conjunt d'eines (matplotlib, NumPy, SciPy, NetworkX, iPython, pandas, etc.) que constitueixen l'entorn de computació científica necessari per desenvolupar les pràctiques d'aquesta assignatura. L'altra opció és instal·lar independentment els paquets matplotlib, NumPy, SciPy, NetworkX, iPython i pandas.

2) Les pràctiques es poden lliurar en forma de "notebook" de iPython que contingui tot el programari desenvolupat per l'alumne o simplement en un mòdul de Python que contingui tot el programari necessari per executar la pràctica. Informació sobre iPython: http://ipython.org/

### El mòdul NumPy i la seva estrucutura de dades: el $ndarray$

Els $ndarray$ són uns (objectes) array multidimensional de dades optimitzat per a ser processat amb llibreries de baix nivell sense fer cap còpia de les dades emmagatzemandes en un programa Python.

In [8]:
import numpy as np
# construcció d'un ndarray
arr = np.array([0, 9, 5, 4, 3])
arr

array([0, 9, 5, 4, 3])

Hi ha diverses funcions que poden crear aquesta estructura de dades:

In [9]:
np.zeros(4)

array([ 0.,  0.,  0.,  0.])

In [10]:
np.arange(4)

array([0, 1, 2, 3])

### 'dtype' i 'shape'

Els arrays de NumPy són contenidors de dades homogènies (totes han de ser del mateix tipus).  La propietat 'dtype' és un objecte que especifica el tipus de dada de cada element.  La propietat 'shape' és una tupla que indica la mida de cada dimensió.

In [11]:
arr = np.random.randn(5)
arr

array([-0.21982218, -0.00998946, -0.47183553, -0.67563753, -0.29917885])

In [12]:
arr.dtype

dtype('float64')

In [13]:
arr.shape

(5,)

In [14]:
# es pot especificar el tipus que es vol
np.empty(4, dtype=np.int32)

array([-1965606952,       32552, -1965606952,       32552], dtype=int32)

In [15]:
np.array(['groc','vermell','verd'], dtype=np.string_)

array(['groc', 'vermell', 'verd'], 
      dtype='|S7')

In [16]:
float_arr = np.array([4.4, 5.52425, -0.1234, 98.1], dtype=np.float64)

In [17]:
# trunquem la part decimal
float_arr.astype(np.int32)

array([ 4,  5,  0, 98], dtype=int32)

### 'Indexing' i 'slicing' de $ndarray$

In [18]:
arr = np.array([0, 9, 1, 4, 64])
arr[3]

4

In [19]:
arr[1:3]

array([9, 1])

### Indexació d'arrays multidimensionals.

In [20]:
arr_2d = np.array([[5,3,4],[0,1,2],[1,1,10],[0,0,0.1]])
arr_2d

array([[  5. ,   3. ,   4. ],
       [  0. ,   1. ,   2. ],
       [  1. ,   1. ,  10. ],
       [  0. ,   0. ,   0.1]])

In [21]:
# llegim la primera fila
arr_2d[0]

array([ 5.,  3.,  4.])

In [22]:
# llegim la primera columna
arr_2d[:,0]

array([ 5.,  0.,  1.,  0.])

In [23]:
# llegim les dues primeres files
arr_2d[:2]

array([[ 5.,  3.,  4.],
       [ 0.,  1.,  2.]])

### Aneu amb compte, són vistes, no còpies!

In [24]:
arr = np.array([0, 3, 1, 4, 64])
arr

array([ 0,  3,  1,  4, 64])

In [25]:
subarr = arr[2:4]
subarr[1] = 99
print subarr
arr

[ 1 99]


array([ 0,  3,  1, 99, 64])

In [26]:
arr = np.array([0, 3, 1, 4, 64])
subarr = arr[2:4].copy()
subarr[1] = 99
print subarr
print arr

[ 1 99]
[ 0  3  1  4 64]


### Indexació Booleana
L'indexació Booleana permet selecionar subconjunts de dades d'un array que satisfan una condició determinada.

In [27]:
arr = np.array([10, 20])
idx = np.array([True, False])
arr[idx]

array([10])

In [28]:
arr_2d = np.random.randn(5)
arr_2d

array([ 0.45522424, -2.15933482, -0.70486   ,  0.85431153, -0.20050285])

In [29]:
arr_2d < 0

array([False,  True,  True, False,  True], dtype=bool)

In [30]:
arr_2d[arr_2d < 0]

array([-2.15933482, -0.70486   , -0.20050285])

In [31]:
arr_2d[(arr_2d > -0.5) & (arr_2d < 0)]

array([-0.20050285])

In [32]:
arr_2d[arr_2d < 0] = 0
arr_2d

array([ 0.45522424,  0.        ,  0.        ,  0.85431153,  0.        ])

In [33]:
arr = np.arange(18).reshape(6,3)
arr

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14],
       [15, 16, 17]])

In [34]:
# selecció "fancy" de files en un ordre particular
arr[[0,4,4]]

array([[ 0,  1,  2],
       [12, 13, 14],
       [12, 13, 14]])

In [35]:
# indexació en elements particulars i aplanament
arr[[5,3,1],[2,1,0]]

array([17, 10,  3])

In [36]:
# selecció d'una submatriu
arr[np.ix_([5,3,1],[2,1])]

array([[17, 16],
       [11, 10],
       [ 5,  4]])

### Vectorització
La vectorització ens permet expressar operacions sense instruccions d'iteració.
Les operacions entre arrays amb la mateixa forma es fan a nivell d'element. 

In [37]:
arr = np.array([0, 9, 1.02, 4, 32])
arr - arr

array([ 0.,  0.,  0.,  0.,  0.])

In [38]:
arr * arr

array([    0.    ,    81.    ,     1.0404,    16.    ,  1024.    ])

### Difusió de regles
Les operacions vectoritzades entre arrays de diferents formes i entre arrays i escalars estan subjectes a les regles de la "difusió":

In [39]:
arr = np.array([0, 9, 1.02, 4, 64])
5 * arr 

array([   0. ,   45. ,    5.1,   20. ,  320. ])

In [40]:
10 + arr

array([ 10.  ,  19.  ,  11.02,  14.  ,  74.  ])

In [41]:
arr ** .5

array([ 0.        ,  3.        ,  1.00995049,  2.        ,  8.        ])

El cas dels arrays de formes diferents és una mica més complicat. La idea és que la forma dels operands s'ha de sotmetre a una certa especificació:

In [42]:
arr = np.random.randn(4,2)
arr

array([[-0.76078273,  0.75041199],
       [ 2.66049976, -1.6022376 ],
       [ 1.81952317,  2.12738765],
       [-0.7460702 ,  1.07943266]])

In [43]:
mean_col = np.mean(arr, axis=0)
mean_col

array([ 0.7432925 ,  0.58874868])

In [44]:
normalized_col = arr - mean_col
print normalized_col

[[-1.50407523  0.16166332]
 [ 1.91720726 -2.19098628]
 [ 1.07623067  1.53863897]
 [-1.4893627   0.49068399]]


In [45]:
np.mean(normalized_col, axis=0)

array([  0.00000000e+00,  -2.77555756e-17])

In [46]:
mean_row = np.mean(arr, axis=1)
mean_row

array([-0.00518537,  0.52913108,  1.97345541,  0.16668123])

In [47]:
print arr
print mean_row
normalized_rows = (arr.T - mean_row).T
print normalized_rows

[[-0.76078273  0.75041199]
 [ 2.66049976 -1.6022376 ]
 [ 1.81952317  2.12738765]
 [-0.7460702   1.07943266]]
[-0.00518537  0.52913108  1.97345541  0.16668123]
[[-0.75559736  0.75559736]
 [ 2.13136868 -2.13136868]
 [-0.15393224  0.15393224]
 [-0.91275143  0.91275143]]


In [48]:
type(mean_row)


numpy.ndarray

In [49]:
# make the 1-D array a column vector
mean_row.reshape((4,1))

array([[-0.00518537],
       [ 0.52913108],
       [ 1.97345541],
       [ 0.16668123]])

In [50]:
centered_rows = arr - mean_row.reshape((4,1))
centered_rows

array([[-0.75559736,  0.75559736],
       [ 2.13136868, -2.13136868],
       [-0.15393224,  0.15393224],
       [-0.91275143,  0.91275143]])

In [51]:
centered_rows.mean(axis=1)

array([  0.00000000e+00,   0.00000000e+00,  -1.11022302e-16,
         0.00000000e+00])

#### Una nota sobre NANs: 
Segons la definició, NaN és un valor de punt flotant que no és igual a cap altre valor de punt flotant. 

In [52]:
np.nan != np.nan

True

In [53]:
np.array([10,5,4,np.nan,1,np.nan]) == np.nan

array([False, False, False, False, False, False], dtype=bool)

In [54]:
np.isnan(np.array([10,5,4,np.nan,1,np.nan]))

array([False, False, False,  True, False,  True], dtype=bool)

<b>Exercici 9:</b> Donat el següent ndarray, accedeix al seu tercer element

In [55]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

<b>Exercici 10:</b> Donat el següent ndarray, accedeix a l'última columna

In [56]:
import numpy as np
arr = np.array([[5,4,2,5],[4,5,1,12],[0,1,5,4]])

<b>Exercici 11:</b> Donat el següent ndrray, selecciona els elements que són més grans que zero. 

In [57]:
arr = np.array([[-0.28179535,  1.80896278, -1.08991099, -1.20264003,  0.61651465],
                [ 0.49983669,  0.28402664, -0.12685554,  0.81266623,  0.96586634]])

<b>Exercici 12:</b> Donat el següent ndarray, posa els dos últims elements a valor 10. 

In [58]:
arr = np.array([1,2,-10,5,-6])

<b>Exercici 13</b>: Donat el següent ndrray, calcula la suma dels seus elements. 

In [59]:
arr = np.arange(10)

<b>Exercici 14: </b> Donat el següent ndrray, calcula la mitja dels seus elements. 

In [60]:
arr = np.array([50,-79,80,35])

## pandas: Python Data Analysis Library

### Què és?

pandas és un mòdul que afegeix unes estructura de dades noves que ens permet manipular dades.
Més concretament, defineix les següents eines:

- objectes indexats: Series i DataFrame
- aliniament de dades
- manipulació de dades perdudes (missing data)
- agregació amb "groupby"
- manipulació de dades amb "reshape, pivot, slice, merge, join"

In [61]:
import pandas as pd

ImportError: No module named pandas

### Series: arrays etiquetats

Series és l'estructura de dades més simple. 
És una subclasse de ndarray que soporta índexos més rics.

In [None]:
import pandas as pd

values = np.array([2.0, 1.0, 5.0, 0.97, 3.0, 10.0, 0.0599, 8.0])
ser = pd.Series(values)
print ser

In [None]:
values = np.array([2.0, 1.0, 5.0, 0.97, 3.0, 10.0, 0.0599, 8.0])
labels = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']
ser = pd.Series(data=values, index=labels)
print ser

In [None]:
movie_rating = {
    'age': 1,
    'gender': 'F',
    'genres': 'Drama',
    'movie_id': 1193,
    'occupation': 10,
    'rating': 5,
    'timestamp': 978300760,
    'title': "One Flew Over the Cuckoo's Nest (1975)",
    'user_id': 1,
    'zip': '48067'
    }
ser = pd.Series(movie_rating)
print ser

In [None]:
ser.index

In [None]:
ser.values

#### Indexació de Series

In [None]:
ser[0]

In [None]:
ser['gender']

In [None]:
ser.get_value('gender')

#### Operacions entre Series amb diferents índexos

In [None]:
ser_1 = pd.Series(data=[1,3,4], index=['A', 'B', 'C'])
ser_2 = pd.Series(data=[5,5,5], index=['A', 'G', 'C'])
print ser_1 + ser_2

### DataFrame

El DataFrame és la versió bi-dimensional de la Series.
Es pot veure com un full de càlcul on cada columna és una Series.

In [None]:
# construcció
pd.DataFrame({'col_1': [0.12, 7, 45, 10], 'col_2': [0.9, 9, 34, 11]})

Podem definir explícitament els noms de les columnes i dels índexos. 

In [None]:
pd.DataFrame(data={'col_1': [0.12, 7, 45, 10], 'col_2': [0.9, 9, 34, 11]},
             columns=['col_1', 'col_2', 'col_3'])

In [None]:
pd.DataFrame(data={'col_1': [0.12, 7, 45, 10], 'col_2': [0.9, 9, 34, 11]},
             columns=['col_1', 'col_2', 'col_3'],
             index=['obs1', 'obs2', 'obs3', 'obs4'])


També podem veure-ho com un diccionari d'objectes Series. 

In [None]:
movie_rating = {
    'gender': 'F',
    'genres': 'Drama',
    'movie_id': 1193,
    'rating': 5,
    'timestamp': 978300760,
    'user_id': 1,
    }
ser_1 = pd.Series(movie_rating)
ser_2 = pd.Series(movie_rating)
df = pd.DataFrame({'r_1': ser_1, 'r_2': ser_2})
df.columns.name = 'rating_events'
df.index.name = 'rating_data'
df

In [None]:
df = df.T
df

In [None]:
df.columns 

In [None]:
df.index

In [None]:
df.values

#### Afegir/Borrar entrades

In [None]:
df = pd.DataFrame({'r_1': ser_1, 'r_2': ser_2})
df.drop('genres', axis=0)

In [None]:
df.drop('r_1', axis=1)

In [None]:
# compte amb l'ordre!
df['r_3'] = ['F', 'Drama', 1193, 5, 978300760, 1]
df

#### Indexació del DataFrame

Podem indexar una columna per la seva etiqueta o amb la notació de punt. 

In [None]:
df = pd.DataFrame(data={'col_1': [0.12, 7, 45, 10], 'col_2': [0.9, 9, 34, 11]},
                  columns=['col_1', 'col_2', 'col_3'],
                  index=['obs1', 'obs2', 'obs3', 'obs4'])
df['col_1']

In [None]:
df.col_1

També podem seleccionar un subconjunt de columnes: 

In [None]:
df[['col_2', 'col_1']]

El mètode .ix ens permet indexar certes columnes o files/columnes:

In [None]:
df.ix['obs3']

In [None]:
df.ix[0]

In [None]:
df.ix[:2]

In [None]:
df.ix[:2, 'col_2']

In [None]:
df.ix[:2, ['col_1', 'col_2']]

<b>Exercici 15</b>: Donat el següent DataFrame, afegeix-li una columna.

In [None]:
df = pd.DataFrame({'col1': [1,2,3,4]})
df

<b>Exercici 16:</b> Donat el següent DataFrame, elimna la fila 'd'.

In [None]:
df = pd.DataFrame({'col1': [1,2,3,4]}, index = ['a','b','c','d'])
df

<b>Exercici 17:</b> Donades aquestes tres sèries, crea un DataFrame que les tingui per columnes.

In [None]:
ser_1 = pd.Series(np.random.randn(6))
ser_2 = pd.Series(np.random.randn(6))
ser_3 = pd.Series(np.random.randn(6))

<b>Exercici 18</b>: Donades les taules df (que correspon a una sèrie d'espectadors) i dg (que correspon a una sèrie de pel·licules puntuades pels espectadors) següents: (1) Uneix tota la informació en una única taula m. (2) Calcula el coeficient de correlació de Pearson entre l'usuari 1 i l'usuari 2 en funció de les pel·licules que han vist els dos. 

In [None]:
import scipy.stats.stats as st
df = pd.DataFrame({'User' : [1,2,4,6,8], 'Age' : [22, 33,41,13,28], 'Sex' : ['a','b','a','a','a']})
dg = pd.DataFrame({'Mov' : [1,2,1,4,5,6,2,15], 'Rating' : [0.1, 0.9, 0.9,0.4,0.6,0.8,0.1,0.8], 'User' : [1,1,2,3,4,5,2,2]})
print dg
print df