# Pràctiques de Nous Usos de la Informàtica

#### Requeriments per fer les pràctiques:

1) Una forma simple d'instal·lar tots els paquets necessaris és instal·lar la plataforma de distribució de Python Anaconda: https://store.continuum.io/
Aquesta plataforma instal·la automàticament un conjunt d'eines (matplotlib, NumPy, SciPy, NetworkX, iPython, pandas, etc.) que constitueixen l'entorn de computació científica necessari per desenvolupar les pràctiques d'aquesta assignatura. L'altra opció és instal·lar independentment els paquets matplotlib, NumPy, SciPy, NetworkX, iPython i pandas.

2) Les pràctiques es poden lliurar en forma de "notebook" de iPython que contingui tot el programari desenvolupat per l'alumne o simplement en un mòdul de Python que contingui tot el programari necessari per executar la pràctica. Informació sobre iPython: http://ipython.org/

### El mòdul NumPy i la seva estrucutura de dades: el $ndarray$

Els $ndarray$ són uns (objectes) array multidimensional de dades optimitzat per a ser processat amb llibreries de baix nivell sense fer cap còpia de les dades emmagatzemandes en un programa Python.

In [1]:
import numpy as np
# construcció d'un ndarray
arr = np.array([0, 9, 5, 4, 3])
arr

array([0, 9, 5, 4, 3])

Hi ha diverses funcions que poden crear aquesta estructura de dades:

In [2]:
np.zeros(4)

array([ 0.,  0.,  0.,  0.])

In [3]:
np.arange(4)

array([0, 1, 2, 3])

### 'dtype' i 'shape'

Els arrays de NumPy són contenidors de dades homogènies (totes han de ser del mateix tipus).  La propietat 'dtype' és un objecte que especifica el tipus de dada de cada element.  La propietat 'shape' és una tupla que indica la mida de cada dimensió.

In [4]:
arr = np.random.randn(5)
arr

array([ 0.79418869,  1.08200557, -1.79547104, -0.54005534, -0.39817475])

In [5]:
arr.dtype

dtype('float64')

In [6]:
arr.shape

(5L,)

In [7]:
# es pot especificar el tipus que es vol
np.empty(4, dtype=np.int32)

array([0, 0, 0, 0])

In [8]:
np.array(['groc','vermell','verd'], dtype=np.string_)

array(['groc', 'vermell', 'verd'], 
      dtype='|S7')

In [4]:
float_arr = np.array([4.4, 5.52425, -0.1234, 98.1], dtype=np.float64)
float_arr

array([  4.4    ,   5.52425,  -0.1234 ,  98.1    ])

In [10]:
# trunquem la part decimal
float_arr.astype(np.int32)

array([ 4,  5,  0, 98])

### 'Indexing' i 'slicing' de $ndarray$

In [6]:
arr = np.array([0, 9, 1, 4, 64])
arr[3]

4

In [9]:
arr[1:4]

array([9, 1, 4])

### Indexació d'arrays multidimensionals.

In [10]:
arr_2d = np.array([[5,3,4],[0,1,2],[1,1,10],[0,0,0.1]])
arr_2d

array([[  5. ,   3. ,   4. ],
       [  0. ,   1. ,   2. ],
       [  1. ,   1. ,  10. ],
       [  0. ,   0. ,   0.1]])

In [14]:
# llegim la primera fila
arr_2d[0]

array([ 5.,  3.,  4.])

In [15]:
# llegim la primera columna
arr_2d[:,0]

array([ 5.,  0.,  1.,  0.])

In [16]:
# llegim les dues primeres files
arr_2d[:2]

array([[ 5.,  3.,  4.],
       [ 0.,  1.,  2.]])

### Aneu amb compte, són vistes, no còpies!

In [11]:
arr = np.array([0, 3, 1, 4, 64])
arr

array([ 0,  3,  1,  4, 64])

In [12]:
subarr = arr[2:4]
subarr[1] = 99
print subarr
arr

[ 1 99]


array([ 0,  3,  1, 99, 64])

In [13]:
arr = np.array([0, 3, 1, 4, 64])
subarr = arr[2:4].copy()
subarr[1] = 99
print subarr
print arr

[ 1 99]
[ 0  3  1  4 64]


### Indexació Booleana
L'indexació Booleana permet selecionar subconjunts de dades d'un array que satisfan una condició determinada.

In [15]:
arr = np.array([10, 20, 30])
idx = np.array([True, False, True])
arr[idx]

array([10, 30])

In [16]:
arr_2d = np.random.randn(5)
arr_2d

array([ 0.85549636,  2.45107022, -0.35383705,  2.26055215,  0.12654661])

In [17]:
arr_2d < 0

array([False, False,  True, False, False], dtype=bool)

In [18]:
arr_2d[arr_2d < 0]

array([-0.35383705])

In [19]:
arr_2d[(arr_2d > -0.5) & (arr_2d < 0)]

array([-0.35383705])

In [20]:
arr_2d[arr_2d < 0] = 0
arr_2d

array([ 0.85549636,  2.45107022,  0.        ,  2.26055215,  0.12654661])

In [26]:
arr = np.arange(18)
print arr, arr.shape
arr = np.arange(18).reshape(6,3)
print arr, arr.shape

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17] (18,)
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]
 [15 16 17]] (6, 3)


In [27]:
# selecció "fancy" de files en un ordre particular
arr[[0,4,4]]

array([[ 0,  1,  2],
       [12, 13, 14],
       [12, 13, 14]])

In [30]:
# indexació en elements particulars i aplanament amb format [x1, x2, x3], [y1, y2, y3]
arr[[5,3,1],[2,1,0]]

array([17, 10,  3])

In [33]:
# selecció d'una submatriu
arr[np.ix_([5,3,1],[2,1])]

array([[17, 16],
       [11, 10],
       [ 5,  4]])

### Vectorització
La vectorització ens permet expressar operacions sense instruccions d'iteració.
Les operacions entre arrays amb la mateixa forma es fan a nivell d'element. 

In [34]:
arr = np.array([0, 9, 1.02, 4, 32])
arr - arr

array([ 0.,  0.,  0.,  0.,  0.])

In [35]:
arr * arr

array([    0.    ,    81.    ,     1.0404,    16.    ,  1024.    ])

### Difusió de regles
Les operacions vectoritzades entre arrays de diferents formes i entre arrays i escalars estan subjectes a les regles de la "difusió":

In [36]:
arr = np.array([0, 9, 1.02, 4, 64])
5 * arr 

array([   0. ,   45. ,    5.1,   20. ,  320. ])

In [37]:
10 + arr

array([ 10.  ,  19.  ,  11.02,  14.  ,  74.  ])

In [38]:
arr ** .5

array([ 0.        ,  3.        ,  1.00995049,  2.        ,  8.        ])

El cas dels arrays de formes diferents és una mica més complicat. La idea és que la forma dels operands s'ha de sotmetre a una certa especificació:

In [39]:
arr = np.random.randn(4,2)
arr

array([[ 0.01942978, -1.82845925],
       [-2.752611  , -0.42143508],
       [-0.90819095,  1.44530208],
       [ 0.90541665,  0.30721776]])

In [40]:
mean_col = np.mean(arr, axis=0) #axis=0 refers to the columns of the matrix
mean_col

array([-0.68398888, -0.12434362])

In [41]:
normalized_col = arr - mean_col
print normalized_col

[[ 0.70341866 -1.70411563]
 [-2.06862212 -0.29709146]
 [-0.22420207  1.5696457 ]
 [ 1.58940553  0.43156139]]


In [42]:
np.mean(normalized_col, axis=0)

array([  0.00000000e+00,   2.77555756e-17])

In [43]:
mean_row = np.mean(arr, axis=1) #axis=1 refers to the rows of the matrix
mean_row

array([-0.90451474, -1.58702304,  0.26855556,  0.6063172 ])

In [44]:
print arr
print mean_row
normalized_rows = (arr.T - mean_row).T #arr.T transposes the matrix to operate with rows
print normalized_rows

[[ 0.01942978 -1.82845925]
 [-2.752611   -0.42143508]
 [-0.90819095  1.44530208]
 [ 0.90541665  0.30721776]]
[-0.90451474 -1.58702304  0.26855556  0.6063172 ]
[[ 0.92394452 -0.92394452]
 [-1.16558796  1.16558796]
 [-1.17674652  1.17674652]
 [ 0.29909944 -0.29909944]]


In [45]:
type(mean_row)


numpy.ndarray

In [46]:
# make the 1-D array a column vector, so we can operate with the matrix without transposing it
mean_row.reshape((4,1))

array([[-0.90451474],
       [-1.58702304],
       [ 0.26855556],
       [ 0.6063172 ]])

In [47]:
centered_rows = arr - mean_row.reshape((4,1))
centered_rows

array([[ 0.92394452, -0.92394452],
       [-1.16558796,  1.16558796],
       [-1.17674652,  1.17674652],
       [ 0.29909944, -0.29909944]])

In [48]:
centered_rows.mean(axis=1)

array([  0.00000000e+00,  -1.11022302e-16,   0.00000000e+00,
         0.00000000e+00])

#### Una nota sobre NANs: 
Segons la definició, NaN és un valor de punt flotant que no és igual a cap altre valor de punt flotant. 

In [52]:
np.nan != np.nan

True

In [53]:
np.array([10,5,4,np.nan,1,np.nan]) == np.nan

array([False, False, False, False, False, False], dtype=bool)

In [54]:
np.isnan(np.array([10,5,4,np.nan,1,np.nan]))

array([False, False, False,  True, False,  True], dtype=bool)

<b>Exercici 9:</b> Donat el següent ndarray, accedeix al seu tercer element

In [55]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [56]:
arr[2]

2

<b>Exercici 10:</b> Donat el següent ndarray, accedeix a l'última columna

In [135]:
import numpy as np
arr = np.array([[5,4,2,5],[4,5,1,12],[0,1,5,4]])
arr

array([[ 5,  4,  2,  5],
       [ 4,  5,  1, 12],
       [ 0,  1,  5,  4]])

In [137]:
arr[:,-1]

array([ 5, 12,  4])

<b>Exercici 11:</b> Donat el següent ndrray, selecciona els elements que són més grans que zero. 

In [61]:
arr = np.array([[-0.28179535,  1.80896278, -1.08991099, -1.20264003,  0.61651465],
                [ 0.49983669,  0.28402664, -0.12685554,  0.81266623,  0.96586634]])

In [62]:
arr[arr > 0]

array([ 1.80896278,  0.61651465,  0.49983669,  0.28402664,  0.81266623,
        0.96586634])

<b>Exercici 12:</b> Donat el següent ndarray, posa els dos últims elements a valor 10. 

In [89]:
arr = np.array([1,2,-10,5,-6])
arr

array([  1,   2, -10,   5,  -6])

In [90]:
arr[-2:] = 10
arr

array([  1,   2, -10,  10,  10])

<b>Exercici 13</b>: Donat el següent ndrray, calcula la suma dels seus elements. 

In [142]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [143]:
suma = np.sum(arr)
suma

45

<b>Exercici 14: </b> Donat el següent ndrray, calcula la mitja dels seus elements. 

In [80]:
arr = np.array([50,-79,80,35])
arr

array([ 50, -79,  80,  35])

In [81]:
mean = np.mean(arr)
mean

21.5

## pandas: Python Data Analysis Library

### Què és?

pandas és un mòdul que afegeix unes estructura de dades noves que ens permet manipular dades.
Més concretament, defineix les següents eines:

- objectes indexats: Series i DataFrame
- aliniament de dades
- manipulació de dades perdudes (missing data)
- agregació amb "groupby"
- manipulació de dades amb "reshape, pivot, slice, merge, join"

In [91]:
import pandas as pd

### Series: arrays etiquetats

Series és l'estructura de dades més simple. 
És una subclasse de ndarray que soporta índexos més rics.

In [92]:
import pandas as pd

values = np.array([2.0, 1.0, 5.0, 0.97, 3.0, 10.0, 0.0599, 8.0])
ser = pd.Series(values)
print ser

0     2.0000
1     1.0000
2     5.0000
3     0.9700
4     3.0000
5    10.0000
6     0.0599
7     8.0000
dtype: float64


In [93]:
values = np.array([2.0, 1.0, 5.0, 0.97, 3.0, 10.0, 0.0599, 8.0])
labels = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']
ser = pd.Series(data=values, index=labels)
print ser

A     2.0000
B     1.0000
C     5.0000
D     0.9700
E     3.0000
F    10.0000
G     0.0599
H     8.0000
dtype: float64


In [94]:
movie_rating = {
    'age': 1,
    'gender': 'F',
    'genres': 'Drama',
    'movie_id': 1193,
    'occupation': 10,
    'rating': 5,
    'timestamp': 978300760,
    'title': "One Flew Over the Cuckoo's Nest (1975)",
    'user_id': 1,
    'zip': '48067'
    }
ser = pd.Series(movie_rating)
print ser

age                                                1
gender                                             F
genres                                         Drama
movie_id                                        1193
occupation                                        10
rating                                             5
timestamp                                  978300760
title         One Flew Over the Cuckoo's Nest (1975)
user_id                                            1
zip                                            48067
dtype: object


In [95]:
ser.index

Index([u'age', u'gender', u'genres', u'movie_id', u'occupation', u'rating',
       u'timestamp', u'title', u'user_id', u'zip'],
      dtype='object')

In [96]:
ser.values

array([1, 'F', 'Drama', 1193, 10, 5, 978300760,
       "One Flew Over the Cuckoo's Nest (1975)", 1, '48067'], dtype=object)

#### Indexació de Series

In [97]:
ser[0]

1

In [98]:
ser['gender']

'F'

In [99]:
ser.get_value('gender')

'F'

#### Operacions entre Series amb diferents índexos

In [100]:
ser_1 = pd.Series(data=[1,3,4], index=['A', 'B', 'C'])
ser_2 = pd.Series(data=[5,5,5], index=['A', 'G', 'C'])
print ser_1 + ser_2

A    6.0
B    NaN
C    9.0
G    NaN
dtype: float64


### DataFrame

El DataFrame és la versió bi-dimensional de la Series.
Es pot veure com un full de càlcul on cada columna és una Series.

In [101]:
# construcció
pd.DataFrame({'col_1': [0.12, 7, 45, 10], 'col_2': [0.9, 9, 34, 11]})

Unnamed: 0,col_1,col_2
0,0.12,0.9
1,7.0,9.0
2,45.0,34.0
3,10.0,11.0


Podem definir explícitament els noms de les columnes i dels índexos. 

In [102]:
pd.DataFrame(data={'col_1': [0.12, 7, 45, 10], 'col_2': [0.9, 9, 34, 11]},
             columns=['col_1', 'col_2', 'col_3'])

Unnamed: 0,col_1,col_2,col_3
0,0.12,0.9,
1,7.0,9.0,
2,45.0,34.0,
3,10.0,11.0,


In [103]:
pd.DataFrame(data={'col_1': [0.12, 7, 45, 10], 'col_2': [0.9, 9, 34, 11]},
             columns=['col_1', 'col_2', 'col_3'],
             index=['obs1', 'obs2', 'obs3', 'obs4'])


Unnamed: 0,col_1,col_2,col_3
obs1,0.12,0.9,
obs2,7.0,9.0,
obs3,45.0,34.0,
obs4,10.0,11.0,


També podem veure-ho com un diccionari d'objectes Series. 

In [118]:
movie_rating = {
    'gender': 'F',
    'genres': 'Drama',
    'movie_id': 1193,
    'rating': 5,
    'timestamp': 978300760,
    'user_id': 1,
    }
ser_1 = pd.Series(movie_rating)
ser_2 = pd.Series(movie_rating)
df = pd.DataFrame({'r_1': ser_1, 'r_2': ser_2})
df.columns.name = 'rating_events'
df.index.name = 'rating_data'
df

rating_events,r_1,r_2
rating_data,Unnamed: 1_level_1,Unnamed: 2_level_1
gender,F,F
genres,Drama,Drama
movie_id,1193,1193
rating,5,5
timestamp,978300760,978300760
user_id,1,1


In [119]:
df = df.T
df

rating_data,gender,genres,movie_id,rating,timestamp,user_id
rating_events,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
r_1,F,Drama,1193,5,978300760,1
r_2,F,Drama,1193,5,978300760,1


In [120]:
df.columns 

Index([u'gender', u'genres', u'movie_id', u'rating', u'timestamp', u'user_id'], dtype='object', name=u'rating_data')

In [121]:
df.index

Index([u'r_1', u'r_2'], dtype='object', name=u'rating_events')

In [122]:
df.values

array([['F', 'Drama', 1193, 5, 978300760, 1],
       ['F', 'Drama', 1193, 5, 978300760, 1]], dtype=object)

#### Afegir/Borrar entrades

In [123]:
df = pd.DataFrame({'r_1': ser_1, 'r_2': ser_2})
df.drop('genres', axis=0)

Unnamed: 0_level_0,r_1,r_2
rating_data,Unnamed: 1_level_1,Unnamed: 2_level_1
gender,F,F
movie_id,1193,1193
rating,5,5
timestamp,978300760,978300760
user_id,1,1


In [124]:
df.drop('r_1', axis=1)

Unnamed: 0_level_0,r_2
rating_data,Unnamed: 1_level_1
gender,F
genres,Drama
movie_id,1193
rating,5
timestamp,978300760
user_id,1


In [125]:
# compte amb l'ordre!
df['r_3'] = ['F', 'Drama', 1193, 5, 978300760, 1]
df

Unnamed: 0_level_0,r_1,r_2,r_3
rating_data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
gender,F,F,F
genres,Drama,Drama,Drama
movie_id,1193,1193,1193
rating,5,5,5
timestamp,978300760,978300760,978300760
user_id,1,1,1


#### Indexació del DataFrame

Podem indexar una columna per la seva etiqueta o amb la notació de punt. 

In [128]:
df = pd.DataFrame(data={'col_1': [0.12, 7, 45, 10], 'col_2': [0.9, 9, 34, 11]},
                  columns=['col_1', 'col_2', 'col_3'],
                  index=['obs1', 'obs2', 'obs3', 'obs4'])
print df
df['col_1']

      col_1  col_2 col_3
obs1   0.12    0.9   NaN
obs2   7.00    9.0   NaN
obs3  45.00   34.0   NaN
obs4  10.00   11.0   NaN


obs1     0.12
obs2     7.00
obs3    45.00
obs4    10.00
Name: col_1, dtype: float64

In [129]:
df.col_1

obs1     0.12
obs2     7.00
obs3    45.00
obs4    10.00
Name: col_1, dtype: float64

També podem seleccionar un subconjunt de columnes: 

In [132]:
df[['col_2', 'col_1']]

Unnamed: 0,col_2,col_1
obs1,0.9,0.12
obs2,9.0,7.0
obs3,34.0,45.0
obs4,11.0,10.0


El mètode .ix ens permet indexar certes columnes o files/columnes:

In [138]:
df.ix['obs3']

col_1     45
col_2     34
col_3    NaN
Name: obs3, dtype: object

In [139]:
df.ix[0]

col_1    0.12
col_2     0.9
col_3     NaN
Name: obs1, dtype: object

In [140]:
df.ix[:2]

Unnamed: 0,col_1,col_2,col_3
obs1,0.12,0.9,
obs2,7.0,9.0,


In [144]:
df.ix[:2, 'col_2']

obs1    0.9
obs2    9.0
Name: col_2, dtype: float64

In [145]:
df.ix[:2, ['col_1', 'col_2']]

Unnamed: 0,col_1,col_2
obs1,0.12,0.9
obs2,7.0,9.0


<b>Exercici 15</b>: Donat el següent DataFrame, afegeix-li una columna.

In [150]:
df = pd.DataFrame({'col1': [1,2,3,4]})
df

Unnamed: 0,col1
0,1
1,2
2,3
3,4


In [151]:
df['col2'] = [5, 6, 7, 8]
df

Unnamed: 0,col1,col2
0,1,5
1,2,6
2,3,7
3,4,8


<b>Exercici 16:</b> Donat el següent DataFrame, elimna la fila 'd'.

In [152]:
df = pd.DataFrame({'col1': [1,2,3,4]}, index = ['a','b','c','d'])
df

Unnamed: 0,col1
a,1
b,2
c,3
d,4


In [154]:
df.drop('b', axis=0)

Unnamed: 0,col1
a,1
c,3
d,4


<b>Exercici 17:</b> Donades aquestes tres sèries, crea un DataFrame que les tingui per columnes.

In [164]:
ser_1 = pd.Series(np.random.randn(6))
ser_2 = pd.Series(np.random.randn(6))
ser_3 = pd.Series(np.random.randn(6))

In [170]:
df = pd.DataFrame({'u1' : ser_1, 'u2' : ser_2, 'u3' : ser_3})
df

Unnamed: 0,u1,u2,u3
0,0.89024,-1.531722,-2.177923
1,0.506107,0.312537,1.738614
2,0.151292,-0.426719,-1.544663
3,-0.072472,0.300003,0.718677
4,0.681101,0.991422,1.475873
5,-1.10843,0.776589,0.648875


<b>Exercici 18</b>: Donades les taules df (que correspon a una sèrie d'espectadors) i dg (que correspon a una sèrie de pel·licules puntuades pels espectadors) següents: (1) Uneix tota la informació en una única taula m. (2) Calcula el coeficient de correlació de Pearson entre l'usuari 1 i l'usuari 2 en funció de les pel·licules que han vist els dos. 

In [211]:
import scipy.stats.stats as st
df = pd.DataFrame({'User' : [1,2,4,6,8], 'Age' : [22, 33,41,13,28], 'Sex' : ['a','b','a','a','a']})
dg = pd.DataFrame({'Mov' : [1,2,1,4,5,6,2,15], 'Rating' : [0.1, 0.9, 0.9,0.4,0.6,0.8,0.1,0.8], 'User' : [1,1,2,3,4,5,2,2]})
print dg
print df

   Mov  Rating  User
0    1     0.1     1
1    2     0.9     1
2    1     0.9     2
3    4     0.4     3
4    5     0.6     4
5    6     0.8     5
6    2     0.1     2
7   15     0.8     2
   Age Sex  User
0   22   a     1
1   33   b     2
2   41   a     4
3   13   a     6
4   28   a     8


In [223]:
dm = df.merge(dg, how='outer') #Fuck me that was easy and I couldn't get it done
m = dm.pivot(columns='User', index='Mov', values='Rating') #Setting up the [User, Movie, Rating] DataFrame
print m, '\n\n', m.corr() #Table to find correlation between users
m.corr()

User   1.0  2.0  3.0  4.0  5.0  6.0  8.0
Mov                                     
NaN    NaN  NaN  NaN  NaN  NaN  NaN  NaN
 1.0   0.1  0.9  NaN  NaN  NaN  NaN  NaN
 2.0   0.9  0.1  NaN  NaN  NaN  NaN  NaN
 4.0   NaN  NaN  0.4  NaN  NaN  NaN  NaN
 5.0   NaN  NaN  NaN  0.6  NaN  NaN  NaN
 6.0   NaN  NaN  NaN  NaN  0.8  NaN  NaN
 15.0  NaN  0.8  NaN  NaN  NaN  NaN  NaN 

User  1.0  2.0  3.0  4.0  5.0  6.0  8.0
User                                   
1.0   1.0 -1.0  NaN  NaN  NaN  NaN  NaN
2.0  -1.0  1.0  NaN  NaN  NaN  NaN  NaN
3.0   NaN  NaN  NaN  NaN  NaN  NaN  NaN
4.0   NaN  NaN  NaN  NaN  NaN  NaN  NaN
5.0   NaN  NaN  NaN  NaN  NaN  NaN  NaN
6.0   NaN  NaN  NaN  NaN  NaN  NaN  NaN
8.0   NaN  NaN  NaN  NaN  NaN  NaN  NaN


User,1.0,2.0,3.0,4.0,5.0,6.0,8.0
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1.0,1.0,-1.0,,,,,
2.0,-1.0,1.0,,,,,
3.0,,,,,,,
4.0,,,,,,,
5.0,,,,,,,
6.0,,,,,,,
8.0,,,,,,,


In [225]:
user_1 = m[[1]].squeeze()
user_2 = m[[2]].squeeze()

user_1.corr(user_2) #Finding Pearson's coeficient based on two correlated users

-0.99999999999999978