# Pandas

Pandas ens permetrà treballar amb fulls de càlcul (ja siguin xls o csv) i fer operacions sobre taules de dades.

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Carreguem unes dades per lectura
df = pd.read_csv('data/dades.csv')
df.head(5)

Unnamed: 0,Nom,Nota
0,Paco,2.0
1,Lucia,1.0
2,Antonio,0.0
3,Ramon,0.4
4,Marta,10.0


Pandas, internament, defineix cada columna com a un vector de numpy d'un tipus homogeni:

In [3]:
df['Nom']

0         Paco
1        Lucia
2      Antonio
3        Ramon
4        Marta
5        Josep
6       Debora
7      Martina
8     Cristian
9      Antonio
10       Laura
11       Jesus
Name: Nom, dtype: object

In [4]:
df['Nota']

0      2.0
1      1.0
2      0.0
3      0.4
4     10.0
5      0.0
6      0.0
7      3.0
8     10.0
9      0.0
10     NaN
11     0.4
Name: Nota, dtype: float64

Com que cada columna és un vector de numpy, podem fer operacions amb aquest vector.
Quina és la nota mitja de la classe?

In [5]:
np.min(df['Nota']), df['Nota'].mean(), df['Nota'].max()

(0.0, 2.436363636363636, 10.0)

## 1. Entenent el que hem vist

De fet, cada columna d'un `DataFrame` (taula de dades) és el que s'anomena una `Series`. Com dèiem, una sèrie és un conjunt homogeni de dades. Per exemple

![alt text](data/dataframe.png "Title")


In [6]:
serie_1 = pd.Series([1, 2, 3, 4])
serie_1

0    1
1    2
2    3
3    4
dtype: int64

In [7]:
serie_2 = pd.Series([1.2, 3.0, 0.0, 6.5])
serie_2

0    1.2
1    3.0
2    0.0
3    6.5
dtype: float64

Les sèries es poden unir per fer un `DataFrame`:

In [8]:
dg = pd.DataFrame(
    {
        'Nota Continua': serie_1, 
         'Nota Reav': serie_2
    }
)
dg

Unnamed: 0,Nota Continua,Nota Reav
0,1,1.2
1,2,3.0
2,3,0.0
3,4,6.5


In [9]:
# Podem canviar el nom de les files (ATENCIÓ, NOM DE FILA != COLUMNA)
dg.index = ['Pablo', 'Maria', 'Antonio', 'Lucia']
dg

Unnamed: 0,Nota Continua,Nota Reav
Pablo,1,1.2
Maria,2,3.0
Antonio,3,0.0
Lucia,4,6.5


In [10]:
# I dona una pista visual de què indiquen els noms de les files
dg.index.name = 'Nom'
dg

Unnamed: 0_level_0,Nota Continua,Nota Reav
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Pablo,1,1.2
Maria,2,3.0
Antonio,3,0.0
Lucia,4,6.5


In [11]:
# I reanomenar columnes
dg.columns = ['Nota Continua', 'Nota Reavaluació']
dg

Unnamed: 0_level_0,Nota Continua,Nota Reavaluació
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Pablo,1,1.2
Maria,2,3.0
Antonio,3,0.0
Lucia,4,6.5


In [12]:
# Canvis de tipus
dg['Nota Continua'] = dg['Nota Continua'].astype(float)
dg

Unnamed: 0_level_0,Nota Continua,Nota Reavaluació
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Pablo,1.0,1.2
Maria,2.0,3.0
Antonio,3.0,0.0
Lucia,4.0,6.5


## 2. Formes de crear DataFrame's

In [13]:
pd.DataFrame(
    data=[
        ['Antonio', 2],
        ['Maria', 3],
        ['Asd', 99]
    ],
    columns=['Nom', 'Nota'], index=['DNI_1', 'DNI_2', 'DNI_3'])

Unnamed: 0,Nom,Nota
DNI_1,Antonio,2
DNI_2,Maria,3
DNI_3,Asd,99


In [14]:
def crear_dades():
    for i in range(10):
        yield 'abcdefghij'[i], i
        
pd.DataFrame(crear_dades())

Unnamed: 0,0,1
0,a,0
1,b,1
2,c,2
3,d,3
4,e,4
5,f,5
6,g,6
7,h,7
8,i,8
9,j,9


## 3. Tornem a les dades inicials

Hi ha dues coses rares:

* El professor s'ha equivocat i tenim 2 `Antonio`s, quan realment solament n'hi ha un
* La Laura no va presentar el treball i té un `NaN`

In [15]:
df

Unnamed: 0,Nom,Nota
0,Paco,2.0
1,Lucia,1.0
2,Antonio,0.0
3,Ramon,0.4
4,Marta,10.0
5,Josep,0.0
6,Debora,0.0
7,Martina,3.0
8,Cristian,10.0
9,Antonio,0.0


In [16]:
# Eliminem els duplicats
df_org = df
df = df.drop_duplicates()
df

Unnamed: 0,Nom,Nota
0,Paco,2.0
1,Lucia,1.0
2,Antonio,0.0
3,Ramon,0.4
4,Marta,10.0
5,Josep,0.0
6,Debora,0.0
7,Martina,3.0
8,Cristian,10.0
10,Laura,


In [17]:
# Posem un 0 a la Laura
df.loc[df['Nom'] == 'Laura', 'Nota'] = 0

In [18]:
df

Unnamed: 0,Nom,Nota
0,Paco,2.0
1,Lucia,1.0
2,Antonio,0.0
3,Ramon,0.4
4,Marta,10.0
5,Josep,0.0
6,Debora,0.0
7,Martina,3.0
8,Cristian,10.0
10,Laura,0.0


In [19]:
df['Nota'].min(), df['Nota'].mean(), df['Nota'].max()

(0.0, 2.436363636363636, 10.0)

In [20]:
df.loc[10, 'Nota'] = np.nan
np.mean(df['Nota'])

2.6799999999999997

**Nota**: Pandas vs Numpy

Quina diferencia veieu?

In [21]:
import numpy as np
np_array = np.asarray([1, 2, np.nan, 3])
np_array.mean()

nan

In [22]:
pd_series = pd.Series([1, 2, np.nan, 3])
pd_series.mean()

2.0

**Guardem les modificacions a disc**

In [23]:
df.to_csv('dades_mod.csv', index=None)

In [24]:
pd.read_csv('data/dades.csv', index_col='Nom')

Unnamed: 0_level_0,Nota
Nom,Unnamed: 1_level_1
Paco,2.0
Lucia,1.0
Antonio,0.0
Ramon,0.4
Marta,10.0
Josep,0.0
Debora,0.0
Martina,3.0
Cristian,10.0
Antonio,0.0


## 4. Més anàlisi de dades

In [25]:
df.head()

Unnamed: 0,Nom,Nota
0,Paco,2.0
1,Lucia,1.0
2,Antonio,0.0
3,Ramon,0.4
4,Marta,10.0


In [26]:
# Mirem quanta gent a tret la mateixa nota
df.groupby('Nota').count()

Unnamed: 0_level_0,Nom
Nota,Unnamed: 1_level_1
0.0,3
0.4,2
1.0,1
2.0,1
3.0,1
10.0,2


In [27]:
# Creem una nova columna "Reavaluació"
df['Reav'] = 0 # Amb un valor igual per tothom
df.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Reav'] = 0 # Amb un valor igual per tothom


Unnamed: 0,Nom,Nota,Reav
0,Paco,2.0,0
1,Lucia,1.0,0
2,Antonio,0.0,0
3,Ramon,0.4,0
4,Marta,10.0,0


In [28]:
df['Reav'] = [4.99, 4.98, 4.97, 4.96, np.nan, 5.00, 4.9, 4, np.nan, 2, 1]
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Reav'] = [4.99, 4.98, 4.97, 4.96, np.nan, 5.00, 4.9, 4, np.nan, 2, 1]


Unnamed: 0,Nom,Nota,Reav
0,Paco,2.0,4.99
1,Lucia,1.0,4.98
2,Antonio,0.0,4.97
3,Ramon,0.4,4.96
4,Marta,10.0,
5,Josep,0.0,5.0
6,Debora,0.0,4.9
7,Martina,3.0,4.0
8,Cristian,10.0,
10,Laura,,2.0


In [29]:
# Creem la nota final
has_improved = df['Reav'] > df['Nota']
has_improved.head()

0     True
1     True
2     True
3     True
4    False
dtype: bool

In [30]:
df.loc[has_improved, :].head()

Unnamed: 0,Nom,Nota,Reav
0,Paco,2.0,4.99
1,Lucia,1.0,4.98
2,Antonio,0.0,4.97
3,Ramon,0.4,4.96
5,Josep,0.0,5.0


In [31]:
df.loc[has_improved,['Nota', 'Reav']]

Unnamed: 0,Nota,Reav
0,2.0,4.99
1,1.0,4.98
2,0.0,4.97
3,0.4,4.96
5,0.0,5.0
6,0.0,4.9
7,3.0,4.0
11,0.4,1.0


In [32]:
df.loc[has_improved, 'Final'] = df['Reav']
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[has_improved, 'Final'] = df['Reav']


Unnamed: 0,Nom,Nota,Reav,Final
0,Paco,2.0,4.99,4.99
1,Lucia,1.0,4.98,4.98
2,Antonio,0.0,4.97,4.97
3,Ramon,0.4,4.96,4.96
4,Marta,10.0,,
5,Josep,0.0,5.0,5.0
6,Debora,0.0,4.9,4.9
7,Martina,3.0,4.0,4.0
8,Cristian,10.0,,
10,Laura,,2.0,


In [33]:
df.loc[~has_improved, 'Final'] = df['Nota'] #np.logical_not
df

Unnamed: 0,Nom,Nota,Reav,Final
0,Paco,2.0,4.99,4.99
1,Lucia,1.0,4.98,4.98
2,Antonio,0.0,4.97,4.97
3,Ramon,0.4,4.96,4.96
4,Marta,10.0,,10.0
5,Josep,0.0,5.0,5.0
6,Debora,0.0,4.9,4.9
7,Martina,3.0,4.0,4.0
8,Cristian,10.0,,10.0
10,Laura,,2.0,


In [34]:
# I ara decidim qui ha aprovat
df['Aprovat'] = np.floor(df['Final']) >= 5
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Aprovat'] = np.floor(df['Final']) >= 5


Unnamed: 0,Nom,Nota,Reav,Final,Aprovat
0,Paco,2.0,4.99,4.99,False
1,Lucia,1.0,4.98,4.98,False
2,Antonio,0.0,4.97,4.97,False
3,Ramon,0.4,4.96,4.96,False
4,Marta,10.0,,10.0,True
5,Josep,0.0,5.0,5.0,True
6,Debora,0.0,4.9,4.9,False
7,Martina,3.0,4.0,4.0,False
8,Cristian,10.0,,10.0,True
10,Laura,,2.0,,False


In [35]:
print('Han aprovat {} alumnes, un {:.4}%'.format(df['Aprovat'].sum(), df['Aprovat'].sum() * 100 / df.shape[0]))
print('Han suspés {} alumnes, un {:.4}%'.format((~df['Aprovat']).sum(), (~df['Aprovat']).sum() * 100 / df.shape[0]))

Han aprovat 3 alumnes, un 27.27%
Han suspés 8 alumnes, un 72.73%


**Matricula d'honor**

In [36]:
df.head()

Unnamed: 0,Nom,Nota,Reav,Final,Aprovat
0,Paco,2.0,4.99,4.99,False
1,Lucia,1.0,4.98,4.98,False
2,Antonio,0.0,4.97,4.97,False
3,Ramon,0.4,4.96,4.96,False
4,Marta,10.0,,10.0,True


In [37]:
nota_maxima = df['Nota'].max()
nota_maxima

10.0

In [38]:
condicio = df['Nota'] == nota_maxima
df.loc[condicio]

Unnamed: 0,Nom,Nota,Reav,Final,Aprovat
4,Marta,10.0,,10.0,True
8,Cristian,10.0,,10.0,True


In [39]:
files_alumnes = df.loc[df['Nota'] == nota_maxima]
files_alumnes

Unnamed: 0,Nom,Nota,Reav,Final,Aprovat
4,Marta,10.0,,10.0,True
8,Cristian,10.0,,10.0,True


In [40]:
noms_alumnes = df.loc[df['Nota'] == nota_maxima, 'Nom']
noms_alumnes

4       Marta
8    Cristian
Name: Nom, dtype: object

In [41]:
# Fem una menció
for nom in noms_alumnes:
    print('Podria ser millor {}'.format(nom))

Podria ser millor Marta
Podria ser millor Cristian


Podem iterar files també, però compte amb com s'ha de fer!

In [42]:
dic = {'a': 1, 'b': 2}
for x in dic:
    print(x)

a
b


In [43]:
# NO així
for fila in files_alumnes:
    print(fila)
    
# Hem iterat tots els valors, no files

Nom
Nota
Reav
Final
Aprovat


In [44]:
# SÍ
for index, fila in files_alumnes.iterrows():
    print(index)
    print(fila)
    print()

4
Nom        Marta
Nota        10.0
Reav         NaN
Final       10.0
Aprovat     True
Name: 4, dtype: object

8
Nom        Cristian
Nota           10.0
Reav            NaN
Final          10.0
Aprovat        True
Name: 8, dtype: object



In [45]:
def func(fila):
    print(fila.name)

df.apply(func, axis=1)

0
1
2
3
4
5
6
7
8
10
11


0     None
1     None
2     None
3     None
4     None
5     None
6     None
7     None
8     None
10    None
11    None
dtype: object

In [46]:
df = df.drop('Nota', axis=1)
df

Unnamed: 0,Nom,Reav,Final,Aprovat
0,Paco,4.99,4.99,False
1,Lucia,4.98,4.98,False
2,Antonio,4.97,4.97,False
3,Ramon,4.96,4.96,False
4,Marta,,10.0,True
5,Josep,5.0,5.0,True
6,Debora,4.9,4.9,False
7,Martina,4.0,4.0,False
8,Cristian,,10.0,True
10,Laura,2.0,,False


In [47]:
dh = df.loc[:, ['Nom','Reav','Final','Aprovat']]
dh

Unnamed: 0,Nom,Reav,Final,Aprovat
0,Paco,4.99,4.99,False
1,Lucia,4.98,4.98,False
2,Antonio,4.97,4.97,False
3,Ramon,4.96,4.96,False
4,Marta,,10.0,True
5,Josep,5.0,5.0,True
6,Debora,4.9,4.9,False
7,Martina,4.0,4.0,False
8,Cristian,,10.0,True
10,Laura,2.0,,False


## 5. Combinació de conjunts de dades

### 5.1 Concat

Alguns dels estudis més interessants de dades provenen de la combinació de diferents fonts de dades. Aquestes operacions poden implicar qualsevol cosa, des de la concatenació molt senzilla de dos conjunts de dades diferents, fins a unions i fusions d'estil de base de dades més complicades que gestionen correctament qualsevol superposició entre els conjunts de dades. Les sèries i els DataFrames es creen tenint en compte aquest tipus d'operacions, i Pandas inclou funcions i mètodes que fan que aquest tipus de discussió de dades sigui ràpida i senzilla.

Pandas té una funció, pd.concat(), que té una sintaxi similar a np.concatenate. 

Una diferència important entre np.concatenate i pd.concat és que la concatenació Pandas **conserva els índexs**, fins i tot si el resultat tindrà índexs duplicats!

In [48]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

### 5.2 Merge i Join

Una característica essencial que ofereix Pandas són les seves operacions d'unió i fusió d'alt rendiment en memòria. Si alguna vegada heu treballat amb bases de dades, hauríeu d'estar familiaritzat amb aquest tipus d'interacció de dades. La interfície principal per a això és la funció pd.merge, i veurem alguns exemples de com això pot funcionar a la pràctica.

In [49]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})
pd.merge(df1, df2)

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


### 5.3 Agregació i agrupació

Una peça essencial d'anàlisi de dades grans és el resum eficient: calculant agregacions com sum(), mean(), median(), min() i max(), en què un sol nombre dóna una visió de la naturalesa d'un potencial gran conjunt de dades. En aquesta secció, explorarem les agregacions a Pandas.

In [50]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000022502F74940>

In [51]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


# Exercicis

**Exercici 1:** Crea un pd.DataFrame que contingui la informació demanada.

In [52]:
def crear_dataframe_1(usuari1, usuari2):
    """
    Donada la informació de dos usuaris, `usuari1` i `usuari2`, crea un
    pd.DataFrame que contingui cada un d'aquests usuaris com a una fila.
    La primera fila ha de tenir per índex "99" i la segona "88", de tipus STR.
    Les columnes han de tenir els següents noms:
        "Nom", "Cognom", "Data Registre", "Bitcoin"
        
    :param usuari1: Llista (nativa de python) amb les dades del primer usuari
    :param usuari2: Llista (nativa de python) amb les dades del segon usuari
    :return: DataFrame amb les dades dels usuaris
    """
    # AQUÍ EL TEU CODI
    raise NotImplementedError

In [53]:
print(crear_dataframe_1(
    ['Mike', 'Strong', '2012-02-03', 99],
    ['Thomas', 'Weak', '2018-01-01', 0.4]
))

NotImplementedError: 

In [None]:
def crear_dataframe_2(x, exponent):
    """
    Donat un vector (np.arrray) i un exponent màxim, crea un 
    DataFrame de pandas on cada columna és la potència
    $x^i$ per cada $i$ entre 0 i `exponent` (incloits). Les columnes han de 
    tenir per nom "x<i>", on <i> és la potència
    
    Per exemple, donat ([1, 2, 3, 4], 2), crearà
    x0 | x1 | x2
    ------------
    1    1    1 
    1    2    4
    1    3    9
    1    4    16
    
    Els indexs de les files són 0, 1, ..., n; on n és el nombre d'elements
    a x
    
    **Pots fer servir 1 sol bucle per iterar de 0 a exponent, cap més**
    
    :param x: np.array unidimensional amb les dades per calcular potències
    :param exponent: enter >= 0, màxim exponent a fer servir
    :return: Un DataFrame de pandas, tal i com s'especifica
    """
    # AQUÍ EL TEU CODI
    raise NotImplementedError

In [None]:
print(crear_dataframe_2(np.asarray([1, 2, 3, 4]), 5))

**Exercici 2:** Donat un DataFrame, retorna el resultat de les consultes demanades.

In [None]:
def consultar_basic(df):
    """
    Donat un DataFrame amb noms i notes, retorna solament
    els noms d'aquells usuaris que tinguin un 5 o més
    
    :param df: DataFrame amb dos columnes "Nom", "Nota", amb 1 o més
        files. "Nom" és una string i "Nota" un float
    :return: Un pd.Series o llista/tupla de Pandas amb els noms 
        (i solament els noms) dels alumnes amb 5 o més
    """
    # AQUÍ EL TEU CODI
    raise NotImplementedError

In [None]:
print(consultar_basic(pd.DataFrame({
    'Nom': ['Antonio', 'Mireia'],
    'Nota': [5.1, 0.1]
})))

In [None]:
def consultar_dificil(df):
    """
    De totes les files d'un DataFrame, retorna l'índex d'aquella que tingui 
    el menor nombre de NaNs
    
    *Es pot fer sense bucles, consulta la documentació de Pandas, la cheetsheet
    o stackoverflow*
    
    :param df: DataFrame sobre el que operar, les files contenen floats o NaN
    :return: L'índex (int, ja ve donat) de la fila amb menys NaNs
    """
    # AQUÍ EL TEU CODI
    raise NotImplementedError

In [None]:
print(consultar_dificil(pd.DataFrame([
    [0, np.nan, 3.0, 2, np.nan],
    [np.nan, 1, 2, 3, 4],
    [np.nan, 0, 0, np.nan, np.nan]
])))