# Pandas

Pandas ens permetrà treballar amb fulls de càlcul (ja siguin xls o csv) i fer operacions sobre taules de dades.

In [None]:
import pandas as pd

In [None]:
# Carreguem unes dades per lectura
df = pd.read_csv('data/dades.csv')
df.head(20)

Pandas, internament, defineix cada columna com a un vector de numpy d'un tipus homogeni:

In [None]:
df['Nom']

In [None]:
df['Nota']

Com que cada columna és un vector de numpy, podem fer operacions amb aquest vector.
Quina és la nota mitja de la classe?

In [None]:
import numpy as np

In [None]:
np.min(df['Nota']), df['Nota'].mean(), df['Nota'].max()

## Entenent el que hem vist

De fet, cada columna d'un `DataFrame` (taula de dades) és el que s'anomena una `Series`. Com dèiem, una sèrie és un conjunt homogeni de dades. Per exemple

In [None]:
serie_1 = pd.Series([1, 2, 3, 4])
serie_1

In [None]:
serie_2 = pd.Series([1.2, 3.0, 0.0, 6.5])
serie_2

Les sèries es poden unir per fer un `DataFrame`:

In [None]:
dg = pd.DataFrame(
    {
        'Nota Continua': serie_1, 
         'Nota Reav': serie_2
    }
)
dg

In [None]:
# Podem canviar el nom de les files (ATENCIÓ, NOM DE FILA != COLUMNA)
dg.index = ['Pablo', 'Maria', 'Antonio', 'Lucia']
dg

In [None]:
# I dona una pista visual de què indiquen els noms de les files
dg.index.name = 'Nom'
dg

In [None]:
# I reanomenar columnes
dg.columns = ['Nota Continua', 'Nota Reavaluació']
dg

In [None]:
# Canvis de tipus
dg['Nota Continua'] = dg['Nota Continua'].astype(float)
dg

## Hi ha més formes de crear DataFrame's

In [None]:
pd.DataFrame(
    data=[
        ['Antonio', 2],
        ['Maria', 3],
        ['Asd', 99]
    ],
    columns=['Nom', 'Nota'], index=['DNI_1', 'DNI_2', 'DNI_3'])

In [None]:
def crear_dades():
    for i in range(10):
        yield 'abcdefghij'[i], i
        
pd.DataFrame(crear_dades())

## Tornem a les dades inicials

Hi ha dues coses rares:

* El professor s'ha equivocat i tenim 2 `Antonio`s, quan realment solament n'hi ha un
* La Laura no va presentar el treball i té un `NaN`

In [None]:
df

In [None]:
# Eliminem els duplicats
df_org = df
df = df.drop_duplicates() #.copy()
df

# Atenció!  Segons la versió de Pandas el drop_duplicates fa copia del dataframe o no.

In [None]:
# Posem un 0 a la Laura (no es podria fer més bonic?)
df.loc[10, 'Nota'] = 0

In [None]:
df

In [None]:
df['Nota'].min(), df['Nota'].mean(), df['Nota'].max()

In [None]:
df.loc[10, 'Nota'] = np.nan
np.mean(df['Nota'])

**Nota**: Pandas vs Numpy

Quina diferencia veieu?

In [None]:
import numpy as np
np_array = np.asarray([1, 2, np.nan, 3])
np_array.mean()

In [None]:
pd_series = pd.Series([1, 2, np.nan, 3])
pd_series.mean()

### Guardem les modificacions a disc

In [None]:
df.to_csv('dades_mod.csv', index=None)

In [None]:
pd.read_csv('data/dades.csv', index_col='Nom')

# Més anàlisi de dades

In [None]:
df.head()

In [None]:
# Mirem quanta gent a tret la mateixa nota
df.groupby('Nota').count()

In [None]:
# Creem una nova columna "Reavaluació"
df['Reav'] = 0 # Amb un valor igual per tothom
df.head()

In [None]:
df['Reav'] = [4.99, 4.98, 4.97, 4.96, np.nan, 5.01, 4.9, 4, np.nan, 2, 1]
df

In [None]:
# Creem la nota final
has_improved = df['Reav'] > df['Nota']
has_improved.head()

In [None]:
df.loc[has_improved, :].head()

In [None]:
df.loc[has_improved,['Nota', 'Reav']]

In [None]:
df.loc[has_improved, 'Final'] = df['Reav']
df

In [None]:
df.loc[~has_improved, 'Final'] = df['Nota']
df

In [None]:
# I ara decidim qui ha aprovat
df['Aprovat'] = np.floor(df['Final']) >= 5
df

In [None]:
print('Han aprovat {} alumnes, un {:.4}%'.format(df['Aprovat'].sum(), df['Aprovat'].sum() * 100 / df.shape[0]))
print('Han suspés {} alumnes, un {:.4}%'.format((~df['Aprovat']).sum(), (~df['Aprovat']).sum() * 100 / df.shape[0]))

### Matricula d'honor

In [None]:
df.head()

In [None]:
nota_maxima = df['Nota'].max()
nota_maxima

In [None]:
condicio = df['Nota'] == nota_maxima
df.loc[condicio]

In [None]:
files_alumnes = df.loc[df['Nota'] == nota_maxima]
files_alumnes

In [None]:
noms_alumnes = df.loc[df['Nota'] == nota_maxima, 'Nom']
noms_alumnes

In [None]:
# Fem una menció
for nom in noms_alumnes:
    print('Podria ser millor {}'.format(nom))

Podem iterar files també, però compte amb com s'ha de fer!

In [None]:
dic = {'a': 1, 'b': 2}
for x in dic:
    print(x)

In [None]:
# NO així
for fila in files_alumnes:
    print(fila)
    
# Hem iterat tots els valors, no files

In [None]:
# SÍ
for index, fila in files_alumnes.iterrows():
    print(index)
    print(fila)
    print()

In [None]:
def func(fila):
    print(fila.name)

df.apply(func, axis=1)

In [None]:
df = df.drop('Nota', axis=1)
df

In [None]:
dh = df.loc[:, ['Nom','Reav','Final','Aprovat']]
dh