# Pandas (1)

In [None]:
import pandas as pd

Els objectes principals de Pandas són els `DataFrames` --- venen a ser taules de dades amb files i columnes.

Agafem les dades de les línies de bus que ja coneixem 

In [None]:
df = pd.read_csv("data/ctabus.csv")
df

## Veure les dades

Mètodes per explorar un `DataFrame`:

- `head(n)`-  Mostra les n primeres columnes
- `tail(n)`-  Mostra les n últimes columnes
- `info` - Ens dius quantes entrades no buides hi ha, i el tipus de variable de cada columna
- `describe` - Mostra estadístiques bàsiques de les columnes numèriques

In [None]:
df.head()

In [None]:
# Dtype object vol dir string per Pandas df.info()

In [None]:
df.describe()

Com que Pandas fa servir NumPy, podem fer servir els mètodes i atributs de NumPy

A més, anirem veient altres atributs interessants, com `columns`

In [None]:
(
    df.shape,
    df.size,
    df.ndim,
    len(df),
)

In [None]:
df.columns

## Indexar

S'indexa una sola columna igual que un diccionari. El resultat és una `Series` de Pandas.

In [None]:
# Agafem 5 files per no imprimir tant
df = df[75:80]

In [None]:
df["route"]

També es pot indexar com si fós un atribut (si el nom no té espais)

In [None]:
df.route

Si volem indexar diverses columnes, ens cal una llista

In [None]:
cols = ["route", "rides"]
df[cols]

In [None]:
# O el que és el mateix
df[["route", "rides"]]

Per **indexar files** farem servir `.loc`

In [None]:
# Una sola fila també retorna una `Series`
df.loc[75]

In [None]:
df.loc[[75, 76, 78]]

In [None]:
# Podem fer servir rangs (però cal tenir compte!). Què hi veieu?
df.loc[:77]

Els índexs no tenen per què ser números, per això els rangs amb `loc` són inclusius.

Per exemple, podem fer servir una columna com a índex amb `set_index`

In [None]:
route_df = df.set_index("route")
route_df

In [None]:
route_df.loc["49B"]

In [None]:
route_df.loc["52A":"54B"]

Per 'recuperar' l'índex com a columna fem `.reset_index()`

In [None]:
route_df.reset_index()

Fixeu-vos que les operacions no canvien l'objecte si no fem un =

In [None]:
route_df

Si en canvi volem indexar numèricament, sense fixar-nos en el nom de l'índex o les columnes, farem servir `iloc`

In [None]:
df.iloc[0]

In [None]:
df.iloc[:3]

In [None]:
df.iloc[:3, 1:]

**Resum**


+ `[]` per selccionar columnes 
+ `.loc[noms_files, noms_columnes]` per indexar per nom
+ `.iloc[poscio_files, posicio_columnes]` per indexar per posició

### Exercici 0

Posa-ho tot junt. Selecciona les primeres 500 files senars (de l'índex 1 al 999) i les columnes "route", "date" i "rides"

In [None]:
df = pd.read_csv("data/ctabus.csv")

## Series

Les columnes d'un DataFrame són `Series` i tenen mètodes específics.

- `unique()` - elements únics (el que fèiem amb un set)
- `nunique()` - nombre d'elements únics
- `value_counts()` - recompte d'elements (el que fèiem amb un Counter)

In [None]:
df.route.nunique()

In [None]:
df.daytype.unique()

De fet, `np.unique` és també una funció de NumPy

In [None]:
import numpy as np

np.unique(np.array([1, 1, 2, 2, 3, 3, 4, 5]))

I `.nunique()` serveix també per tot un `DataFrame` senser

In [None]:
df.nunique()

## Modificar les dades

In [None]:
df = pd.read_csv("data/ctabus.csv")

### Crear i modificar 

És fàcil crear columnes diferents a partir de les ja existents

In [None]:
df["rides_milers"] = df.rides / 1000
df["ruta_dia"] = df["route"] + "_" + df["date"]
df.head()

Per fer servir funcions relacionades amb strings, hem de fer primer `.str`

In [None]:
df.date.str.replace("20", "").head()

In [None]:
df.date.str.split("/").head()

Si volem canviar un valor a la mateixa columna la reassignem

In [None]:
df.date = df.date.str.replace("20", "").str.split("/")
df.head()

És fàcil modificar una columna sencera

In [None]:
df.rides = 3
df.head()

Però, un 'error' molt típic a Pandas apareix quan volem modificar certes posicions.

Llegeix-lo

In [None]:
df.rides.loc[:5] = 3

In [None]:
df.loc[:5, "rides"] = 5
df.head(10)

### Esborrar

Per esborrar files o columnes es fa servir `.drop()`

In [None]:
df.drop(range(5))  # axis=0 per defecte (files)

In [None]:
df.drop("daytype", axis=1).head()  # per borrar columnes cal axis=1

In [None]:
df.drop(["daytype", "route"], axis=1).head()

### Canviar nom columnes

`df.rename(columns={"columna vella": "columna nova"})`

In [None]:
df.rename(columns={"route": "ruta", "date": "data", "daytype": "tipus de dia", "rides": "viatgers"}).head()

## Ordenar i agrupar

### Ordenar

Un DataFrame s'ordena per una (o vàries) columnes amb `sort_values`. Per defecte l'ordre és ascendent, però el podem girar amb `ascending=False`

In [None]:
df.sort_values(by="rides")

In [None]:
df.sort_values(by="rides", ascending=False)

In [None]:
df.sort_values(by=["rides", "daytype"])

In [None]:
df.sort_values(by=["rides", "daytype"], ascending=False)

In [None]:
# es pot ordenar per vàries columnes amb diferent ordre
df.sort_values(by=["rides", "daytype"], ascending=[True, False])

Les `Series` s'ordenen igual, però no cal passar cap argument, ja que no tenen columnes

In [None]:
df.route.sort_values()

### Agrupar

`groupby` agrupa per columnes. Si el fem servir sol només retorna un objecte de pandas, però sense cap informació.
Cal aplicar-hi una operació per tenir algun resultat. Les operacions típiques que ens poden interessar són: 

`count()`, `sum()`, `mean()`, `median()` i `std()`.

Si no volem aplicar aquesta operació a totes les columnes haurem de seleccionar les que volem **abans** de l'operació, per ser més eficients.

In [None]:
df.groupby("route")["rides"].median()

Si volem vàries operacions alhora hem de fer servir `.agg()`

In [None]:
df.groupby("route")["rides"].agg(["count", "mean", "std"])

## Exercici 1

1. Canvia el nom de les dues últimes columnes perquè no tinguin espais
2. Crea una columna "ratio" que sigui el temps del segons experiment dividit pel temps del primer.
3. Esborra la columna timestamp
4. Ordena el df per gènere i edat (en aquest ordre), el dos en ordre ascendent.
5. Agrupa per gènere i mostra la mitja i la desviació estàndard dels dos temps i del ràtio.

In [None]:
df = pd.read_csv("data/efecte_stroop.csv")
df.head()

## Llegir i escriure fitxers

Podem llegir dades d'un CSV, Excel, SQL, JSON ...

Les funcions són bastant similars: `pd.read_csv`, `pd.read_excel`...

Segons el format que vulguem llegir i el nostre sistema operatiu és possible que calgui instalar algun altre paquet.

Ens centrarem en fitxers `csv`.
Tot i que el nom ve de "comma separated values", el separador pot ser diferent d'una coma. Canviant l'argument `sep` es poden llegir fitxers amb diferents separadors, com tabuladors "\t" (sovint amb fitxers '.tsv').

In [None]:
# Hi ha moltes opcions
pd.read_csv?

Per escriure fitxer, igualment hi ha una funció per cada tipus de dades: `pd.to_csv`, `pd.to_excel`, `to.to_latex`...

## Crear un `DataFrame` 

També podem crear un `DataFrame`a partir d'un diccionari, llista, ser, array ...

### `DataFrame` des d'un diccionari

#### Cada clau és una columna

In [None]:
dict_estudiants = {"nom": ["Maria", "Berta", "Edu", "Arnau"], "edat": [20, 21, 19, 23], "nota": [8.5, 7.7, 9.4, 5.9]}
df_estudiants = pd.DataFrame(dict_estudiants)
df_estudiants

In [None]:
df = pd.DataFrame({"X": [78, 85, 96, 80, 86], "Y": [84, 94, 89, 83, 86], "Z": [86, 97, 96, 72, 83]})
df

Si ens volem quedar només amb unes quantes columnes, les podem seleccionar amb `columns=['col1', 'col2']`

In [None]:
df_estudiants = pd.DataFrame(dict_estudiants, columns=["nom", "nota"])
df_estudiants

Per defecte, es crea una primera columna, _l'índex_, amb nombres naturals

In [None]:
df_estudiants.index

El podem modificar quan creem el `DataFrame` amb `index=['index1','index2']`

In [None]:
df_estudiants = pd.DataFrame(dict_estudiants, index=["est1", "est2", "est3", "est4"])
df_estudiants

In [None]:
df_estudiants.index

#### Cada clau és una fila

In [None]:
dict_estudiants = {
    "Maria": 8.5,
    "Berta": 7.7,
    "Edu": 9.4,
    "Arnau": 5.9,
}
df_estudiants = pd.DataFrame(dict_estudiants.items())
df_estudiants

Ara Pandas no sap quin nom posar a les columnes, així que hi ha posat números. Posa-hi noms

In [None]:
student_dict = {"Grade A": ["Joe", "Harry"], "Grade B": ["Nat"]}
print(student_dict)

student_df = pd.DataFrame.from_dict(student_dict, "index").stack().reset_index(level=0)
student_df

### `DataFrame` des d'una llista

In [None]:
llista_fruites = ["Poma", "Mango", "Meló", "Cireres"]
df_fruites = pd.DataFrame(llista_fruites, columns=["Fruites"])
df_fruites

In [None]:
llista_fruites = [["Poma", 1], ["Mango", 1.5], ["Meló", 1.2], ["Cireres", 2.3]]
df_fruites = pd.DataFrame(llista_fruites, columns=["Fruites", "Preu"])
df_fruites

En realitat, quan hem creat un `DataFrame` a partir dels items d'un diccionari, l'estructurura era la mateixa 

In [None]:
dict_estudiants.items()

Si partim de dues o més llistes, les podem posar amb el format adequat amb zip

In [None]:
llista_fruites = ["Poma", "Mango", "Meló", "Cireres"]
llista_preus = [1, 1.5, 1.2, 2.3]
df_fruites = pd.DataFrame(list(zip(llista_fruites, llista_preus)), columns=["Fruites", "Preu"])
df_fruites

## Concatenar operacions

Pandas permet fer línies molt llargues concatenant operacions, en comptes de reassignar el resultat cada vegada.

Perquè sigui més llegible se sol posar cada operació en una nova línia dins de parèntesis ()

In [None]:
df = pd.read_csv("data/ctabus.csv")
df = df.rename(columns={"route": "ruta", "date": "data", "daytype": "tipus de dia", "rides": "viatgers"})
df = df.drop("tipus de dia", axis=1)
df.head()

In [None]:
df = (
    pd.read_csv("data/ctabus.csv")
    .rename(columns={"route": "ruta", "date": "data", "daytype": "tipus de dia", "rides": "viatgers"})
    .drop("tipus de dia", axis=1)
)
df.head()

## Exercici 2

In [None]:
df = pd.read_csv("data/ctabus.csv")

Refés les següent preguntes de l'exercici final del primer notebook, ara amb Pandas:

1. Quants dies hi ha de cada tipus?
2. Quants viatgers totals hi ha a les dades per cada línia?
3. Quines són les 5 línies amb més viatgers totals?

5. Quantes persones van anar a l'autobús número 22 el 2 de febrer de 2011? Fes una funció per qualsevol altre dia i ruta.
6. *Quines 5 línies han incrementat més el seu volum de viatgers entre el 2001 i el 2011?

# Pandas (2)

Farem servir les dades de l'enquesta d'usos lingüístics de la població (EULP).

Al baixar-nos les dades públiques de https://www.idescat.cat/pub/?id=eulp, ens donen dues taules:

- Una amb les repostes dels 8.800 enquestats amb format numèric
- Una segona que indica el significat dels nombres de la primera (que farem servir després)

In [None]:
import pandas as pd

dades = pd.read_csv("data/eulp2018/eulp2018.data.csv", sep="\t")

In [None]:
dades

Com que hi ha moltes columnes, per defecte no es mostren totes.

Podem modificar els paràmetres per defecte de Pandas perquè es mostrin totes

In [None]:
pd.set_option("display.max_columns", None)

In [None]:
dades.head()

## Filtrar dades

La manera més típica de filtrar dades és amb una màscara

In [None]:
dades[dades.ANY_NAIX > 1970]

Podem fer operacions booleanes amb els operadors:

- `&` AND
- `|` OR 
- `~` NOT 

Els parèntesis (...) són importants 

In [None]:
dades[(dades.ANY_NAIX > 1970) & (dades.P1 == 1)].head()

In [None]:
dades[(dades.ANY_NAIX > 1970) | (dades.P1 == 1)].head()

In [None]:
dades[~(dades.ANY_NAIX > 1970)].head()

Per reaprofitar la màscara l'assignem a una variable

In [None]:
P1_1 = dades.P1 == 1
P1_2 = dades.P1 == 2
P6_1 = dades.P6 == 1
P6_2 = dades.P6 == 2

In [None]:
dades[P1_1 & P6_1].head()

## NaNs i duplicats

Quan llegim fitxers grans és bona pràctica mirar si hi ha:

- Duplicats - `dades.duplicated()`
- Valors nuls

In [None]:
dades.duplicated()

In [None]:
dades[dades.duplicated()]  # no n'hi ha

In [None]:
dades.duplicated().sum()  # Si només volem contar les files duplicades

També podem mirar si hi ha valors duplicats en una columna en concret

In [None]:
dades.IDQUEST.duplicated().sum()  # els IDs han de ser únics

In [None]:
dades.ANY_NAIX.duplicated().sum()  # l'any de naixament no ha de ser únic

Hi ha bastantes maneres de veure si hi ha valors nuls:

1. `info` va bé si no tenim moltes columnes

In [None]:
# però si hi ha moltes columnes...
dades.info()

# es pot arreglar passant arguments, però hi ha altres maneres

2. `.isna()` o `.isnull()`, que són exactament el mateix.

In [None]:
dades.isna()  # retorna una màscara

In [None]:
dades.isna().sum()  # la podem sumar per veure el nombre de NaNs per columna

In [None]:
dades.isna().sum().sum()  # i sumar de nou pel recompte total, no n'hi ha cap

### Què fem si hi ha NaNs?

In [None]:
df = pd.DataFrame({"X": [78, 85, 96, 80, None], "Y": [84, 94, 89, None, 86], "Z": [86, 97, 96, 72, None]})
df

1. No considerar les entrades

In [None]:
df.dropna()

2. Emplenar-los amb algun valor amb sentit, com 0 o la mitjana de cada columna

In [None]:
df.fillna(0)

In [None]:
df.fillna(df.mean())

# Pandas (3)

In [None]:
import pandas as pd

Ajuntar dades:

- Merge
- Map

## Unió de dades

Sovint trobarem dades en diferents taules, com és el cas de les taules `dades` i `variables` de l'EULP

És fàcil unir les dades per una columna amb un identificador comú.

La qüestió és amb quins valors ens quedem

![joins.png](imatges/joins.png)

In [None]:
left = pd.DataFrame({"clau": ["A", "B", "C", "D"], "valor1": [1, 2, 3, 4]})
right = pd.DataFrame({"clau": ["B", "D", "E", "F"], "valor2": [10, 20, 30, 40]})

Per unir 2 DFs fem servir merge, indicant quina clau tenen en comú i el tipus de merge (per defecte 'inner')

In [None]:
# dues maneres equivalents
left.merge(right, on="clau", how="inner")
pd.merge(left, right, on="clau", how="inner")

In [None]:
left.merge(right, on="clau", how="left")

In [None]:
left.merge(right, on="clau", how="right")

In [None]:
left.merge(right, on="clau", how="outer")

Si el nom de les claus en comú és diferent, farem servir `left_on` i `right_on`.

Per defecte Pandas deixa les dues claus.
Segons el join que estiguem fent pot tenir sentit o no.

In [None]:
left = pd.DataFrame({"clau1": ["A", "B", "C", "D"], "valor1": [1, 2, 3, 4]})
right = pd.DataFrame({"clau2": ["B", "D", "E", "F"], "valor2": [10, 20, 30, 40]})

left.merge(right, left_on="clau1", right_on="clau2", how="left")

In [None]:
# Si fem un left join sovint ens quedarem només amb la primera clau
left.merge(right, left_on="clau1", right_on="clau2", how="left").drop("clau2", axis=1)

## Map

Si volem modificar els valor d'una columna segons un "mapping" ho podem fer amb `map`

In [None]:
left

In [None]:
# Map admet un diccionari
left.valor1.map({1: 10, 2: 20, 3: 33, 4: 50})

In [None]:
# Si no passem tots els valors, alguns seran NaN
left.valor1.map({1: 10})

In [None]:
# Podem reassignar-los amb fillna
# Però compte que els int no admeten NaN, pertant ara tenim float64
left.valor1.map({1: 10}).fillna(left.valor1)

In [None]:
# Amb astype(int) retornem als enters
left.valor1.map({1: 10}).fillna(left.valor1).astype(int)

## Exercici 3

In [None]:
dades = pd.read_csv("data/eulp2018/eulp2018.data.csv", sep="\t")
variables = pd.read_csv("data/eulp2018/eulp2018.var.csv", sep="\t").rename(columns={"Valor_Value": "valor"})

In [None]:
# La segona taula indica el significat dels nombres de la primera
variables.head()

Si ens fixem amb l'estructura de la taula veiem que no és la ideal, té sub-taules a dins per indicar el valor de cada identificador

In [None]:
! head -n20 data/eulp2018/eulp2018.var.csv

In [None]:
variables[~variables.DescrCA.isna()].head()

1. Extreu una taula per "P1" que tingui dues columnes no-nules: valor i LabelCA

2. Converteix la taula a diccionari i fes servir `map` per modificar els valors de la columna `P1` de la taula `dades`

2. Fes el mateix per totes les variables.
   1. Crea un diccionari `taula_var` que contingui un DataFrame per cada una.
   2. Mapeja cada columna al seus valors