# Introducció a Pandas

In [None]:
import pandas as pd

Els objectes principals de Pandas són els `DataFrames` --- venen a ser taules de dades amb files i columnes.

Agafem les dades de les línies de bus que ja coneixem 

In [None]:
df = pd.read_csv("data/ctabus.csv")
df

## Veure les dades

Mètodes per explorar un `DataFrame`:

- `head(n)`-  Mostra les n primeres columnes
- `tail(n)`-  Mostra les n últimes columnes
- `info` - Ens dius quantes entrades no buides hi ha, i el tipus de variable de cada columna
- `describe` - Mostra estadístiques bàsiques de les columnes numèriques

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.describe()

Com que Pandas fa servir NumPy, podem fer servir els mètodes i atributs de NumPy

A més, anirem veient altres atributs interessants, com `columns`

In [None]:
(
    df.shape,
    df.size,
    df.ndim,
    len(df),
)

In [None]:
df.columns

## Indexar

S'indexa una sola columna igual que un diccionari. El resultat és una `Series` de Pandas.

In [None]:
# Agafem 5 files per no imprimir tant
df = df[75:80]

In [None]:
df["route"]

També es pot indexar com si fós un atribut (si el nom no té espais)

In [None]:
df.route

Si volem indexar diverses columnes, ens cal una llista

In [None]:
cols = ["route", "rides"]
df[cols]

In [None]:
# O el que és el mateix
df[["route", "rides"]]

Per **indexar files** farem servir `.loc`

In [None]:
# Una sola fila també retorna una `Series`
df.loc[75]

In [None]:
df.loc[[75, 76, 78]]

In [None]:
# Podem fer servir rangs (però cal tenir compte!). Què hi veieu?
df.loc[:77]

Els índexs no tenen per què ser números, per això els rangs amb `loc` són inclusius.

Per exemple, podem fer servir una columna com a índex amb `set_index`

In [None]:
route_df = df.set_index("route")
route_df

In [None]:
route_df.loc["49B"]

In [None]:
route_df.loc["52A":"54B"]

Per 'recuperar' l'índex com a columna fem `.reset_index()`

In [None]:
route_df.reset_index()

Fixeu-vos que les operacions no canvien l'objecte si no fem un =

In [None]:
route_df

Si en canvi volem indexar numèricament, sense fixar-nos en el nom de l'índex o les columnes, farem servir `iloc`

In [None]:
df.iloc[0]

In [None]:
df.iloc[:3]

In [None]:
df.iloc[:3, 1:]

**Resum**


+ `[]` per selccionar columnes 
+ `.loc[noms_files, noms_columnes]` per indexar per nom
+ `.iloc[poscio_files, posicio_columnes]` per indexar per posició

### Exercici

Posa-ho tot junt. Selecciona les primeres 500 files senars (de l'índex 1 al 999) i les columnes "route", "date" i "rides"

In [None]:
df = pd.read_csv("data/ctabus.csv")

## Llegir i escriure fitxers

Podem llegir dades d'un CSV, Excel, SQL, JSON ...

Les funcions són bastant similars: `pd.read_csv`, `pd.read_excel`...

Segons el format que vulguem llegir i el nostre sistema operatiu és possible que calgui instalar algun altre paquet.

Ens centrarem en fitxers `csv`.
Tot i que el nom ve de "comma separated values", el separador pot ser diferent d'una coma. Canviant l'argument `sep` es poden llegir fitxers amb diferents separadors, com tabuladors "\t" (sovint amb fitxers '.tsv').

In [None]:
# Hi ha moltes opcions
pd.read_csv?

Per escriure fitxer, igualment hi ha una funció per cada tipus de dades: `pd.to_csv`, `pd.to_excel`, `to.to_latex`...

## Crear un `DataFrame` 

També podem crear un `DataFrame`a partir d'un diccionari, llista, ser, array ...

### `DataFrame` des d'un diccionari

#### Cada clau és una columna

In [None]:
dict_estudiants = {"nom": ["Maria", "Berta", "Edu", "Arnau"], "edat": [20, 21, 19, 23], "nota": [8.5, 7.7, 9.4, 5.9]}
df_estudiants = pd.DataFrame(dict_estudiants)
df_estudiants

In [None]:
df = pd.DataFrame({"X": [78, 85, 96, 80, 86], "Y": [84, 94, 89, 83, 86], "Z": [86, 97, 96, 72, 83]})
df

Si ens volem quedar només amb unes quantes columnes, les podem seleccionar amb `columns=['col1', 'col2']`

In [None]:
df_estudiants = pd.DataFrame(dict_estudiants, columns=["nom", "nota"])
df_estudiants

Per defecte, es crea una primera columna, _l'índex_, amb nombres naturals

In [None]:
df_estudiants.index

El podem modificar quan creem el `DataFrame` amb `index=['index1','index2']`

In [None]:
df_estudiants = pd.DataFrame(dict_estudiants, index=["est1", "est2", "est3", "est4"])
df_estudiants

In [None]:
df_estudiants.index

#### Cada clau és una fila

In [None]:
dict_estudiants = {
    "Maria": 8.5,
    "Berta": 7.7,
    "Edu": 9.4,
    "Arnau": 5.9,
}
df_estudiants = pd.DataFrame(dict_estudiants.items())
df_estudiants

Ara Pandas no sap quin nom posar a les columnes, així que hi ha posat números. Posa-hi noms

In [None]:
student_dict = {"Grade A": ["Joe", "Harry"], "Grade B": ["Nat"]}
print(student_dict)

student_df = pd.DataFrame.from_dict(student_dict, "index").stack().reset_index(level=0)
student_df

### `DataFrame` des d'una llista

In [None]:
llista_fruites = ["Poma", "Mango", "Meló", "Cireres"]
df_fruites = pd.DataFrame(llista_fruites, columns=["Fruites"])
df_fruites

In [None]:
llista_fruites = [["Poma", 1], ["Mango", 1.5], ["Meló", 1.2], ["Cireres", 2.3]]
df_fruites = pd.DataFrame(llista_fruites, columns=["Fruites", "Preu"])
df_fruites

En realitat, quan hem creat un `DataFrame` a partir dels items d'un diccionari, l'estructurura era la mateixa 

In [None]:
dict_estudiants.items()

Si partim de dues o més llistes, les podem posar amb el format adequat amb zip

In [None]:
llista_fruites = ["Poma", "Mango", "Meló", "Cireres"]
llista_preus = [1, 1.5, 1.2, 2.3]
df_fruites = pd.DataFrame(list(zip(llista_fruites, llista_preus)), columns=["Fruites", "Preu"])
df_fruites

## Modificar les dades