# Introducció a Pandas

In [1]:
import pandas as pd

Els objectes principals de Pandas són els `DataFrames` --- venen a ser taules de dades amb files i columnes.

Agafem les dades de les línies de bus que ja coneixem 

In [2]:
df = pd.read_csv("data/ctabus.csv")
df

Unnamed: 0,route,date,daytype,rides
0,3,01/01/2001,U,7354
1,4,01/01/2001,U,9288
2,6,01/01/2001,U,6048
3,8,01/01/2001,U,6309
4,9,01/01/2001,U,11207
...,...,...,...,...
577558,111,08/31/2013,A,2090
577559,11,08/31/2013,A,1045
577560,106,08/31/2013,A,915
577561,103,08/31/2013,A,1213


## Veure les dades

Mètodes per explorar un `DataFrame`:

- `head(n)`-  Mostra les n primeres columnes
- `tail(n)`-  Mostra les n últimes columnes
- `info` - Ens dius quantes entrades no buides hi ha, i el tipus de variable de cada columna
- `describe` - Mostra estadístiques bàsiques de les columnes numèriques

In [6]:
df.head()

Unnamed: 0,route,date,daytype,rides
0,3,01/01/2001,U,7354
1,4,01/01/2001,U,9288
2,6,01/01/2001,U,6048
3,8,01/01/2001,U,6309
4,9,01/01/2001,U,11207


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 577563 entries, 0 to 577562
Data columns (total 4 columns):
 #   Column   Non-Null Count   Dtype 
---  ------   --------------   ----- 
 0   route    577563 non-null  object
 1   date     577563 non-null  object
 2   daytype  577563 non-null  object
 3   rides    577563 non-null  int64 
dtypes: int64(1), object(3)
memory usage: 17.6+ MB


In [8]:
df.describe()

Unnamed: 0,rides
count,577563.0
mean,6687.680632
std,6732.625798
min,0.0
25%,1436.0
50%,4258.0
75%,10170.0
max,45177.0


Com que Pandas fa servir NumPy, podem fer servir els mètodes i atributs de NumPy

A més, anirem veient altres atributs interessants, com `columns`

In [9]:
(
    df.shape,
    df.size,
    df.ndim,
    len(df),
)

((577563, 4), 2310252, 2, 577563)

In [10]:
df.columns

Index(['route', 'date', 'daytype', 'rides'], dtype='object')

## Indexar

S'indexa una sola columna igual que un diccionari. El resultat és una `Series` de Pandas.

In [11]:
# Agafem 5 files per no imprimir tant
df = df[75:80]

In [12]:
df["route"]

75    49B
76    52A
77    53A
78    54B
79    63W
Name: route, dtype: object

També es pot indexar com si fós un atribut (si el nom no té espais)

In [13]:
df.route

75    49B
76    52A
77    53A
78    54B
79    63W
Name: route, dtype: object

Si volem indexar diverses columnes, ens cal una llista

In [14]:
cols = ["route", "rides"]
df[cols]

Unnamed: 0,route,rides
75,49B,1571
76,52A,1451
77,53A,1104
78,54B,1640
79,63W,316


In [15]:
# O el que és el mateix
df[["route", "rides"]]

Unnamed: 0,route,rides
75,49B,1571
76,52A,1451
77,53A,1104
78,54B,1640
79,63W,316


Per **indexar files** farem servir `.loc`

In [16]:
# Una sola fila també retorna una `Series`
df.loc[75]

route             49B
date       01/01/2001
daytype             U
rides            1571
Name: 75, dtype: object

In [17]:
df.loc[[75, 76, 78]]

Unnamed: 0,route,date,daytype,rides
75,49B,01/01/2001,U,1571
76,52A,01/01/2001,U,1451
78,54B,01/01/2001,U,1640


In [18]:
# Podem fer servir rangs (però cal tenir compte!). Què hi veieu?
df.loc[:77]

Unnamed: 0,route,date,daytype,rides
75,49B,01/01/2001,U,1571
76,52A,01/01/2001,U,1451
77,53A,01/01/2001,U,1104


Els índexs no tenen per què ser números, per això els rangs amb `loc` són inclusius.

Per exemple, podem fer servir una columna com a índex amb `set_index`

In [19]:
route_df = df.set_index("route")
route_df

Unnamed: 0_level_0,date,daytype,rides
route,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
49B,01/01/2001,U,1571
52A,01/01/2001,U,1451
53A,01/01/2001,U,1104
54B,01/01/2001,U,1640
63W,01/01/2001,U,316


In [20]:
route_df.loc["49B"]

date       01/01/2001
daytype             U
rides            1571
Name: 49B, dtype: object

In [21]:
route_df.loc["52A":"54B"]

Unnamed: 0_level_0,date,daytype,rides
route,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
52A,01/01/2001,U,1451
53A,01/01/2001,U,1104
54B,01/01/2001,U,1640


Per 'recuperar' l'índex com a columna fem `.reset_index()`

In [25]:
route_df.reset_index()

Unnamed: 0,route,date,daytype,rides
0,49B,01/01/2001,U,1571
1,52A,01/01/2001,U,1451
2,53A,01/01/2001,U,1104
3,54B,01/01/2001,U,1640
4,63W,01/01/2001,U,316


Fixeu-vos que les operacions no canvien l'objecte si no fem un =

In [26]:
route_df

Unnamed: 0_level_0,date,daytype,rides
route,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
49B,01/01/2001,U,1571
52A,01/01/2001,U,1451
53A,01/01/2001,U,1104
54B,01/01/2001,U,1640
63W,01/01/2001,U,316


Si en canvi volem indexar numèricament, sense fixar-nos en el nom de l'índex o les columnes, farem servir `iloc`

In [27]:
df.iloc[0]

route             49B
date       01/01/2001
daytype             U
rides            1571
Name: 75, dtype: object

In [28]:
df.iloc[:3]

Unnamed: 0,route,date,daytype,rides
75,49B,01/01/2001,U,1571
76,52A,01/01/2001,U,1451
77,53A,01/01/2001,U,1104


In [29]:
df.iloc[:3, 1:]

Unnamed: 0,date,daytype,rides
75,01/01/2001,U,1571
76,01/01/2001,U,1451
77,01/01/2001,U,1104


**Resum**


+ `[]` per selccionar columnes 
+ `.loc[noms_files, noms_columnes]` per indexar per nom
+ `.iloc[poscio_files, posicio_columnes]` per indexar per posició

### Exercici

Posa-ho tot junt. Selecciona les primeres 500 files senars (de l'índex 1 al 999) i les columnes "route", "date" i "rides"

In [170]:
df = pd.read_csv("data/ctabus.csv")

## Llegir i escriure fitxers

Podem llegir dades d'un CSV, Excel, SQL, JSON ...

Les funcions són bastant similars: `pd.read_csv`, `pd.read_excel`...

Segons el format que vulguem llegir i el nostre sistema operatiu és possible que calgui instalar algun altre paquet.

Ens centrarem en fitxers `csv`.
Tot i que el nom ve de "comma separated values", el separador pot ser diferent d'una coma. Canviant l'argument `sep` es poden llegir fitxers amb diferents separadors, com tabuladors "\t" (sovint amb fitxers '.tsv').

In [31]:
# Hi ha moltes opcions
pd.read_csv?

[0;31mSignature:[0m
[0mpd[0m[0;34m.[0m[0mread_csv[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mfilepath_or_buffer[0m[0;34m:[0m [0;34m'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0;34m*[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msep[0m[0;34m:[0m [0;34m'str | None | lib.NoDefault'[0m [0;34m=[0m [0;34m<[0m[0mno_default[0m[0;34m>[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdelimiter[0m[0;34m:[0m [0;34m'str | None | lib.NoDefault'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mheader[0m[0;34m:[0m [0;34m"int | Sequence[int] | None | Literal['infer']"[0m [0;34m=[0m [0;34m'infer'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mnames[0m[0;34m:[0m [0;34m'Sequence[Hashable] | None | lib.NoDefault'[0m [0;34m=[0m [0;34m<[0m[0mno_default[0m[0;34m>[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex_col[0m[0;34m:[0m [0;34m'IndexLabel | Literal[False] | None'[0m [0

Per escriure fitxer, igualment hi ha una funció per cada tipus de dades: `pd.to_csv`, `pd.to_excel`, `to.to_latex`...

## Crear un `DataFrame` 

També podem crear un `DataFrame`a partir d'un diccionari, llista, ser, array ...

### `DataFrame` des d'un diccionari

#### Cada clau és una columna

In [56]:
dict_estudiants = {"nom": ["Maria", "Berta", "Edu", "Arnau"], "edat": [20, 21, 19, 23], "nota": [8.5, 7.7, 9.4, 5.9]}
df_estudiants = pd.DataFrame(dict_estudiants)
df_estudiants

Unnamed: 0,nom,edat,nota
0,Maria,20,8.5
1,Berta,21,7.7
2,Edu,19,9.4
3,Arnau,23,5.9


In [59]:
df = pd.DataFrame({"X": [78, 85, 96, 80, 86], "Y": [84, 94, 89, 83, 86], "Z": [86, 97, 96, 72, 83]})
df

Unnamed: 0,X,Y,Z
0,78,84,86
1,85,94,97
2,96,89,96
3,80,83,72
4,86,86,83


Si ens volem quedar només amb unes quantes columnes, les podem seleccionar amb `columns=['col1', 'col2']`

In [9]:
df_estudiants = pd.DataFrame(dict_estudiants, columns=["nom", "nota"])
df_estudiants

Unnamed: 0,nom,nota
0,Maria,8.5
1,Berta,7.7
2,Edu,9.4
3,Arnau,5.9


Per defecte, es crea una primera columna, _l'índex_, amb nombres naturals

In [13]:
df_estudiants.index

RangeIndex(start=0, stop=4, step=1)

El podem modificar quan creem el `DataFrame` amb `index=['index1','index2']`

In [15]:
df_estudiants = pd.DataFrame(dict_estudiants, index=["est1", "est2", "est3", "est4"])
df_estudiants

Unnamed: 0,nom,edat,nota
est1,Maria,20,8.5
est2,Berta,21,7.7
est3,Edu,19,9.4
est4,Arnau,23,5.9


In [16]:
df_estudiants.index

Index(['est1', 'est2', 'est3', 'est4'], dtype='object')

#### Cada clau és una fila

In [43]:
dict_estudiants = {
    "Maria": 8.5,
    "Berta": 7.7,
    "Edu": 9.4,
    "Arnau": 5.9,
}
df_estudiants = pd.DataFrame(dict_estudiants.items())
df_estudiants

Unnamed: 0,0,1
0,Maria,8.5
1,Berta,7.7
2,Edu,9.4
3,Arnau,5.9


Ara Pandas no sap quin nom posar a les columnes, així que hi ha posat números. Posa-hi noms

In [31]:
student_dict = {"Grade A": ["Joe", "Harry"], "Grade B": ["Nat"]}
print(student_dict)

student_df = pd.DataFrame.from_dict(student_dict, "index").stack().reset_index(level=0)
student_df

{'Grade A': ['Joe', 'Harry'], 'Grade B': ['Nat']}


Unnamed: 0,level_0,0
0,Grade A,Joe
1,Grade A,Harry
0,Grade B,Nat


### `DataFrame` des d'una llista

In [36]:
llista_fruites = ["Poma", "Mango", "Meló", "Cireres"]
df_fruites = pd.DataFrame(llista_fruites, columns=["Fruites"])
df_fruites

Unnamed: 0,Fruites
0,Poma
1,Mango
2,Meló
3,Cireres


In [48]:
llista_fruites = [["Poma", 1], ["Mango", 1.5], ["Meló", 1.2], ["Cireres", 2.3]]
df_fruites = pd.DataFrame(llista_fruites, columns=["Fruites", "Preu"])
df_fruites

Unnamed: 0,Fruites,Preu
0,Poma,1.0
1,Mango,1.5
2,Meló,1.2
3,Cireres,2.3


En realitat, quan hem creat un `DataFrame` a partir dels items d'un diccionari, l'estructurura era la mateixa 

In [55]:
dict_estudiants.items()

dict_items([('Maria', 8.5), ('Berta', 7.7), ('Edu', 9.4), ('Arnau', 5.9)])

Si partim de dues o més llistes, les podem posar amb el format adequat amb zip

In [54]:
llista_fruites = ["Poma", "Mango", "Meló", "Cireres"]
llista_preus = [1, 1.5, 1.2, 2.3]
df_fruites = pd.DataFrame(list(zip(llista_fruites, llista_preus)), columns=["Fruites", "Preu"])
df_fruites

Unnamed: 0,Fruites,Preu
0,Poma,1.0
1,Mango,1.5
2,Meló,1.2
3,Cireres,2.3


## Modificar les dades