# **08. Manipulació i anàlisis de dades amb `Pandas`**

<img src="https://pandas.pydata.org/static/img/pandas.svg" 
width="200" align="right">

[Pandas](https://pandas.pydata.org/) és una llibreria que implementa estructures de dades d'alt rendiment i facilitat d'ús. Aquest mòdul permet **treballar estructures de dades de forma ràpida, flexible i expressiva**. 

`pandas` proporciona dues estructures de dades principals: 
* *Series*: array d'una dimensió amb etiquetes
* *DataFrames*: array de dues dimensions amb etiquetes per files i columnes

Les principals funcions de `pandas` són:
+ Importació de Dades
+ Neteja de Dades
+ Manipulació de Dades
+ Càlculs Estadístics
+ Combinació de Dades
+ Manipulació de Sèries Temporals

Altres recursos per a conèixer `pandas`:
- Manual de referència: https://pandas.pydata.org/docs/pandas.pdf
- Python for Data Analysis, Wes McKinney
- Python Data Science Handbook, Jave VanderPlas

In [1]:
#Importació del mòdul
import pandas as pd

La ciència de dades ens permet descodificar la informació per tal d’adquirir més coneixements d’un sistema o del nostre entorn. Normalment, aquestes dades venen en forma de taula, conformada per dues entitats: **files** i **columnes**. <br>
Les files, generalment, contenen els registres o observacions, i les columnes contenen les **variables** o atributs. Els registres, doncs, són els **casos** d’estudi que incorporen una informació determinada en cada atribut.


## 8.1 Crear un *dataframe*

Per a crear un *dataframe* es fa servir la funció `DataFrame` de pandas en el que requereix dos arguments: 
- El contingut de les files: El podem incorporar amb diferents objectes de python (llistes, diccionaris, arrays...)
- El nom de les columnes per tal d'identificar-les

In [2]:
fruites = pd.DataFrame([[30,20]], columns=['Pomes', 'Maduixes'])
display(fruites) # per mostrar taula, no usar print

Unnamed: 0,Pomes,Maduixes
0,30,20


En aquest cas, el valor de les files, s'introdueix fent servir una llista de llistes, on cada una de les llistes imbricades correspondrà a una fila. Els índexs ens permeten identificar el nom de la fila, per defecte, serà numerada iniciant en 0, però podem fer servir l'argument `index` per a identificar-les. 

Si volem més files, escrivim aquest codi:

In [3]:
fruites_compradors = pd.DataFrame([[30,20],[28,14]], 
                                  index=['Miquel','Julia'], 
                                  columns=['Pomes', 'Maduixes'])
fruites_compradors

Unnamed: 0,Pomes,Maduixes
Miquel,30,20
Julia,28,14


També es pot crear el dataframe a partir d'un diccionari, en què les claus seran el nom de la columna, i els valors corresponen a les dades de la fila. 

In [4]:
fruites_compradors_2 = pd.DataFrame(
    {'Pomes':[30,28],'Maduixes':[20,14]},
    index=['Miquel','Julia'])

fruites_compradors_2

Unnamed: 0,Pomes,Maduixes
Miquel,30,20
Julia,28,14


## 8.2 Llegir un *dataframe*

També és possible importar una *dataframe* des d'un fitxer per tal de manipular-lo en `pandas`.<br>
El fitxer es llegeix fent servir la funció `read_csv(filepath, sep=',')` que permet introduir una sèrie de paràmetres per tal d'importar-lo correctament. 

> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/> Els arxius **csv** (comma-separated values) són fitxers de text que utilitzen  `,`  o un altre caràcter per separar-ne els valors. A més de la coma els separadors més comuns són `\t`,  i `;`. És important indicar correctament quin és el separador corresponent al paràmetre `sep` de la funció `read_csv()` (per defecte utilitza la `,`).

Llegim un fitxer amb les dades que volem tractar, en aquest cas estadístiques de jugadors de la NBA durant la temporada 2020-2021. (Trobareu el fitxer al moodle)


> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/> Quan obrim el fitxer ens hem d'assegurar que el path sigui correcte. 

In [5]:
df = pd.read_csv("nba.2021.tsv", sep="\t")
df

Unnamed: 0,Player,Pos,Age,Tm,G,GS,MP,FG,FGA,FG%,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
0,Precious Achiuwa,PF,21,MIA,61,4,737,124,228,0.544,...,0.509,73,135,208,29,20,28,43,91,304
1,Jaylen Adams,PG,24,MIL,7,0,18,1,8,0.125,...,,0,3,3,2,0,0,0,1,2
2,Steven Adams,C,27,NOP,58,58,1605,189,308,0.614,...,0.444,213,301,514,111,54,38,78,113,438
3,Bam Adebayo,C,23,MIA,64,64,2143,456,800,0.570,...,0.799,142,431,573,346,75,66,169,145,1197
4,LaMarcus Aldridge,C,35,TOT,26,23,674,140,296,0.473,...,0.872,19,99,118,49,11,29,27,47,352
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
535,Delon Wright,SG-PG,28,TOT,63,39,1748,240,518,0.463,...,0.802,65,204,269,278,101,30,83,75,645
536,Thaddeus Young,PF,32,CHI,68,23,1652,370,662,0.559,...,0.628,168,255,423,291,74,40,137,152,823
537,Trae Young,PG,22,ATL,63,63,2125,487,1112,0.438,...,0.886,38,207,245,594,53,12,261,111,1594
538,Cody Zeller,C,28,CHO,48,21,1005,181,324,0.559,...,0.714,119,209,328,86,27,17,51,121,451


De manera general, el podem veure en imprimir el *dataframe* són:

+ Les variables o atributs (columnes) són: edat, posició, equip, divisió, etc.
+ Les observacions o registres (files) són: les dades corresponents a cada jugador.

> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/> Quan el *dataframe* té moltes columnes o files jupyter en mostra únicament les primeres i les últimes, indicant que n'hi ha d'ocultes amb `...` <br> Podem modificar aquest comportament amb `pd.set_option("display.max_rows", None)` i `pd.set_option("display.max_columns", None)`

## 8.3 Característiques del *dataframe*

En primer lloc, cal analitzar com és el *dataframe* amb el qual es treballa, és a dir quin aspecte té.  Per tant, és necessari comprovar si s'ha llegit correctament, nombre de files i columnes, tipus de variable a les columnes, noms de les columnes, si hi ha valors nuls, si tenim files repetides, etc. 

+ **Inici i final del dataframe – `head` i `tail`**

Ens permeten visualitzar les primeres i últimes files de la taula, de forma que ens assegura si s'ha llegit correctament. Podem canviar el nombre de files que mostra com a argument de la funció. 

In [6]:
df.head(2)

Unnamed: 0,Player,Pos,Age,Tm,G,GS,MP,FG,FGA,FG%,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
0,Precious Achiuwa,PF,21,MIA,61,4,737,124,228,0.544,...,0.509,73,135,208,29,20,28,43,91,304
1,Jaylen Adams,PG,24,MIL,7,0,18,1,8,0.125,...,,0,3,3,2,0,0,0,1,2


In [7]:
df.tail(2)

Unnamed: 0,Player,Pos,Age,Tm,G,GS,MP,FG,FGA,FG%,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
538,Cody Zeller,C,28,CHO,48,21,1005,181,324,0.559,...,0.714,119,209,328,86,27,17,51,121,451
539,Ivica Zubac,C,23,LAC,72,33,1609,257,394,0.652,...,0.789,189,330,519,90,24,62,81,187,650


+ **Nom de les columnes – `columns`**

La llista completa de les variable d'estudi s'obté amb la funció `columns()`.

In [8]:
df.columns

Index(['Player', 'Pos', 'Age', 'Tm', 'G', 'GS', 'MP', 'FG', 'FGA', 'FG%', '3P',
       '3PA', '3P%', '2P', '2PA', '2P%', 'eFG%', 'FT', 'FTA', 'FT%', 'ORB',
       'DRB', 'TRB', 'AST', 'STL', 'BLK', 'TOV', 'PF', 'PTS'],
      dtype='object')

+ **Índex de les files – `index`**

Per defecte, les files es numeren de forma consecutiva iniciant-se en 0. Aquesta etiqueta és pot modificar si al moment de carregar l'arxiu fem servir el paràmetre `index_col=0` que faria servir la columna 0 com a identificadors de les files. En el nostre cas, el nom del jugador.  

In [9]:
df.index

RangeIndex(start=0, stop=540, step=1)

+ **Estructura del dataframe – `shape`**

La funció `shape` indica el nombre de files i columnes

In [10]:
df.shape

(540, 29)

In [11]:
print("files:", df.shape[0])
print("columnes:", df.shape[1])

files: 540
columnes: 29


+ **Identificació de _missing values_ – `isna` i `dropna`**

La funció `isna()` torna, com a resultat `False` quan el valor existeix, i torna `True`, quan el valor és NA (*missing value* or *empty value*). Una estratègia per a saber el nombre és fer la suma dels `True`.

In [12]:
# Missing values per columnes
df.isna().sum() #df.isna() retorna una taula de booleans

Player     0
Pos        0
Age        0
Tm         0
G          0
GS         0
MP         0
FG         0
FGA        0
FG%        1
3P         0
3PA        0
3P%       19
2P         0
2PA        0
2P%        5
eFG%       1
FT         0
FTA        0
FT%       18
ORB        0
DRB        0
TRB        0
AST        0
STL        0
BLK        0
TOV        0
PF         0
PTS        0
dtype: int64

In [13]:
# Missing values per dataframe
df.isna().sum().sum()

44

La funció `dropna()` eliminarà totes aquelles files que tenen un _missing value_ en alguna de les columnes. També podem especificar una columna concreta i només afectaria a aquesta. En aquest cas, fem servir la funció `reset_index` per a tornar a indexar les files. 

In [14]:
df = df.dropna() # torna un dataframe que no te les files que tenien un not number
df = df.reset_index(drop=True)# guardar index antic drop=False si no el vols drop=True
df.shape
df

Unnamed: 0,Player,Pos,Age,Tm,G,GS,MP,FG,FGA,FG%,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
0,Precious Achiuwa,PF,21,MIA,61,4,737,124,228,0.544,...,0.509,73,135,208,29,20,28,43,91,304
1,Steven Adams,C,27,NOP,58,58,1605,189,308,0.614,...,0.444,213,301,514,111,54,38,78,113,438
2,Bam Adebayo,C,23,MIA,64,64,2143,456,800,0.570,...,0.799,142,431,573,346,75,66,169,145,1197
3,LaMarcus Aldridge,C,35,TOT,26,23,674,140,296,0.473,...,0.872,19,99,118,49,11,29,27,47,352
4,Ty-Shon Alexander,SG,22,PHO,15,0,47,3,12,0.250,...,0.500,2,8,10,6,0,1,3,2,9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
498,Delon Wright,SG-PG,28,TOT,63,39,1748,240,518,0.463,...,0.802,65,204,269,278,101,30,83,75,645
499,Thaddeus Young,PF,32,CHI,68,23,1652,370,662,0.559,...,0.628,168,255,423,291,74,40,137,152,823
500,Trae Young,PG,22,ATL,63,63,2125,487,1112,0.438,...,0.886,38,207,245,594,53,12,261,111,1594
501,Cody Zeller,C,28,CHO,48,21,1005,181,324,0.559,...,0.714,119,209,328,86,27,17,51,121,451


## 8.4 Accés a les dades

### **Accedir a les dades d'una columna o una sèrie de columnes**

La forma més senzilla de fer-ho és amb la següent notació.
> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/>Fixa't que si volem una sèrie de columnes, li hem de passar una llista

In [15]:
df['Tm']

0      MIA
1      NOP
2      MIA
3      TOT
4      PHO
      ... 
498    TOT
499    CHI
500    ATL
501    CHO
502    LAC
Name: Tm, Length: 503, dtype: object

In [16]:
df[["Player", "Tm"]]

Unnamed: 0,Player,Tm
0,Precious Achiuwa,MIA
1,Steven Adams,NOP
2,Bam Adebayo,MIA
3,LaMarcus Aldridge,TOT
4,Ty-Shon Alexander,PHO
...,...,...
498,Delon Wright,TOT
499,Thaddeus Young,CHI
500,Trae Young,ATL
501,Cody Zeller,CHO


**Ara prova-ho tu:** Com podem fer per seleccionar només els 15 primers valors de la columna 'Team'?

In [17]:
df['Tm'].head(15)

0     MIA
1     NOP
2     MIA
3     TOT
4     PHO
5     NOP
6     MEM
7     TOT
8     TOT
9     MEM
10    MIL
11    MIL
12    POR
13    ORL
14    TOR
Name: Tm, dtype: object

### **Accedir amb les funcions `loc`i `iloc`**

La manera més habitual en `pandas` per accedir a files o columnes és utilitzant les comandes `loc` i `iloc`. 

+ `loc` es basa en la etiqueta, per tant, cal especificar el **nom** de les files o les columnes que es volen mostrar o seleccionar.
```python
df.loc[rows, columns]
``` 
 
+ `iloc` es basa en índex, per tant, cal especificar el integer que correspon a la **posició** fila o la columna d'interès. 
```python
df.iloc[rows, columns]
```

> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/>Fixa't que en aquest cas, hem d'indicar sempre files i columnes que volem seleccionar. 

In [18]:
"""Mostrem la columna corresponen a l'equip per a totes les files"""
df.loc[:,"Tm"]

0      MIA
1      NOP
2      MIA
3      TOT
4      PHO
      ... 
498    TOT
499    CHI
500    ATL
501    CHO
502    LAC
Name: Tm, Length: 503, dtype: object

In [19]:
"""Mostrem la columna corresponen a l'equip per a totes les files"""
df.iloc[:,3]

0      MIA
1      NOP
2      MIA
3      TOT
4      PHO
      ... 
498    TOT
499    CHI
500    ATL
501    CHO
502    LAC
Name: Tm, Length: 503, dtype: object

In [20]:
""" Mostrem algunes dades del primer jugador de la llista
En aquest cas, hem fet servir els índex de les files per defecte, per això `loc` i `iloc`coincideixen """
df.loc[0, ["Player", "Age", "Tm", "Pos"]]

Player    Precious Achiuwa
Age                     21
Tm                     MIA
Pos                     PF
Name: 0, dtype: object

**Ara prova-ho tu:** Selecciona les columnes `Player` i `Team` pels 5 primers jugadors, fent servir les funcions `loc` i `iloc`

In [21]:
df.loc[:5, ["Player", "Tm" ]]

Unnamed: 0,Player,Tm
0,Precious Achiuwa,MIA
1,Steven Adams,NOP
2,Bam Adebayo,MIA
3,LaMarcus Aldridge,TOT
4,Ty-Shon Alexander,PHO
5,Nickeil Alexander-Walker,NOP


Una altra manera d'obtenir el mateix resultat és combinar les funcions que hem vist fins ara

In [22]:
df[["Player", "Tm"]].head(5)

Unnamed: 0,Player,Tm
0,Precious Achiuwa,MIA
1,Steven Adams,NOP
2,Bam Adebayo,MIA
3,LaMarcus Aldridge,TOT
4,Ty-Shon Alexander,PHO


### **Filtrar les dades segons una condició**

Pandas permet filtrar de forma fàcil les dades d'una columna en funció d'una condició. L'output en aquest cas és un booleà que ens indicarà si la fila compleix la condició. Aquesta variable que conté els índex de les files es pot emmagatzemar en una variable que ens permet filtrar el *dataframe* inicial.

In [23]:
index_gsw = df["Tm"] == "GSW" 
index_gsw

0      False
1      False
2      False
3      False
4      False
       ...  
498    False
499    False
500    False
501    False
502    False
Name: Tm, Length: 503, dtype: bool

In [24]:
# Seleccionem únicament les dades de les 
# files que tenen un TRUE a la condició prèvia 

df.loc[index_gsw, :]

Unnamed: 0,Player,Pos,Age,Tm,G,GS,MP,FG,FGA,FG%,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
32,Kent Bazemore,SF,31,GSW,67,18,1333,176,392,0.449,...,0.692,26,203,229,108,69,33,82,158,481
88,Marquese Chriss,PF,23,GSW,2,0,27,5,14,0.357,...,0.5,3,10,13,2,0,2,2,3,13
105,Stephen Curry,PG,32,GSW,63,63,2152,658,1365,0.482,...,0.916,29,316,345,363,77,8,213,119,2015
166,Draymond Green,PF,30,GSW,63,63,1982,170,380,0.447,...,0.795,55,394,449,558,105,52,188,194,444
266,Damion Lee,SG,28,GSW,57,1,1079,128,274,0.467,...,0.909,22,158,180,73,38,8,30,89,373
274,Kevon Looney,C,24,GSW,61,34,1161,108,197,0.548,...,0.646,117,205,322,119,21,22,37,136,251
285,Nico Mannion,PG,19,GSW,30,1,364,39,114,0.342,...,0.821,6,40,46,70,16,1,31,29,123
329,Mychal Mulder,PG,26,GSW,60,6,766,119,265,0.449,...,0.636,8,52,60,26,12,12,16,56,337
362,Kelly Oubre Jr.,SF,25,GSW,55,50,1687,318,724,0.439,...,0.695,82,247,329,73,57,42,70,121,849
364,Eric Paschall,PF,24,GSW,40,2,695,148,298,0.497,...,0.713,28,100,128,51,12,7,43,68,381


També podem combinar diferents índexs, tant per files com per columnes utilitzant l'operador `&` . En aquest cas combinem la cerca que hem fet amb una de nova: 

**1)** l'equip sigui el "Golden State Warriors" 

**2)** els jugadors que tinguin més de 30 anys 

**3)** Només mostrem les columnes: `Player`, `Position`, `Age` i  `Team`.

In [25]:
index_age = df["Age"] > 30
columns = ["Player", "Pos", "Age", "Tm"]
df.loc[index_gsw & index_age, columns]

Unnamed: 0,Player,Pos,Age,Tm
32,Kent Bazemore,SF,31,GSW
105,Stephen Curry,PG,32,GSW


Aquest últim pas es pot resumir en una sola línia de comandes

In [26]:
df.loc[(df["Age"] > 30) & (df["Tm"] == "GSW"), 
       ["Player", "Pos", "Age", "Tm"] ]

Unnamed: 0,Player,Pos,Age,Tm
32,Kent Bazemore,SF,31,GSW
105,Stephen Curry,PG,32,GSW


##  8.5 Manipulació de les dades

+ **Obtenir les dades úniques – `unique` i `nunique`**

La funció `unique`ens permet obtenir un array amb les dades d'una columna sense repeticions. Mentre que `nunique` comptarà quants elements inclou. 

>Quants equips (`Tm`) hi ha a la taula ?

In [27]:
df["Tm"].unique()

array(['MIA', 'NOP', 'TOT', 'PHO', 'MEM', 'MIL', 'POR', 'ORL', 'TOR',
       'CHI', 'WAS', 'SAC', 'CHO', 'NYK', 'DEN', 'SAS', 'LAC', 'GSW',
       'OKC', 'MIN', 'DET', 'DAL', 'IND', 'ATL', 'UTA', 'HOU', 'BRK',
       'BOS', 'LAL', 'PHI', 'CLE'], dtype=object)

In [28]:
"""Per a comptar podem fer servir qualsevol 
de les 3 opcions següents"""

print(len(df["Tm"].unique()))
print(df["Tm"].unique().shape)
print(df["Tm"].nunique())

31
(31,)
31


Veureu que surt un equip de més, és el `TOT`, que indica TOTAL, i correspon als jugadors que han jugat amb més d'un equip durant la temporada.

+ **Ordenar les dades – `sort_values`**

La funció `sort_values()` permet ordenar les dades d'una columna o de vàries columnes per ordre. L'argument `ascending` es troba per defecte en `True`.

> Qui ha jugat més minuts (`MP`)? 

In [29]:
df.sort_values("MP", ascending=False).loc[:,["Player", "MP"]].head()

Unnamed: 0,Player,MP
389,Julius Randle,2667
27,RJ Barrett,2511
239,Nikola Jokić,2488
195,Buddy Hield,2433
272,Damian Lillard,2398


+ **Crear una columna nova**

La nova columna es crea de la mateixa forma que es fa als diccionaris.

> Quants minuts han jugat per partit ? 

Per calcular-ho cal dividi els minuts totals (`MP`) pels partits jugats (`G`). La nova columna s'anomena `MPGame`.

In [30]:
df["MPGame"] = df["MP"] / df["G"] 

df[["Player", "Tm", "MP", "G", "MPGame"]].sort_values(
    "MPGame", ascending=False).head()

Unnamed: 0,Player,Tm,MP,G,MPGame
389,Julius Randle,NYK,2667,71,37.56338
178,James Harden,TOT,1609,44,36.568182
463,Fred VanVleet,TOR,1899,52,36.519231
480,Russell Westbrook,WAS,2369,65,36.446154
26,Harrison Barnes,SAC,2102,58,36.241379


+ **Eliminar una columna – `pop`**

Com a les llistes o els diccionaris, la funció `pop` permet eliminar una columna del dataframe.

> Eliminem la columna `MPGame` del *dataframe* 

In [31]:
column = df.pop('MPGame')
column

0      12.081967
1      27.672414
2      33.484375
3      25.923077
4       3.133333
         ...    
498    27.746032
499    24.294118
500    33.730159
501    20.937500
502    22.347222
Name: MPGame, Length: 503, dtype: float64

In [32]:
#Comprovem que aquesta nova columna ja no existeix
df.head(2)

Unnamed: 0,Player,Pos,Age,Tm,G,GS,MP,FG,FGA,FG%,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
0,Precious Achiuwa,PF,21,MIA,61,4,737,124,228,0.544,...,0.509,73,135,208,29,20,28,43,91,304
1,Steven Adams,C,27,NOP,58,58,1605,189,308,0.614,...,0.444,213,301,514,111,54,38,78,113,438


### Agrupacions de les dades: `groupby`

Una de les funcions més potents i utilitzades de pandas és `groupby()`. Aquesta funció permet dividir les dades en grups de forma que apliquem càlculs estadístics en funció d'aquesta classificació. 


> Quin és el jugador més gran de cada equip ? 

Per resoldre aquesta pregunta, seguirem els següents passos:

1. Agrupar les dades dels jugadors en funció de l'equip al que pertanyen

In [33]:
teamGroup = df.groupby("Tm")
print(teamGroup)
len(teamGroup)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000020524E3B810>


31

Per saber el nombre de grups, podem fer accedir a l'atribut `ngroupgs`

In [34]:
teamGroup.ngroups

31

Per tal d'accedir a un dels grups, podem fer servir la funció `get_group()` que retornarà la taula completa de les files que pertanyen a aquest grup

In [35]:
teamGroup.get_group("LAL")

Unnamed: 0,Player,Pos,Age,Tm,G,GS,MP,FG,FGA,FG%,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
77,Kentavious Caldwell-Pope,SG,27,LAL,67,67,1902,218,506,0.431,...,0.866,27,152,179,127,62,26,66,114,653
85,Alex Caruso,PG,26,LAL,58,6,1216,133,305,0.436,...,0.645,31,139,170,160,64,15,76,108,370
106,Anthony Davis,PF,27,LAL,36,36,1162,301,613,0.491,...,0.738,62,224,286,110,45,59,74,60,786
152,Marc Gasol,C,36,LAL,52,42,993,88,194,0.454,...,0.72,38,177,215,109,26,58,53,115,262
181,Montrezl Harrell,C,27,LAL,69,1,1580,375,603,0.622,...,0.707,158,270,428,73,46,49,74,128,931
207,Talen Horton-Tucker,SG,20,LAL,65,4,1304,224,489,0.458,...,0.775,25,144,169,181,63,21,105,127,585
228,LeBron James,PG,36,LAL,45,45,1504,422,823,0.513,...,0.698,29,317,346,350,48,25,168,70,1126
259,Kyle Kuzma,SF,25,LAL,68,32,1954,335,757,0.443,...,0.691,108,309,417,127,35,41,113,121,874
297,Wesley Matthews,SG,34,LAL,58,10,1130,89,252,0.353,...,0.854,20,73,93,54,38,17,26,80,279
308,Alfonzo McKinnie,SF,28,LAL,39,0,258,48,93,0.516,...,0.556,22,32,54,6,7,0,5,26,122


2. Podem obtenir els valors màxims d'una columna concreta, aplicant-ho sobre l'objecte que conté l'agrupació. En aquest cas, obtenim les edats més altes de cada equip, però no sabem a quin jugador corresponen

In [36]:
teamGroup["Age"].max()

Tm
ATL    32
BOS    30
BRK    34
CHI    34
CHO    30
CLE    38
DAL    32
DEN    35
DET    33
GSW    32
HOU    32
IND    31
LAC    32
LAL    36
MEM    30
MIA    37
MIL    32
MIN    30
NOP    31
NYK    35
OKC    34
ORL    30
PHI    35
PHO    35
POR    36
SAC    31
SAS    34
TOR    34
TOT    36
UTA    33
WAS    32
Name: Age, dtype: int64

Doncs, una opció intuitiva per extreure la informació que ens interessa és **iterar** sobre cada grup/equip i així extreure el que desitgem

In [37]:
for team, dades in teamGroup:
    edatIndex = dades["Age"].idxmax()
    print(team, dades.loc[edatIndex, ["Player", "Age"]])

ATL Player    Danilo Gallinari
Age                     32
Name: 149, dtype: object
BOS Player    Kemba Walker
Age                 30
Name: 470, dtype: object
BRK Player    Jeff Green
Age               34
Name: 169, dtype: object
CHI Player    Garrett Temple
Age                   34
Name: 439, dtype: object
CHO Player    Gordon Hayward
Age                   30
Name: 191, dtype: object
CLE Player    Anderson Varejão
Age                     38
Name: 464, dtype: object
DAL Player    Boban Marjanović
Age                     32
Name: 286, dtype: object
DEN Player    Paul Millsap
Age                 35
Name: 318, dtype: object
DET Player    Wayne Ellington
Age                    33
Name: 130, dtype: object
GSW Player    Stephen Curry
Age                  32
Name: 105, dtype: object
HOU Player    Eric Gordon
Age                32
Name: 162, dtype: object
IND Player    Justin Holiday
Age                   31
Name: 202, dtype: object
LAC Player    Nicolas Batum
Age                  32
Name: 30, 

També ho podem fer de forma més convenient (ja ens retorna una taula) utilitzant la funció `apply()`. Aquesta funció té com a paràmetre una altre funció que en aquest cas s'aplicarà a cada grup.

In [38]:
teamGroup.apply(lambda grup: 
                grup.loc[grup["Age"].idxmax(), 
                         ["Player", "Age"]]
               ).sort_values("Age", ascending=False)

Unnamed: 0_level_0,Player,Age
Tm,Unnamed: 1_level_1,Unnamed: 2_level_1
CLE,Anderson Varejão,38
MIA,Andre Iguodala,37
TOT,J.J. Redick,36
POR,Carmelo Anthony,36
LAL,Marc Gasol,36
NYK,Taj Gibson,35
DEN,Paul Millsap,35
PHO,Chris Paul,35
PHI,Dwight Howard,35
BRK,Jeff Green,34


Pandas ens ofereix tot un seguit de funcions que faciliten el tractament de les dades. Tot i així, també podem recòrrer a fer iteracions amb un bucle `for` que analitzi cadascuna de les files. Es tracta d'una forma menys eficient de fer-ho, però factible i amb el mateix resultat. 

In [39]:
max_age = {} 
for index, row in df.iterrows():

    if row["Tm"] not in max_age:
        max_age[row["Tm"]]  = (row["Player"], row["Age"])
    else:
        if max_age[row["Tm"]][1] < row["Age"]:
            max_age[row["Tm"]]  = (row["Player"], row["Age"])
max_age

{'MIA': ('Andre Iguodala', 37),
 'NOP': ('Eric Bledsoe', 31),
 'TOT': ('J.J. Redick', 36),
 'PHO': ('Chris Paul', 35),
 'MEM': ('Tim Frazier', 30),
 'MIL': ('Brook Lopez', 32),
 'POR': ('Carmelo Anthony', 36),
 'ORL': ('James Ennis', 30),
 'TOR': ('Aron Baynes', 34),
 'CHI': ('Garrett Temple', 34),
 'WAS': ('Robin Lopez', 32),
 'SAC': ('Hassan Whiteside', 31),
 'CHO': ('Gordon Hayward', 30),
 'NYK': ('Taj Gibson', 35),
 'DEN': ('Paul Millsap', 35),
 'SAS': ('Rudy Gay', 34),
 'LAC': ('Nicolas Batum', 32),
 'GSW': ('Stephen Curry', 32),
 'OKC': ('Al Horford', 34),
 'MIN': ('Ricky Rubio', 30),
 'DET': ('Wayne Ellington', 33),
 'DAL': ('Boban Marjanović', 32),
 'IND': ('Justin Holiday', 31),
 'ATL': ('Danilo Gallinari', 32),
 'UTA': ('Mike Conley', 33),
 'HOU': ('Eric Gordon', 32),
 'BRK': ('Jeff Green', 34),
 'BOS': ('Kemba Walker', 30),
 'LAL': ('Marc Gasol', 36),
 'PHI': ('Dwight Howard', 35),
 'CLE': ('Anderson Varejão', 38)}

In [40]:
df.sort_values("Age", ascending=False).groupby("Tm").first().\
sort_values("Age", ascending=False)

Unnamed: 0_level_0,Player,Pos,Age,G,GS,MP,FG,FGA,FG%,3P,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
Tm,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
CLE,Anderson Varejão,C,38,5,0,36,4,16,0.25,0,...,0.556,7,13,20,3,0,2,1,3,13
MIA,Andre Iguodala,SF,37,63,5,1339,95,248,0.383,60,...,0.658,38,183,221,142,57,35,67,90,275
TOT,J.J. Redick,SG,36,44,0,723,106,267,0.397,66,...,0.942,4,60,64,51,11,3,36,50,327
POR,Carmelo Anthony,PF,36,69,3,1690,327,777,0.421,133,...,0.89,32,182,214,104,46,38,61,144,924
LAL,Marc Gasol,C,36,52,42,993,88,194,0.454,50,...,0.72,38,177,215,109,26,58,53,115,262
NYK,Taj Gibson,PF,35,45,3,936,99,158,0.627,3,...,0.727,99,151,250,36,31,49,22,99,241
DEN,Paul Millsap,PF,35,56,36,1162,191,401,0.476,49,...,0.724,76,186,262,98,51,36,51,111,502
PHO,Chris Paul,PG,35,70,70,2199,439,879,0.499,102,...,0.934,25,287,312,622,99,19,156,166,1149
PHI,Dwight Howard,C,35,69,6,1196,178,303,0.587,5,...,0.576,190,390,580,61,30,62,112,200,482
BRK,Jeff Green,C,34,68,38,1835,261,530,0.492,103,...,0.776,34,229,263,108,36,27,54,122,750


## 8.6 Càlculs estadísitics

Pandas facilita fer càlculs estadísitics per files o columnes, però també a les diferents agrupacions generades amb `groupby`. 


> A quina equip els jugadors tenen una mitjana d'edat més alta? 

1. Agruparem els jugadors segons l'equip en que jugen. 
2. Farem la mitjana de la columna de l'edat.
3. Ordenarem el resultat.

In [41]:
df.groupby("Tm")["Age"].mean().sort_values().sort_values(
    ascending=False)

Tm
LAL    28.666667
LAC    27.214286
MIA    27.153846
UTA    27.133333
TOT    27.092105
BRK    26.937500
MIL    26.571429
PHI    26.470588
TOR    26.230769
PHO    26.133333
POR    25.916667
CHI    25.909091
WAS    25.857143
CLE    25.666667
DAL    25.333333
DEN    25.230769
GSW    25.125000
IND    25.058824
NYK    25.000000
SAS    24.928571
HOU    24.750000
ORL    24.615385
ATL    24.533333
NOP    24.500000
CHO    24.071429
BOS    24.000000
SAC    24.000000
MEM    23.882353
DET    23.692308
OKC    23.562500
MIN    23.071429
Name: Age, dtype: float64

> Quants jugadors té cada equip? 

In [42]:
df.groupby("Tm")["Player"].nunique().sort_values()

Tm
CHI    11
POR    12
NYK    12
LAL    12
MIA    13
BOS    13
TOR    13
DEN    13
DET    13
ORL    13
SAS    14
SAC    14
NOP    14
MIN    14
MIL    14
WAS    14
LAC    14
CHO    14
PHO    15
DAL    15
CLE    15
UTA    15
ATL    15
HOU    16
OKC    16
GSW    16
BRK    16
MEM    17
IND    17
PHI    17
TOT    76
Name: Player, dtype: int64

> Quants jugadors majors de 33 anys hi ha ? A quina posició juguen ?

In [43]:
data = df.loc[df["Age"] > 33, 
              ["Player", "Pos", "Tm", "Age"]].sort_values(
    "Age", ascending=False)

data

Unnamed: 0,Player,Pos,Tm,Age
464,Anderson Varejão,C,CLE,38
216,Andre Iguodala,SF,MIA,37
152,Marc Gasol,C,LAL,36
391,J.J. Redick,SG,TOT,36
228,LeBron James,PG,LAL,36
12,Carmelo Anthony,PF,POR,36
209,Dwight Howard,C,PHI,35
457,P.J. Tucker,PF,TOT,35
451,Anthony Tolliver,PF,PHI,35
367,Chris Paul,PG,PHO,35


In [44]:
# Amb la funció size podem veure quantes 
# files hi ha a cada grup que hem creat
data.groupby("Pos").size().sort_values(ascending=False)

Pos
C     7
PG    7
PF    6
SG    3
SF    2
dtype: int64

In [45]:
df.mean(numeric_only=True)

Age       25.614314
G         44.729622
GS        21.077535
MP      1019.924453
FG       174.361829
FGA      375.168986
FG%        0.449652
3P        54.471173
3PA      148.518887
3P%        0.317602
2P       119.890656
2PA      226.650099
2P%        0.513662
eFG%       0.518829
FT        71.928429
FTA       92.131213
FT%        0.756531
ORB       40.111332
DRB      144.473161
TRB      184.584493
AST      105.829026
STL       32.031809
BLK       19.904573
TOV       56.077535
PF        81.161034
PTS      475.123260
dtype: float64

In [46]:
# la funció corr calcula la correlació entre columnes
corr = df.corr(numeric_only=True)
corr

Unnamed: 0,Age,G,GS,MP,FG,FGA,FG%,3P,3PA,3P%,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
Age,1.0,0.145367,0.144822,0.186809,0.127796,0.127063,0.065687,0.183703,0.165956,0.076369,...,0.155169,0.083387,0.165157,0.150339,0.191799,0.182398,0.095954,0.120635,0.146526,0.137089
G,0.145367,1.0,0.597062,0.862678,0.695607,0.699122,0.330271,0.583535,0.602122,0.274399,...,0.187701,0.537813,0.695861,0.685183,0.548713,0.735831,0.476681,0.62806,0.836168,0.684611
GS,0.144822,0.597062,1.0,0.855173,0.809036,0.804993,0.239769,0.608585,0.625332,0.171296,...,0.166861,0.499405,0.751215,0.717153,0.673365,0.718721,0.480433,0.763763,0.731535,0.807226
MP,0.186809,0.862678,0.855173,1.0,0.90091,0.908397,0.283493,0.741043,0.761129,0.276874,...,0.243496,0.542793,0.822388,0.784009,0.749141,0.85607,0.504201,0.831078,0.871507,0.89778
FG,0.127796,0.695607,0.809036,0.90091,1.0,0.984349,0.316581,0.71181,0.725881,0.249662,...,0.24432,0.517132,0.798994,0.75887,0.776572,0.749718,0.440828,0.893219,0.751871,0.993812
FGA,0.127063,0.699122,0.804993,0.908397,0.984349,1.0,0.209782,0.784348,0.807052,0.287962,...,0.277882,0.41748,0.752752,0.695599,0.791792,0.76463,0.368562,0.893226,0.733856,0.988673
FG%,0.065687,0.330271,0.239769,0.283493,0.316581,0.209782,1.0,-0.034874,-0.061021,0.04423,...,-0.058083,0.56371,0.413238,0.474709,0.141451,0.205129,0.46843,0.241671,0.378086,0.275855
3P,0.183703,0.583535,0.608585,0.741043,0.71181,0.784348,-0.034874,1.0,0.990372,0.456571,...,0.364921,0.025865,0.455216,0.357762,0.562877,0.591759,0.116741,0.598313,0.519388,0.753531
3PA,0.165956,0.602122,0.625332,0.761129,0.725881,0.807052,-0.061021,0.990372,1.0,0.427097,...,0.356504,0.034995,0.469206,0.37107,0.589435,0.619736,0.129811,0.629039,0.540671,0.767563
3P%,0.076369,0.274399,0.171296,0.276874,0.249662,0.287962,0.04423,0.456571,0.427097,1.0,...,0.36812,-0.147891,0.105966,0.040563,0.217452,0.228427,-0.078881,0.186321,0.166485,0.273233


> <img src="https://icon-library.com/images/tip-icon/tip-icon-23.jpg" alt="tip" width="30"/> Pandas permet obtenir fàcilment un array de NumPy amb els valors de la taula, el que permet aprofitar moltes de les funcionalitats de NumPy.

In [47]:
print(type(corr.values))

<class 'numpy.ndarray'>


In [48]:
import numpy as np
np.fill_diagonal(corr.values, np.nan)
corr = corr * np.tril(corr)
corr

Unnamed: 0,Age,G,GS,MP,FG,FGA,FG%,3P,3PA,3P%,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
Age,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
G,0.021132,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
GS,0.020974,0.356483,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
MP,0.034898,0.744213,0.73132,,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
FG,0.016332,0.483869,0.654539,0.811638,,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
FGA,0.016145,0.488772,0.648014,0.825185,0.968942,,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
FG%,0.004315,0.109079,0.057489,0.080368,0.100224,0.044008,,-0.0,-0.0,0.0,...,-0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3P,0.033747,0.340513,0.370376,0.549144,0.506674,0.615202,0.001216,,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3PA,0.027541,0.362551,0.391041,0.579317,0.526904,0.651333,0.003724,0.980837,,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3P%,0.005832,0.075295,0.029342,0.076659,0.062331,0.082922,0.001956,0.208457,0.182412,,...,0.0,-0.0,0.0,0.0,0.0,0.0,-0.0,0.0,0.0,0.0


In [49]:
corr.stack().sort_values(ascending=False).head(10)

PTS  FG     0.987662
3PA  3P     0.980837
PTS  FGA    0.977474
FTA  FT     0.977177
2PA  2P     0.975922
FGA  FG     0.968942
TRB  DRB    0.968825
2PA  FG     0.907491
2P   FG     0.889862
PTS  2PA    0.867863
dtype: float64