# problemes de pandas

Molts dels exercicis aquí són senzills, ja que les solucions no requereixen més que unes quantes línies de codi (Escollir els mètodes adequats i seguir les millors pràctiques és l'objectiu subjacent.

Els exercicis estan dividits en seccions. Cada secció té una qualificació de dificultat; aquestes valoracions són subjectives, per descomptat, però haurien de ser vistes com una guia aproximada sobre com d'inventiva és la solució requerida.

## Importació de pandes

### Com començar i comprovar la configuració de Pandas

Dificultat: *fàcil*

**1.** Importa pandes amb el nom `pd`.

In [1]:
import pandas as pd

**2.** Imprimeix la versió dels pandes que s'ha importat.

In [2]:
pd.__version__

'2.0.1'

**3.** Imprimeix tota la informació de versió de les biblioteques que requereix la biblioteca pandas.

In [3]:
pd.show_versions(as_json=True)

{
  "system": {
    "commit": "37ea63d540fd27274cad6585082c91b1283f963d",
    "python": "3.10.0.final.0",
    "python-bits": 64,
    "OS": "Windows",
    "OS-release": "10",
    "Version": "10.0.22621",
    "machine": "AMD64",
    "processor": "Intel64 Family 6 Model 140 Stepping 1, GenuineIntel",
    "byteorder": "little",
    "LC_ALL": null,
    "LANG": null,
    "LOCALE": {
      "language-code": "es_ES",
      "encoding": "cp1252"
    }
  },
  "dependencies": {
    "pandas": "2.0.1",
    "numpy": "1.24.3",
    "pytz": "2023.3",
    "dateutil": "2.8.2",
    "setuptools": "57.4.0",
    "pip": "23.3.1",
    "Cython": null,
    "pytest": null,
    "hypothesis": null,
    "sphinx": null,
    "blosc": null,
    "feather": null,
    "xlsxwriter": null,
    "lxml.etree": null,
    "html5lib": null,
    "pymysql": null,
    "psycopg2": "2.9.6",
    "jinja2": "3.1.2",
    "IPython": "8.11.0",
    "pandas_datareader": null,
    "bs4": "4.12.2",
    "bottleneck": null,
    "brotli": null,
    

## Conceptes bàsics de DataFrame

### Algunes de les rutines fonamentals per seleccionar, ordenar, afegir i agregar dades a DataFrames

Dificultat: *fàcil*

Nota: recordeu importar numpy amb:

```python
import numpy as np
```

Considereu el diccionari de Python `data` següent i les `labels` de la llista de Python:

``` python
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
```


**4.** Creeu un DataFrame `df` a partir d'aquest diccionari `data` que tingui l'índex `labels`.

In [4]:
import numpy as np

In [5]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(data, index=labels)
print(df)

  animal  age  visits priority
a    cat  2.5       1      yes
b    cat  3.0       3      yes
c  snake  0.5       2       no
d    dog  NaN       3      yes
e    dog  5.0       2       no
f    cat  2.0       3       no
g  snake  4.5       1       no
h    cat  NaN       1      yes
i    dog  7.0       2       no
j    dog  3.0       1       no


**5.** Mostra un resum de la informació bàsica sobre aquest DataFrame i les seves dades.

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, a to j
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   animal    10 non-null     object 
 1   age       8 non-null      float64
 2   visits    10 non-null     int64  
 3   priority  10 non-null     object 
dtypes: float64(1), int64(1), object(2)
memory usage: 400.0+ bytes


In [7]:
df.describe()

Unnamed: 0,age,visits
count,8.0,10.0
mean,3.4375,1.9
std,2.007797,0.875595
min,0.5,1.0
25%,2.375,1.0
50%,3.0,2.0
75%,4.625,2.75
max,7.0,3.0


**6.** Retorna les 3 primeres files del DataFrame `df`.

In [8]:
df.head(3)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no


**7.** Seleccioneu només les columnes `animal` i `edat` del DataFrame `df`.

In [9]:
df[["animal", "age"]] #not recommended

Unnamed: 0,animal,age
a,cat,2.5
b,cat,3.0
c,snake,0.5
d,dog,
e,dog,5.0
f,cat,2.0
g,snake,4.5
h,cat,
i,dog,7.0
j,dog,3.0


In [10]:
df.iloc[:, 0:2]

Unnamed: 0,animal,age
a,cat,2.5
b,cat,3.0
c,snake,0.5
d,dog,
e,dog,5.0
f,cat,2.0
g,snake,4.5
h,cat,
i,dog,7.0
j,dog,3.0


**8.** Seleccioneu les dades a les files `[3, 4, 8]` *i* a les columnes `['animal', 'age']`.

In [11]:
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


In [12]:
df.loc[["c", "d", "h"], :"age"]

Unnamed: 0,animal,age
c,snake,0.5
d,dog,
h,cat,


**9.** Seleccioneu només les files on el nombre de visites sigui superior a 3.

In [13]:
#filas enteras -> visitas > 3

visits_gt_3 = df["visits"] > 3
df[visits_gt_3]

Unnamed: 0,animal,age,visits,priority


In [14]:
visits_gt_2 = df["visits"] > 2
df[visits_gt_2]

Unnamed: 0,animal,age,visits,priority
b,cat,3.0,3,yes
d,dog,,3,yes
f,cat,2.0,3,no


**10.** Seleccioneu les files on falti l'edat, és a dir, `NaN`.

In [15]:
age_na = pd.isna(df.loc[:, "age"])
df [age_na]

Unnamed: 0,animal,age,visits,priority
d,dog,,3,yes
h,cat,,1,yes


**11.** Seleccioneu les files on l'animal és un gat *i* l'edat és menor de 3 anys.

In [16]:
filtro = (df["animal"] == "cat") & (df["age"] < 3)
resultado = df.loc[filtro]
print(resultado)

  animal  age  visits priority
a    cat  2.5       1      yes
f    cat  2.0       3       no


**12.** Seleccioneu les files d'edat entre 2 i 4 (inclosos).

In [17]:
df[(df["age"] >= 2) & (df["age"] <= 4 )]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
f,cat,2.0,3,no
j,dog,3.0,1,no


**13.** Canvieu l'edat de la fila "f" a 1,5.

In [18]:
df.loc["f", "age"] = 1.5

In [19]:
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,1.5,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


**14.** Calcula la suma de totes les visites (el nombre total de visites).

In [20]:
df["visits"].sum()

19

**15.** Calcula l'edat mitjana de cada animal diferent a `df`.

In [21]:
is_cat = df["animal"] == "cat"
df[is_cat]

df.loc[is_cat, "age"].dropna().mean()

2.3333333333333335

**16.** Afegiu una nova fila "k" a "df" amb la vostra elecció de valors per a cada columna. A continuació, suprimiu aquesta fila per retornar el DataFrame original.

In [22]:
df.loc["k", :] = ["snake", 20, 10, "yes"]
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1.0,yes
b,cat,3.0,3.0,yes
c,snake,0.5,2.0,no
d,dog,,3.0,yes
e,dog,5.0,2.0,no
f,cat,1.5,3.0,no
g,snake,4.5,1.0,no
h,cat,,1.0,yes
i,dog,7.0,2.0,no
j,dog,3.0,1.0,no


In [23]:
df.loc["l", :] = ["bird", 3, 4, "no"]
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1.0,yes
b,cat,3.0,3.0,yes
c,snake,0.5,2.0,no
d,dog,,3.0,yes
e,dog,5.0,2.0,no
f,cat,1.5,3.0,no
g,snake,4.5,1.0,no
h,cat,,1.0,yes
i,dog,7.0,2.0,no
j,dog,3.0,1.0,no


In [24]:
df = df.drop(["l"])
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1.0,yes
b,cat,3.0,3.0,yes
c,snake,0.5,2.0,no
d,dog,,3.0,yes
e,dog,5.0,2.0,no
f,cat,1.5,3.0,no
g,snake,4.5,1.0,no
h,cat,,1.0,yes
i,dog,7.0,2.0,no
j,dog,3.0,1.0,no


**17.** Compteu el nombre de cada tipus d'animal a `df`.

In [25]:
df.groupby("animal").size()

animal
cat      4
dog      4
snake    3
dtype: int64

In [26]:
df["animal"].value_counts()

animal
cat      4
dog      4
snake    3
Name: count, dtype: int64

**18.** Ordena "df" primer pels valors de l'"edat" en ordre *decreixent*, després pel valor de la columna "visita" en ordre creixent.

In [27]:
#default -> ascending
#df.sort_values(by= "age")
#para hacerlo descending
df.sort_values(by= "age", ascending= False, na_position="first")

Unnamed: 0,animal,age,visits,priority
d,dog,,3.0,yes
h,cat,,1.0,yes
k,snake,20.0,10.0,yes
i,dog,7.0,2.0,no
e,dog,5.0,2.0,no
g,snake,4.5,1.0,no
b,cat,3.0,3.0,yes
j,dog,3.0,1.0,no
a,cat,2.5,1.0,yes
f,cat,1.5,3.0,no


In [28]:
df.sort_values(by=["visits"], ascending= [True]) #en caso de querer ordenarlo juntos, df.sort_values(by=['age', 'visits'], ascending=[False, True])

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1.0,yes
g,snake,4.5,1.0,no
h,cat,,1.0,yes
j,dog,3.0,1.0,no
c,snake,0.5,2.0,no
e,dog,5.0,2.0,no
i,dog,7.0,2.0,no
b,cat,3.0,3.0,yes
d,dog,,3.0,yes
f,cat,1.5,3.0,no


**19.** La columna "prioritat" conté els valors "yes" i "no". Substituïu aquesta columna per una columna de valors booleans: "yes" hauria de ser "True" i "no" hauria de ser "False".

In [29]:
df['priority'] = df['priority'].map({'yes': True, 'no': False})

In [30]:
df.dtypes

animal       object
age         float64
visits      float64
priority       bool
dtype: object

**20.** A la columna "animal", canvieu les entrades "snake" per "python".

In [31]:
df["animal"].str.replace("snake", "python")

a       cat
b       cat
c    python
d       dog
e       dog
f       cat
g    python
h       cat
i       dog
j       dog
k    python
Name: animal, dtype: object

**21.** Per a cada tipus d'animal i cada nombre de visites, troba l'edat mitjana. En altres paraules, cada fila és un animal, cada columna és un nombre de visites i els valors són les edats mitjanes (suggerència: utilitzeu una taula dinàmica / pivot_table).

In [32]:
df.groupby(by=["animal", "visits"])[["age"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,age
animal,visits,Unnamed: 2_level_1
cat,1.0,2.5
cat,3.0,2.25
dog,1.0,3.0
dog,2.0,6.0
dog,3.0,
snake,1.0,4.5
snake,2.0,0.5
snake,10.0,20.0


## DataFrames: més enllà dels bàsics

### Una mica més complicat: potser haureu de combinar dos o més mètodes per obtenir la resposta correcta

Dificultat: *mitjana*

La secció anterior va fer un recorregut per algunes operacions bàsiques però essencials de DataFrame. A continuació es mostren algunes maneres en què potser haureu de retallar les vostres dades, però per a les quals no hi ha un mètode únic "out of the box".

**22.** Teniu un DataFrame `df` amb una columna 'A' d'enters. Per exemple:
```pitó
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})
```

Com es filtren les files que contenen el mateix nombre enter que la fila immediatament superior?

In [33]:
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})
df

Unnamed: 0,A
0,1
1,2
2,2
3,3
4,4
5,5
6,5
7,5
8,6
9,7


In [34]:
df['A'].shift(-4)

0     4.0
1     5.0
2     5.0
3     5.0
4     6.0
5     7.0
6     7.0
7     NaN
8     NaN
9     NaN
10    NaN
Name: A, dtype: float64

In [35]:
df.loc[df['A'].shift() != df['A']]

Unnamed: 0,A
0,1
1,2
3,3
4,4
5,5
8,6
9,7


**23.** Donat un DataFrame de valors numèrics, per exemple
```pitó
df = pd.DataFrame(np.random.random(size=(5, 3))) # un marc de 5x3 de valors flotants
```

com es resta la mitjana de la fila de cada element de la fila?

In [36]:
df = pd.DataFrame(np.random.random(size=(5, 3)))
df

Unnamed: 0,0,1,2
0,0.346186,0.612192,0.336544
1,0.320539,0.882289,0.809933
2,0.096667,0.45153,0.433316
3,0.121148,0.287017,0.345387
4,0.827988,0.645287,0.614082


In [37]:
df.mean(axis=1)

0    0.431641
1    0.670920
2    0.327171
3    0.251184
4    0.695786
dtype: float64

In [38]:
df.sub(df.mean(axis=1), axis=0)

Unnamed: 0,0,1,2
0,-0.085454,0.180551,-0.095097
1,-0.350381,0.211368,0.139013
2,-0.230504,0.124359,0.106145
3,-0.130036,0.035833,0.094203
4,0.132202,-0.050498,-0.081703


**24.** Suposem que teniu DataFrame amb 10 columnes de nombres reals, per exemple:

```python
df = pd.DataFrame(np.random.random(size=(5, 10)), columns=list('abcdefghij'))
```
Quina columna de nombres té la suma més petita? (Cerca l'etiqueta d'aquesta columna.)

In [39]:
df = pd.DataFrame(np.random.random(size=(5, 10)), columns=list('abcdefghij'))
df

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
0,0.343258,0.920635,0.55929,0.426458,0.93681,0.720311,0.530353,0.85054,0.840845,0.369698
1,0.209047,0.330651,0.575539,0.404119,0.854539,0.738323,0.330646,0.642986,0.606999,0.210895
2,0.6533,0.663314,0.065536,0.952713,0.01346,0.041573,0.639256,0.111751,0.801223,0.097764
3,0.053763,0.242262,0.446268,0.965621,0.086235,0.443933,0.324002,0.967831,0.488963,0.863331
4,0.940382,0.279667,0.24435,0.978707,0.565045,0.458606,0.661576,0.047694,0.850684,0.481294


In [40]:
df.sum()

a    2.199750
b    2.436529
c    1.890983
d    3.727618
e    2.456089
f    2.402746
g    2.485832
h    2.620803
i    3.588713
j    2.022982
dtype: float64

In [41]:
df.sum().idxmin()

'c'

**25.** Com es compten quantes files úniques té un DataFrame (és a dir, ignora totes les files que són duplicades)?

In [42]:
df.duplicated(keep=False)

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [43]:
len(df.drop_duplicates(keep=False))

5

Els tres problemes següents són una mica més difícils...

**26.** Teniu un DataFrame que consta de 10 columnes de nombres de coma flotant. Suposem que exactament 5 entrades a cada fila són valors de NaN. Per a cada fila del DataFrame, cerqueu la *columna* que conté el *tercer* valor NaN.

(Heu de retornar una sèrie d'etiquetes de columna.)

In [44]:
(df.isnull().cumsum(axis=1) == 3).idxmax(axis=1)

0    a
1    a
2    a
3    a
4    a
dtype: object

**27.** Un DataFrame té una columna de grups 'grps' i una columna de números 'vals'. Per exemple:

```python
df = pd.DataFrame({'grps': llista('aaabbcaabcccbbc'),
                   'vals': [12,345,3,1,45,14,4,52,54,23,235,21,57,3,87]})
```
Per a cada *grup*, troba la suma dels tres valors més grans.

In [45]:
df = pd.DataFrame({'grps': list('aaabbcaabcccbbc'),
                   'vals': [12,345,3,1,45,14,4,52,54,23,235,21,57,3,87]})

In [46]:
df

Unnamed: 0,grps,vals
0,a,12
1,a,345
2,a,3
3,b,1
4,b,45
5,c,14
6,a,4
7,a,52
8,b,54
9,c,23


In [47]:
df.groupby('grps')['vals'].nlargest(3)

grps    
a     1     345
      7      52
      0      12
b     12     57
      8      54
      4      45
c     10    235
      14     87
      9      23
Name: vals, dtype: int64

In [48]:
df.groupby('grps')['vals'].nlargest(3).groupby(level=0).sum()

grps
a    409
b    156
c    345
Name: vals, dtype: int64

**28.** Un DataFrame té dues columnes de nombres enters "A" i "B". Els valors a 'A' estan entre 1 i 100 (inclosos). Per a cada grup de 10 nombres enters consecutius a "A" (és a dir, `(0, 10]`, `(10, 20]`, ...), calculeu la suma dels valors corresponents a la columna "B".

In [49]:
df = pd.DataFrame({"A":np.random.randint(0,100,100),"B":np.random.randint(0,100,100)})

In [50]:
df

Unnamed: 0,A,B
0,53,49
1,65,6
2,46,3
3,85,41
4,24,47
...,...,...
95,65,83
96,81,3
97,34,82
98,13,59


In [51]:
pd.cut(df['A'], np.arange(0, 101, 10))

0     (50, 60]
1     (60, 70]
2     (40, 50]
3     (80, 90]
4     (20, 30]
        ...   
95    (60, 70]
96    (80, 90]
97    (30, 40]
98    (10, 20]
99    (50, 60]
Name: A, Length: 100, dtype: category
Categories (10, interval[int64, right]): [(0, 10] < (10, 20] < (20, 30] < (30, 40] ... (60, 70] < (70, 80] < (80, 90] < (90, 100]]

In [52]:
df.groupby(pd.cut(df['A'], np.arange(0, 101, 10)))['B'].sum()

A
(0, 10]      471
(10, 20]     468
(20, 30]     496
(30, 40]     484
(40, 50]     378
(50, 60]     606
(60, 70]     612
(70, 80]     515
(80, 90]     383
(90, 100]    442
Name: B, dtype: int32

## DataFrames: problemes més difícils

### Això podria requerir una mica de pensament "out of the box"...

...però tots es poden resoldre utilitzant només els mètodes pandas/NumPy habituals (i, per tant, eviteu utilitzar bucles `for` explícits).

Dificultat: *difícil*

**29.** Considereu un DataFrame `df` on hi ha una columna entera 'X':
```python
df = pd.DataFrame({'X': [7, 2, 0, 3, 4, 2, 5, 0, 3, 4]})
```
Per a cada valor, torneu a comptar la diferència fins al zero anterior (o l'inici de la sèrie, el que estigui més proper). Per tant, aquests valors haurien de ser `[1, 2, 0, 1, 2, 3, 4, 0, 1, 2]`. Feu que aquesta sigui una nova columna "Y".

In [53]:
df = pd.DataFrame({'X': [7, 2, 0, 3, 4, 2, 5, 0, 3, 4]})

In [54]:
izero = np.r_[-1, (df['X'] == 0).to_numpy().nonzero()[0]] # indices de ceros
idx = np.arange(len(df))
df['Y'] = idx - izero[np.searchsorted(izero - 1, idx) - 1]

In [55]:
df

Unnamed: 0,X,Y
0,7,1
1,2,2
2,0,0
3,3,1
4,4,2
5,2,3
6,5,4
7,0,0
8,3,1
9,4,2


**30.** Considereu un DataFrame que conté files i columnes de dades purament numèriques. Creeu una llista de les ubicacions de l'índex fila-columna dels 3 valors més grans.

In [56]:
df.unstack().sort_values()[-3:].index.tolist()

[('X', 4), ('X', 6), ('X', 0)]

**31.** Given a DataFrame with a column of group IDs, 'grps', and a column of corresponding integer values, 'vals', replace any negative values in 'vals' with the group mean.

**32.** Implementeu una mitjana variable (rolling mean) sobre grups amb mida de finestra 3, que ignora el valor NaN. Per exemple, considereu el següent DataFrame:

```python
>>> df = pd.DataFrame({'grup': llista('aabbabbbabab'),
                       "valor": [1, 2, 3, np.nan, 2, 3,
                                 np.nan, 1, 7, 3, np.nan, 8]})
>>> df
   group  value
0      a    1.0
1      a    2.0
2      b    3.0
3      b    NaN
4      a    2.0
5      b    3.0
6      b    NaN
7      b    1.0
8      a    7.0
9      b    3.0
10     a    NaN
11     b    8.0

```
L'objectiu és calcular la sèrie:

```
0 1,000000
1 1,500000
2 3,000000
3 3,000000
4 1,666667
5 3,000000
6 3,000000
7 2,000000
8 3,666667
9 2,000000
10 4,500000
11 4,000000
```
Per exemple. la primera finestra de mida tres per al grup "b" té valors 3,0, NaN i 3,0 i es produeix a l'índex de fila 5. En lloc de ser NaN, el valor de la nova columna en aquest índex de fila hauria de ser 3,0 (només els dos valors que no són NaN). s'utilitzen per calcular la mitjana (3+3)/2)

In [57]:
df = pd.DataFrame({'group': list('aabbabbbabab'),
                   "value": [1, 2, 3, np.nan, 2, 3,
                             np.nan, 1, 7, 3, np.nan, 8]})

In [58]:
g1 = df.groupby(['group'])['value']              # group values  
g2 = df.fillna(0).groupby(['group'])['value']    # fillna, then group values

s = g2.rolling(3, min_periods=1).sum() / g1.rolling(3, min_periods=1).count() # compute means

s.reset_index(level=0, drop=True).sort_index()  # drop/sort index

0     1.000000
1     1.500000
2     3.000000
3     3.000000
4     1.666667
5     3.000000
6     3.000000
7     2.000000
8     3.666667
9     2.000000
10    4.500000
11    4.000000
Name: value, dtype: float64

## Sèries i DatetimeIndex

### Exercicis per crear i manipular Sèries amb dades datetime

Dificultat: *fàcil/mitjana*

Pandas és fantàstic per treballar amb dates i hores.

**33.** Creeu un DatetimeIndex que contingui cada dia laborable del 2015 i utilitzeu-lo per indexar una sèrie de números aleatoris. Anomenem aquesta sèrie `s`.

In [59]:
dti = pd.date_range(start='2015-01-01', end='2015-12-31', freq='B') 
s = pd.Series(np.random.rand(len(dti)), index=dti)
s

2015-01-01    0.693115
2015-01-02    0.764635
2015-01-05    0.338909
2015-01-06    0.904324
2015-01-07    0.939980
                ...   
2015-12-25    0.175814
2015-12-28    0.425194
2015-12-29    0.938269
2015-12-30    0.493479
2015-12-31    0.935023
Freq: B, Length: 261, dtype: float64

**34.** Troba la suma dels valors en `s` per a cada dimecres.

In [60]:
s[s.index.weekday == 2].sum() 

26.878944578385564

**35.** Per a cada mes natural en `s`, trobeu la mitjana dels valors.

In [61]:
s.resample('M').mean()

2015-01-31    0.569184
2015-02-28    0.394581
2015-03-31    0.454098
2015-04-30    0.546039
2015-05-31    0.636878
2015-06-30    0.385480
2015-07-31    0.525995
2015-08-31    0.529291
2015-09-30    0.558206
2015-10-31    0.502909
2015-11-30    0.500195
2015-12-31    0.518926
Freq: M, dtype: float64

**36.** Per a cada grup de quatre mesos naturals consecutius en `s`, cerqueu la data en què s'ha produït el valor més alt.

In [62]:
s.groupby(pd.Grouper(freq='4M')).idxmax()

2015-01-31   2015-01-07
2015-05-31   2015-03-30
2015-09-30   2015-08-14
2016-01-31   2015-10-15
Freq: 4M, dtype: datetime64[ns]

**37.** Creeu un DateTimeIndex que consta del tercer dijous de cada mes per als anys 2015 i 2016.

In [63]:
pd.date_range('2015-01-01', '2016-12-31', freq='WOM-2THU')

DatetimeIndex(['2015-01-08', '2015-02-12', '2015-03-12', '2015-04-09',
               '2015-05-14', '2015-06-11', '2015-07-09', '2015-08-13',
               '2015-09-10', '2015-10-08', '2015-11-12', '2015-12-10',
               '2016-01-14', '2016-02-11', '2016-03-10', '2016-04-14',
               '2016-05-12', '2016-06-09', '2016-07-14', '2016-08-11',
               '2016-09-08', '2016-10-13', '2016-11-10', '2016-12-08'],
              dtype='datetime64[ns]', freq='WOM-2THU')

## Netejant dades

### Fent més fàcil treballar amb un DataFrame

Dificultat: *fàcil/mitjana*

Passa tot el temps: algú et dóna dades que contenen cadenes malformades, Python, llistes i dades que falten. Com ho endreces per poder continuar amb l'anàlisi?

Preneu aquesta monstruositat com el DataFrame a utilitzar en els problemes següents:

```python
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm', 
                               'Budapest_PaRis', 'Brussels_londOn'],
              'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
              'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )', 
                               '12. Air France', '"Swiss Air"']})
```


**38.** Falten alguns valors de la columna FlightNumber. Aquests números s'han d'augmentar en 10 amb cada fila, de manera que s'han de posar 10055 i 10075. Ompliu aquests números que falten i feu que la columna sigui una columna entera (en lloc d'una columna flotant).

In [64]:
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm', 
                               'Budapest_PaRis', 'Brussels_londOn'],
              'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
              'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )', 
                               '12. Air France', '"Swiss Air"']})

In [65]:
df

Unnamed: 0,From_To,FlightNumber,RecentDelays,Airline
0,LoNDon_paris,10045.0,"[23, 47]",KLM(!)
1,MAdrid_miLAN,,[],<Air France> (12)
2,londON_StockhOlm,10065.0,"[24, 43, 87]",(British Airways. )
3,Budapest_PaRis,,[13],12. Air France
4,Brussels_londOn,10085.0,"[67, 32]","""Swiss Air"""


In [66]:
df["FlightNumber"]

0    10045.0
1        NaN
2    10065.0
3        NaN
4    10085.0
Name: FlightNumber, dtype: float64

In [67]:
df.iloc[1,1] = 10055

In [68]:
df.loc[3, "FlightNumber"] = 10075

In [69]:
df

Unnamed: 0,From_To,FlightNumber,RecentDelays,Airline
0,LoNDon_paris,10045.0,"[23, 47]",KLM(!)
1,MAdrid_miLAN,10055.0,[],<Air France> (12)
2,londON_StockhOlm,10065.0,"[24, 43, 87]",(British Airways. )
3,Budapest_PaRis,10075.0,[13],12. Air France
4,Brussels_londOn,10085.0,"[67, 32]","""Swiss Air"""


**39.** La columna From\_To seria millor com dues columnes separades! Dividiu cada cadena al delimitador de guió baix `_` per donar un nou DataFrame temporal amb els valors correctes. Assigna els noms de columna correctes a aquest DataFrame temporal.

In [70]:
df[ ["From", "To"] ] = df["From_To"].str.split("_", expand=True)

In [71]:
df

Unnamed: 0,From_To,FlightNumber,RecentDelays,Airline,From,To
0,LoNDon_paris,10045.0,"[23, 47]",KLM(!),LoNDon,paris
1,MAdrid_miLAN,10055.0,[],<Air France> (12),MAdrid,miLAN
2,londON_StockhOlm,10065.0,"[24, 43, 87]",(British Airways. ),londON,StockhOlm
3,Budapest_PaRis,10075.0,[13],12. Air France,Budapest,PaRis
4,Brussels_londOn,10085.0,"[67, 32]","""Swiss Air""",Brussels,londOn


**40.** Observeu com les majúscules dels noms de les ciutats es barregen en aquest DataFrame temporal. Estandarditzeu les cadenes de manera que només la primera lletra estigui en majúscula (per exemple, "londON" hauria de convertir-se en "London").

In [72]:
df["From"] = df["From"].str.capitalize()
df["To"] = df["To"].str.capitalize()
df["From_To"]= df["From_To"].str.capitalize()

In [73]:
df

Unnamed: 0,From_To,FlightNumber,RecentDelays,Airline,From,To
0,London_paris,10045.0,"[23, 47]",KLM(!),London,Paris
1,Madrid_milan,10055.0,[],<Air France> (12),Madrid,Milan
2,London_stockholm,10065.0,"[24, 43, 87]",(British Airways. ),London,Stockholm
3,Budapest_paris,10075.0,[13],12. Air France,Budapest,Paris
4,Brussels_london,10085.0,"[67, 32]","""Swiss Air""",Brussels,London


**41.** Suprimiu la columna From_To de `df` i adjunteu el DataFrame temporal de les preguntes anteriors.

In [74]:
df.drop("From_To", axis=1, inplace= True)

In [75]:
df

Unnamed: 0,FlightNumber,RecentDelays,Airline,From,To
0,10045.0,"[23, 47]",KLM(!),London,Paris
1,10055.0,[],<Air France> (12),Madrid,Milan
2,10065.0,"[24, 43, 87]",(British Airways. ),London,Stockholm
3,10075.0,[13],12. Air France,Budapest,Paris
4,10085.0,"[67, 32]","""Swiss Air""",Brussels,London


**42**. A la columna de la companyia aèria, podeu veure que han aparegut alguns símbols addicionals al voltant dels noms de les companyies aèries. Extreu només el nom de la companyia aèria. Per exemple. `'(British Airways. )'` hauria de convertir-se en `'British Airways'`.

In [76]:
df[["Airline"]]

Unnamed: 0,Airline
0,KLM(!)
1,<Air France> (12)
2,(British Airways. )
3,12. Air France
4,"""Swiss Air"""


In [77]:
df['Airline'].str.extractall("([A-Za-z0-9]+[A-Za-z\s]+)")

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,match,Unnamed: 2_level_1
0,0,KLM
1,0,Air France
2,0,British Airways
3,0,Air France
4,0,Swiss Air


In [78]:
df['Airline'].str.strip().str.extract("([A-Za-z\s]+)", expand=True)

Unnamed: 0,0
0,KLM
1,Air France
2,British Airways
3,Air France
4,Swiss Air


In [79]:
df['Airline'] = df['Airline'].str.extract('([a-zA-Z\s]+)', expand=False).str.strip()

In [80]:
df

Unnamed: 0,FlightNumber,RecentDelays,Airline,From,To
0,10045.0,"[23, 47]",KLM,London,Paris
1,10055.0,[],Air France,Madrid,Milan
2,10065.0,"[24, 43, 87]",British Airways,London,Stockholm
3,10075.0,[13],Air France,Budapest,Paris
4,10085.0,"[67, 32]",Swiss Air,Brussels,London


**43.** A la columna RecentDelays, els valors s'han introduït al DataFrame com a llista. Voldríem que cada primer valor a la seva pròpia columna, cada segon valor a la seva pròpia columna, etc. Si no hi ha un valor N, el valor hauria de ser NaN.

Amplieu la sèrie de llistes en un DataFrame anomenat `delays`, canvieu el nom de les columnes `delay_1`, `delay_2`, etc. i substituïu la columna RecentDelays no desitjada a `df` per `delays`.

In [81]:
df["RecentDelays"].apply(pd.Series)

Unnamed: 0,0,1,2
0,23.0,47.0,
1,,,
2,24.0,43.0,87.0
3,13.0,,
4,67.0,32.0,


In [82]:
df["RecentDelays"].tolist()

[[23, 47], [], [24, 43, 87], [13], [67, 32]]

In [83]:
pd.DataFrame(df["RecentDelays"].tolist())

Unnamed: 0,0,1,2
0,23.0,47.0,
1,,,
2,24.0,43.0,87.0
3,13.0,,
4,67.0,32.0,


The DataFrame should look much better now.

## Utilitzant Multiíndexs

### Va més enllà dels marcs de dades plans amb nivells d'índex addicionals

Dificultat: *mitjana*

Els exercicis anteriors ens han vist analitzar dades de DataFrames equipats amb un únic nivell d'índex. Tanmateix, pandas també us ofereix la possibilitat d'indexar les vostres dades mitjançant *diversos* nivells. Això és molt semblant a afegir noves dimensions a una sèrie o un DataFrame. Per exemple, una sèrie és 1D, però amb l'ús d'un MultiIndex amb 2 nivells, aconseguim la mateixa funcionalitat que un DataFrame 2D.

Per escalfar, buscarem fer una sèrie amb dos nivells d'índex.

**44**. Tenint en compte les llistes `letters = ['A', 'B', 'C']` i `numbers = list(range(10))`, construïu un objecte MultiIndex a partir del producte de les dues llistes. Utilitzeu-lo per indexar una sèrie de nombres aleatoris. Anomena aquesta sèrie `s`.

In [84]:
letters = ['A', 'B', 'C']
numbers = list(range(10))

mi = pd.MultiIndex.from_product([letters, numbers])
s = pd.Series(np.random.rand(30), index=mi)


In [85]:
s

A  0    0.251903
   1    0.577492
   2    0.417729
   3    0.730394
   4    0.994545
   5    0.381450
   6    0.200058
   7    0.846342
   8    0.031420
   9    0.927376
B  0    0.977364
   1    0.146256
   2    0.065650
   3    0.881907
   4    0.223480
   5    0.953327
   6    0.858422
   7    0.407027
   8    0.330326
   9    0.566869
C  0    0.449000
   1    0.025140
   2    0.936894
   3    0.008195
   4    0.908524
   5    0.390175
   6    0.712878
   7    0.387080
   8    0.424999
   9    0.896115
dtype: float64

**45.** Comproveu que l'índex de `s` estigui ordenat lexicogràficament (aquesta és una propietat necessària perquè la indexació funcioni correctament amb un MultiIndex). 

In [86]:
s.index.is_monotonic_increasing

True

**46**. Seleccioneu les etiquetes `1`, `3` i `6` del segon nivell de la sèrie multiindexada.

In [87]:
s.loc[:, [1, 3, 6]]

A  1    0.577492
   3    0.730394
   6    0.200058
B  1    0.146256
   3    0.881907
   6    0.858422
C  1    0.025140
   3    0.008195
   6    0.712878
dtype: float64

**47**. Feu un slice a la sèrie `s`; selecciona fins a l'etiqueta "B" per al primer nivell i des de l'etiqueta 5 en endavant per al segon nivell.

In [88]:
s.loc[pd.IndexSlice[:'B', 5:]]

# or equivalently without IndexSlice...
s.loc[slice(None, 'B'), slice(5, None)]

A  5    0.381450
   6    0.200058
   7    0.846342
   8    0.031420
   9    0.927376
B  5    0.953327
   6    0.858422
   7    0.407027
   8    0.330326
   9    0.566869
dtype: float64

**48**. Suma els valors en `s` per a cada etiqueta del primer nivell (hauries de tenir Sèries que us proporcioni un total per a les etiquetes A, B i C).

In [89]:
s.groupby(level=0).sum()

A    5.358708
B    5.410628
C    5.139000
dtype: float64

**49**. Suposem que `sum()` (i altres mètodes) no acceptessin un argument de paraula clau `level`. De quina altra manera podríeu fer l'equivalent de `s.sum(level=1)`?

In [90]:
s.unstack().sum(axis=0)

0    1.678268
1    0.748889
2    1.420273
3    1.620496
4    2.126549
5    1.724951
6    1.771358
7    1.640449
8    0.786744
9    2.390360
dtype: float64

**50**. Canvia els nivells del MultiIndex per tal que tinguem un índex de la forma (lletres, números). Aquesta nova sèrie està correctament ordenada? Si no, ordena-ho.

In [91]:
new_s = s.swaplevel(0, 1)

# check
new_s.index.is_monotonic_increasing

# sort
new_s = new_s.sort_index()

s

A  0    0.251903
   1    0.577492
   2    0.417729
   3    0.730394
   4    0.994545
   5    0.381450
   6    0.200058
   7    0.846342
   8    0.031420
   9    0.927376
B  0    0.977364
   1    0.146256
   2    0.065650
   3    0.881907
   4    0.223480
   5    0.953327
   6    0.858422
   7    0.407027
   8    0.330326
   9    0.566869
C  0    0.449000
   1    0.025140
   2    0.936894
   3    0.008195
   4    0.908524
   5    0.390175
   6    0.712878
   7    0.387080
   8    0.424999
   9    0.896115
dtype: float64