# Introducció a Pandas

Pandas és una biblioteca Python de codi obert amb llicència BSD que ofereix estructures de dades d'alt rendiment i fàcils d'utilitzar i eines d'anàlisi de dades per al llenguatge de programació Python. Python with Pandas s'utilitza en una àmplia gamma d'àmbits, inclosos dominis acadèmics i comercials, com ara finances, economia, estadístiques, anàlisi, etc. En aquest tutorial, aprendrem les diferents característiques de Python Pandas i com utilitzar-les a la pràctica.

El nom Pandas deriva de la paraula Panel Data, una econometria de dades multidimensionals.

El 2008, el desenvolupador Wes McKinney va començar a desenvolupar pandas quan necessitava una eina flexible i d'alt rendiment per a l'anàlisi de dades.

Abans de Pandas, Python s'utilitzava principalment per a la recopilació i la preparació de dades. Va tenir molt poca contribució a l'anàlisi de dades. Els pandes van resoldre aquest problema. Amb Pandas, podem realitzar cinc passos típics en el processament i l'anàlisi de dades, independentment de l'origen de les dades: carregar, preparar, manipular, modelar i analitzar.

Python amb Pandas s'utilitza en una àmplia gamma d'àmbits, com ara dominis acadèmics i comercials, com ara finances, economia, estadístiques, analítiques, etc.

Característiques principals de Pandas:

* Objecte DataFrame ràpid i eficient amb indexació predeterminada i personalitzada.
* Eines per carregar dades en objectes de dades en memòria de diferents formats de fitxer.
* Alineació de dades i tractament integrat de les dades que falten.
* Reforma i gir dels conjunts de dates.
* Seccionament, indexació i subconjunt basats en etiquetes de grans conjunts de dades.
* Les columnes d'una estructura de dades es poden suprimir o inserir.
* Agrupa per dades per a l'agregació i transformacions.
* Combinació i unió de dades d'alt rendiment.
* Funcionalitat de sèrie temporal.

Habitualment, importem pandes i numpy de la següent manera:

In [None]:
import pandas as pd
import numpy as np

Pandas tracta les tres estructures de dades següents:

Series
DataFrame
Panel

Aquestes estructures de dades es construeixen a la part superior de la matriu Numpy, el que significa que són ràpides.

## Dimensió i descripció

La millor manera de pensar en aquestes estructures de dades és que l'estructura de dades de dimensions superiors és un contenidor de la seva estructura de dades de dimensions inferiors. Per exemple, DataFrame és un contenidor de Series, Panel és un contenidor de DataFrame

|Data Structure |Dimensions|Description|
|:---------------|:----------:|:-----------|
|Series|1|1D labeled homogeneous array, sizeimmutable.|
|Data Frames|2|General 2D labeled, size-mutable tabular structure with potentially heterogeneously typed columns.|
|Panel|3|General 3D labeled, size-mutable array.|

Construir i manejar matrius de dues o més dimensions és una tasca tediosa, l'usuari té la càrrega de tenir en compte l'orientació del conjunt de dades quan escriu funcions. Però utilitzant estructures de dades Pandas, l'esforç mental de l'usuari es redueix.

Per exemple, amb dades tabulars (DataFrame) és més útil semànticament pensar en l'índex (les files) i les columnes en lloc de l'eix 0 i l'eix 1.

## Mutabilitat

Totes les estructures de dades de Pandas són de valor mutable (es poden canviar) i, excepte el tipus Series, totes són modificables de mida. La mida del tipus Series és immutable.

Nota − DataFrame s'utilitza àmpliament i és una de les estructures de dades més importants. **El panell s'utilitza molt menys.**

## Series

El tipus Series (sèrie) és una estructura semblant a una matriu unidimensional amb dades homogènies.


### Punts clau:

* Dades homogènies
* Mida immutable
* Valors de dades mutables

Creació d'una sèrie passant una llista de valors, deixant que Pandas creïn un índex enter predeterminat:

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])

s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

## DataFrame
DataFrame és una matriu bidimensional amb dades heterogènies.

Per exemple:

|Name|Age|Gender|Rating|
|----|---|------|------|
|Steve|	32|	Male|	3.45|
|Lia|	28|	Female|	4.6|
|Vin|	45	|Male	|3.9|
|Katie|	38	|Female	|2.78|


La taula representa les dades d'un equip de vendes d'una organització amb la seva puntuació de rendiment global. Les dades es representen en files i columnes. Cada columna representa un atribut i cada fila representa una persona.

### Punts clau

* Dades heterogènies
* Mida variable
* Dades mutables


Creació d'un DataFrame passant una matriu NumPy, amb un índex de datetime i columnes etiquetades:

In [None]:
dates = pd.date_range("20130101", periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [None]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2013-01-01,0.092405,-0.546274,-1.707632,-0.183
2013-01-02,-0.412236,0.40161,-2.308682,0.20442
2013-01-03,-0.893205,0.392038,0.016025,-0.311677
2013-01-04,0.831329,0.911946,-0.176265,-0.486721
2013-01-05,-0.494127,-0.934698,0.013642,1.951216
2013-01-06,-0.706218,-1.207046,-0.405042,0.287028


## Panel
Panel és una estructura de dades tridimensional amb dades heterogènies. És difícil representar el panell de manera gràfica, però un panell es pot il·lustrar com un contenidor de DataFrames.

### Punts clau

* Dades heterogènies
* Mida variable
* Dades mutables

## Treballant amb els DataFrames

![image.png](attachment:image.png)

També és possible crear un DataFrame passant un diccionari d'objectes que es poden convertir en una estructura semblant a una sèrie:

In [None]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20130102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "train"]),
        "F": "foo",
    }
)
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


Les columnes del DataFrame resultant tenen diferents tipus de dades:

In [None]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

Si utilitzeu IPython, s'habilitarà automàticament la finalització dels noms de columnes (així com per als atributs públics).

In [None]:
# Try to write df2. and press tab immediatly after the "." and wait.
df2.__init__

<bound method DataFrame.__init__ of      A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo>

## Visualització de dades

A continuació es mostra com veure les files superior i inferior del marc:

In [None]:
pd.set_option("display.max.rows", None)

In [None]:
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,-1.544294,0.167442,-1.465829,-0.092591
2013-01-02,0.990642,-0.944053,0.465763,-0.117636
2013-01-03,-0.273182,1.614548,1.304146,1.152775
2013-01-04,-0.566921,-1.499165,-0.952987,-1.312171
2013-01-05,1.854532,-0.030637,0.268291,-0.402365


In [None]:
df.tail(3)

Unnamed: 0,A,B,C,D
2013-01-04,-0.570405,0.548516,1.208919,2.318862
2013-01-05,0.293895,-1.271813,0.095362,0.416804
2013-01-06,-0.77172,-1.425466,-1.303242,0.556113


In [None]:
df.sample(2)

Unnamed: 0,A,B,C,D
2013-01-03,0.598211,0.157975,1.502701,1.467109
2013-01-04,-0.570405,0.548516,1.208919,2.318862


#### `to_numpy()`

`DataFrame.to_numpy()` dóna una representació NumPy de les dades subjacents. Tingueu en compte que aquesta pot ser una operació costosa quan el vostre DataFrame té columnes amb diferents tipus de dades, la qual cosa es redueix a una diferència fonamental entre pandas i NumPy: les matrius NumPy tenen un dtype per a tota la matriu, mentre que pandas DataFrames tenen un dtype per columna. Quan truqueu a `DataFrame.to_numpy()`, Pandas trobaran el tipus de dades de NumPy que pot contenir tots els tipus d del DataFrame. Això pot acabar sent un objecte, cosa que requereix canviar tots els valors de la taula a un objecte Python.

Per a df, el nostre DataFrame de tots els valors de coma flotant, `DataFrame.to_numpy()` és ràpid i no requereix copiar dades:

In [None]:
df.to_numpy()

array([[ 0.72644456,  1.73588212, -1.30237614, -0.09690044],
       [-0.58881314,  0.14834172, -1.31497094, -1.17250883],
       [ 0.59821107,  0.15797476,  1.50270132,  1.46710905],
       [-0.57040531,  0.54851561,  1.20891928,  2.31886206],
       [ 0.29389512, -1.27181314,  0.09536185,  0.41680444],
       [-0.77172049, -1.42546624, -1.30324182,  0.55611301]])

For df2, the DataFrame with multiple dtypes, DataFrame.to_numpy() is relatively **expensive**:

In [None]:
df2.to_numpy()

array([[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo']],
      dtype=object)

`DataFrame.to_numpy()` no inclou les etiquetes del l'índex ni de columna a la sortida.

#### `describe()`

describe() mostra un resum estadístic ràpid de les teves dades:

In [None]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.052065,-0.017761,-0.185601,0.58158
std,0.666829,1.18395,1.314973,1.213859
min,-0.77172,-1.425466,-1.314971,-1.172509
25%,-0.584211,-0.916774,-1.303025,0.031526
50%,-0.138255,0.153158,-0.603507,0.486459
75%,0.522132,0.45088,0.93053,1.23936
max,0.726445,1.735882,1.502701,2.318862


#### `T`
Transposició de les teves dades:

In [None]:
df.T

Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
A,0.726445,-0.588813,0.598211,-0.570405,0.293895,-0.77172
B,1.735882,0.148342,0.157975,0.548516,-1.271813,-1.425466
C,-1.302376,-1.314971,1.502701,1.208919,0.095362,-1.303242
D,-0.0969,-1.172509,1.467109,2.318862,0.416804,0.556113


#### `sort_index`

Ordenació per eix:

In [None]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,-0.0969,-1.302376,1.735882,0.726445
2013-01-02,-1.172509,-1.314971,0.148342,-0.588813
2013-01-03,1.467109,1.502701,0.157975,0.598211
2013-01-04,2.318862,1.208919,0.548516,-0.570405
2013-01-05,0.416804,0.095362,-1.271813,0.293895
2013-01-06,0.556113,-1.303242,-1.425466,-0.77172


Ordenació per valors:

In [None]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2013-01-06,-0.77172,-1.425466,-1.303242,0.556113
2013-01-05,0.293895,-1.271813,0.095362,0.416804
2013-01-02,-0.588813,0.148342,-1.314971,-1.172509
2013-01-03,0.598211,0.157975,1.502701,1.467109
2013-01-04,-0.570405,0.548516,1.208919,2.318862
2013-01-01,0.726445,1.735882,-1.302376,-0.0969


## Selecció

Tot i que les expressions estàndard de Python / NumPy per seleccionar i configurar són intuïtives i són útils per al treball interactiu, per al codi de producció, es recomana els mètodes d'accés a dades optimitzats de pandas, **.at, .iat, .loc i .iloc.**

### Getting

Seleccionant una sola columna, que produeix una sèrie, equivalent a df.A:

In [None]:
df

Unnamed: 0,A,B,C,D
2013-01-01,-1.544294,0.167442,-1.465829,-0.092591
2013-01-02,0.990642,-0.944053,0.465763,-0.117636
2013-01-03,-0.273182,1.614548,1.304146,1.152775
2013-01-04,-0.566921,-1.499165,-0.952987,-1.312171
2013-01-05,1.854532,-0.030637,0.268291,-0.402365
2013-01-06,-0.050516,-0.763955,-1.601032,0.754585


In [None]:
df["A"]

2013-01-01    0.726445
2013-01-02   -0.588813
2013-01-03    0.598211
2013-01-04   -0.570405
2013-01-05    0.293895
2013-01-06   -0.771720
Freq: D, Name: A, dtype: float64

Seleccionant mitjançant [ ], que talla les files:

In [None]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,0.726445,1.735882,-1.302376,-0.0969
2013-01-02,-0.588813,0.148342,-1.314971,-1.172509
2013-01-03,0.598211,0.157975,1.502701,1.467109


In [None]:
df["20130102":"20130104"]

Unnamed: 0,A,B,C,D
2013-01-02,-0.588813,0.148342,-1.314971,-1.172509
2013-01-03,0.598211,0.157975,1.502701,1.467109
2013-01-04,-0.570405,0.548516,1.208919,2.318862


### Selecció per etiqueta

Per obtenir una secció transversal mitjançant una etiqueta:

In [None]:
dates[0]

Timestamp('2013-01-01 00:00:00')

In [None]:
df.loc[dates[0]]

A    0.726445
B    1.735882
C   -1.302376
D   -0.096900
Name: 2013-01-01 00:00:00, dtype: float64

Selecció en un eix múltiple per etiqueta:

In [None]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2013-01-01,0.726445,1.735882
2013-01-02,-0.588813,0.148342
2013-01-03,0.598211,0.157975
2013-01-04,-0.570405,0.548516
2013-01-05,0.293895,-1.271813
2013-01-06,-0.77172,-1.425466


Mostrant el slice mitjançant etiquetes, s'inclouen els dos punts finals:

In [None]:
df.loc["20130102":"20130104", ["A", "B"]]

Unnamed: 0,A,B
2013-01-02,-0.588813,0.148342
2013-01-03,0.598211,0.157975
2013-01-04,-0.570405,0.548516


Reducció de les dimensions de l'objecte retornat:

In [None]:
df.loc["20130102", ["A", "B"]]

A   -0.588813
B    0.148342
Name: 2013-01-02 00:00:00, dtype: float64

Per obtenir un valor escalar:

In [None]:
df.loc[dates[0], "A"]

0.7264445598892636

Per obtenir un accés ràpid a un escalar (equivalent al mètode anterior):

In [None]:
df.at[dates[0], "A"]

0.7264445598892636

## Selecció per posició

Pandas ofereix un conjunt de mètodes per aconseguir una indexació basada purament en nombres enters. La semàntica segueix de prop el slice de Python i NumPy. Es tracta d'indexació basada en 0. Quan fem un slice, s'inclou el límit inicial, mentre que s'exclou el límit superior. Si intenteu utilitzar un nombre que no sigui enter, fins i tot una etiqueta vàlida generarà un IndexError.

L'atribut .iloc és el mètode d'accés principal. Les entrades següents són vàlides:

* Un nombre enter p. ex. 5.

* Una llista o matriu de nombres enters `[4, 3, 0]`.

* Un objecte tall amb int 1:7.

* Una matriu booleana.

* Un callable, per exemple, `df1.loc[lambda df: df['A'] > 0, :]`.

In [None]:
df

Unnamed: 0,A,B,C,D
2013-01-01,-1.397802,-0.903217,-0.305947,0.191437
2013-01-02,-0.361313,0.356437,1.025573,0.705445
2013-01-03,-0.981388,0.463933,-0.536539,-0.327819
2013-01-04,0.392953,-1.283478,-0.948796,-1.497212
2013-01-05,-0.687504,0.994843,-0.467672,0.119136
2013-01-06,-0.120559,-1.017698,-1.30444,-0.107369


In [None]:
df.iloc[1:4, 2]

2013-01-02    1.025573
2013-01-03   -0.536539
2013-01-04   -0.948796
Freq: D, Name: C, dtype: float64

In [None]:
df.loc["2013-01-01"]

A   -1.397802
B   -0.903217
C   -0.305947
D    0.191437
Name: 2013-01-01 00:00:00, dtype: float64

In [None]:
df.iloc[3]

A    0.392953
B   -1.283478
C   -0.948796
D   -1.497212
Name: 2013-01-04 00:00:00, dtype: float64

By integer slices, acting similar to NumPy/Python:

Per slices de nombres enters, actuant de manera semblant a NumPy/Python:

In [None]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2013-01-04,-0.570405,0.548516
2013-01-05,0.293895,-1.271813


By lists of integer position locations, similar to the NumPy/Python style:



In [None]:
df.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2013-01-02,-0.588813,-1.314971
2013-01-03,0.598211,1.502701
2013-01-05,0.293895,0.095362


For slicing rows explicitly:

In [None]:
df.iloc[1:3, :]

Unnamed: 0,A,B,C,D
2013-01-02,-0.588813,0.148342,-1.314971,-1.172509
2013-01-03,0.598211,0.157975,1.502701,1.467109


For slicing columns explicitly:



In [None]:
df.iloc[:, 1:3]

Unnamed: 0,B,C
2013-01-01,1.735882,-1.302376
2013-01-02,0.148342,-1.314971
2013-01-03,0.157975,1.502701
2013-01-04,0.548516,1.208919
2013-01-05,-1.271813,0.095362
2013-01-06,-1.425466,-1.303242


For getting a value explicitly:

In [None]:
df.iloc[1, 1]

0.14834171950963598

For getting fast access to a scalar (equivalent to the prior method):

In [None]:
df.iat[1, 1] # iat sirve para acceder a índices númericos y at a índices con etiqueta

0.14834171950963598

## Indexació booleana
Ús dels valors d'una sola columna per seleccionar dades:

In [None]:
df[df["A"] > 0]

Unnamed: 0,A,B,C,D
2013-01-02,0.990642,-0.944053,0.465763,-0.117636
2013-01-05,1.854532,-0.030637,0.268291,-0.402365


Seleccionar valors d'un DataFrame on es compleix una condició booleana:

In [None]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,0.726445,1.735882,,
2013-01-02,,0.148342,,
2013-01-03,0.598211,0.157975,1.502701,1.467109
2013-01-04,,0.548516,1.208919,2.318862
2013-01-05,0.293895,,0.095362,0.416804
2013-01-06,,,,0.556113


Utilitzant el mètode isin() per filtrar:

In [None]:
df2 = df.copy()

df2["E"] = ["one", "one", "two", "three", "four", "three"]

df2

Unnamed: 0,A,B,C,D,E
2013-01-01,0.726445,1.735882,-1.302376,-0.0969,one
2013-01-02,-0.588813,0.148342,-1.314971,-1.172509,one
2013-01-03,0.598211,0.157975,1.502701,1.467109,two
2013-01-04,-0.570405,0.548516,1.208919,2.318862,three
2013-01-05,0.293895,-1.271813,0.095362,0.416804,four
2013-01-06,-0.77172,-1.425466,-1.303242,0.556113,three


In [None]:
df2[df2["E"].isin(["two", "four"])]

Unnamed: 0,A,B,C,D,E
2013-01-03,0.598211,0.157975,1.502701,1.467109,two
2013-01-05,0.293895,-1.271813,0.095362,0.416804,four


## Setting

L'establiment d'una nova columna s'alinea automàticament les dades segons els índexs:

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20130102", periods=6))

s1 

2013-01-02    1
2013-01-03    2
2013-01-04    3
2013-01-05    4
2013-01-06    5
2013-01-07    6
Freq: D, dtype: int64

In [None]:
df

Unnamed: 0,A,B,C,D
2013-01-01,-1.544294,0.167442,-1.465829,-0.092591
2013-01-02,0.990642,-0.944053,0.465763,-0.117636
2013-01-03,-0.273182,1.614548,1.304146,1.152775
2013-01-04,-0.566921,-1.499165,-0.952987,-1.312171
2013-01-05,1.854532,-0.030637,0.268291,-0.402365
2013-01-06,-0.050516,-0.763955,-1.601032,0.754585


In [None]:
dict_frame = {
    "A": [0.256, 1312, 1, 132, 424]
    
}

In [None]:
dict_frame["B"] = [1, 2, 3, 4, 5]

In [None]:
dict_frame

{'A': [0.256, 1312, 1, 132, 424], 'B': [1, 2, 3, 4, 5]}

In [None]:
df["F"] = s1

Establiment de valors per etiqueta:

In [None]:
df.at[dates[0], "A"] = 0

Establiment de valors per posició:

In [None]:
df.iat[0, 1] = 0

Establiment de valors mitjançant l'assignació amb una matriu NumPy:

In [None]:
df.loc[:, "D"] = np.array([5] * len(df))

El resultat de les operacions de configuració anteriors:

In [None]:
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-1.302376,5,
2013-01-02,-0.588813,0.148342,-1.314971,5,1.0
2013-01-03,0.598211,0.157975,1.502701,5,2.0
2013-01-04,-0.570405,0.548516,1.208919,5,3.0
2013-01-05,0.293895,-1.271813,0.095362,5,4.0
2013-01-06,-0.77172,-1.425466,-1.303242,5,5.0


Una operació `where` amb assignament:

In [None]:
df2 = df.copy()

df2[df2 > 0] = -df2

df2

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-1.302376,-5,
2013-01-02,-0.588813,-0.148342,-1.314971,-5,-1.0
2013-01-03,-0.598211,-0.157975,-1.502701,-5,-2.0
2013-01-04,-0.570405,-0.548516,-1.208919,-5,-3.0
2013-01-05,-0.293895,-1.271813,-0.095362,-5,-4.0
2013-01-06,-0.77172,-1.425466,-1.303242,-5,-5.0


## Missing data

Pandas utilitza principalment el valor np.nan per representar les dades que falten. Per defecte no s'inclou en els càlculs.

La reindexació us permet canviar/afegir/suprimir l'índex en un eix especificat. Això retorna una còpia de les dades:

In [None]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ["E"])

df1.loc[dates[0] : dates[1], "E"] = 1

df1

Unnamed: 0,A,B,C,D,E
2013-01-01,-1.397802,-0.903217,-0.305947,0.191437,1.0
2013-01-02,-0.361313,0.356437,1.025573,0.705445,1.0
2013-01-03,-0.981388,0.463933,-0.536539,-0.327819,
2013-01-04,0.392953,-1.283478,-0.948796,-1.497212,


Per eliminar les files a les quals falten dades:

In [None]:
df1.dropna(how="any")
#filas donde había un NaN han desaparecido

Unnamed: 0,A,B,C,D,E
2013-01-01,-1.397802,-0.903217,-0.305947,0.191437,1.0
2013-01-02,-0.361313,0.356437,1.025573,0.705445,1.0


In [None]:
df1.dropna(how="all")


Unnamed: 0,A,B,C,D,E
2013-01-01,-1.397802,-0.903217,-0.305947,0.191437,1.0
2013-01-02,-0.361313,0.356437,1.025573,0.705445,1.0
2013-01-03,-0.981388,0.463933,-0.536539,-0.327819,
2013-01-04,0.392953,-1.283478,-0.948796,-1.497212,


Omplint les dades que falten:

In [None]:
df1.fillna(value=5)
#en este caso se ha añadido 5, pero se pueden añadir dataframes, diccionarios, etc

Unnamed: 0,A,B,C,D,E
2013-01-01,-1.397802,-0.903217,-0.305947,0.191437,1.0
2013-01-02,-0.361313,0.356437,1.025573,0.705445,1.0
2013-01-03,-0.981388,0.463933,-0.536539,-0.327819,5.0
2013-01-04,0.392953,-1.283478,-0.948796,-1.497212,5.0


Per obtenir la màscara booleana on els valors són `nan`:

In [None]:
a = None
a is None

True

In [None]:
df1.isna()

Unnamed: 0,A,B,C,D,E
2013-01-01,False,False,False,False,False
2013-01-02,False,False,False,False,False
2013-01-03,False,False,False,False,True
2013-01-04,False,False,False,False,True


In [None]:
pd.isna(df1)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,False,False,False,False,True,False
2013-01-02,False,False,False,False,False,False
2013-01-03,False,False,False,False,False,True
2013-01-04,False,False,False,False,False,True


## Operacions

### Estadístiques

Les operacions en general exclouen les dades que falten.

Realització d'una estadística descriptiva:

In [None]:
df.mean()

A   -0.525935
B   -0.231530
C   -0.422970
D   -0.152731
dtype: float64

La mateixa operació a l'altre eix:

In [None]:
df.mean(1)


2013-01-01    0.924406
2013-01-02    0.848912
2013-01-03    1.851777
2013-01-04    1.837406
2013-01-05    1.623489
2013-01-06    1.299914
Freq: D, dtype: float64

Operar amb objectes que tenen diferents dimensionalitats i necessiten alineació. A més, Pandas fa broadcasting automàticament al llarg de la dimensió especificada

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)

s

2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64

In [None]:
df.sub(s, axis="index")

Unnamed: 0,A,B,C,D,F
2013-01-01,,,,,
2013-01-02,,,,,
2013-01-03,-0.401789,-0.842025,0.502701,4.0,1.0
2013-01-04,-3.570405,-2.451484,-1.791081,2.0,0.0
2013-01-05,-4.706105,-6.271813,-4.904638,0.0,-1.0
2013-01-06,,,,,


### Apply

Aplicació de funcions a les dades:

In [None]:
df.apply(np.cumsum)

Unnamed: 0,A,B,C,D
2013-01-01,0.092405,-0.546274,-1.707632,-0.183
2013-01-02,-0.319831,-0.144664,-4.016314,0.02142
2013-01-03,-1.213035,0.247374,-4.000289,-0.290257
2013-01-04,-0.381706,1.159319,-4.176553,-0.776978
2013-01-05,-0.875833,0.224621,-4.162911,1.174238
2013-01-06,-1.582051,-0.982425,-4.567953,1.461266


In [None]:
def value_range(row):
    return row.max() - row.min()

In [None]:
df.apply(value_range, axis=1)

2013-01-01    1.800037
2013-01-02    2.710292
2013-01-03    1.285242
2013-01-04    1.398667
2013-01-05    2.885915
2013-01-06    1.494074
Freq: D, dtype: float64

In [None]:
df.apply(lambda x: x.max() - x.min(), axis=1)


2013-01-01    1.800037
2013-01-02    2.710292
2013-01-03    1.285242
2013-01-04    1.398667
2013-01-05    2.885915
2013-01-06    1.494074
Freq: D, dtype: float64

## Histogramming

El mètode value_counts() de Series i la funció de nivell superior calcula un histograma d'una matriu 1D de valors. També es pot utilitzar com a funció en matrius normals:

In [None]:
s = pd.Series(np.random.randint(0, 7, size=10))

s

0    0
1    0
2    3
3    0
4    1
5    0
6    4
7    5
8    6
9    1
dtype: int64

In [None]:
s.value_counts()

0    4
1    2
3    1
4    1
5    1
6    1
dtype: int64

El mètode value_counts() es pot utilitzar per comptar combinacions en diverses columnes. Per defecte s'utilitzen totes les columnes, però es pot seleccionar un subconjunt mitjançant l'argument subconjunt.

In [None]:
data = {"a": [1, 2, 3, 4], "b": ["x", "x", "y", "y"]}

frame = pd.DataFrame(data)

frame.value_counts()

a  b
1  x    1
2  x    1
3  y    1
4  y    1
Name: count, dtype: int64

Similarly, you can get the most frequently occurring value(s), i.e. the mode, of the values in a Series or DataFrame:

De la mateixa manera, podeu obtenir els valors més freqüents, és a dir, el mode, dels valors d'una sèrie o un DataFrame:

In [None]:
s5 = pd.Series([1, 1, 3, 3, 3, 5, 5, 7, 7, 7])

s5.mode()

0    3
1    7
dtype: int64

In [None]:
df5 = pd.DataFrame(
    {
        "A": np.random.randint(0, 7, size=15),
        "B": np.random.randint(-10, 15, size=15),
    }
)

df5


Unnamed: 0,A,B
0,6,1
1,5,12
2,1,14
3,6,-2
4,1,-6
5,6,-9
6,5,0
7,6,-5
8,0,-7
9,3,-10


In [None]:
df5.mode()

Unnamed: 0,A,B
0,6.0,-7
1,,-6
2,,0


## Mètodes de String

La sèrie i l'índex estan equipats amb un conjunt de mètodes de processament de cadenes que faciliten l'operació amb cada element de la matriu. Potser el més important és que aquests mètodes exclouen automàticament els valors que falten/NA. S'hi accedeix mitjançant l'atribut str i generalment tenen noms que coincideixen amb els mètodes de cadena integrats equivalents (escalars):

In [None]:
s = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"])

s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

In [None]:
s.str.upper()

0       A
1       B
2       C
3    AABA
4    BACA
5     NaN
6    CABA
7     DOG
8     CAT
dtype: object

In [None]:
s.str.len()

0    1.0
1    1.0
2    1.0
3    4.0
4    4.0
5    NaN
6    4.0
7    3.0
8    3.0
dtype: float64

In [None]:
idx = pd.Index([" jack", "jill ", " jesse ", "frank"])

idx.str.strip()

Index(['jack', 'jill', 'jesse', 'frank'], dtype='object')

In [None]:
idx.str.lstrip()

Index(['jack', 'jill ', 'jesse ', 'frank'], dtype='object')

In [None]:
idx.str.rstrip()

Index([' jack', 'jill', ' jesse', 'frank'], dtype='object')

Els mètodes de cadena a Index són especialment útils per netejar o transformar columnes de DataFrame. Per exemple, podeu tenir columnes amb espais en blanc inicials o finals:

In [None]:
df = pd.DataFrame(
    np.random.randn(3, 2), columns=[" Column A ", " Column B "], index=range(3)
)


df

Unnamed: 0,Column A,Column B
0,0.78912,-2.102965
1,-0.857748,1.27816
2,0.745399,1.25167


Com que df.columns és un objecte Index, podem utilitzar l'accessor .str

In [None]:
df.columns.str.strip()

Index(['Column A', 'Column B'], dtype='object')

In [None]:
df[" Column A "] #funciona

0    0.789120
1   -0.857748
2    0.745399
Name:  Column A , dtype: float64

In [None]:
df["Column A"]
#no funciona porque ese " Column A " que se quiere llamar tiene un espacio delante y detrás

KeyError: 'Column A'

In [None]:
df.columns.str.lower()

Index([' column a ', ' column b '], dtype='object')

Aquests mètodes de string es poden utilitzar per netejar les columnes segons sigui necessari. Aquí estem eliminant els espais en blanc inicials i finals, tots els noms amb minúscules i minúscules i substituint els espais en blanc restants per guions baixos:

In [None]:
df.columns = df.columns.str.strip().str.lower().str.replace(" ", "_")

df

Unnamed: 0,column_a,column_b
0,2.254934,0.653868
1,-0.231809,0.934265
2,-0.136653,-0.74593


## Merge
### Concat
pandas provides various facilities for easily combining together Series and DataFrame objects with various kinds of set logic for the indexes and relational algebra functionality in the case of join / merge-type operations.

See the Merging section.

Concatenating pandas objects together with concat():

## Merge
### Concat

Pandas ofereix diverses facilitats per combinar fàcilment objectes Series i DataFrame amb diversos tipus de lògica conjunta per als índexs i la funcionalitat d'àlgebra relacional en el cas d'operacions de tipus unió / fusió.


Concatenació d'objectes pandas juntament amb concat():

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))

df

Unnamed: 0,0,1,2,3
0,-0.904661,0.150164,1.094153,0.135365
1,-0.002489,-1.494007,0.632209,0.580954
2,-0.117835,0.737791,-0.299559,0.79172
3,-0.144557,-0.314532,-0.054663,-1.478647
4,0.520376,0.310629,1.232666,-2.256229
5,0.429625,-0.911894,1.358843,-1.050467
6,0.255385,1.498919,0.163404,1.026323
7,-0.132183,-0.761147,1.205595,-1.011534
8,-1.493892,1.256845,1.715826,0.741289
9,0.03229,-0.6624,1.8007,1.305182


In [None]:
pieces = [df[:3], df[3:7], df[7:]]

pd.concat(pieces)

Unnamed: 0,0,1,2,3
0,-0.904661,0.150164,1.094153,0.135365
1,-0.002489,-1.494007,0.632209,0.580954
2,-0.117835,0.737791,-0.299559,0.79172
3,-0.144557,-0.314532,-0.054663,-1.478647
4,0.520376,0.310629,1.232666,-2.256229
5,0.429625,-0.911894,1.358843,-1.050467
6,0.255385,1.498919,0.163404,1.026323
7,-0.132183,-0.761147,1.205595,-1.011534
8,-1.493892,1.256845,1.715826,0.741289
9,0.03229,-0.6624,1.8007,1.305182


### Join
Merge de l'estil SQL

In [None]:
left = pd.DataFrame({"key": ["foo", "foo"], "lval": [1, 2]})

right = pd.DataFrame({"key": ["foo", "foo"], "rval": [4, 5]})

left

Unnamed: 0,key,lval
0,foo,1
1,foo,2


In [None]:
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [None]:
pd.merge(left, right, on="key")

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


## Agrupació
Per "group by" ens referim a un procés que implica un o més dels passos següents:

> * Dividir les dades en grups en funció d'alguns criteris
> * Aplicar una funció a cada grup de manera independent
> * Combinació dels resultats en una estructura de dades

In [None]:
df = pd.DataFrame(
    {
        "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
        "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
        "C": np.random.randn(8),
        "D": np.random.randn(8),
    }
)

df

Unnamed: 0,A,B,C,D
0,foo,one,0.756097,0.535497
1,bar,one,0.693637,-1.033536
2,foo,two,0.419497,0.243544
3,bar,three,0.181957,-0.31659
4,foo,two,0.663216,0.854475
5,bar,two,0.107244,-1.50382
6,foo,one,-0.452784,-0.860243
7,foo,three,0.900339,0.279834


Agrupant i aplicant la funció sum() als grups resultants:

In [None]:
df.groupby("A").sum()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,onethreetwo,0.982838,-2.853947
foo,onetwotwoonethree,2.286365,1.053108


L'agrupació per múltiples columnes forma un índex jeràrquic i, de nou, podem aplicar la funció sum():

In [None]:
df.groupby(["A", "B"]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.839548,0.309499
bar,three,1.261844,1.680116
bar,two,-0.497293,0.442007
foo,one,2.574336,0.180889
foo,three,0.944365,0.810927
foo,two,-2.461904,2.088564


## Reforma per apilar i desapilar
### Stack

Molt relacionats amb el mètode pivot() hi ha els mètodes stack() i unstack() relacionats disponibles a Series i DataFrame. Aquests mètodes estan dissenyats per treballar conjuntament amb objectes MultiIndex. Això és bàsicament el què fan aquests mètodes:

* **stack()**: "pivota" un nivell de les etiquetes de columna (possiblement jeràrquica), retornant un DataFrame amb un índex amb un nou nivell interior d'etiquetes de fila.

![image.png](attachment:image.png)

* **unstack()**: (operació inversa de stack()) "pivota" un nivell de l'índex de fila (possiblement jeràrquic) a l'eix de la columna, produint un DataFrame remodelat amb un nou nivell interior d'etiquetes de columna.

![image.png](attachment:image.png)

La manera més clara d'explicar és amb un exemple. Prenem un exemple de conjunt de dades anterior de la secció d'indexació jeràrquica:

In [None]:
tuples = list(
    zip(
        *[
            ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
            ["one", "two", "one", "two", "one", "two", "one", "two"],
        ]
    )
)


index = pd.MultiIndex.from_tuples(tuples, names=["first", "second"])

df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=["A", "B"])

df2 = df[:4]

df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.70089,0.26024
bar,two,0.373212,0.868714
baz,one,-1.866837,0.997726
baz,two,0.035747,0.471401


The stack() function “compresses” a level in the DataFrame columns to produce either:

* A Series, in the case of a simple column Index.

* A DataFrame, in the case of a MultiIndex in the columns.

If the columns have a MultiIndex, you can choose which level to stack. The stacked level becomes the new lowest level in a MultiIndex on the columns:

La funció stack() "comprimeix" un nivell a les columnes DataFrame per produir:

* Una Sèrie , en el cas d'una columna simple Índex.

* Un DataFrame, en el cas d'un MultiIndex a les columnes.

Si les columnes tenen un MultiIndex, podeu triar quin nivell voleu apilar. El nivell apilat es converteix en el nou nivell més baix en un MultiIndex a les columnes:

In [None]:
stacked = df2.stack()

stacked

first  second   
bar    one     A   -0.700890
               B    0.260240
       two     A    0.373212
               B    0.868714
baz    one     A   -1.866837
               B    0.997726
       two     A    0.035747
               B    0.471401
dtype: float64

Amb un DataFrame o Sèrie "stacked" (que té un MultiIndex com a índex), l'operació inversa de stack() és unstack(), que per defecte "desapila" l'últim nivell:

In [None]:
stacked.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.70089,0.26024
bar,two,0.373212,0.868714
baz,one,-1.866837,0.997726
baz,two,0.035747,0.471401


In [None]:
stacked.unstack(1)

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,-0.70089,0.373212
bar,B,0.26024,0.868714
baz,A,-1.866837,0.035747
baz,B,0.997726,0.471401


In [None]:
stacked.unstack(0)

Unnamed: 0_level_0,first,bar,baz
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-0.70089,-1.866837
one,B,0.26024,0.997726
two,A,0.373212,0.035747
two,B,0.868714,0.471401


Si els índexs tenen noms, podeu utilitzar els noms de nivell en lloc d'especificar els números de nivell:

In [None]:
stacked.unstack("second")

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,-0.70089,0.373212
bar,B,0.26024,0.868714
baz,A,-1.866837,0.035747
baz,B,0.997726,0.471401


In [None]:
stacked.unstack("second")

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,-0.70089,0.373212
bar,B,0.26024,0.868714
baz,A,-1.866837,0.035747
baz,B,0.997726,0.471401


Observeu que els mètodes stack() i unstack() ordenen implícitament els nivells d'índex implicats. Per tant, una crida a stack() i després unstack(), o viceversa, donarà lloc a una còpia ordenada del DataFrame o Series original:

In [None]:
index = pd.MultiIndex.from_product([[2, 1], ["a", "b"]])

df = pd.DataFrame(np.random.randn(4), index=index, columns=["A"])

df

Unnamed: 0,Unnamed: 1,A
2,a,0.810817
2,b,-1.58861
1,a,0.6775
1,b,-0.669666


In [None]:
all(df.unstack().stack() == df.sort_index())

True

## Pivot tables

In [None]:
df = pd.DataFrame(
    {
        "A": ["one", "one", "two", "three"] * 3,
        "B": ["A", "B", "C"] * 4,
        "C": ["foo", "foo", "foo", "bar", "bar", "bar"] * 2,
        "D": np.random.randn(12),
        "E": np.random.randn(12),
    }
)


df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,0.846569,2.463205
1,one,B,foo,0.322907,-2.54534
2,two,C,foo,3.768474,0.427848
3,three,A,bar,-0.189419,0.611912
4,one,B,bar,0.061081,0.111042
5,one,C,bar,0.737039,0.275232
6,two,A,foo,1.174081,1.997007
7,three,B,foo,2.335352,-0.800816
8,one,C,foo,-1.401818,0.590451
9,one,A,bar,0.558135,1.817718


Podem produir taules dinàmiques a partir d'aquestes dades molt fàcilment:

In [None]:
pd.pivot_table(df, values="D", index=["A", "B"], columns=["C"])

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,0.558135,0.846569
one,B,0.061081,0.322907
one,C,0.737039,-1.401818
three,A,-0.189419,
three,B,,2.335352
three,C,-0.425604,
two,A,,1.174081
two,B,1.531527,
two,C,,3.768474


## Sèries temporals
pandas té una funcionalitat senzilla, potent i eficient per realitzar operacions de remuestreig durant la conversió de freqüència (p. ex., convertir dades de segon en dades de 5 minuts). Això és extremadament comú,però no limitat a, aplicacions financeres.

In [None]:
rng = pd.date_range("1/1/2012", periods=100, freq="S")

ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)

ts.resample("5Min").sum()

2012-01-01    25429
Freq: 5T, dtype: int64

Representació de la zona horària:

In [None]:
rng = pd.date_range("3/6/2012 00:00", periods=5, freq="D")

ts = pd.Series(np.random.randn(len(rng)), rng)

ts

2012-03-06    1.270647
2012-03-07    0.268113
2012-03-08    0.816701
2012-03-09    0.338851
2012-03-10    0.149219
Freq: D, dtype: float64

In [None]:
ts_utc = ts.tz_localize("UTC")

ts_utc

2012-03-06 00:00:00+00:00    0.257030
2012-03-07 00:00:00+00:00   -0.402319
2012-03-08 00:00:00+00:00   -0.681449
2012-03-09 00:00:00+00:00   -0.489192
2012-03-10 00:00:00+00:00    0.236979
Freq: D, dtype: float64

Convertir a una altra zona horària:

In [None]:
rng = pd.date_range("1/1/2012", periods=5, freq="M")

ts = pd.Series(np.random.randn(len(rng)), index=rng)

ts

2012-01-31    0.096931
2012-02-29    0.617219
2012-03-31   -1.314062
2012-04-30    0.070249
2012-05-31    0.078913
Freq: M, dtype: float64

In [None]:
ps = ts.to_period()

ps

2012-01    0.096931
2012-02    0.617219
2012-03   -1.314062
2012-04    0.070249
2012-05    0.078913
Freq: M, dtype: float64

In [None]:
ps.to_timestamp()

2012-01-01    0.096931
2012-02-01    0.617219
2012-03-01   -1.314062
2012-04-01    0.070249
2012-05-01    0.078913
Freq: MS, dtype: float64

La conversió entre període i marca de temps permet utilitzar algunes funcions aritmètiques convenients. A l'exemple següent, convertim una freqüència trimestral amb l'any que acaba al novembre a les 9:00 del final del mes següent al final del trimestre:

In [None]:
prng = pd.period_range("1990Q1", "2000Q4", freq="Q-NOV")

ts = pd.Series(np.random.randn(len(prng)), prng)

ts.index = (prng.asfreq("M", "e") + 1).asfreq("H", "s") + 9

ts.head()

1990-03-01 09:00    0.423758
1990-06-01 09:00    1.063910
1990-09-01 09:00   -0.426689
1990-12-01 09:00   -0.298398
1991-03-01 09:00   -0.504643
Freq: H, dtype: float64

## Categoricals

pandas can include categorical data in a DataFrame. 

Categoricals are a pandas data type corresponding to categorical variables in statistics. A categorical variable takes on a limited, and usually fixed, number of possible values (categories; levels in R). Examples are gender, social class, blood type, country affiliation, observation time or rating via Likert scales.

In contrast to statistical categorical variables, categorical data might have an order (e.g. ‘strongly agree’ vs ‘agree’ or ‘first observation’ vs. ‘second observation’), but numerical operations (additions, divisions, …) are not possible.

All values of categorical data are either in categories or np.nan. Order is defined by the order of categories, not lexical order of the values. Internally, the data structure consists of a categories array and an integer array of codes which point to the real value in the categories array.

The categorical data type is useful in the following cases:

* A string variable consisting of only a few different values. Converting such a string variable to a categorical variable will save some memory, see here.

* The lexical order of a variable is not the same as the logical order (“one”, “two”, “three”). By converting to a categorical and specifying an order on the categories, sorting and min/max will use the logical order instead of the lexical order, see here.

* As a signal to other Python libraries that this column should be treated as a categorical variable (e.g. to use suitable statistical methods or plot types).

## Categories

Pandas poden incloure dades categòriques en un DataFrame.

Les categòriques són un tipus de dades de Pandas corresponents a variables categòriques en estadístiques. Una variable categòrica pren un nombre limitat, i normalment fix, de valors possibles. Alguns exemples són el gènere, la classe social, el grup sanguini, la filiació del país, el temps d'observació o la valoració mitjançant escales Likert.

A diferència de les variables categòriques estadístiques, les dades categòriques poden tenir un ordre (per exemple, "molt d'acord" vs "d'acord" o "primera observació" vs. "segona observació"), però les operacions numèriques (sumas, divisions, ...) no són possibles.

Tots els valors de les dades categòriques es troben en categories o np.nan. L'ordre es defineix per l'ordre de les categories, no per l'ordre lèxic dels valors. Internament, l'estructura de dades consta d'una matriu de categories i una matriu d'enters de codis que apunten al valor real de la matriu de categories.

El tipus de dades categòriques és útil en els casos següents:

* Una variable de string que consta només d'uns quants valors diferents. Convertir aquesta variable de cadena en una variable categòrica estalviarà una mica de memòria

* L'ordre lèxic d'una variable no és el mateix que l'ordre lògic (“un”, “dos”, “tres”). En convertir-lo en categòric i especificar un ordre a les categories, l'ordenació i min/max utilitzaran l'ordre lògic en lloc de l'ordre lèxic.

* Com a senyal per a altres biblioteques de Python que aquesta columna s'ha de tractar com una variable categòrica (per exemple, per utilitzar mètodes estadístics o tipus de traçat adequats).

In [None]:
df = pd.DataFrame(
    {"id": [1, 2, 3, 4, 5, 6], "raw_grade": ["a", "b", "b", "a", "a", "e"]}
)
df 

Unnamed: 0,id,raw_grade
0,1,a
1,2,b
2,3,b
3,4,a
4,5,a
5,6,e


In [None]:
df["grade"] = df["raw_grade"].astype("category")

df["grade"]

0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): ['a', 'b', 'e']

Canvieu el nom de les categories a noms més significatius (l'assignació a Series.cat.categories() està al seu lloc!):

In [None]:
df["grade"].cat.categories = ["very good", "good", "very bad"]

Reordena les categories i afegiu simultàniament les categories que falten (els mètodes de Series.cat() retornen una sèrie nova per defecte):

In [None]:
df["grade"] = df["grade"].cat.set_categories(
    ["very bad", "bad", "medium", "good", "very good"]
)

df["grade"]

0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (5, object): ['very bad', 'bad', 'medium', 'good', 'very good']

L'ordenació és per ordre a les categories, no per ordre lèxic:

In [None]:
df.sort_values(by="grade")

Unnamed: 0,id,raw_grade,grade
5,6,e,very bad
1,2,b,good
2,3,b,good
0,1,a,very good
3,4,a,very good
4,5,a,very good


In [None]:
df.groupby("grade").size()

grade
very bad     1
bad          0
medium       0
good         2
very good    3
dtype: int64

## Obtenció/entrada de dades ([Documentació](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-store-in-csv))

### CSV

Escrivint en un fitxer csv:

In [None]:
df.to_csv("foo.csv")

Llegint des d'un fitxer csv:

In [None]:
pd.read_csv("foo.csv")


Unnamed: 0.1,Unnamed: 0,A,B,C,D
0,0,foo,one,0.756097,0.535497
1,1,bar,one,0.693637,-1.033536
2,2,foo,two,0.419497,0.243544
3,3,bar,three,0.181957,-0.31659
4,4,foo,two,0.663216,0.854475
5,5,bar,two,0.107244,-1.50382
6,6,foo,one,-0.452784,-0.860243
7,7,foo,three,0.900339,0.279834


### HDF5
Escrivint a una Store HDF5:

In [None]:
df.to_hdf("foo.h5", "df")

ImportError: Missing optional dependency 'pytables'.  Use pip or conda to install pytables.

Lectura d'una Store HDF5:

In [None]:
pd.read_hdf("foo.h5", "df")

### Excel
Llegir i escriure a MS Excel.

Escrivint en un fitxer excel:

In [None]:
df.to_excel("foo.xlsx", sheet_name="Sheet1")

ModuleNotFoundError: No module named 'openpyxl'

Llegint des d'un fitxer excel:

In [None]:
pd.read_excel("foo.xlsx", "Sheet1", index_col=None, na_values=["NA"])

FileNotFoundError: [Errno 2] No such file or directory: 'foo.xlsx'

In [None]:
import numpy as pd
import pandas as pd 

import matplotlib.pyplot as plt

import sklearn 
from sklearn.cluster import KMeans
from mpl_toolkits.mplot3d import Axes3D
from sklearn.preprocessing import scale

import sklearn.metrics as sm
from sklearn import datasets

from sklearn.metrics import confusion_matrix, classification_report  

In [None]:
%matplotlib inline
rcParams["figure.figsize"] = 7, 4

NameError: name 'rcParams' is not defined