# Tractament de dades - Pandas  <img align="right"  width="185" height="75"  src="img/pandas-logo.png" alt="pandas_logo"/>

En aquest apartat veurem una de les llibreries més utilitzades alhora de realitzar anàlisis de dades: importar i exportar dades, realitzar operacions de tractament, etc..

## Introducció a Pandas
---------------------
Com qualsevol atre llibreria de python utilitzarem la paraula import per utilitzar-la

```python
import pandas as pd
```


A Pandas hi ha dos objectes principals: el **DataFrame** i les **Series**

## DataFrame
---------------------
La classe [*DataFrame*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) és una de les més utilitzades ja que igual que R és aquells que utilitzarem per tractar les dades.
Serà una taula de doble entrada (files i columnes).

Una DataFrame és una taula que conté una sèrie d'entrades individuals, cadascuna de les quals té un valor determinat. Cada entrada correspon a una fila/registre i a una columna.

Per exemple:

In [None]:
import pandas as pd

data = {'Nom':['Pere', 'Alice', 'Marta', 'Tom'],
        'Edat':[20, 21, 19, 18]}

pd.DataFrame(data)

In [None]:
pd.DataFrame({ 
    'clau':['A','B','C','A','B','C'] ,
    'valors' : range(6) 
    }, 
    columns = ['valors','clau'] 
)

Els valors de les columnes no han de ser número poden ser cadenes de text. A més, també podem assignar etiquetes a les files de la taula mitjançant el paràmetre index.

In [None]:
pd.DataFrame({'Pere': ['M\'agrada', 'No m\'agrada'], 
              'Marta': ['No està malament', 'M\'agrada']},
             index=['Producte A', 'Producte B'])

## Series
---------------------

Una sèrie, és senzillament una seqüència de valors de dades. Si un DataFrame és una taula, una Sèrie és una llista. I, de fet, es poden crear mitjanpodeu crear-ne un amb res més que una llista:
La classe [*Serie*](https://pandas.pydata.org/docs/reference/series.html) és una única columna d'un DataFrame i com a tal podem assignar-li etiquetes a la fila.

Per exemple:

In [None]:
pd.Series([1, 2, 3, 4, 5])

In [None]:
pd.Series([30, 35, 40], index=['2015 Vendes', '2016 Vendes', '2017 Vendes'], name='Producte A')


## Importació
---------------------

Podem importar dades a DataFrames de Pandas de diferents orígen i formats. Alguns dels més utilitzats són:

* De CSV: con [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)
* De Excel: con [`read_excel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)
* De base de datos: con [`read_sql`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html)
* La més genèrica és [`read_table`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_table.html)


En aquest exemple veiem la manera d'importar les dades a partir d'un fitxer CSV. Aquest fitxer conté dades d'anuncis de venda de cotxes de segona mà de diferents plataformes. Origen del [dataset](https://www.kaggle.com/datasets/datamarket/venta-de-coches)

**Nota:** Per poder manipular base de dades SQLite podem utilitzar l'eina [DB Browser for SQLite ](https://sqlitebrowser.org/)

In [None]:

#Importar dadades des d'un CSV
import pandas as pd

cotxes = pd.read_csv('dataset/venda-cotxes-segona-ma.csv', index_col=False)
cotxes.head()


In [None]:

#Importar dadades des d'un Excel
import pandas as pd

cotxes = pd.read_excel('dataset/venda-cotxes-segona-ma.xlsx', index_col=0)
cotxes.head()


In [None]:

#Importar dadades des d'una BD SQL (SQLite)
import pandas as pd
import sqlite3

# Creem una conexió a la base de dades SQLite
con = sqlite3.connect("dataset/venda-cotxes-segona-ma.db")

#
cotxes = pd.read_sql("SELECT * FROM cotxes", con)
cotxes.head()

#Tanquem la connexió
con.close()


In [None]:
#Podem importar dades directament d'una URL
import pandas as pd

df = pd.read_csv("http://winterolympicsmedals.com/medals.csv")
df.head()

Alguns dels paràmetres més importants de read_csv són:
* delimiter: Indica quin caràcter és el delimitador de valors en el cas d'un CSV seràn les comes
* decimal: Indica quin caràcter s'utilitza com a separador de milers
* encoding: Indica la codificació de caràcters amb la qual ha de llegir el fitxer. El més usual és "utf-8"

## Accés a les dades
--------------------

Podem accedir a les columnes del DataFrme mitjançant el nom de la columna.

Per exemple: ```cotxes.price``` obtindria un vector amb la columna de preu de tots els cotxes.

L'objecte DataFrame ofereix certes propietats/mètodes per cada columna. Per exemple si posem un punt '.' després del nom de la columna ens apareixeran tots els mètodes disponibles.

In [None]:
# Retorna tot els valors de la columna price
cotxes.price

In [None]:
# Retorna quin és el valor màxim de la columna preu
cotxes.price.max()

In [None]:
# Retorna quina és la posició del valor màxim de la columna preu
cotxes.price.argmax()

In [None]:
# Retorna la mitjana de la columna preu
cotxes.price.mean()

In [None]:
# Retorna la mediana de la columna preu
cotxes.price.median()

In [None]:
# Retorna un resum de la columna
cotxes.price.describe()

Podem també fer el describe de tot el DataFrame o Transposar files per columnes mitjançant el transpose.
Molt sovint també ens interessa saber el tamany del DataFrame. Això ho fem la propietat shape que ens retornarà un vector amb dos valors (qt files, qt columnes).

In [None]:
# retorna una matriu amb el resum de cada columna
cotxes.describe()

In [None]:
# Si volem transposar (canviar files/columnes) la matriu hi ha el mètode transpose
cotxes.describe().transpose()

In [None]:
# Podem fer la mitjana per cada columna que sigui numèrica
cotxes.mean()

In [None]:
# Si volem saber el tamany del DataFrame utilitzarem la propietat shape (quantitat de files i columnes)
cotxes.shape

In [None]:
# Si volem veure els valors únics d'un camp (quines marques tenim)
# retorna un array.
cotxes.make.unique()

In [None]:
# Volem contar quantes files hi ha de cada marca
cotxes.make.value_counts()

In [None]:
#Volem contar quantes valors NaN hi ha.
cotext.make.count()

In [None]:
#Compte que value_counts() i counts() funcionen un pèl diferent. La primer compta files i l'altre compte valors NaN
df = pd.DataFrame({"Person":
                   ["John", "Myla", "Lewis", "John", "Myla", "Alice"],
                   "Age": [24, pd.NA, 21, 33, 26, 24],
                   "Single": [False, True, True, True, False, True]})

# Veurem que no conta valors nulls
df.Age.value_counts()

In [None]:
# Veurem que conta valors nulls  (NaN). Age tindrà 5 valors diferents. Incloent NaN.
df.count()

In [None]:
#També podem fer la mitjana per columnes (les columnes només han de ser númeriques)
cotxes.mean(axis='columns')

## Filtre i/o selecció
----------------------

Per poder seleccionar un subconjunt de les dades que tenim en un Dataframe podem utilitzar les porpietats `loc`, `iloc` i `[]`. El primer `loc` accedirem al grup de files i columnes mitjançant etiquetes o bé amb un array de vooleans. Amb el segon `iloc` accedim al grup de files i columnes mitjançant posicions. Per últim `[]` l'utilitzarem per filtrar per condicions.

[https://pandas.pydata.org/docs/user_guide/indexing.html](https://pandas.pydata.org/docs/user_guide/indexing.html#)

Aquests mètodes retornen un altre DataFrame. 
Si volem transformar-lo amb un array d'objectes (Array of object)

### Selecció per índexs (`iloc`)

Per accedir per posició utilitzant indexos numèrics , utilitzarem iloc[] i dins dels claudators indicarem els índexs de les les files i les columnes que volem seleccionar

[https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)

Cal tenir en compte que Python utilitza el 0 com a primer valor d'un índex.


```python
# Sintaxi
iloc[<número de files>]
iloc[<índex primera fila>:<índex última fila>,<índex primera col>:<índex última col>]
iloc[<índex fila a seleccionar>,<índex columna a seleccionar>]
iloc[[<índexs de les files no consecutives a seleccionar>],[<índexs de les columnes no consecutives a seleccionar>]]
```

In [None]:
# Seleccionem les 100 primeres observacions
cotxes.iloc[100]

In [None]:
# Seleccionem totes les files i totes les columnes (no filtrem res)
cotxes.iloc[:,:]

In [None]:
# Seleccionem totes les files i la primera columna (company)
cotxes.iloc[:,0:1]

In [None]:
# Seleccionem totes les files i la primera columna (company)
cotxes.iloc[:,0]

In [None]:
# Seleccionem la última columna (insert_date)
cotxes.iloc[:,-1]

In [None]:
# Seleccionem totes les columnes excepte la última
cotxes.iloc[:,:-1]

In [None]:
# Seleccionem les columnes 1, 2, 4 (columnes no consecutives) (make,model,price)
cotxes.iloc[:,[1,2,4]] 

##### Exercicis `iloc`

Del dataset venda-cotxes-segona-ma.csv 

* Mostra les 5 primeres files
* Mostra les 5 últimes files
* Mostra la fila 10,15,20
* Mostra la fila 10, però només volem la marca i el model del cotxe

### Selecció per etiquetes (`loc`)

Amb `loc` podem seleccionar un grup de files i/o columnes a través d'etiquetes o un array de booleans.

[https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)


* Una sola etiqueta, per exemple. `5` or `'a'`, (el 5 és interpretat com una etiqueta i no com un índex).
* Un array d'etiquetes, per exemple. `['a', 'b', 'c']`.
* Un rang/tall d'objectes amb etiques, per exemple. 'a':'f'.
* Un array de booleans amb la mateixa longitud que el número de columnes. True significarà que volem la columna i False no.

In [None]:
# Seleccionem totes les files i només mostrarem les columnes `make` i `price`
cotxes.loc[:,['make','price']]

In [None]:
# Seleccionem totes les files i les columnes compreses entre `make` i `fuel`
cotxes.loc[:,'make':'fuel']

In [None]:
# Selecciona el valor de la cel·la de la fila 0 i la columna `make`. Per tant només retorna una valor
cotxes.loc[1,'make']

In [None]:
# Seleccionem només la primera columna (company)
cotxes.loc[:,[True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False]]

In [None]:
# Seleccionem només les files que `cotxes.make=="BMW"` retornin True.
cotxes.loc[cotxes.make=="BMW"]

### Selecció per condicions (`[]`)

Amb el seleccionador també podem obtenir files i columnes. Fins i tot podem demanar que ens retorni les files de 5 en 5.

In [None]:
# Seleccionar els cotxes de la fila 10 a la 50 de 5 en 5
cotxes[10:50:5]

Podem seleccionar files que compleixin una certa condició. Li passem al DataFrame una sère de booleans o una condició lògica que retorni un booleà.

Podem combinar diferents condicions amb & (operador i lògic) i | (operador o lògic)

In [None]:
# Seleccionem els cotxes que només siguin de la marca BMW
cotxes[cotxes.make=="BMW"]

In [None]:
# Seleccionem els cotxes que siguin de la marca BMW i que el seu preu sigui inferior a 20.000
cotxes[(cotxes.make=="BMW") & (cotxes.price<20000)]

In [None]:
# Seleccionem els cotxes que siguin de la marca BMW i SEAT
cotxes[(cotxes.make=="BMW") | (cotxes.make=="SEAT")]

### selector IS IN

A través del selector IS IN podem seleccionar dades els valor del qual es troba dins d'una llista. Vindria a ser l'operador `IN` d'SQL


In [None]:
# Seleccionem els cotex que siguin de la marca BMW i SEAT
cotxes[cotxes.make.isin(["BMW","SEAT"])]

### selectors ISNULL/NOTNULL

Amb aquest selectors podem obtenir aquelles dades que són o no buides (NaN).

In [None]:
# Seleccionem els cotxes que no tinguin valor en el camp power
cotxes[cotxes.power.isnull()]

In [None]:
# Seleccionem els cotxes que tinguin valor en el camp power
cotxes[cotxes.power.notnull()]

**Important**: Podem combinar les propietats anteriors per fer seleccions més complexes

In [None]:
# De tots els cotxes BMW i que el seu preu sigui inferior a 20.000 retornem només la columna `company` (companyia)
cotxes[(cotxes.make=="BMW") & (cotxes.price<20000)].loc[:,'company']

## Ordenació
------------

Podem ordenar un DataFrame per una o diferent columnes mitjanánt el mètode `sort_values`

In [None]:
# Ordenem els cotxes per pereu de forma ascendent
cotxes.sort_values('price',ascending=True)

In [None]:
# Ordenem els cotxes per pereu de forma ascendent i any de forma descendent
cotxes.sort_values(['price','year'],ascending=[True,False])

## Canvis de dades
----------------

### Map
La funció map ens serveix per aplicar una funció a una sèrie de dades (Serie) o una columna d'un DataFrame. Aquesta funció retorna una nova Serie


In [None]:
# Apliquem una funció lambda als preus dels cotxes restant-li la mitjana
mitjana_preu = cotxes.price.mean()
cotxes.price.map(lambda p: p - mitjana_preu)

### Apply

La funció `apply`és equivalent a map, però si volem aplicar una funció a cada elment per cada fila o columna podem utilitzar `apply`

**Compte**: Per defecte aquest mètode retorna un DataFrame i no modifica l'actual.

In [None]:
# Amb el paràmetre axis indiquem si volem files o columnes. axis=0/'index' s'aplica per cada columna, axis=1/'columns' s'aplica a cada fila
# df = cotxes.apply(lambda fila: str(fila.model)+'-'+str(fila.version), axis=1)
cotxes.apply(lambda fila: str(fila.model)+' - '+str(fila.version), axis=1)
cotxes

In [None]:
## Apliquem la funcio remitjana a nivell de columna
cotxes = cotxes.rename(columns={'preu': 'price'})
mitjana_preu = cotxes.price.mean()

def remitjana_preu(row):
    row.price = row.price - mitjana_preu
    return row

cotxes.apply(remitjana_preu, axis='columns')

## Agrupació (Group by)
---------------------
Moltes vegades ens interessa realtizar una sèrie de funcions d'agregat realtizant una agrupació per un camp concret. Similar al que faríem a SQL.
Això ho aconseguirem mitjançant la funció `groupby` antre altres


In [None]:
# Volem saber quina és la quantitat de vehicles per cada marca
cotxes.groupby('make').make.count()

Fixa't que hem d'indicar el camp pel qual volem contar. Per tant si el que fem és executar 
```python
cotxes.groupby('make').count()
```

Retornarà el DataFrame agrupat per marca i contarà de cada columna quantes files hi ha. Si hi ha alguna fila NaN no la contarà.
Fixa't amb la marca ASTON MARTIN hi ha 3 cotxes, però 2 no tenen preu finançat

In [None]:
cotxes.groupby('make').count()

In [None]:
cotxes[cotxes.make=="ASTON MARTIN"]

In [None]:
# Recordeu que això també ho podeu fer mitjançant el value_counts (aquesta funció seria una drecer de groupby + count)
cotxes.make.value_counts()

In [None]:
# Si volem buscar el preu mínim de cada marca
cotxes.groupby('make').price.min()

# La sentència SQL equivalent seria
SELECT make,MIN(price)
    FROM cotxes
GROUP BY make

Hem de pensar que cada grup que generem és una part del nostre DataFrame que només conté dades amb valors que coincideixen. 
Com a tal podem aplicar totes les funcions que hem anat veient en un DataFrame. Inclús `apply()`

In [None]:
# Volem obtenir de cada marca per primer cotxe, mostrant el model i la versió.
cotxes.groupby('make').apply(lambda p: p.model.iloc[0]+' '+p.version.iloc[0])

De la mateixa manera que amb SQL podem agrupar per més d'un camp aquí també ho podem fer. passant una llista de camps a agrupar.


In [None]:
# Volem obtenir el preu mínim de cada marca i model.
cotxes.groupby(['make','model']).price.min()

In [None]:
# Volem obtenir la quanitat de cotxes per cada marca i model
cotxes.groupby(['make','model']).make.count()

In [None]:
# Volem obtenir per cada marca i model un dels cotxes més nous

cotxes.groupby(['make','model']).apply(lambda p: p.loc[p.year.idxmax()])


Amb la funció `aggregate()` o `agg()` podem aplicar certes funcions d'agregat (len, min, max, sum, np.mean, np.std, np.median, np.var) i si tenim carregada la llibreria de NumPy millor alhora per treure alguna estadística

In [None]:
# Podem obtenir estadístics per cada marca
cotxes.groupby('make').price.agg([len,min,max,sum, np.mean, np.std, np.median, np.average, np.var])

In [None]:
# Podem ordenar el resultat anterior per quantitat de vehicles
cotxes.groupby(['make','model']).price.agg([len,min,max,sum, np.mean, np.std, np.median, np.average, np.var]).sort_values(by="len")


En els exemples que hem vist anteriorment el resultat s'ha tranformat amb un **multiindex**.

Per tornar a convertir el resultat amb un índex normal cal utilitzar el mètode `reset_index()`

In [None]:
cotxes.groupby(['make','model']).price.agg([len,min,max,sum, np.mean, np.std, np.median, np.average, np.var]).reset_index()

## Transformació
----------------
 
Molt sovint hem de realitzar canvis en el nostra DataFrame. Afegir, eliminar i renombrar columnes a més de canviar algun tipus de dades.

### Afegir columna

Podem afegir columnes noves mitjançant columnes existens aplicant-li expressions.

In [None]:
# Afegim una nova columna al final del DataFrame
cotxes['price_dte'] = cotxes.price * 0.20

#Afegim una nova columna en una ubicació espcífica.
cotxes.insert(3,'price_50', cotxes.price * 0.50)

Possiblament la forma més eficient de reorganitzar les columnes és mitjançant `reindex`

In [None]:
# En l'exemple reindexem les columnes, però si no afegim totes les columnes del DataFrame aquestes s'esborren.
cotxes = cotxes.reindex(columns=['version','model','company','price','price_financed','price_dte'])

In [None]:
# Podem utilitzar insert per afegir una nova columna.
cotxes.insert(3,'descripcio',cotxes.apply(lambda fila: str(fila.model)+' - '+str(fila.version), axis=1))

### Renombrar una columna



In [None]:
# Renombrem la columna
cotxes = cotxes.rename(columns={'price': 'preu'})

 En general, les funcions de pandas retornen un nou objecte amb el resultat de l'operació, però no modifiquen l'actual DataFrame. Hi ha el paràmetre `inplace`amb valor per defecte a `False`. Si el posem a `True` l'operació es  realitzarà a l'objecte passat per paràmetre.



## Pandasql
-----------

Si estàs acostumat a treballar amb SQL mira't la llibreria Pandasql. Aquesta llibreria permet manipular Dataframes de Pandas utilitzant SQL.

[https://towardsdatascience.com/query-pandas-dataframe-with-sql](https://towardsdatascience.com/query-pandas-dataframe-with-sql-2bb7a509793d)

## Exportació
-------------

