Tractament de dades
===================

***

En aquest apartat veurem quines són les llibreries més utilitzades alhora d'importar i exportar dades, realitzar operacions de tractament, visualització, etc..

Llibreries
----------
Les llibreries que tractarem seran:

* Pandas: Llibreria que ens permet la importació o càrrega, exportació i operaciones amb dades.
* NumPy: **Num**erical **Py**ton  és un llibreria especialitzada en el càlcul numèric, l'anàlisi de dades, tractament de vectors i matrius per un gran volum de dades. https://numpy.org/ 
* MatplotLib: Llibreria per mostrar gràfiques
* Seaborn : Llibreria per mostrar gràfiques i fer una primer exploració de dades


Importació llibreries
---------------------
Per importar les llibreries amb python utilitzarem la paraula import
```python
import numpy as np
```

Per importar subllibreries.
```python
import matplotlib.pylot as plt
```


***

Introducció a Pandas <img align="right"  width="185" height="75"  src="img/pandas-logo.png" alt="pandas_logo"/>
---------------------

## DataFrame

L'objecte DataFrame és un dels objectes més utlitzats ja que igual que R és aquell que utilitzarem per tractar les dades.
Serà una taula de doble entrada (files i columnes).

### Creació d'un DataFrame
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
        'Age':[20, 21, 19, 18]}

df = pd.DataFrame(data)

df2 = pd.DataFrame({
    'key':['A','B','C','A','B','C']
    'values' : range(6)
    },
    columns = ['key','values']
)


### Importació


Pandas carrega les dades amb el que ell anomena DataFrame i les tracta en format de taula.
Podem importar dades a DataFrames de Pandas de diferents orígen i formats. Alguns dels més utilitzats són:

* De CSV: con [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)
* De Excel: con [`read_excel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)
* De base de datos: con [`read_sql`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html)
* La més genèrica és [`read_table`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_table.html)


En aquest exemple veiem la manera d'importar les dades a partir d'un fitxer CSV. Aquest fitxer conté dades d'anuncis de venda de cotxes de segona mà de diferents plataformes. Origen del [dataset](https://www.kaggle.com/datasets/datamarket/venta-de-coches)

**Nota:** Per poder manipular base de dades SQLite podem utilitzar l'eina [DB Browser for SQLite ](https://sqlitebrowser.org/)

In [1]:

#Importar dadades des d'un CSV
import pandas as pd

cotxes = pd.read_csv('dataset/venda-cotxes-segona-ma.csv', index_col=False)
cotxes.head()


Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
0,9881BCDD5A0AD4733037B3FB25E69C3A,KIA,Carnival,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,4860.0,Diésel,2007,221000,185.0,5.0,Manual,Beige (champagne),8,True,VM Motor,928493782,Las Palmas,2020-12-22 13:28:36,2020-12-25 00:00:00
1,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,4.0,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22,2020-12-26 00:00:00
2,9881BCDD5A0AD4733037B3FB25E69C3A,FIAT,500,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,6490.0,Gasolina,2017,75000,69.0,3.0,Manual,Negro,7,True,LAS PALMAS MOTOR,653895468,Las Palmas,2020-11-20 18:30:00,2020-12-08 00:00:00
3,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Astra,OPEL Astra 3p.,5550,,Diésel,2009,137000,,3.0,Manual,Rojo,0,False,22003DEA67E7C5BE6022A29E677668BC,67990DA67E557C1D0C1B6D1DB731938C,Barcelona,2020-11-21 16:37:13,2020-11-24 00:00:00
4,9881BCDD5A0AD4733037B3FB25E69C3A,MERCEDES-BENZ,Clase C,MERCEDES-BENZ Clase C C 220 CDI AVANTGARDE 4p.,11990,11490.0,Diésel,2008,95000,170.0,4.0,Automático,Gris / Plata,21,True,Autos Lipiz,646179040,Madrid,2020-11-05 19:09:27,2020-12-01 00:00:00


In [None]:

#Importar dadades des d'un Excel
import pandas as pd

cotxes = pd.read_excel('dataset/venda-cotxes-segona-ma.xlsx', index_col=0)
cotxes.head()


In [None]:

#Importar dadades des d'una BD SQL (SQLite)
import pandas as pd
import sqlite3

# Creem una conexió a la base de dades SQLite
con = sqlite3.connect("dataset/venda-cotxes-segona-ma.db")

#
cotxes = pd.read_sql("SELECT * FROM cotxes", con)
cotxes.head()

#Tanquem la connexió
con.close()


In [None]:
#Podem importar dades directament d'una URL
import pandas as pd

df = pd.read_csv("http://winterolympicsmedals.com/medals.csv")
df.head()

Alguns dels paràmetres més importants de read_csv són:
* delimiter: Indica quin caràcter és el delimitador de valors en el cas d'un CSV seràn les comes
* decimal: Indica quin caràcter s'utilitza com a separador de milers
* encoding: Indica la codificació de caràcters amb la qual ha de llegir el fitxer. El més usual és "utf-8"

### Accés a les dades
Podem accedir a les columnes del DataFrme mitjançant el nom de la columna.
Per exemple: cotxes.price obtindria un vector amb la columna de preu de tots els cotxes.
L'objecte DataFrame ofereix certes propietats/mètodes per cada columna. Per exemple si posem un punt '.' després del nom de la columne ens apareixeran tots els mètodes disponibles.

In [2]:
#Retorna tot els valors de la columna price
cotxes.price

0        4860
1        1800
2        6490
3        5550
4       11990
        ...  
4995    10200
4996     7650
4997     6200
4998    49900
4999    12950
Name: price, Length: 5000, dtype: int64

In [14]:
#Retorna quin és el valor màxim de la columna preu
cotxes.price.max()

319900

In [15]:
#Retorna quina és la posició del valor màxim de la columna preu
cotxes.price.argmax()

666

In [16]:
#Retorna la mitjana de la columna preu
cotxes.price.mean()

15051.3718

In [17]:
#Retorna la mediana de la columna preu
cotxes.price.median()

11500.0

In [10]:
# Retorna un resum de la columna
cotxes.price.describe()

count      5000.000000
mean      15051.371800
std       15398.498471
min         300.000000
25%        5000.000000
50%       11500.000000
75%       19990.000000
max      319900.000000
Name: price, dtype: float64

Podem també fer el describe de tot el DataFrame o Transposar files per columnes mitjançant el transpose.
Molt sovint també ens interessa saber el tamany del DataFrame. Això ho fem la propietat shape que ens retornarà un vector amb dos valors (qt files, qt columnes).

In [6]:
# retorna una matriu amb el resum de cada columna
cotxes.describe()

(5000, 20)

In [None]:
#Si volem transposar (canviar files/columnes) la matriu hi ha el mètode transpose
cotxes.describe().transpose()

In [None]:
#Podem fer la mitjana per cada columna que sigui numèrica
cotxes.mean()

In [None]:
#Si volem saber el tamany del DataFrame utilitzarem la propietat shape (quantitat de files i columnes)
cotxes.shape

In [22]:
#També podem fer la mitjana per columnes (les columnes només han de ser númeriques)
cotxes.mean(axis='columns')

company             object
make                object
model               object
descripcio          object
version             object
price                int64
price_financed     float64
fuel                object
year                 int64
kms                  int64
power              float64
doors              float64
shift               object
color               object
photos               int64
is_professional       bool
dealer              object
phone               object
province            object
publish_date        object
insert_date         object
dtype: object

### Filtre i/o selecció

Per poder seleccionar un subconjunt de les dades que tenim en un Dataframe podem utilitzar les porpietats `loc`, `iloc` i `[]`. El primer `loc` accedirem al grup de files i columnes mitjançant etiquetes o bé amb un array de vooleans. Amb el segon `iloc` accedim al grup de files i columnes mitjançant posicions. Per últim `[]` l'utilitzarem per filtrar per condicions.

[https://pandas.pydata.org/docs/user_guide/indexing.html](https://pandas.pydata.org/docs/user_guide/indexing.html#)

Aquests mètodes retornen un altre DataFrame. 
Si volem transformar-lo amb un array d'objectes (Array of object)

#### Selecció per índexs (`iloc`)

Per accedir per posició utilitzant indexos numèrics , utilitzarem iloc[] i dins dels claudators indicarem els índexs de les les files i les columnes que volem seleccionar

[https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)

Cal tenir en compte que Python utilitza el 0 com a primer valor d'un índex.


```
# Sintaxi
iloc[<número de files>]
iloc[<índex primera fila>:<índex última fila>,<índex primera col>:<índex última col>]
iloc[<índex fila a seleccionar>,<índex columna a seleccionar>]
iloc[[<índexs de les files no consecutives a seleccionar>],[<índexs de les columnes no consecutives a seleccionar>]]
```

In [None]:
# Seleccionem les 100 primeres observacions
cotxes.iloc[100]

In [None]:
# Seleccionem totes les files i totes les columnes (no filtrem res)
cotxes.iloc[:,:]

In [None]:
# Seleccionem totes les files i la primera columna (company)
cotxes.iloc[:,0:1]

In [None]:
# Seleccionem totes les files i la primera columna (company)
cotxes.iloc[:,0]

In [None]:
# Seleccionem la última columna (insert_date)
cotxes.iloc[:,-1]

In [None]:
# Seleccionem totes les columnes excepte la última
cotxes.iloc[:,:-1]

In [None]:
# Seleccionem les columnes 1, 2, 4 (columnes no consecutives) (make,model,price)
cotxes.iloc[:,[1,2,4]] 

##### Exercicis `iloc`

Del dataset venda-cotxes-segona-ma.csv 

* Mostra les 5 primeres files
* Mostra les 5 últimes files
* Mostra la fila 10,15,20
* Mostra la fila 10, però només volem la marca i el model del cotxe

#### Selecció per etiquetes (`loc`)

Amb loc podem seleccionar un grup de files i/o columnes a través d'etiquetes o un array de booleans.

[https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)


* Una sola etiqueta, per exemple. `5` or `'a'`, (el 5 és interpretat com una etiqueta i no com un índex).
* Un array d'etiquetes, per exemple. `['a', 'b', 'c']`.
* Un rang/tall d'objectes amb etiques, per exemple. 'a':'f'.
* Un array de booleans amb la mateixa longitud que el número de columnes. True significarà que volem la columna i False no.

In [None]:
# Seleccionem totes les files i només mostrarem les columnes `make` i `price`
cotxes.loc[:,['make','price']]

In [None]:
# Seleccionem totes les files i les columnes compreses entre `make` i `fuel`
cotxes.loc[:,'make':'fuel']

In [None]:
# Selecciona el valor de la cel·la de la fila 0 i la columna `make`. Per tant només retorna una valor
cotxes.loc[1,'make']

In [None]:
# Seleccionem només la primera columna (company)
cotxes.loc[:,[True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False]]

#### Selecció per condicions (`[]`)

Amb el seleccionador també podem obtenir files i columnes. Fins i tot podem demanar que ens retorni les files de 5 en 5.

In [None]:
# Seleccionar els cotxes de la fila 10 a la 50 de 5 en 5
cotxes[10:50:5]

Podem seleccionar files que compleixin una certa condició. Li passem al DataFrame una sère de booleans o una condició lògica que retorni un booleà.

Podem combinar diferents condicions amb & (operador i lògic) i | (operador o lògic)

In [None]:
# seleccionem els cotxes que només siguin de la marca BMW
cotxes[cotxes.make=="BMW"]

In [None]:
#seleccionem els cotex que siguin de la marca BMW i que el seu preu sigui inferior a 20.000
cotxes[(cotxes.make=="BMW") & (cotxes.price<20000)]

**Important**: Podem combinar les propietats anteriors per fer seleccions més complexes

In [None]:
# De tots els cotxes BMW i que el seu preu sigui inferior a 20.000 retornem només la columna `company` (companyia)
cotxes[(cotxes.make=="BMW") & (cotxes.price<20000)].loc[:,'company']

### Ordenació

Podem ordenar un DataFrame per una o diferent columnes mitjanánt el mètode `sort_values`

In [None]:
# Ordenem els cotxes per pereu de forma ascendent
cotxes.sort_values('price',ascending=True)

In [None]:
# Ordenem els cotxes per pereu de forma ascendent i any de forma descendent
cotxes.sort_values(['price','year'],ascending=[True,False])

### Transformació

Molt sovint hem de realitzar canvis en el nostra DataFrame. Afegir, eliminar i renombrar columnes a més de canviar algun tipus de dades.

#### Afegir columna

Podem afegir columnes noves mitjançant columnes existens aplicant-li expressions.

In [None]:
# AFegim una nova columna al final del DataFrame
cotxes['price_dte'] = cotxes.price * 0.20

#Afegim una nova columna en una ubicació espcífica.
cotxes.insert(3,'price_50', cotxes.price * 0.50)


Possiblament la forma més eficient de reorganitzar les columnes és mitjançant `reindex`

In [None]:
# En l'exemple reindexem les columnes, però si no afegim totes les columnes del DataFrame aquestes s'esborren.
cotxes = cotxes.reindex(columns=['version','model','company','price','price_financed','price_dte'])

Si volem aplicar una funció a cada elment per cada fila o columna podem utilitzar `apply`
`Compte:` Per defecte aquest mètode retorna un DataFrame i no modifica l'actual.

In [20]:

# Amb el paràmetre axis indiquem si volem files o columnes. axis=0 s'aplica per cada columna, axis=1 s'aplica a cada fila
df = cotxes.apply(lambda fila: str(fila.model)+'-'+str(fila.version), axis=1)

# Podem utilitzar insert per afegir aquesta nova columna 
cotxes.insert(3,'descripcio',cotxes.apply(lambda fila: str(fila.model)+' - '+str(fila.version), axis=1))

ValueError: cannot insert descripcio, already exists

#### Renombrar una columna

cotxes = cotxes.rename(columns={'price_dte': 'precio_90_metros'})

 En general, les funcions de pandas retornen un nou objecte amb el resultat de l'operació, però no modifiquen l'actual DataFrame. Hi ha el paràmetre `inplace`amb valor per defecte a `False`. Si el posem a `True` l'operació es  realitzarà a l'objecte passat per paràmetre.



### Pandasql
Si estàs acostumat a treballar amb SQL mira't la llibreria Pandasql. Aquesta llibreria permet manipular Dataframes de Pandas utilitzant SQL.

[https://towardsdatascience.com/query-pandas-dataframe-with-sql](https://towardsdatascience.com/query-pandas-dataframe-with-sql-2bb7a509793d)

### Exportació

