### Pandas basics

En aquest apartat veurem una de les llibreries més utilitzades alhora de realitzar anàlisis de dades: importar i exportar dades, realitzar operacions de tractament, etc..

! conda install pandas -y

Activar la cel·la de codi esc+y. Instal·lar pandas, el posem desactivat (esc+r) perquè no s'executi cada vegada 

In [1]:
import pandas as pd

Mòdul per exel·lencia per tractar dadaques no numeriques i numeriques a la vegada és Pandas. Numpy es per tractar arrays i dades nomès numèriques.




A Pandas hi ha dos objectes principals: el **DataFrame** i les **Series**

## DataFrame
---------------------
La classe [*DataFrame*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) és una de les més utilitzades per tractar les dades. Un DataFrame és una taula de doble entrada (files i columnes).

Data frame &rarr; equivalencia a una taula de SQL.

Per exemple:

In [2]:
data = {'Nom':['Pere', 'Alice', 'Marta', 'Tom'],
        'Edat':[20, 21, 19, 18]}

pd.DataFrame(data)

Unnamed: 0,Nom,Edat
0,Pere,20
1,Alice,21
2,Marta,19
3,Tom,18


Tipu diccionari de python, hasmap de java.

In [3]:
pd.DataFrame({ 
    'clau':['A','B','C','A','B','C'] ,
    'valors' : range(6) 
    }, 
    columns = ['valors','clau'] 
)

Unnamed: 0,valors,clau
0,0,A
1,1,B
2,2,C
3,3,A
4,4,B
5,5,C


Els valors de les columnes no han de ser número poden ser cadenes de text. A més, també podem assignar etiquetes a les files de la taula mitjançant el paràmetre index.

El data frame sempre afegeix un index i no té perquè ser sempre numèric, si no l'especifiquem és numèric, però el podem generar nosaltres. Per Exemple:

In [4]:
pd.DataFrame({'Pere': ['M\'agrada', 'No m\'agrada'], 
              'Marta': ['No està malament', 'M\'agrada']},
             index=['Producte A', 'Producte B'])

Unnamed: 0,Pere,Marta
Producte A,M'agrada,No està malament
Producte B,No m'agrada,M'agrada


Ens serveix per com accedim després a les ddades. Serveix per identificar cada registre. 

## Series
---------------------

Una sèrie, és senzillament una seqüència de valors de dades. Si un DataFrame és una taula, una Sèrie és una llista. I, de fet, es poden crear mitjanpodeu crear-ne un amb res més que una llista:
La classe [*Serie*](https://pandas.pydata.org/docs/reference/series.html) és una única columna d'un DataFrame i com a tal podem assignar-li etiquetes a la fila.

És un vector de numpy, en pandas sería series. Una matriu amb numpy és un data frame amb pandas.

Una sèrie ha de ser numerica o alphanumèrica, no barrejat.

Pot passar a formar part d'una taula o data frame.

Series està indexat, però no és una taula, és com l'index de l'array, però amb la diferència que pot ser alphanumèric, index amb altes capacitats.

Per exemple:

In [5]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Exemple de index diferent. i veiem que si que pot tenir un nom, sería com una columna de una taula. 

In [6]:
pd.Series([30, 35, 40], index=['2015 Vendes', '2016 Vendes', '2017 Vendes'], name='Producte A')

2015 Vendes    30
2016 Vendes    35
2017 Vendes    40
Name: Producte A, dtype: int64


## Importació
---------------------

Podem importar dades a DataFrames de Pandas de diferents orígen i formats. Alguns dels més utilitzats són:

Comandes per generar un Data Frame a partir de dades: 

* De CSV: con [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)
* De Excel: con [`read_excel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)
* De base de datos: con [`read_sql`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html)
* La més genèrica és [`read_table`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_table.html)


En aquest exemple veiem la manera d'importar les dades a partir d'un fitxer CSV. Aquest fitxer conté dades d'anuncis de venda de cotxes de segona mà de diferents plataformes. Origen del [dataset](https://www.kaggle.com/datasets/datamarket/venta-de-coches)

**Nota:** Per poder manipular base de dades SQLite podem utilitzar l'eina [DB Browser for SQLite ](https://sqlitebrowser.org/)

In [7]:
#Importar dadades des d'un CSV

cotxes = pd.read_csv('../Notebooks/Dades/cars/venda-cotxes-segona-ma.csv')
cotxes.head()


Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
0,9881BCDD5A0AD4733037B3FB25E69C3A,KIA,Carnival,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,4860.0,Diésel,2007,221000,185.0,5.0,Manual,Beige (champagne),8,True,VM Motor,928493782,Las Palmas,2020-12-22 13:28:36,2020-12-25 00:00:00
1,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,4.0,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22,2020-12-26 00:00:00
2,9881BCDD5A0AD4733037B3FB25E69C3A,FIAT,500,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,6490.0,Gasolina,2017,75000,69.0,3.0,Manual,Negro,7,True,LAS PALMAS MOTOR,653895468,Las Palmas,2020-11-20 18:30:00,2020-12-08 00:00:00
3,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Astra,OPEL Astra 3p.,5550,,Diésel,2009,137000,,3.0,Manual,Rojo,0,False,22003DEA67E7C5BE6022A29E677668BC,67990DA67E557C1D0C1B6D1DB731938C,Barcelona,2020-11-21 16:37:13,2020-11-24 00:00:00
4,9881BCDD5A0AD4733037B3FB25E69C3A,MERCEDES-BENZ,Clase C,MERCEDES-BENZ Clase C C 220 CDI AVANTGARDE 4p.,11990,11490.0,Diésel,2008,95000,170.0,4.0,Automático,Gris / Plata,21,True,Autos Lipiz,646179040,Madrid,2020-11-05 19:09:27,2020-12-01 00:00:00


La variable ``cotxes`` és un data frame que tindrà una sèrie d'atributs .head() per defecte són 5, però podem passar un parametre. 

Alguns dels paràmetres més importants de read_csv són:
* delimiter: Indica quin caràcter és el delimitador de valors en el cas d'un CSV seràn les comes
* decimal: Indica quin caràcter s'utilitza com a separador de milers
* encoding: Indica la codificació de caràcters amb la qual ha de llegir el fitxer. El més usual és "utf-8"

Si no té capçelera li podem dir nosaltres quina ha de ser.

In [8]:
#Importar dadades des d'un Excel
cotxes = pd.read_excel('../Notebooks/Dades/cars/venda-cotxes-segona-ma.xlsx', index_col = 0)
# Si index col és False l'auto genera, si li dius a 0, li dius quina columna fa de index
cotxes.head()

Unnamed: 0_level_0,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
9881BCDD5A0AD4733037B3FB25E69C3A,KIA,Carnival,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,48600.0,Diésel,2007,221000,1850.0,50.0,Manual,Beige (champagne),8,True,VM Motor,928493782,Las Palmas,2020-12-22 13:28:36,2020-12-25
9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,40.0,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22,2020-12-26
9881BCDD5A0AD4733037B3FB25E69C3A,FIAT,500,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,64900.0,Gasolina,2017,75000,690.0,30.0,Manual,Negro,7,True,LAS PALMAS MOTOR,653895468,Las Palmas,2020-11-20 18:30:00,2020-12-08
9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Astra,OPEL Astra 3p.,5550,,Diésel,2009,137000,,30.0,Manual,Rojo,0,False,22003DEA67E7C5BE6022A29E677668BC,67990DA67E557C1D0C1B6D1DB731938C,Barcelona,2020-11-21 16:37:13,2020-11-24
9881BCDD5A0AD4733037B3FB25E69C3A,MERCEDES-BENZ,Clase C,MERCEDES-BENZ Clase C C 220 CDI AVANTGARDE 4p.,11990,114900.0,Diésel,2008,95000,1700.0,40.0,Automático,Gris / Plata,21,True,Autos Lipiz,646179040,Madrid,2020-11-05 19:09:27,2020-12-01


In [9]:
#Importar dadades des d'una BD SQL (SQLite)
import sqlite3

In [10]:
# Creem una conexió a la base de dades SQLite
con = sqlite3.connect("../Notebooks/Dades/cars/venda-cotxes-segona-ma.db")
# Hauríes de tenir unes credencials que hauríem de passar com a paràmetres. Però aquí tenim el fitxer directament

cotxes = pd.read_sql("SELECT * FROM cotxes", con)
cotxes.head()

#Tanquem la connexió
con.close()

In [11]:
# Si volem saber el tamany del DataFrame utilitzarem la propietat shape (quantitat de files i columnes)
cotxes.shape

(5000, 20)

In [12]:
# Noms de les columnes
cotxes.columns

Index(['company', 'make', 'model', 'version', 'price', 'price_financed',
       'fuel', 'year', 'kms', 'power', 'doors', 'shift', 'color', 'photos',
       'is_professional', 'dealer', 'phone', 'province', 'publish_date',
       'insert_date'],
      dtype='object')

### Accés a les dades

Podem accedir a les columnes del DataFrame mitjançant el nom de la columna.

In [13]:
# Retorna tot els valors de la columna price
cotxes.price # Retorna la columna

0        4860
1        1800
2        6490
3        5550
4       11990
        ...  
4995    10200
4996     7650
4997     6200
4998    49900
4999    12950
Name: price, Length: 5000, dtype: int64

In [14]:
# Retorna quin és el valor màxim de la columna preu
cotxes.price.max(), cotxes.price.min()

(319900, 300)

In [15]:
# Retorna quina és la posició del valor màxim de la columna preu
cotxes.price.argmax()

666

Diferencia entre max i argmax. el segon quin és l'argument que tè el màxim (posició = index)

Si n'hi ha dos, retorna el primer (ja ens hi trobarem, jaja, profe crak)

Igualment hi ha el mínim

In [16]:
# Retorna la mitjana de la columna preu
cotxes.price.mean()

15051.3718

In [17]:
# Si volem veure els valors únics d'un camp (quines marques tenim)
cotxes.make.unique()

array(['KIA', 'BMW', 'FIAT', 'OPEL', 'MERCEDES-BENZ', 'PEUGEOT',
       'VOLKSWAGEN', 'FORD', 'RENAULT', 'CITROEN', 'SEAT', 'VOLVO',
       'NISSAN', 'LAND-ROVER', 'MINI', 'AUDI', 'HONDA', 'DS', 'SKODA',
       'MITSUBISHI', 'LEXUS', 'BENTLEY', 'ROVER', 'PORSCHE', 'FERRARI',
       'HYUNDAI', 'TOYOTA', 'DACIA', 'MAZDA', 'ALFA ROMEO', 'INFINITI',
       'JAGUAR', 'LANCIA', 'CHEVROLET', 'ABARTH', 'SSANGYONG', 'JEEP',
       'SMART', 'SUZUKI', 'SAAB', 'DFSK', 'SUBARU', 'MASERATI', 'IVECO',
       'ASTON MARTIN', 'DODGE', 'CHRYSLER', 'ROLLS-ROYCE', 'HUMMER',
       'TESLA', 'DAEWOO', 'ISUZU', 'MG', 'LADA', 'TATA', 'GALLOPER'],
      dtype=object)

Extreu valors únics. Extreu informació de la columna make. La botiga de cotxes de segona mà té 8 o 10 bmw, però aquesta funció recorre la taula i cada nova taula la guarda, nomès se'n queda una.

In [18]:
# Volem contar quants vehicles hi ha de cada marca
cotxes.make.value_counts() #ordenats de més a menys

VOLKSWAGEN       497
BMW              462
MERCEDES-BENZ    404
AUDI             351
RENAULT          346
PEUGEOT          342
FORD             306
OPEL             298
CITROEN          288
SEAT             258
TOYOTA           156
NISSAN           143
FIAT             124
HYUNDAI          106
KIA               96
VOLVO             89
SKODA             70
LAND-ROVER        67
MINI              66
MAZDA             54
HONDA             47
PORSCHE           42
MITSUBISHI        37
JAGUAR            36
ALFA ROMEO        33
SUZUKI            29
LEXUS             28
CHEVROLET         25
JEEP              21
DACIA             18
SMART             18
ABARTH            17
SSANGYONG         17
DS                16
SUBARU            13
CHRYSLER          12
SAAB               9
INFINITI           6
FERRARI            6
MASERATI           6
ROVER              5
LANCIA             4
BENTLEY            4
IVECO              4
ISUZU              3
DAEWOO             3
DODGE              3
ASTON MARTIN 

#### Filtre i/o selecció

Per poder seleccionar un subconjunt de les dades que tenim en un Dataframe podem utilitzar les porpietats `loc`, `iloc` i `[]`.
- amb `loc` accedirem al grup de files i columnes mitjançant etiquetes o bé amb un array de booleans.
- amb `iloc` accedim al grup de files i columnes mitjançant posicions.
- amb `[]` podem filtrar per condicions.

[https://pandas.pydata.org/docs/user_guide/indexing.html](https://pandas.pydata.org/docs/user_guide/indexing.html#)

Aquests mètodes retornen un altre DataFrame. 

#### Selecció per índexs (`iloc`)

Per accedir per posició utilitzant indexos numèrics , utilitzarem iloc[] i dins dels claudators indicarem els índexs de les les files i les columnes que volem seleccionar

[https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)

Cal tenir en compte que Python utilitza el 0 com a primer valor d'un índex.


```python
# Sintaxi
iloc[<número de files>]
iloc[<índex primera fila>:<índex última fila>,<índex primera col>:<índex última col>]
iloc[<índex fila a seleccionar>,<índex columna a seleccionar>]
iloc[[<índexs de les files no consecutives a seleccionar>],[<índexs de les columnes no consecutives a seleccionar>]]
```

a x = 5, x, és un punter que apunta a la memòria que apunta a uns bits que representen el 5. 

Si fem x = y, depen de com sigui el llenguatge, y pot ser el mateix punter (fer una còpia). Si modifiques un, modifiques l'altre. 

Amb python &rarr; ``y = deepcopy(x)``. Crea una variable nova i seran independents.

Són dos nivells de fer copies. 

Això són vistes ``x=cotxes.iloc[:,:]`` no són copies, apunten a la mateixa posició de memòria.

Exemple

```python
vista = cotxes.iloc[:,:] 
vista.iloc[1:2,2:3] = "nou model" 
```
Vista, serà una deepcopy. En teoría no hauría de deixar canviar

In [19]:
# Seleccionem totes les files i totes les columnes (no filtrem res)
cotxes.iloc[:,:]

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
0,9881BCDD5A0AD4733037B3FB25E69C3A,KIA,Carnival,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,4860.0,Diésel,2007,221000,185.0,5.0,Manual,Beige (champagne),8,True,VM Motor,928493782,Las Palmas,2020-12-22 13:28:36,2020-12-25 00:00:00
1,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,4.0,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22,2020-12-26 00:00:00
2,9881BCDD5A0AD4733037B3FB25E69C3A,FIAT,500,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,6490.0,Gasolina,2017,75000,69.0,3.0,Manual,Negro,7,True,LAS PALMAS MOTOR,653895468,Las Palmas,2020-11-20 18:30:00,2020-12-08 00:00:00
3,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Astra,OPEL Astra 3p.,5550,,Diésel,2009,137000,,3.0,Manual,Rojo,0,False,22003DEA67E7C5BE6022A29E677668BC,67990DA67E557C1D0C1B6D1DB731938C,Barcelona,2020-11-21 16:37:13,2020-11-24 00:00:00
4,9881BCDD5A0AD4733037B3FB25E69C3A,MERCEDES-BENZ,Clase C,MERCEDES-BENZ Clase C C 220 CDI AVANTGARDE 4p.,11990,11490.0,Diésel,2008,95000,170.0,4.0,Automático,Gris / Plata,21,True,Autos Lipiz,646179040,Madrid,2020-11-05 19:09:27,2020-12-01 00:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4995,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Corsa,OPEL Corsa 1.4 66kW 90CV Selective 5p.,10200,9400.0,Gasolina,2018,18318,90.0,5.0,Manual,Blanco (Alpino),32,True,Vara de Quart,689851902,Valencia,2020-11-23 16:24:28,2020-11-26 00:00:00
4996,9881BCDD5A0AD4733037B3FB25E69C3A,TOYOTA,Auris,TOYOTA Auris 1.2 120T Active Touring Sports 5p.,7650,,Gasolina,2016,157000,116.0,5.0,Manual,Azul,5,False,9448B9C35DDD44F451DC88E988CC3A03,67ABDCB290BF2A7CA8D3E84C9007BF9A,Tarragona,2020-11-10 15:27:32,2021-01-10 00:00:00
4997,9881BCDD5A0AD4733037B3FB25E69C3A,PEUGEOT,Partner,PEUGEOT Partner 5p.,6200,,Diésel,2012,125000,,5.0,Manual,Blanco,0,False,92EAF3719159C372F3D50337E0A14F57,A31DAA15140D41FD522BC3DF2341D5A1,Sevilla,2020-10-10 05:51:41,2020-12-16 00:00:00
4998,9881BCDD5A0AD4733037B3FB25E69C3A,MERCEDES-BENZ,GLC Coupé,MERCEDES-BENZ GLC Coupe GLC 220 d 4MATIC 5p.,49900,48000.0,Diésel,2019,15,170.0,5.0,Automático,Gris / Plata,11,True,Autocas Mercedes Benz,964222200,Castellón,2020-11-20 09:43:44,2020-11-28 00:00:00


In [20]:
# Seleccionem les 5 primeres observacions
cotxes.iloc[:5]

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
0,9881BCDD5A0AD4733037B3FB25E69C3A,KIA,Carnival,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,4860.0,Diésel,2007,221000,185.0,5.0,Manual,Beige (champagne),8,True,VM Motor,928493782,Las Palmas,2020-12-22 13:28:36,2020-12-25 00:00:00
1,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,4.0,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22,2020-12-26 00:00:00
2,9881BCDD5A0AD4733037B3FB25E69C3A,FIAT,500,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,6490.0,Gasolina,2017,75000,69.0,3.0,Manual,Negro,7,True,LAS PALMAS MOTOR,653895468,Las Palmas,2020-11-20 18:30:00,2020-12-08 00:00:00
3,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Astra,OPEL Astra 3p.,5550,,Diésel,2009,137000,,3.0,Manual,Rojo,0,False,22003DEA67E7C5BE6022A29E677668BC,67990DA67E557C1D0C1B6D1DB731938C,Barcelona,2020-11-21 16:37:13,2020-11-24 00:00:00
4,9881BCDD5A0AD4733037B3FB25E69C3A,MERCEDES-BENZ,Clase C,MERCEDES-BENZ Clase C C 220 CDI AVANTGARDE 4p.,11990,11490.0,Diésel,2008,95000,170.0,4.0,Automático,Gris / Plata,21,True,Autos Lipiz,646179040,Madrid,2020-11-05 19:09:27,2020-12-01 00:00:00


In [21]:
# Seleccionem totes les files i la primera columna (company)
cotxes.iloc[:, 0]

0       9881BCDD5A0AD4733037B3FB25E69C3A
1       9881BCDD5A0AD4733037B3FB25E69C3A
2       9881BCDD5A0AD4733037B3FB25E69C3A
3       9881BCDD5A0AD4733037B3FB25E69C3A
4       9881BCDD5A0AD4733037B3FB25E69C3A
                      ...               
4995    9881BCDD5A0AD4733037B3FB25E69C3A
4996    9881BCDD5A0AD4733037B3FB25E69C3A
4997    9881BCDD5A0AD4733037B3FB25E69C3A
4998    9881BCDD5A0AD4733037B3FB25E69C3A
4999    9881BCDD5A0AD4733037B3FB25E69C3A
Name: company, Length: 5000, dtype: object

In [22]:
# Seleccionem la última columna (insert_date)
cotxes.iloc[:, -1]

0       2020-12-25 00:00:00
1       2020-12-26 00:00:00
2       2020-12-08 00:00:00
3       2020-11-24 00:00:00
4       2020-12-01 00:00:00
               ...         
4995    2020-11-26 00:00:00
4996    2021-01-10 00:00:00
4997    2020-12-16 00:00:00
4998    2020-11-28 00:00:00
4999    2021-01-20 00:00:00
Name: insert_date, Length: 5000, dtype: object

In [23]:
# Seleccionem les files de la 10 a la 20 i les columnes 2 i 3
cotxes.iloc[10:21, 2:4]

Unnamed: 0,model,version
10,Clase M,MERCEDES-BENZ
11,Mégane,RENAULT Megane Dynamique dCi 110 5p.
12,Berlingo,CITROEN Berlingo 1.6 HDi 90 XTR Plus 5p.
13,Clase GLE Coupé,MERCEDES-BENZ Clase GLE Coupe MercedesAMG GLE ...
14,Berlingo,CITROEN
15,C4 Picasso,CITROEN C4 Picasso BlueHDi 120cv Shine 5p.
16,Ateca,SEAT Ateca 1.0 TSI 85kW 115CV StSp Style Eco 5p.
17,Kangoo Combi,RENAULT Kangoo Combi Profesional M1AF En. dCi ...
18,C4 Picasso,CITROEN C4 Picasso 1.6 VTi 120cv Premier 5p.
19,Clase A,MERCEDES-BENZ Clase A A 180 d 5p.


In [24]:
# Seleccionem totes les columnes excepte la última
cotxes.iloc[:, :-1]

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date
0,9881BCDD5A0AD4733037B3FB25E69C3A,KIA,Carnival,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,4860.0,Diésel,2007,221000,185.0,5.0,Manual,Beige (champagne),8,True,VM Motor,928493782,Las Palmas,2020-12-22 13:28:36
1,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,4.0,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22
2,9881BCDD5A0AD4733037B3FB25E69C3A,FIAT,500,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,6490.0,Gasolina,2017,75000,69.0,3.0,Manual,Negro,7,True,LAS PALMAS MOTOR,653895468,Las Palmas,2020-11-20 18:30:00
3,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Astra,OPEL Astra 3p.,5550,,Diésel,2009,137000,,3.0,Manual,Rojo,0,False,22003DEA67E7C5BE6022A29E677668BC,67990DA67E557C1D0C1B6D1DB731938C,Barcelona,2020-11-21 16:37:13
4,9881BCDD5A0AD4733037B3FB25E69C3A,MERCEDES-BENZ,Clase C,MERCEDES-BENZ Clase C C 220 CDI AVANTGARDE 4p.,11990,11490.0,Diésel,2008,95000,170.0,4.0,Automático,Gris / Plata,21,True,Autos Lipiz,646179040,Madrid,2020-11-05 19:09:27
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4995,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Corsa,OPEL Corsa 1.4 66kW 90CV Selective 5p.,10200,9400.0,Gasolina,2018,18318,90.0,5.0,Manual,Blanco (Alpino),32,True,Vara de Quart,689851902,Valencia,2020-11-23 16:24:28
4996,9881BCDD5A0AD4733037B3FB25E69C3A,TOYOTA,Auris,TOYOTA Auris 1.2 120T Active Touring Sports 5p.,7650,,Gasolina,2016,157000,116.0,5.0,Manual,Azul,5,False,9448B9C35DDD44F451DC88E988CC3A03,67ABDCB290BF2A7CA8D3E84C9007BF9A,Tarragona,2020-11-10 15:27:32
4997,9881BCDD5A0AD4733037B3FB25E69C3A,PEUGEOT,Partner,PEUGEOT Partner 5p.,6200,,Diésel,2012,125000,,5.0,Manual,Blanco,0,False,92EAF3719159C372F3D50337E0A14F57,A31DAA15140D41FD522BC3DF2341D5A1,Sevilla,2020-10-10 05:51:41
4998,9881BCDD5A0AD4733037B3FB25E69C3A,MERCEDES-BENZ,GLC Coupé,MERCEDES-BENZ GLC Coupe GLC 220 d 4MATIC 5p.,49900,48000.0,Diésel,2019,15,170.0,5.0,Automático,Gris / Plata,11,True,Autocas Mercedes Benz,964222200,Castellón,2020-11-20 09:43:44


### Especifiquem una llista de indexos (make, model, price)
El que retorna, en diem view (com a sql) &rarr; la podem assignar a una variable

In [25]:
# Seleccionem les columnes 1, 2, 4 (columnes no consecutives, per ex. make, model, price)
cotxes.iloc[:, [1, 2, 4]]

Unnamed: 0,make,model,price
0,KIA,Carnival,4860
1,BMW,Serie 5,1800
2,FIAT,500,6490
3,OPEL,Astra,5550
4,MERCEDES-BENZ,Clase C,11990
...,...,...,...
4995,OPEL,Corsa,10200
4996,TOYOTA,Auris,7650
4997,PEUGEOT,Partner,6200
4998,MERCEDES-BENZ,GLC Coupé,49900


##### Exercicis `iloc`

Del dataset venda-cotxes-segona-ma.csv 

* Mostra la fila 10, però només volem la marca i el model del cotxe

In [26]:
cotxes.iloc[:11,[1]]

Unnamed: 0,make
0,KIA
1,BMW
2,FIAT
3,OPEL
4,MERCEDES-BENZ
5,OPEL
6,PEUGEOT
7,VOLKSWAGEN
8,OPEL
9,FORD


#### Selecció per etiquetes (`loc`)

Amb `loc` podem seleccionar un grup de files i/o columnes a través d'etiquetes o un array de booleans.

[https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)


* Una sola etiqueta, per exemple. `5` or `'a'`, (el 5 és interpretat com una etiqueta i no com un índex).
* Un array d'etiquetes, per exemple. `['a', 'b', 'c']`.
* Un rang/tall d'objectes amb etiques, per exemple. 'a':'f'.
* Un array de booleans amb la mateixa longitud que el número de columnes. True significarà que volem la columna i False no.

In [27]:
# Seleccionem totes les files i només mostrarem les columnes `make` i `price`
cotxes.loc[:,['make','price']] # Podríem posar [0:10] -> perquè el nom de la fila és aquest,
# No pq sigui idx
# Si ho fes per idx (amb iloc), sortiría de les files de la 0 a 9.
# El [0:10] -> s'expandexi com una llista amb tots els valors que hi han al mig
# Si retorna un, sería un data series si n'hi han més sería un data frame, encara que sigui el 
# mateix tindría una forma diferent.
# El [] el que fa és expandir fins al següent sempre i quan siguin únics. Si canviem el index al 
# fabricant, no cal que sigui únic, però es pot fer és una guarrada i passen coses com aquesta, 
# es pot fer però s'ha de vigilar.

Unnamed: 0,make,price
0,KIA,4860
1,BMW,1800
2,FIAT,6490
3,OPEL,5550
4,MERCEDES-BENZ,11990
...,...,...
4995,OPEL,10200
4996,TOYOTA,7650
4997,PEUGEOT,6200
4998,MERCEDES-BENZ,49900


In [28]:
# Seleccionem totes les files i les columnes compreses entre `make` i `fuel`
cotxes.loc[:, 'make':'fuel']

Unnamed: 0,make,model,version,price,price_financed,fuel
0,KIA,Carnival,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,4860.0,Diésel
1,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel
2,FIAT,500,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,6490.0,Gasolina
3,OPEL,Astra,OPEL Astra 3p.,5550,,Diésel
4,MERCEDES-BENZ,Clase C,MERCEDES-BENZ Clase C C 220 CDI AVANTGARDE 4p.,11990,11490.0,Diésel
...,...,...,...,...,...,...
4995,OPEL,Corsa,OPEL Corsa 1.4 66kW 90CV Selective 5p.,10200,9400.0,Gasolina
4996,TOYOTA,Auris,TOYOTA Auris 1.2 120T Active Touring Sports 5p.,7650,,Gasolina
4997,PEUGEOT,Partner,PEUGEOT Partner 5p.,6200,,Diésel
4998,MERCEDES-BENZ,GLC Coupé,MERCEDES-BENZ GLC Coupe GLC 220 d 4MATIC 5p.,49900,48000.0,Diésel


In [29]:
# Selecciona una cel·la (fila 3, columna `make`). Per tant només retorna una valor
cotxes.loc[3, 'make']

'OPEL'

#### Selecció per condicions (`[]`)

- Podem seleccionar files que compleixin una certa condició. Li passem al DataFrame una sèrie de booleans o una condició lògica que retorni un booleà.

- Podem combinar diferents condicions amb & (operador i lògic) i | (operador o lògic)

In [30]:
# Seleccionem els cotxes que només siguin de la marca BMW
cotxes[cotxes.make == "BMW"]
# es transforma en una sèrie de true/false

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
1,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,4.0,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22,2020-12-26 00:00:00
25,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 3,BMW Serie 3 320D TOURING 5p.,5480,,Diésel,2006,197000,163.0,5.0,Automático,Azul,8,True,Autos Lliça,627063458,Barcelona,2020-12-30 10:52:48,2021-01-11 00:00:00
26,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,X1,BMW X1 sDrive18d 5p.,28990,27790.0,Diésel,2019,15000,150.0,5.0,Manual,668 Schwarz (sÃ³lido),36,True,Hispamóvil - Elche,661257503,Alicante,2020-12-06 11:31:35,2020-12-08 00:00:00
36,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,X1,BMW X1 sDrive18d 5p.,26890,25890.0,Diésel,2017,37675,150.0,5.0,Automático,A96 MineralweiÃ? (metalizado),4,True,"Automóviles Bertolín, S.L.",628104912,Valencia,2020-12-20 16:32:40,2020-12-27 00:00:00
50,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 3,BMW Serie 3 318d 4p.,16900,,Diésel,2016,77000,150.0,4.0,Automático,Blanco,6,False,0BC24D6453CD7013F80F2A3A700AC703,AAD2B172197F21B5A383AAB456255D13,Huelva,2020-11-11 18:25:08,2021-01-21 00:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4902,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 3,BMW Serie 3 320d E90 4p.,10000,,Diésel,2011,130000,184.0,4.0,Manual,Gris / Plata,7,False,3887604BAF266030D74F841135E2BD1D,D8E7C80957D635195BC851E9D06012EC,Barcelona,2020-09-17 08:15:57,2020-12-16 00:00:00
4918,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 3,BMW Serie 3 320D 4p.,20900,19900.0,Diésel,2017,62000,190.0,4.0,Automático,C10 Mediterranblau (metalizado),3,True,BMW-MINI Fuenteolid,983950700,Valladolid,2020-12-16 16:59:46,2021-01-06 00:00:00
4937,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 4,BMW Serie 4 420i 2p.,27500,25900.0,Gasolina,2017,50550,184.0,2.0,Automático,Rojo (Cuero Dakota Venetobeige),32,True,Automoviles Sanchez,689369472,Zaragoza,2021-01-18 18:55:38,2021-01-26 00:00:00
4972,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,X2,BMW X2 sDrive18i 5p.,32900,31700.0,Gasolina,2018,16000,140.0,5.0,Automático,668 Schwarz (sÃ³lido),21,True,LURAUTO GUIPUZKOA,678701463,Guipúzcoa,2020-11-20 16:49:48,2020-11-28 00:00:00


In [31]:
# Seleccionem els cotxes que siguin de la marca BMW i que el seu preu sigui inferior a 20.000
cotxes[(cotxes.make == "BMW") & (cotxes.price < 20000)]

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
1,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,4.0,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22,2020-12-26 00:00:00
25,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 3,BMW Serie 3 320D TOURING 5p.,5480,,Diésel,2006,197000,163.0,5.0,Automático,Azul,8,True,Autos Lliça,627063458,Barcelona,2020-12-30 10:52:48,2021-01-11 00:00:00
50,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 3,BMW Serie 3 318d 4p.,16900,,Diésel,2016,77000,150.0,4.0,Automático,Blanco,6,False,0BC24D6453CD7013F80F2A3A700AC703,AAD2B172197F21B5A383AAB456255D13,Huelva,2020-11-11 18:25:08,2021-01-21 00:00:00
69,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Compact,BMW Compact 318ti Compact 3p.,1500,,Gasolina,2001,215000,143.0,3.0,Manual,Gris / Plata,9,False,A10E3F4FB2A23195394CC12700574357,EF996A408AB79ACECED90F378B19C012,Barcelona,2020-12-06 19:40:53,2020-12-10 00:00:00
85,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW,8500,,Diésel,2008,260000,,5.0,Manual,Azul,10,False,09F96867A8DC816A021FD861F200ABEF,FA9225DA2E558BAF7BF4905F2A434DA5,Barcelona,2020-12-29 16:40:51,2021-01-26 00:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4875,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 525D 4p.,7950,,Diésel,2008,168000,197.0,4.0,Automático,Verde,7,False,442B0F6448F8BF0EDAA69F58EFE042C6,9D839816C4E41F19737C1358D2457ED7,Madrid,2020-11-24 10:16:55,2021-01-21 00:00:00
4882,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW,8000,,Gasolina,2003,245000,,5.0,Automático,Azul,4,False,58D72E8E4929313BDBA8DC247EF3AA5F,DD8A708D84154F13437851253387EA49,Madrid,2021-01-05 16:56:13,2021-01-24 00:00:00
4883,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,X1,BMW X1 xDrive20d Auto 5p.,12300,12300.0,Diésel,2010,145000,177.0,5.0,Automático,Beige,8,True,WANNAUTO,623023878,Pontevedra,2020-10-01 13:24:35,2020-12-24 00:00:00
4902,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 3,BMW Serie 3 320d E90 4p.,10000,,Diésel,2011,130000,184.0,4.0,Manual,Gris / Plata,7,False,3887604BAF266030D74F841135E2BD1D,D8E7C80957D635195BC851E9D06012EC,Barcelona,2020-09-17 08:15:57,2020-12-16 00:00:00


In [32]:
# Seleccionem els cotxes que siguin de la marca BMW o SEAT
cotxes[(cotxes.make == "BMW") | (cotxes.make == "SEAT")]

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
1,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,4.0,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22,2020-12-26 00:00:00
16,9881BCDD5A0AD4733037B3FB25E69C3A,SEAT,Ateca,SEAT Ateca 1.0 TSI 85kW 115CV StSp Style Eco 5p.,20900,20900.0,Gasolina,2019,21212,115.0,5.0,Manual,Gris / Plata (Gris Rodium),20,True,Seat Gines Huertas Cervantes Cartagena,868205146,Murcia,2020-11-22 16:18:41,2020-11-29 00:00:00
21,9881BCDD5A0AD4733037B3FB25E69C3A,SEAT,Córdoba,SEAT Cordoba 5p.,1600,,Gasolina,2005,220000,,5.0,Manual,Azul,8,False,DF8D2684A1B0F1E7AE5A815B7EAA23BA,D8BCADD80BED7A6F31C7ACEE768DFF50,Vizcaya,2020-12-17 08:26:43,2020-12-19 00:00:00
25,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 3,BMW Serie 3 320D TOURING 5p.,5480,,Diésel,2006,197000,163.0,5.0,Automático,Azul,8,True,Autos Lliça,627063458,Barcelona,2020-12-30 10:52:48,2021-01-11 00:00:00
26,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,X1,BMW X1 sDrive18d 5p.,28990,27790.0,Diésel,2019,15000,150.0,5.0,Manual,668 Schwarz (sÃ³lido),36,True,Hispamóvil - Elche,661257503,Alicante,2020-12-06 11:31:35,2020-12-08 00:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4969,9881BCDD5A0AD4733037B3FB25E69C3A,SEAT,Ibiza,SEAT Ibiza 1.2 TSI 85cv Reference 5p.,8090,7390.0,Gasolina,2014,44244,85.0,5.0,Manual,Negro,35,True,Flexicar Rivas II,910605222,Madrid,2021-01-05 11:02:40,2021-01-18 00:00:00
4972,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,X2,BMW X2 sDrive18i 5p.,32900,31700.0,Gasolina,2018,16000,140.0,5.0,Automático,668 Schwarz (sÃ³lido),21,True,LURAUTO GUIPUZKOA,678701463,Guipúzcoa,2020-11-20 16:49:48,2020-11-28 00:00:00
4979,9881BCDD5A0AD4733037B3FB25E69C3A,SEAT,León,SEAT Leon 1.9 TDi 110CV SIGNA 5p.,1500,,Diésel,2003,250000,110.0,5.0,Manual,Gris / Plata,7,True,Car Fusion,688269748,Murcia,2020-12-10 14:20:30,2020-12-19 00:00:00
4992,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,X3,BMW X3 sDrive18d 5p.,17800,17800.0,Diésel,2013,63794,143.0,5.0,Manual,300 Alpinweib (sÃ³lido),39,True,Ocasion Plus,876500593,Zaragoza,2020-12-07 13:45:49,2020-12-10 00:00:00


#### selector isin()

A través del selector *isin()* podem seleccionar dades els valor del qual es troba dins d'una llista.

In [33]:
# Selecciona els cotxes que siguin de la marca BMW i SEAT
cotxes[cotxes.make.isin(['BMW', 'SEAT'])]

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
1,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,4.0,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22,2020-12-26 00:00:00
16,9881BCDD5A0AD4733037B3FB25E69C3A,SEAT,Ateca,SEAT Ateca 1.0 TSI 85kW 115CV StSp Style Eco 5p.,20900,20900.0,Gasolina,2019,21212,115.0,5.0,Manual,Gris / Plata (Gris Rodium),20,True,Seat Gines Huertas Cervantes Cartagena,868205146,Murcia,2020-11-22 16:18:41,2020-11-29 00:00:00
21,9881BCDD5A0AD4733037B3FB25E69C3A,SEAT,Córdoba,SEAT Cordoba 5p.,1600,,Gasolina,2005,220000,,5.0,Manual,Azul,8,False,DF8D2684A1B0F1E7AE5A815B7EAA23BA,D8BCADD80BED7A6F31C7ACEE768DFF50,Vizcaya,2020-12-17 08:26:43,2020-12-19 00:00:00
25,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 3,BMW Serie 3 320D TOURING 5p.,5480,,Diésel,2006,197000,163.0,5.0,Automático,Azul,8,True,Autos Lliça,627063458,Barcelona,2020-12-30 10:52:48,2021-01-11 00:00:00
26,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,X1,BMW X1 sDrive18d 5p.,28990,27790.0,Diésel,2019,15000,150.0,5.0,Manual,668 Schwarz (sÃ³lido),36,True,Hispamóvil - Elche,661257503,Alicante,2020-12-06 11:31:35,2020-12-08 00:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4969,9881BCDD5A0AD4733037B3FB25E69C3A,SEAT,Ibiza,SEAT Ibiza 1.2 TSI 85cv Reference 5p.,8090,7390.0,Gasolina,2014,44244,85.0,5.0,Manual,Negro,35,True,Flexicar Rivas II,910605222,Madrid,2021-01-05 11:02:40,2021-01-18 00:00:00
4972,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,X2,BMW X2 sDrive18i 5p.,32900,31700.0,Gasolina,2018,16000,140.0,5.0,Automático,668 Schwarz (sÃ³lido),21,True,LURAUTO GUIPUZKOA,678701463,Guipúzcoa,2020-11-20 16:49:48,2020-11-28 00:00:00
4979,9881BCDD5A0AD4733037B3FB25E69C3A,SEAT,León,SEAT Leon 1.9 TDi 110CV SIGNA 5p.,1500,,Diésel,2003,250000,110.0,5.0,Manual,Gris / Plata,7,True,Car Fusion,688269748,Murcia,2020-12-10 14:20:30,2020-12-19 00:00:00
4992,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,X3,BMW X3 sDrive18d 5p.,17800,17800.0,Diésel,2013,63794,143.0,5.0,Manual,300 Alpinweib (sÃ³lido),39,True,Ocasion Plus,876500593,Zaragoza,2020-12-07 13:45:49,2020-12-10 00:00:00


#### selectors isnull()/notisnull()

Amb aquest selectors podem obtenir aquelles dades que són o no buides (NaN).
- isna() i notna() són mètodes equivalents

In [34]:
# Seleccionem els cotxes que no tinguin valor en el camp power
cotxes[cotxes.power.isnull()]

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
1,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,4.0,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22,2020-12-26 00:00:00
3,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Astra,OPEL Astra 3p.,5550,,Diésel,2009,137000,,3.0,Manual,Rojo,0,False,22003DEA67E7C5BE6022A29E677668BC,67990DA67E557C1D0C1B6D1DB731938C,Barcelona,2020-11-21 16:37:13,2020-11-24 00:00:00
5,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Zafira,OPEL Zafira 5p.,1000,,Diésel,2002,400000,,5.0,Manual,Gris / Plata,0,False,BC2AB28E4CDA984CA76646874371E864,75793CB4F71AC1B3C89CF649FFC18C56,Lleida,2020-11-24 16:34:59,2021-01-13 00:00:00
7,9881BCDD5A0AD4733037B3FB25E69C3A,VOLKSWAGEN,Polo,VOLKSWAGEN Polo 5p.,6150,,Diésel,2010,130000,,5.0,Manual,Gris / Plata,0,False,E30470AE2226896865B9C6B56A0F85D5,749DB3796A64D10CD64E203A8ECB24C3,Valencia,2020-11-04 15:15:53,2020-11-28 00:00:00
9,9881BCDD5A0AD4733037B3FB25E69C3A,FORD,Focus,FORD Focus 3p.,700,,Gasolina,2001,256000,,3.0,Manual,Negro,0,False,AAE039D6AA239CFC121357A825210FA3,4BC3B4EACC477103EBBFB4131C45534C,Barcelona,2020-10-23 08:42:20,2020-12-11 00:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4939,9881BCDD5A0AD4733037B3FB25E69C3A,KIA,Sportage,KIA Sportage 5p.,3000,,Diésel,2005,210000,,5.0,Manual,Rojo,4,False,B8B9DA1A5687243261E3C0D1010FDEED,F13649BDDF2225102DF0086776569039,Alicante,2020-12-06 14:24:02,2020-12-27 00:00:00
4948,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Astra,OPEL,3000,,Diésel,2008,205000,,5.0,Manual,Negro,9,False,E5DEE84F405B9366F44FEEF46DF9704D,5791F0D99D1F207533BF6FEC6E5C073E,Tarragona,2020-12-07 20:51:46,2021-01-21 00:00:00
4974,9881BCDD5A0AD4733037B3FB25E69C3A,MERCEDES-BENZ,280,MERCEDES-BENZ 280 5p.,5500,,Gasolina,1993,110000,,5.0,Manual,Gris / Plata,9,False,E7E76548A676A2E8FC26D5566062B501,4F300A557F4883631BAAA4A1CB374604,Barcelona,2021-01-14 09:39:38,2021-01-19 00:00:00
4994,9881BCDD5A0AD4733037B3FB25E69C3A,SEAT,Ibiza,SEAT Ibiza 1.0 EcoTSI 70kW 95CV Style 5p.,10600,9800.0,Gasolina,2018,59900,,5.0,Manual,,25,True,Auto Seleccio,663838373,Valencia,2021-01-15 12:54:40,2021-01-22 00:00:00


In [35]:
# comparem amb isna()
all(cotxes[cotxes.isnull()] == cotxes[cotxes.isna()])

True

In [36]:
# Seleccionem els cotxes que tinguin valor en el camp power
cotxes[cotxes.power.notnull()]

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
0,9881BCDD5A0AD4733037B3FB25E69C3A,KIA,Carnival,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,4860.0,Diésel,2007,221000,185.0,5.0,Manual,Beige (champagne),8,True,VM Motor,928493782,Las Palmas,2020-12-22 13:28:36,2020-12-25 00:00:00
2,9881BCDD5A0AD4733037B3FB25E69C3A,FIAT,500,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,6490.0,Gasolina,2017,75000,69.0,3.0,Manual,Negro,7,True,LAS PALMAS MOTOR,653895468,Las Palmas,2020-11-20 18:30:00,2020-12-08 00:00:00
4,9881BCDD5A0AD4733037B3FB25E69C3A,MERCEDES-BENZ,Clase C,MERCEDES-BENZ Clase C C 220 CDI AVANTGARDE 4p.,11990,11490.0,Diésel,2008,95000,170.0,4.0,Automático,Gris / Plata,21,True,Autos Lipiz,646179040,Madrid,2020-11-05 19:09:27,2020-12-01 00:00:00
6,9881BCDD5A0AD4733037B3FB25E69C3A,PEUGEOT,3008,PEUGEOT 3008 1.2 PURETECH 130 HP ALLURE SS 5p.,25400,23400.0,Gasolina,2020,0,130.0,5.0,Manual,Blanco,9,True,Peugeot Beycar,681167053,Valladolid,2020-12-17 09:20:50,2021-01-02 00:00:00
8,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Insignia,OPEL Insignia ST 2.0 CDTI ecoFLEX SS 140 CV Se...,8200,,Diésel,2015,119000,140.0,5.0,Manual,Blanco,6,False,177DACB14B34103960EC27BA29BD686B,4658AA3778BC282BF1CD28EF70287566,Valladolid,2020-12-16 13:37:39,2020-12-26 00:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4993,9881BCDD5A0AD4733037B3FB25E69C3A,AUDI,A4,AUDI A4 2.0 TDI 150cv multitronic 4p.,16500,,Diésel,2014,128000,150.0,4.0,Automático,Negro,20,False,63FB1088241B0ACDD7987AF0C1F4F7E6,69E12C0BBB06F9AD05BACE575F368AD3,Alicante,2020-11-16 16:41:56,2020-12-01 00:00:00
4995,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Corsa,OPEL Corsa 1.4 66kW 90CV Selective 5p.,10200,9400.0,Gasolina,2018,18318,90.0,5.0,Manual,Blanco (Alpino),32,True,Vara de Quart,689851902,Valencia,2020-11-23 16:24:28,2020-11-26 00:00:00
4996,9881BCDD5A0AD4733037B3FB25E69C3A,TOYOTA,Auris,TOYOTA Auris 1.2 120T Active Touring Sports 5p.,7650,,Gasolina,2016,157000,116.0,5.0,Manual,Azul,5,False,9448B9C35DDD44F451DC88E988CC3A03,67ABDCB290BF2A7CA8D3E84C9007BF9A,Tarragona,2020-11-10 15:27:32,2021-01-10 00:00:00
4998,9881BCDD5A0AD4733037B3FB25E69C3A,MERCEDES-BENZ,GLC Coupé,MERCEDES-BENZ GLC Coupe GLC 220 d 4MATIC 5p.,49900,48000.0,Diésel,2019,15,170.0,5.0,Automático,Gris / Plata,11,True,Autocas Mercedes Benz,964222200,Castellón,2020-11-20 09:43:44,2020-11-28 00:00:00


In [37]:
# comparem amb notna()
all(cotxes[cotxes.notnull()] == cotxes[cotxes.notna()])

True

**Important**: Podem combinar les propietats anteriors per fer seleccions més complexes

In [38]:
# De tots els cotxes BMW i que el seu preu sigui inferior a 20.000 retornem només la columna `company` (companyia)
cotxes[(cotxes.make == 'BMW') & (cotxes.price < 20000)].company

1       9881BCDD5A0AD4733037B3FB25E69C3A
25      9881BCDD5A0AD4733037B3FB25E69C3A
50      9881BCDD5A0AD4733037B3FB25E69C3A
69      9881BCDD5A0AD4733037B3FB25E69C3A
85      9881BCDD5A0AD4733037B3FB25E69C3A
                      ...               
4875    9881BCDD5A0AD4733037B3FB25E69C3A
4882    9881BCDD5A0AD4733037B3FB25E69C3A
4883    9881BCDD5A0AD4733037B3FB25E69C3A
4902    9881BCDD5A0AD4733037B3FB25E69C3A
4992    9881BCDD5A0AD4733037B3FB25E69C3A
Name: company, Length: 299, dtype: object

#### Ordenació

Podem ordenar un DataFrame per una o diferent columnes mitjanánt el mètode `sort_values`

In [39]:
# Ordenem els cotxes per preu de forma ascendent
cotxes.sort_values('price', ascending = True)

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
3369,9881BCDD5A0AD4733037B3FB25E69C3A,RENAULT,Grand Espace,RENAULT Grand Espace 5p.,300,,Diésel,2004,308000,,5.0,Automático,Gris / Plata,0,False,1CC477616BB182E87EC7285BFBF8C34B,0F15D893FAF27C539C5A17F318192695,Navarra,2020-09-14 19:00:20,2020-12-11 00:00:00
965,9881BCDD5A0AD4733037B3FB25E69C3A,PEUGEOT,Partner,PEUGEOT Partner 5p.,300,,Diésel,2001,300000,,5.0,Manual,Blanco,0,False,886B47377FB31499B423AAD678A44E12,624E82E25874F6F7272D58ACC36F7570,Cádiz,2020-08-17 14:42:51,2020-11-24 00:00:00
2945,9881BCDD5A0AD4733037B3FB25E69C3A,PEUGEOT,306,PEUGEOT 306 5p.,300,,Diésel,2001,250000,,5.0,Manual,Blanco,0,False,E9829608DD90FF6B8BF7CB50746EAE78,63C7B71B9870174258DD8AA09065EB84,Guipúzcoa,2020-11-18 10:49:56,2020-11-26 00:00:00
3918,9881BCDD5A0AD4733037B3FB25E69C3A,VOLKSWAGEN,Golf,VOLKSWAGEN Golf 1.9TDI GT 3p.,300,,Diésel,1996,330000,110.0,3.0,Manual,Blanco,5,False,DC9E99873BF9292F1C365F363E8D6BBF,2BA008A802E63C0795627E3C3AC10025,Barcelona,2020-12-31 09:29:08,2021-01-04 00:00:00
214,9881BCDD5A0AD4733037B3FB25E69C3A,RENAULT,Clio Campus,RENAULT Clio Campus 3p.,300,,Gasolina,1997,280000,,3.0,Manual,Blanco,0,False,1AD2F57CFFFCF3CEB33A19520334CC4C,8AEBD8EA72630910A1F6F75113238490,Tenerife,2020-12-06 15:37:20,2021-01-26 00:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2994,9881BCDD5A0AD4733037B3FB25E69C3A,MASERATI,GranCabrio,MASERATI GranCabrio 4.7 V8 MC Automatico 2p.,169000,,Gasolina,2018,25,460.0,2.0,Automático,Blanco,33,True,GJ AUTOMOTIVE,645038369,Burgos,2020-10-27 12:55:55,2021-01-01 00:00:00
307,9881BCDD5A0AD4733037B3FB25E69C3A,NISSAN,GT-R,NISSAN GTR 3.8G V6 441 kW 600 CV 2018 NISMO 2p.,178000,175000.0,Gasolina,2018,8800,600.0,2.0,Automático,Blanco (NACARADO),11,True,Premium Cars Sevilla,687681055,Sevilla,2020-11-12 12:08:16,2020-12-14 00:00:00
4179,9881BCDD5A0AD4733037B3FB25E69C3A,FERRARI,488,FERRARI 488 GTB DCT 2p.,179900,,Gasolina,2017,29000,670.0,2.0,Automático,"(( TODO EN FERRARI, IMPECABLE ))",54,True,Luxury Motor,917864520,Madrid,2020-12-31 12:12:40,2021-01-01 00:00:00
492,9881BCDD5A0AD4733037B3FB25E69C3A,FERRARI,488,FERRARI 488 GTB 2p.,199995,199995.0,Gasolina,2016,21000,670.0,2.0,Automático,Blanco,24,True,konzept españa,669625871,Badajoz,2020-12-18 11:47:05,2021-01-15 00:00:00


In [40]:
# Ordenem els cotxes per preu de forma ascendent i any de forma descendent
cotxes.sort_values(['price','year'], ascending = [True,False])

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
3369,9881BCDD5A0AD4733037B3FB25E69C3A,RENAULT,Grand Espace,RENAULT Grand Espace 5p.,300,,Diésel,2004,308000,,5.0,Automático,Gris / Plata,0,False,1CC477616BB182E87EC7285BFBF8C34B,0F15D893FAF27C539C5A17F318192695,Navarra,2020-09-14 19:00:20,2020-12-11 00:00:00
4154,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 3,BMW Serie 3 5p.,300,,Diésel,2002,220000,,5.0,Manual,Gris / Plata,0,False,AE1D4B431EAD52E5EE1788010E8EC110,84623CD5C90A43471DEC343064DA5C89,Madrid,2020-11-25 10:22:57,2021-01-19 00:00:00
965,9881BCDD5A0AD4733037B3FB25E69C3A,PEUGEOT,Partner,PEUGEOT Partner 5p.,300,,Diésel,2001,300000,,5.0,Manual,Blanco,0,False,886B47377FB31499B423AAD678A44E12,624E82E25874F6F7272D58ACC36F7570,Cádiz,2020-08-17 14:42:51,2020-11-24 00:00:00
2945,9881BCDD5A0AD4733037B3FB25E69C3A,PEUGEOT,306,PEUGEOT 306 5p.,300,,Diésel,2001,250000,,5.0,Manual,Blanco,0,False,E9829608DD90FF6B8BF7CB50746EAE78,63C7B71B9870174258DD8AA09065EB84,Guipúzcoa,2020-11-18 10:49:56,2020-11-26 00:00:00
214,9881BCDD5A0AD4733037B3FB25E69C3A,RENAULT,Clio Campus,RENAULT Clio Campus 3p.,300,,Gasolina,1997,280000,,3.0,Manual,Blanco,0,False,1AD2F57CFFFCF3CEB33A19520334CC4C,8AEBD8EA72630910A1F6F75113238490,Tenerife,2020-12-06 15:37:20,2021-01-26 00:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2994,9881BCDD5A0AD4733037B3FB25E69C3A,MASERATI,GranCabrio,MASERATI GranCabrio 4.7 V8 MC Automatico 2p.,169000,,Gasolina,2018,25,460.0,2.0,Automático,Blanco,33,True,GJ AUTOMOTIVE,645038369,Burgos,2020-10-27 12:55:55,2021-01-01 00:00:00
307,9881BCDD5A0AD4733037B3FB25E69C3A,NISSAN,GT-R,NISSAN GTR 3.8G V6 441 kW 600 CV 2018 NISMO 2p.,178000,175000.0,Gasolina,2018,8800,600.0,2.0,Automático,Blanco (NACARADO),11,True,Premium Cars Sevilla,687681055,Sevilla,2020-11-12 12:08:16,2020-12-14 00:00:00
4179,9881BCDD5A0AD4733037B3FB25E69C3A,FERRARI,488,FERRARI 488 GTB DCT 2p.,179900,,Gasolina,2017,29000,670.0,2.0,Automático,"(( TODO EN FERRARI, IMPECABLE ))",54,True,Luxury Motor,917864520,Madrid,2020-12-31 12:12:40,2021-01-01 00:00:00
492,9881BCDD5A0AD4733037B3FB25E69C3A,FERRARI,488,FERRARI 488 GTB 2p.,199995,199995.0,Gasolina,2016,21000,670.0,2.0,Automático,Blanco,24,True,konzept españa,669625871,Badajoz,2020-12-18 11:47:05,2021-01-15 00:00:00


## Agrupació (Group by)

Moltes vegades ens interessa realtizar una sèrie de funcions d'agregat realtizant una agrupació per un camp concret. 
Això ho aconseguirem mitjançant la funció `groupby` antre altres


In [41]:
# Si volem buscar el preu mínim de cada marca
cotxes.groupby('make').price.min()

make
ABARTH           12800
ALFA ROMEO         700
ASTON MARTIN     39990
AUDI               600
BENTLEY          36990
BMW                300
CHEVROLET          500
CHRYSLER          1000
CITROEN            650
DACIA             3790
DAEWOO             850
DFSK             26495
DODGE             2300
DS               12800
FERRARI          77000
FIAT               950
FORD               500
GALLOPER           875
HONDA             1000
HUMMER           23000
HYUNDAI           1300
INFINITI         14490
ISUZU            10500
IVECO             3600
JAGUAR            1000
JEEP              5500
KIA               1200
LADA              1400
LANCIA            1000
LAND-ROVER        3200
LEXUS             4000
MASERATI         36000
MAZDA             1000
MERCEDES-BENZ      500
MG                 650
MINI              3300
MITSUBISHI         670
NISSAN             850
OPEL               400
PEUGEOT            300
PORSCHE           8490
RENAULT            300
ROLLS-ROYCE      26950
ROVER 

In [42]:
# si fem un count() per marques ens compta els valors **no nulls** de cada columna/marca
cotxes.groupby('make').count()

Unnamed: 0_level_0,company,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
ABARTH,17,17,17,17,8,17,17,17,16,17,17,16,17,17,17,17,17,17,17
ALFA ROMEO,33,33,33,33,9,33,33,33,21,33,33,33,33,33,33,33,33,33,33
ASTON MARTIN,3,3,3,3,1,3,3,3,3,3,3,3,3,3,3,3,3,3,3
AUDI,351,351,351,351,139,351,351,351,295,351,350,347,351,351,351,351,351,351,351
BENTLEY,4,4,4,4,0,4,4,4,4,4,4,4,4,4,4,4,4,4,4
BMW,462,462,462,462,185,462,462,462,363,461,461,456,462,462,462,462,462,462,462
CHEVROLET,25,25,25,25,8,25,25,25,19,25,25,25,25,25,25,25,25,25,25
CHRYSLER,12,12,12,12,0,12,12,12,6,12,12,11,12,12,12,12,12,12,12
CITROEN,288,288,288,288,136,288,288,288,225,288,287,285,288,288,288,288,288,288,288
DACIA,18,18,18,18,11,18,18,18,16,18,18,18,18,18,18,18,18,18,18


##### Exercici

Fixa't que per la marca ALFA ROMEO hi ha alguns vehicles que tenen un valor null a la columna *power*
Prova de localitzar-los.

In [54]:
null_power = cotxes[(cotxes.make == "ALFA ROMEO") & (cotxes.power.isna())]
len(null_power)

12

In [47]:
# Volem saber quina és la quantitat de vehicles de cada model per cada marca
cotxes.groupby('make').model.value_counts()

make        model            
ABARTH      500                  11
            500C                  6
ALFA ROMEO  147                   7
            Giulietta             6
            Stelvio               5
                                 ..
VOLVO       850                   1
            Classic               1
            V60 Cross Country     1
            V70 XC                1
            V90                   1
Name: model, Length: 607, dtype: int64

Podem agrupar per més d'un camp passant una llista de camps a agrupar.

In [48]:
# Volem obtenir el preu mínim de cada marca i model.
cotxes.groupby(['make','model']).price.min()

make        model            
ABARTH      500                  12800
            500C                 13100
ALFA ROMEO  146                    700
            147                   2000
            156                   2500
                                 ...  
VOLVO       V90 Cross Country    37400
            XC40                 27700
            XC60                 10900
            XC70                  3790
            XC90                  6999
Name: price, Length: 607, dtype: int64

Amb la funció `aggregate()` o `agg()` podem aplicar certes funcions d'agregat (len, min, max, sum, np.mean, np.std, np.median, np.var) i si tenim carregada la llibreria de NumPy millor alhora per treure alguna estadística

In [49]:
# Podem obtenir estadístics per cada marca
cotxes.groupby('make').price.agg([len, min, max, sum])

Unnamed: 0_level_0,len,min,max,sum
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
ABARTH,17,12800,28000,318317
ALFA ROMEO,33,700,49900,463959
ASTON MARTIN,3,39990,89000,174890
AUDI,351,600,81900,6738303
BENTLEY,4,36990,99900,241790
BMW,462,300,72500,8358518
CHEVROLET,25,500,12900,149668
CHRYSLER,12,1000,7800,39100
CITROEN,288,650,36995,2620719
DACIA,18,3790,18000,153902


In [64]:
# Podem ordenar el resultat anterior per quantitat de vehicles
cotxes.groupby(['make', 'model']).price.agg([len, min, max, sum]).sort_values(by = "len", ascending = False)

# El index és la combinació de les columnes make i model si ho volem canviar és la cel·la de baix

Unnamed: 0_level_0,Unnamed: 1_level_0,len,min,max,sum
make,model,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
VOLKSWAGEN,Golf,162,300,42990,1942233
BMW,Serie 3,148,300,70999,1938617
SEAT,Ibiza,96,500,21900,562076
AUDI,A4,94,650,39900,1316643
RENAULT,Mégane,90,500,29100,777006
...,...,...,...,...,...
NISSAN,Murano,1,16900,16900,16900
NISSAN,Patrol GR,1,8950,8950,8950
NISSAN,Serena,1,1150,1150,1150
NISSAN,Vanette Cargo,1,950,950,950


En els exemples que hem vist anteriorment el resultat s'ha tranformat amb un **multiindex**.

Per tornar a convertir el resultat amb un índex normal cal utilitzar el mètode `reset_index()`

In [59]:
cotxes.groupby(['make', 'model']).price.agg([len, min, max, sum]).sort_values(by = 'len', ascending = False).reset_index()

Unnamed: 0,make,model,len,min,max,sum
0,VOLKSWAGEN,Golf,162,300,42990,1942233
1,BMW,Serie 3,148,300,70999,1938617
2,SEAT,Ibiza,96,500,21900,562076
3,AUDI,A4,94,650,39900,1316643
4,RENAULT,Mégane,90,500,29100,777006
...,...,...,...,...,...,...
602,NISSAN,Murano,1,16900,16900,16900
603,NISSAN,Patrol GR,1,8950,8950,8950
604,NISSAN,Serena,1,1150,1150,1150
605,NISSAN,Vanette Cargo,1,950,950,950
