### Pandas basics 2

In [1]:
import pandas as pd

### Cleansing

S'anomena *cleansing* al procés previ de preparació de les dades abans del que seria pròpiament el procés d'anàl.lisi. Habitualment comporta els 3 passos següents:

1. llegir un fitxer amb les dades *en cru*
2. netejar les dades (el que s'anomena *cleansing*) utilitzant els mètodes descrits en aquest notebook:
    - solucionar els valors nuls (*missing values*)
    - convertir valors categòrics/ordinals a numèrics
    - eliminar columnes innecessàries
    - afegir columnes amb informació agregada o complementària
    - reordenar/reindexar les columnes
    - ...
3. i un cop tenim el fitxer *net*, amb les dades que volem, salvar-lo amb el format que calgui (csv, json, ...)

### read_()

En permet llegir diferents formats de fitxers on tenim les dades en cru:
- read_csv()
- read_excel()
- ...


In [2]:
# Carreguem el dataset d'exemple dels cotxes
cotxes = pd.read_csv('../../data/cars/venda-cotxes-segona-ma.csv', index_col=False)
cotxes.head(3)

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
0,9881BCDD5A0AD4733037B3FB25E69C3A,KIA,Carnival,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,4860.0,Diésel,2007,221000,185.0,5.0,Manual,Beige (champagne),8,True,VM Motor,928493782,Las Palmas,2020-12-22 13:28:36,2020-12-25 00:00:00
1,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,4.0,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22,2020-12-26 00:00:00
2,9881BCDD5A0AD4733037B3FB25E69C3A,FIAT,500,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,6490.0,Gasolina,2017,75000,69.0,3.0,Manual,Negro,7,True,LAS PALMAS MOTOR,653895468,Las Palmas,2020-11-20 18:30:00,2020-12-08 00:00:00


### info()
Dona informació sobre:
- les columnes que hi ha al dataset
- el tipus de dades que tenim a cada columna
- si hi han valors nuls en alguna de les columnes

In [3]:
cotxes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 20 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   company          5000 non-null   object 
 1   make             5000 non-null   object 
 2   model            4996 non-null   object 
 3   version          5000 non-null   object 
 4   price            5000 non-null   int64  
 5   price_financed   2268 non-null   float64
 6   fuel             4992 non-null   object 
 7   year             5000 non-null   int64  
 8   kms              5000 non-null   int64  
 9   power            4054 non-null   float64
 10  doors            4996 non-null   float64
 11  shift            4990 non-null   object 
 12  color            4942 non-null   object 
 13  photos           5000 non-null   int64  
 14  is_professional  5000 non-null   bool   
 15  dealer           5000 non-null   object 
 16  phone            5000 non-null   object 
 17  province      

### dtype(), dtypes()

- tipus de dades

In [4]:
cotxes.make.dtype

dtype('O')

In [5]:
cotxes.dtypes

company             object
make                object
model               object
version             object
price                int64
price_financed     float64
fuel                object
year                 int64
kms                  int64
power              float64
doors              float64
shift               object
color               object
photos               int64
is_professional       bool
dealer              object
phone               object
province            object
publish_date        object
insert_date         object
dtype: object

### `fillna()`

Substituir els valors NaN és una operació que utilitzem sovint. Pandas ofereix el mètode `fillna()` per solucionar aquest problema.

In [6]:
cotxes.model.fillna('Model desconegut')

0        Carnival
1         Serie 5
2             500
3           Astra
4         Clase C
          ...    
4995        Corsa
4996        Auris
4997      Partner
4998    GLC Coupé
4999     Clase SL
Name: model, Length: 5000, dtype: object

In [7]:
# podem veure que l'original no ha canviat
cotxes.loc[cotxes.model.isna()]

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date
68,9881BCDD5A0AD4733037B3FB25E69C3A,VOLVO,,VOLVO FL 240 EE5,29900,,,2013,434000,,,,Capacidad carga útil:,10,True,Dial Truck Valencia,616930100,Valencia,2020-12-17 15:59:42,2020-12-25 00:00:00
1923,9881BCDD5A0AD4733037B3FB25E69C3A,MERCEDES-BENZ,,MERCEDES-BENZ SPRINTER 314CDI CC 3T5 E6 FURG,20000,,,2017,105235,,,,Capacidad carga útil:,7,True,Ventatruck,670808888,Madrid,2020-12-02 17:49:58,2020-12-04 00:00:00
3699,9881BCDD5A0AD4733037B3FB25E69C3A,ISUZU,,ISUZU 3.5T M21 CAJA FIJA GRUA PALTFINGER,49900,,,2020,10,,,,Capacidad carga útil:,17,True,Rofervigo Vehículos Industriales - ISUZU,689692254,Pontevedra,2020-12-19 11:14:13,2021-01-14 00:00:00
4236,9881BCDD5A0AD4733037B3FB25E69C3A,SEAT,,SEAT Leon 5p.,3500,,Diésel,2003,333000,,5.0,Manual,Negro,5,False,1281D0AC7A74EB91550FF52A02862CDA,B4CEFD0C67E27273E45A99531764FBDF,León,2020-11-30 17:20:22,2020-12-14 00:00:00


###  replace()

- *replace()* permet substituir un valor per un altre en una columna o un pd.Series()
- per defecte *replace()* torna una còpia de la columna o pd.Series() amb els valors reemplaçats
- amb el paràmetre *inplace = True* el canvi s'executa de forma definitiva sobre la columna o pd.Series() original

In [8]:
cotxes.fuel.replace("Gasolina", "Benzina")

0        Diésel
1        Diésel
2       Benzina
3        Diésel
4        Diésel
         ...   
4995    Benzina
4996    Benzina
4997     Diésel
4998     Diésel
4999    Benzina
Name: fuel, Length: 5000, dtype: object

***nota:*** podem comprovar que els dos mètodes anterior no han canviat cap valor en el dataframe original

In [9]:
# podem veure que l'original no ha canviat
cotxes.loc[cotxes.fuel == 'Benzina']

Unnamed: 0,company,make,model,version,price,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date


### get_dummies()

*get_dummies()* és un mètode que genera el que s'anomena ***one-hot encoding*** de variables categòriques

- crea una columna binària per cada un dels valors de la variable categòrica
- posa un 1 en la columna que correspongui i zeros en totes les altres

In [10]:
pd.get_dummies(cotxes.fuel)

Unnamed: 0,Diésel,Eléctrico,Gas licuado (GLP),Gas natural (CNG),Gasolina,Híbrido,Híbrido enchufable
0,1,0,0,0,0,0,0
1,1,0,0,0,0,0,0
2,0,0,0,0,1,0,0
3,1,0,0,0,0,0,0
4,1,0,0,0,0,0,0
...,...,...,...,...,...,...,...
4995,0,0,0,0,1,0,0
4996,0,0,0,0,1,0,0
4997,1,0,0,0,0,0,0
4998,1,0,0,0,0,0,0


***nota:*** get_dummies() és una funció de pandas no un mètode de la classe pd.Series(), és a dir:
- hem de fer: ***pd.get_dummies(cotxes.fuel)***
- no hem de fer: cotxes.fuel.get_dummies()

### map()

- map() és un equivalent a replace() però més potent, ja que ens permet passar un diccionari amb parelles de valors a reemplaçar
- map() permet també aplicar una funció a un pd.Series() o una columna d'un DataFrame, però aquesta funcionalitat és més pròpia del mètode apply() (a continuació)


In [11]:
# exemple: mirem quíns valors tenim en la columna fuel
cotxes.fuel.value_counts()

Diésel                3099
Gasolina              1661
Híbrido                128
Híbrido enchufable      48
Eléctrico               37
Gas natural (CNG)       10
Gas licuado (GLP)        9
Name: fuel, dtype: int64

In [12]:
# montem un diccionari amb tots els valors de fuel
fuel_dict = {key: val for val, key in enumerate(cotxes.fuel.unique())}
fuel_dict

{'Diésel': 0,
 'Gasolina': 1,
 nan: 2,
 'Híbrido enchufable': 3,
 'Híbrido': 4,
 'Gas licuado (GLP)': 5,
 'Eléctrico': 6,
 'Gas natural (CNG)': 7}

In [13]:
# utilitzem el diccionari per substituir els valors alfanumèrics per valors numèrics
cotxes.fuel.map(fuel_dict).value_counts()

0    3099
1    1661
4     128
3      48
6      37
7      10
5       9
2       8
Name: fuel, dtype: int64

In [14]:
# exemple de com podem mapejar funcions (per exemple, doblar el preu dels cotxes)
cotxes.price.map(lambda x: x *2)

0        9720
1        3600
2       12980
3       11100
4       23980
        ...  
4995    20400
4996    15300
4997    12400
4998    99800
4999    25900
Name: price, Length: 5000, dtype: int64

### apply()

apply() és equivalent a map(), però:
- permet aplicar funcions més complexes i que admeten arguments
- és pot aplicar a tota la fila

In [15]:
# la funció doblar preu amb apply()
cotxes.price.apply(lambda x: x *2)

0        9720
1        3600
2       12980
3       11100
4       23980
        ...  
4995    20400
4996    15300
4997    12400
4998    99800
4999    25900
Name: price, Length: 5000, dtype: int64

***nota**: podem fer apply() sobre tota la fila en conjunt i en aquest cas la funció pot accedir  a qualsevol valor de  qualsevol de les columnes; en aquest cas cal especificar el paràmetre axis = 1

In [16]:
cotxes.apply(lambda fila: '%s, %s, %s' %(fila.model, fila.version, fila.fuel), axis =1)

0       Carnival, KIA Carnival 2.9 CRDi VGT EX 5p., Di...
1                       Serie 5, BMW Serie 5  4p., Diésel
2       500, FIAT 500 1.2 8v 51kW 69CV Lounge 3p., Gas...
3                          Astra, OPEL Astra  3p., Diésel
4       Clase C, MERCEDES-BENZ Clase C C 220 CDI AVANT...
                              ...                        
4995    Corsa, OPEL Corsa 1.4 66kW 90CV Selective 5p.,...
4996    Auris, TOYOTA Auris 1.2 120T Active Touring Sp...
4997                Partner, PEUGEOT Partner  5p., Diésel
4998    GLC Coupé, MERCEDES-BENZ GLC Coupe GLC 220 d 4...
4999    Clase SL, MERCEDES-BENZ Clase SL SL 500 2p., G...
Length: 5000, dtype: object

In [17]:
# el mateix exemple amb una funció exterior més sofisticada
def llista(row):
    row.fillna('__')
    return '%s, %s, %s' %(row.make, row.version.strip(row.make), row.fuel)

cotxes.apply(llista, axis = 1)

0              KIA,  Carnival 2.9 CRDi VGT EX 5p., Diésel
1                              BMW,  Serie 5  4p., Diésel
2        FIAT,  500 1.2 8v 51kW 69CV Lounge 3p., Gasolina
3                               OPEL,  Astra  3p., Diésel
4       MERCEDES-BENZ,  Clase C C 220 CDI AVANTGARDE 4...
                              ...                        
4995    OPEL,  Corsa 1.4 66kW 90CV Selective 5p., Gaso...
4996    TOYOTA,  Auris 1.2 120T Active Touring Sports ...
4997                       PEUGEOT,  Partner  5p., Diésel
4998    MERCEDES-BENZ,  GLC Coupe GLC 220 d 4MATIC 5p....
4999        MERCEDES-BENZ,  Clase SL SL 500 2p., Gasolina
Length: 5000, dtype: object

In [18]:
# l'exemple que hem fet amb map() també el podem implementar amb apply()
cotxes.fuel.apply(lambda x: fuel_dict[x]).value_counts()

0    3099
1    1661
4     128
3      48
6      37
7      10
5       9
2       8
Name: fuel, dtype: int64

### to_frame()

In [19]:
cotxes.apply(llista, axis = 1).to_frame('llista').head(3)

Unnamed: 0,llista
0,"KIA, Carnival 2.9 CRDi VGT EX 5p., Diésel"
1,"BMW, Serie 5 4p., Diésel"
2,"FIAT, 500 1.2 8v 51kW 69CV Lounge 3p., Gasolina"


### to_list()

In [20]:
cotxes.apply(llista, axis = 1).to_list()[:3]

['KIA,  Carnival 2.9 CRDi VGT EX 5p., Diésel',
 'BMW,  Serie 5  4p., Diésel',
 'FIAT,  500 1.2 8v 51kW 69CV Lounge 3p., Gasolina']

### afegir una columna
- afegim una nova columna al final del DataFrame

In [21]:
cotxes['price_dte'] = cotxes.price * 0.20
cotxes[['make', 'version', 'price', 'price_dte']].head(3)

Unnamed: 0,make,version,price,price_dte
0,KIA,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,972.0
1,BMW,BMW Serie 5 4p.,1800,360.0
2,FIAT,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,1298.0


### insert()
- insertem una nova columna en una ubicació específica.


In [22]:
cotxes.insert(5, 'price_50%dte', cotxes.price *0.50)
cotxes.iloc[:, [1, 2, 3, 4, 5, 6]].head(3)

Unnamed: 0,make,model,version,price,price_50%dte,price_financed
0,KIA,Carnival,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,2430.0,4860.0
1,BMW,Serie 5,BMW Serie 5 4p.,1800,900.0,
2,FIAT,500,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,3245.0,6490.0


### drop()
- eliminar una fila (*axis = 0*)
- eliminar una columna (*axis = 1*)
- *inplace = True* ho fa definitiu

In [23]:
cotxes.drop('price_50%dte', axis  = 1, inplace = True)
cotxes.iloc[:, [1, 2, 3, 4, 5, 6]].head(3)

Unnamed: 0,make,model,version,price,price_financed,fuel
0,KIA,Carnival,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,4860.0,Diésel
1,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel
2,FIAT,500,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,6490.0,Gasolina


### rename()

In [24]:
cotxes.rename(columns = {'price': 'preu'}).head(3)

Unnamed: 0,company,make,model,version,preu,price_financed,fuel,year,kms,power,...,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date,price_dte
0,9881BCDD5A0AD4733037B3FB25E69C3A,KIA,Carnival,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,4860.0,Diésel,2007,221000,185.0,...,Manual,Beige (champagne),8,True,VM Motor,928493782,Las Palmas,2020-12-22 13:28:36,2020-12-25 00:00:00,972.0
1,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,...,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22,2020-12-26 00:00:00,360.0
2,9881BCDD5A0AD4733037B3FB25E69C3A,FIAT,500,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,6490.0,Gasolina,2017,75000,69.0,...,Manual,Negro,7,True,LAS PALMAS MOTOR,653895468,Las Palmas,2020-11-20 18:30:00,2020-12-08 00:00:00,1298.0


In [25]:
cotxes.columns

Index(['company', 'make', 'model', 'version', 'price', 'price_financed',
       'fuel', 'year', 'kms', 'power', 'doors', 'shift', 'color', 'photos',
       'is_professional', 'dealer', 'phone', 'province', 'publish_date',
       'insert_date', 'price_dte'],
      dtype='object')

In [26]:
# canviar el nom in-place
cotxes.rename(columns = {'price': 'preu'}, inplace = True)
cotxes.head(3)

Unnamed: 0,company,make,model,version,preu,price_financed,fuel,year,kms,power,...,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date,price_dte
0,9881BCDD5A0AD4733037B3FB25E69C3A,KIA,Carnival,KIA Carnival 2.9 CRDi VGT EX 5p.,4860,4860.0,Diésel,2007,221000,185.0,...,Manual,Beige (champagne),8,True,VM Motor,928493782,Las Palmas,2020-12-22 13:28:36,2020-12-25 00:00:00,972.0
1,9881BCDD5A0AD4733037B3FB25E69C3A,BMW,Serie 5,BMW Serie 5 4p.,1800,,Diésel,2001,205000,,...,Manual,Verde,0,False,3F128E570B3A9009D7B52A0523AF43DD,DBB2949B54A306BA299A791B860EEBF6,Tarragona,2020-12-14 07:02:22,2020-12-26 00:00:00,360.0
2,9881BCDD5A0AD4733037B3FB25E69C3A,FIAT,500,FIAT 500 1.2 8v 51kW 69CV Lounge 3p.,6490,6490.0,Gasolina,2017,75000,69.0,...,Manual,Negro,7,True,LAS PALMAS MOTOR,653895468,Las Palmas,2020-11-20 18:30:00,2020-12-08 00:00:00,1298.0


### reindex()

In [27]:
cotxes.set_index('make').loc['OPEL'].head(3)

Unnamed: 0_level_0,company,model,version,preu,price_financed,fuel,year,kms,power,doors,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date,price_dte
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
OPEL,9881BCDD5A0AD4733037B3FB25E69C3A,Astra,OPEL Astra 3p.,5550,,Diésel,2009,137000,,3.0,Manual,Rojo,0,False,22003DEA67E7C5BE6022A29E677668BC,67990DA67E557C1D0C1B6D1DB731938C,Barcelona,2020-11-21 16:37:13,2020-11-24 00:00:00,1110.0
OPEL,9881BCDD5A0AD4733037B3FB25E69C3A,Zafira,OPEL Zafira 5p.,1000,,Diésel,2002,400000,,5.0,Manual,Gris / Plata,0,False,BC2AB28E4CDA984CA76646874371E864,75793CB4F71AC1B3C89CF649FFC18C56,Lleida,2020-11-24 16:34:59,2021-01-13 00:00:00,200.0
OPEL,9881BCDD5A0AD4733037B3FB25E69C3A,Insignia,OPEL Insignia ST 2.0 CDTI ecoFLEX SS 140 CV Se...,8200,,Diésel,2015,119000,140.0,5.0,Manual,Blanco,6,False,177DACB14B34103960EC27BA29BD686B,4658AA3778BC282BF1CD28EF70287566,Valladolid,2020-12-16 13:37:39,2020-12-26 00:00:00,1640.0


In [28]:
# seria el mateix que
cotxes[cotxes.make == 'OPEL'].head(3)

Unnamed: 0,company,make,model,version,preu,price_financed,fuel,year,kms,power,...,shift,color,photos,is_professional,dealer,phone,province,publish_date,insert_date,price_dte
3,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Astra,OPEL Astra 3p.,5550,,Diésel,2009,137000,,...,Manual,Rojo,0,False,22003DEA67E7C5BE6022A29E677668BC,67990DA67E557C1D0C1B6D1DB731938C,Barcelona,2020-11-21 16:37:13,2020-11-24 00:00:00,1110.0
5,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Zafira,OPEL Zafira 5p.,1000,,Diésel,2002,400000,,...,Manual,Gris / Plata,0,False,BC2AB28E4CDA984CA76646874371E864,75793CB4F71AC1B3C89CF649FFC18C56,Lleida,2020-11-24 16:34:59,2021-01-13 00:00:00,200.0
8,9881BCDD5A0AD4733037B3FB25E69C3A,OPEL,Insignia,OPEL Insignia ST 2.0 CDTI ecoFLEX SS 140 CV Se...,8200,,Diésel,2015,119000,140.0,...,Manual,Blanco,6,False,177DACB14B34103960EC27BA29BD686B,4658AA3778BC282BF1CD28EF70287566,Valladolid,2020-12-16 13:37:39,2020-12-26 00:00:00,1640.0


### to_()

Ens permet salvar les dades un cop tenim el dataframe net. Podem optar per diferents formats:

* `to_csv()`
* `to_excel()`
* `to_json()`
* `to_html()`