# Uso de Pandas

Librería para manipulación/análisis de datos. https://pandas.pydata.org/


> (c) 2019 Galit Shmueli, Peter C. Bruce, Peter Gedeck - Data Minign for Business Analytics

Cuando importamos módulos o paquetes se suele usar "biding notation" o alias para hacer el código más fácil de leer. 
```
import <package> as <alias>
```
Los alias `np`, `pd`, and `plt` son usados comúnmente en la comunidad de data science.

In [1]:
# importamos los paquetes necesarios para usarlos en este notebook
import pandas as pd
import numpy as np

## Carga de datos en nuestro entorno de Python

Trabajaremos con Toyota Corolla dataset

** Debemos asegurarnos sobre la ubicación del dataset que queremos cargar. Aquí se asume que el dataset está ubicado en el mismo folder que este notebook

In [2]:
toyota_df = pd.read_csv('ToyotaCorolla.csv')

Usamos shape para conocer el número de filas y columnas de nuestro dataset

In [3]:
toyota_df.shape

(1436, 39)

Iniciamos la exploración del dataset desplegando algunas de las primeras observaciones 

In [4]:
toyota_df.head(10)  #por default head() imprime las 5 primeras filas del dataset

Unnamed: 0,Id,Model,Price,Age_08_04,Mfg_Month,Mfg_Year,KM,Fuel_Type,HP,Met_Color,...,Powered_Windows,Power_Steering,Radio,Mistlamps,Sport_Model,Backseat_Divider,Metallic_Rim,Radio cassette,Parking Assistant,Tow Bar
0,1,TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors,13500,23,10,2002,46986,Diesel,90,1,...,1,1,0,0,0,1,0,0,0,0
1,2,TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors,13750,23,10,2002,72937,Diesel,90,1,...,0,1,0,0,0,1,0,0,0,0
2,3,TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors,13950,24,9,2002,41711,Diesel,90,1,...,0,1,0,0,0,1,0,0,0,0
3,4,TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors,14950,26,7,2002,48000,Diesel,90,0,...,0,1,0,0,0,1,0,0,0,0
4,5,TOYOTA Corolla 2.0 D4D HATCHB SOL 2/3-Doors,13750,30,3,2002,38500,Diesel,90,0,...,1,1,0,1,0,1,0,0,0,0
5,6,TOYOTA Corolla 2.0 D4D HATCHB SOL 2/3-Doors,12950,32,1,2002,61000,Diesel,90,0,...,1,1,0,1,0,1,0,0,0,0
6,7,TOYOTA Corolla 2.0 D4D 90 3DR TERRA 2/3-Doors,16900,27,6,2002,94612,Diesel,90,1,...,1,1,0,0,1,1,0,0,0,0
7,8,TOYOTA Corolla 2.0 D4D 90 3DR TERRA 2/3-Doors,18600,30,3,2002,75889,Diesel,90,1,...,1,1,0,0,0,1,0,0,0,0
8,9,TOYOTA Corolla 1800 T SPORT VVT I 2/3-Doors,21500,27,6,2002,19700,Petrol,192,0,...,1,1,1,0,0,0,1,1,0,0
9,10,TOYOTA Corolla 1.9 D HATCHB TERRA 2/3-Doors,12950,23,10,2002,71138,Diesel,69,0,...,0,1,0,0,0,1,0,0,0,0


In [5]:
toyota_df.tail(2)

Unnamed: 0,Id,Model,Price,Age_08_04,Mfg_Month,Mfg_Year,KM,Fuel_Type,HP,Met_Color,...,Powered_Windows,Power_Steering,Radio,Mistlamps,Sport_Model,Backseat_Divider,Metallic_Rim,Radio cassette,Parking Assistant,Tow Bar
1434,1441,TOYOTA Corolla 1.3 16V HATCHB LINEA TERRA 2/3-...,7250,70,11,1998,16916,Petrol,86,1,...,0,0,0,0,0,1,0,0,0,0
1435,1442,TOYOTA Corolla 1.6 LB LINEA TERRA 4/5-Doors,6950,76,5,1998,1,Petrol,110,0,...,0,1,0,0,0,0,0,0,0,0


## Limpieza o Preprocesamiento
La preparación, limpieza o preprocesamiento de datos es una de las tareas principales del análisis de datos.

Mostremos los nombres de las columnas.

In [6]:
toyota_df.columns

Index(['Id', 'Model', 'Price', 'Age_08_04', 'Mfg_Month', 'Mfg_Year', 'KM',
       'Fuel_Type', 'HP', 'Met_Color', 'Color', 'Automatic', 'CC', 'Doors',
       'Cylinders', 'Gears', 'Quarterly_Tax', 'Weight', 'Mfr_Guarantee',
       'BOVAG_Guarantee', 'Guarantee_Period', 'ABS', 'Airbag_1', 'Airbag_2',
       'Airco', 'Automatic_airco', 'Boardcomputer', 'CD_Player',
       'Central_Lock', 'Powered_Windows', 'Power_Steering', 'Radio',
       'Mistlamps', 'Sport_Model', 'Backseat_Divider', 'Metallic_Rim',
       'Radio cassette', 'Parking Assistant', 'Tow Bar'],
      dtype='object')

Fíjese en el nombre de algunas de las columnas, donde el nombre consta de dos palabras separadas por un espacio en blanco. Para un análisis posterior esto podría causar problemas, por eso es mejor que los nombre sean "una sola cadena unida de caracteres sin espacios en blanco".

Lo que haremos es renombrar o cambiar el nombre de esas columnas. Se lo puede hacer columna por columna, de manera individual, pero eso puede tomar tiempo si son muchas columnas a renombrar. Por eso, podemos también recorrer todas las columnas, verificando su nombre y al momento de encontrar espacios en blanco en el nombre de columna, reemplazamos ese espacio por un guión bajo _


In [7]:
toyota_df = toyota_df.rename(columns={'Radio cassette': 'Radio_cassette'})
toyota_df.columns

Index(['Id', 'Model', 'Price', 'Age_08_04', 'Mfg_Month', 'Mfg_Year', 'KM',
       'Fuel_Type', 'HP', 'Met_Color', 'Color', 'Automatic', 'CC', 'Doors',
       'Cylinders', 'Gears', 'Quarterly_Tax', 'Weight', 'Mfr_Guarantee',
       'BOVAG_Guarantee', 'Guarantee_Period', 'ABS', 'Airbag_1', 'Airbag_2',
       'Airco', 'Automatic_airco', 'Boardcomputer', 'CD_Player',
       'Central_Lock', 'Powered_Windows', 'Power_Steering', 'Radio',
       'Mistlamps', 'Sport_Model', 'Backseat_Divider', 'Metallic_Rim',
       'Radio_cassette', 'Parking Assistant', 'Tow Bar'],
      dtype='object')

We therefore strip trailing spaces and replace the remaining spaces with an underscore _. Instead of using the `rename` method, we create a modified copy of `columns` and assign to the `columns` field of the dataframe.

In [9]:
toyota_df.columns = [elemento.replace(' ', '_') for elemento in toyota_df.columns] #comprehension list
toyota_df.columns

Index(['Id', 'Model', 'Price', 'Age_08_04', 'Mfg_Month', 'Mfg_Year', 'KM',
       'Fuel_Type', 'HP', 'Met_Color', 'Color', 'Automatic', 'CC', 'Doors',
       'Cylinders', 'Gears', 'Quarterly_Tax', 'Weight', 'Mfr_Guarantee',
       'BOVAG_Guarantee', 'Guarantee_Period', 'ABS', 'Airbag_1', 'Airbag_2',
       'Airco', 'Automatic_airco', 'Boardcomputer', 'CD_Player',
       'Central_Lock', 'Powered_Windows', 'Power_Steering', 'Radio',
       'Mistlamps', 'Sport_Model', 'Backseat_Divider', 'Metallic_Rim',
       'Radio_cassette', 'Parking_Assistant', 'Tow_Bar'],
      dtype='object')

In [48]:
nuevos_nombres=[]
for elemento in ['cadena 1', 'cadena 2', 'otra cadena']:
    nuevos_nombres.append(elemento.replace(' ', '_').upper())
    
#toyota_df.columns = nuevos_nombres
    

In [49]:
elemento

'otra cadena'

In [50]:
nuevos_nombres

['CADENA_1', 'CADENA_2', 'OTRA_CADENA']

In [1]:
test = 'lorena recalde'
print(test)
result = test.replace(' ', '_')
print(result)
print(test)

lorena recalde
lorena_recalde
lorena recalde


In [12]:
' Radio cassette  '.strip()  #uso de la función strip() en cadenas de caracteres

'Radio cassette'

In [13]:
'Radio'.upper()  #uso de la función upper() para convertir a mayúsculas una cadena de caracteres

'RADIO'

## Explorando secciones o subsets de la data
Pandas usa los métodos "loc" y "iloc" para acceder a ciertas filas del dataframe. `loc` es más general y permite acceder a las filas usando sus "nombres" o "labels". `iloc` en cambio permite acceder a las filas usando su index o posición en el dataframe (se usan números). 

La notación slice es útil para especificar un rango de filas a las cuales acceder `0:9`.

<div class='alert alert-info'>Note that in contrast to R, Python uses 0-indexing, which means that indices start at 0 and not at 1.</div>

Para explorar las priemras 4 filas del dataframe, podemos aplicar lo siguiente.

In [14]:
toyota_df.loc[0:3]  # for loc, the second index in the slice is inclusive

Unnamed: 0,Id,Model,Price,Age_08_04,Mfg_Month,Mfg_Year,KM,Fuel_Type,HP,Met_Color,...,Powered_Windows,Power_Steering,Radio,Mistlamps,Sport_Model,Backseat_Divider,Metallic_Rim,Radio_cassette,Parking_Assistant,Tow_Bar
0,1,TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors,13500,23,10,2002,46986,Diesel,90,1,...,1,1,0,0,0,1,0,0,0,0
1,2,TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors,13750,23,10,2002,72937,Diesel,90,1,...,0,1,0,0,0,1,0,0,0,0
2,3,TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors,13950,24,9,2002,41711,Diesel,90,1,...,0,1,0,0,0,1,0,0,0,0
3,4,TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors,14950,26,7,2002,48000,Diesel,90,0,...,0,1,0,0,0,1,0,0,0,0


In [15]:
toyota_df.iloc[0:3]  # for iloc, the second index in the slice is exclusive

Unnamed: 0,Id,Model,Price,Age_08_04,Mfg_Month,Mfg_Year,KM,Fuel_Type,HP,Met_Color,...,Powered_Windows,Power_Steering,Radio,Mistlamps,Sport_Model,Backseat_Divider,Metallic_Rim,Radio_cassette,Parking_Assistant,Tow_Bar
0,1,TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors,13500,23,10,2002,46986,Diesel,90,1,...,1,1,0,0,0,1,0,0,0,0
1,2,TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors,13750,23,10,2002,72937,Diesel,90,1,...,0,1,0,0,0,1,0,0,0,0
2,3,TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors,13950,24,9,2002,41711,Diesel,90,1,...,0,1,0,0,0,1,0,0,0,0


Mire la diferencia entre los dos métodos de acceso respecto al slicing.

Miremos diferentes formas de desplegar el kilometraje de las 10 primeras observaciones.

In [16]:
toyota_df['KM'].iloc[0:10]

0    46986
1    72937
2    41711
3    48000
4    38500
5    61000
6    94612
7    75889
8    19700
9    71138
Name: KM, dtype: int64

In [17]:
toyota_df.iloc[0:10]['KM']  # el orden no es importante

0    46986
1    72937
2    41711
3    48000
4    38500
5    61000
6    94612
7    75889
8    19700
9    71138
Name: KM, dtype: int64

In [18]:
toyota_df.iloc[0:10].KM

0    46986
1    72937
2    41711
3    48000
4    38500
5    61000
6    94612
7    75889
8    19700
9    71138
Name: KM, dtype: int64

Mostremos la 5ta fila con las 10 primeras columnas. `iloc` permite especificar las filas y columnas colocándoles dentro de corchetes
Show the fifth row of the first 10 columns. The `iloc` methods allows specifying the rows and columns within one set of brackets. `dataframe.iloc[rows, columns]`

In [19]:
toyota_df.iloc[4][0:10]
toyota_df.iloc[4, 0:10]  # las dos formas hacen lo mismo

Id                                                     5
Model        TOYOTA Corolla 2.0 D4D HATCHB SOL 2/3-Doors
Price                                              13750
Age_08_04                                             30
Mfg_Month                                              3
Mfg_Year                                            2002
KM                                                 38500
Fuel_Type                                         Diesel
HP                                                    90
Met_Color                                              0
Name: 4, dtype: object

Si queremos que el despliegue sea en un formato de dataframe, también usamos la notación slicing en las filas.

In [20]:
toyota_df.iloc[4:5, 0:10]

Unnamed: 0,Id,Model,Price,Age_08_04,Mfg_Month,Mfg_Year,KM,Fuel_Type,HP,Met_Color
4,5,TOYOTA Corolla 2.0 D4D HATCHB SOL 2/3-Doors,13750,30,3,2002,38500,Diesel,90,0


Use el método `pd.concat` si usted quiere combinar columnas que NO SON CONSECUTIVAS en un nuevo dataframe. El parámetro `axis` especifica si la concatenación será en la dimensión x o y, 0=rows, 1=columns.

In [21]:
pd.concat([toyota_df.iloc[4:6,0:2], toyota_df.iloc[4:6,4:6]], axis=1)

Unnamed: 0,Id,Model,Mfg_Month,Mfg_Year
4,5,TOYOTA Corolla 2.0 D4D HATCHB SOL 2/3-Doors,3,2002
5,6,TOYOTA Corolla 2.0 D4D HATCHB SOL 2/3-Doors,1,2002


In [22]:
pd.concat([toyota_df.iloc[4:6,0:2], toyota_df.iloc[10:14,0:2]], axis=0)

Unnamed: 0,Id,Model
4,5,TOYOTA Corolla 2.0 D4D HATCHB SOL 2/3-Doors
5,6,TOYOTA Corolla 2.0 D4D HATCHB SOL 2/3-Doors
10,11,TOYOTA Corolla 1.8 VVTL-i T-Sport 3-Drs 2/3-Doors
11,12,TOYOTA Corolla 1.8 16V VVTLI 3DR T SPORT BNS 2...
12,13,TOYOTA Corolla 1.8 16V VVTLI 3DR T SPORT 2/3-D...
13,14,TOYOTA Corolla 1.8 16V VVTLI 3DR T SPORT 2/3-D...


Para desplegar todos los datos de una columna use `:`.
```
toyota_df.iloc[:,1:2]
```
Una manera más práctica es usar el nombre de la columna.

In [23]:
toyota_df['Model']

0           TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors
1           TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors
2           TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors
3           TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors
4             TOYOTA Corolla 2.0 D4D HATCHB SOL 2/3-Doors
                              ...                        
1431           TOYOTA Corolla 1.3 16V HATCHB G6 2/3-Doors
1432    TOYOTA Corolla 1.3 16V HATCHB LINEA TERRA 2/3-...
1433    TOYOTA Corolla 1.3 16V HATCHB LINEA TERRA 2/3-...
1434    TOYOTA Corolla 1.3 16V HATCHB LINEA TERRA 2/3-...
1435          TOYOTA Corolla 1.6 LB LINEA TERRA 4/5-Doors
Name: Model, Length: 1436, dtype: object

Podemos seleccionar un subset de la columna usando slice

In [24]:
toyota_df['Model'][0:10]

0    TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors
1    TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors
2    TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors
3    TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors
4      TOYOTA Corolla 2.0 D4D HATCHB SOL 2/3-Doors
5      TOYOTA Corolla 2.0 D4D HATCHB SOL 2/3-Doors
6    TOYOTA Corolla 2.0 D4D 90 3DR TERRA 2/3-Doors
7    TOYOTA Corolla 2.0 D4D 90 3DR TERRA 2/3-Doors
8      TOYOTA Corolla 1800 T SPORT VVT I 2/3-Doors
9      TOYOTA Corolla 1.9 D HATCHB TERRA 2/3-Doors
Name: Model, dtype: object

Pandas provides a number of ways to access statistics of the columns.

In [25]:
print('Número de filas ', len(toyota_df['KM']))
print('Promedio de Kilometraje ', round(toyota_df['KM'].mean(), 2))

Número de filas  1436
Promedio de Kilometraje  68533.26


Un dataframe tiene el método `describe` que nos devuelve las estadísticas base para una variable numérica 

In [26]:
toyota_df['KM'].describe()

count      1436.000000
mean      68533.259749
std       37506.448872
min           1.000000
25%       43000.000000
50%       63389.500000
75%       87020.750000
max      243000.000000
Name: KM, dtype: float64

In [27]:
toyota_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1436 entries, 0 to 1435
Data columns (total 39 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Id                 1436 non-null   int64 
 1   Model              1436 non-null   object
 2   Price              1436 non-null   int64 
 3   Age_08_04          1436 non-null   int64 
 4   Mfg_Month          1436 non-null   int64 
 5   Mfg_Year           1436 non-null   int64 
 6   KM                 1436 non-null   int64 
 7   Fuel_Type          1436 non-null   object
 8   HP                 1436 non-null   int64 
 9   Met_Color          1436 non-null   int64 
 10  Color              1436 non-null   object
 11  Automatic          1436 non-null   int64 
 12  CC                 1436 non-null   int64 
 13  Doors              1436 non-null   int64 
 14  Cylinders          1436 non-null   int64 
 15  Gears              1436 non-null   int64 
 16  Quarterly_Tax      1436 non-null   int64 


In [28]:
toyota_df.describe()

Unnamed: 0,Id,Price,Age_08_04,Mfg_Month,Mfg_Year,KM,HP,Met_Color,Automatic,CC,...,Powered_Windows,Power_Steering,Radio,Mistlamps,Sport_Model,Backseat_Divider,Metallic_Rim,Radio_cassette,Parking_Assistant,Tow_Bar
count,1436.0,1436.0,1436.0,1436.0,1436.0,1436.0,1436.0,1436.0,1436.0,1436.0,...,1436.0,1436.0,1436.0,1436.0,1436.0,1436.0,1436.0,1436.0,1436.0,1436.0
mean,721.555014,10730.824513,55.947075,5.548747,1999.625348,68533.259749,101.502089,0.674791,0.05571,1576.85585,...,0.561978,0.977716,0.14624,0.256964,0.300139,0.770195,0.204735,0.145543,0.002786,0.277855
std,416.47689,3626.964585,18.599988,3.354085,1.540722,37506.448872,14.98108,0.468616,0.229441,424.38677,...,0.496317,0.147657,0.353469,0.437111,0.458478,0.420854,0.403649,0.35277,0.052723,0.448098
min,1.0,4350.0,1.0,1.0,1998.0,1.0,69.0,0.0,0.0,1300.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,361.75,8450.0,44.0,3.0,1998.0,43000.0,90.0,0.0,0.0,1400.0,...,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
50%,721.5,9900.0,61.0,5.0,1999.0,63389.5,110.0,1.0,0.0,1600.0,...,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
75%,1081.25,11950.0,70.0,8.0,2001.0,87020.75,110.0,1.0,0.0,1600.0,...,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,1.0
max,1442.0,32500.0,80.0,12.0,2004.0,243000.0,192.0,1.0,1.0,16000.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


Podemos usar el método `sample` para retornar un conjunto aleatorio de observaciones, por ejemplo, aquí se seleccionas 5.

In [29]:
toyota_df.sample(5)

Unnamed: 0,Id,Model,Price,Age_08_04,Mfg_Month,Mfg_Year,KM,Fuel_Type,HP,Met_Color,...,Powered_Windows,Power_Steering,Radio,Mistlamps,Sport_Model,Backseat_Divider,Metallic_Rim,Radio_cassette,Parking_Assistant,Tow_Bar
505,508,TOYOTA Corolla 1.6 16V VVT I LIFTB TERRA 4/5-D...,11500,54,3,2000,55877,Petrol,110,1,...,0,1,0,0,0,1,0,0,0,1
1407,1414,TOYOTA Corolla 1.6 GL LB 4/5-Doors,8250,69,12,1998,44826,Petrol,110,0,...,1,1,0,0,0,1,0,0,0,1
543,546,TOYOTA Corolla 1.4 16V VVT I HATCHB TERRA 2/3-...,10900,50,7,2000,46000,Petrol,97,0,...,0,1,1,0,0,1,0,1,0,0
1160,1166,TOYOTA Corolla 1.6 16V S-uitvoering 2/3-Doors,8450,71,10,1998,98154,Petrol,110,1,...,1,1,0,0,0,0,1,0,0,0
1394,1401,TOYOTA Corolla 1.6 16V SEDAN LINEA TERRA 4/5-D...,7450,80,1,1998,49580,Petrol,110,1,...,1,1,0,0,0,0,0,0,0,0


The sample method allows to specify weights for the individual rows. We use this here to oversample houses with over 10 rooms.

## Tipos de variables

In [30]:
toyota_df.columns

Index(['Id', 'Model', 'Price', 'Age_08_04', 'Mfg_Month', 'Mfg_Year', 'KM',
       'Fuel_Type', 'HP', 'Met_Color', 'Color', 'Automatic', 'CC', 'Doors',
       'Cylinders', 'Gears', 'Quarterly_Tax', 'Weight', 'Mfr_Guarantee',
       'BOVAG_Guarantee', 'Guarantee_Period', 'ABS', 'Airbag_1', 'Airbag_2',
       'Airco', 'Automatic_airco', 'Boardcomputer', 'CD_Player',
       'Central_Lock', 'Powered_Windows', 'Power_Steering', 'Radio',
       'Mistlamps', 'Sport_Model', 'Backseat_Divider', 'Metallic_Rim',
       'Radio_cassette', 'Parking_Assistant', 'Tow_Bar'],
      dtype='object')

In [31]:
toyota_df.dtypes

Id                    int64
Model                object
Price                 int64
Age_08_04             int64
Mfg_Month             int64
Mfg_Year              int64
KM                    int64
Fuel_Type            object
HP                    int64
Met_Color             int64
Color                object
Automatic             int64
CC                    int64
Doors                 int64
Cylinders             int64
Gears                 int64
Quarterly_Tax         int64
Weight                int64
Mfr_Guarantee         int64
BOVAG_Guarantee       int64
Guarantee_Period      int64
ABS                   int64
Airbag_1              int64
Airbag_2              int64
Airco                 int64
Automatic_airco       int64
Boardcomputer         int64
CD_Player             int64
Central_Lock          int64
Powered_Windows       int64
Power_Steering        int64
Radio                 int64
Mistlamps             int64
Sport_Model           int64
Backseat_Divider      int64
Metallic_Rim        

In [32]:
print(toyota_df.Color.dtype)
toyota_df.Color = toyota_df.Color.astype('category')
print(toyota_df.Color.cat.categories)  #cada observación toma uno de los posibles 10 niveles
print(toyota_df.Color.dtype)  # Type is now 'category'

object
Index(['Beige', 'Black', 'Blue', 'Green', 'Grey', 'Red', 'Silver', 'Violet',
       'White', 'Yellow'],
      dtype='object')
category


Other columns also have types.

In [33]:
print(toyota_df.KM.dtype)  # integer variable
print(toyota_df.Price.dtype)  # integer variable

int64
int64


It's also possible to get the data types for all columns 

In [34]:
toyota_df.dtypes

Id                      int64
Model                  object
Price                   int64
Age_08_04               int64
Mfg_Month               int64
Mfg_Year                int64
KM                      int64
Fuel_Type              object
HP                      int64
Met_Color               int64
Color                category
Automatic               int64
CC                      int64
Doors                   int64
Cylinders               int64
Gears                   int64
Quarterly_Tax           int64
Weight                  int64
Mfr_Guarantee           int64
BOVAG_Guarantee         int64
Guarantee_Period        int64
ABS                     int64
Airbag_1                int64
Airbag_2                int64
Airco                   int64
Automatic_airco         int64
Boardcomputer           int64
CD_Player               int64
Central_Lock            int64
Powered_Windows         int64
Power_Steering          int64
Radio                   int64
Mistlamps               int64
Sport_Mode

## Variables Dummies
Pandas nos ayuda a la conversión de las variables categóricas a dummies - one-hot encoding

In [35]:
#toyota_df = pd.get_dummies(toyota_df, prefix_sep='_', drop_first=True)
toyota_df = pd.get_dummies(toyota_df, prefix_sep='_', drop_first=True, columns=['Color'])
toyota_df.columns

Index(['Id', 'Model', 'Price', 'Age_08_04', 'Mfg_Month', 'Mfg_Year', 'KM',
       'Fuel_Type', 'HP', 'Met_Color', 'Automatic', 'CC', 'Doors', 'Cylinders',
       'Gears', 'Quarterly_Tax', 'Weight', 'Mfr_Guarantee', 'BOVAG_Guarantee',
       'Guarantee_Period', 'ABS', 'Airbag_1', 'Airbag_2', 'Airco',
       'Automatic_airco', 'Boardcomputer', 'CD_Player', 'Central_Lock',
       'Powered_Windows', 'Power_Steering', 'Radio', 'Mistlamps',
       'Sport_Model', 'Backseat_Divider', 'Metallic_Rim', 'Radio_cassette',
       'Parking_Assistant', 'Tow_Bar', 'Color_Black', 'Color_Blue',
       'Color_Green', 'Color_Grey', 'Color_Red', 'Color_Silver',
       'Color_Violet', 'Color_White', 'Color_Yellow'],
      dtype='object')

In [36]:
toyota_df.shape

(1436, 47)

In [37]:
print(toyota_df.loc[:, 'Color_Black':'Color_Yellow'].head(5))

   Color_Black  Color_Blue  Color_Green  Color_Grey  Color_Red  Color_Silver  \
0            0           1            0           0          0             0   
1            0           0            0           0          0             1   
2            0           1            0           0          0             0   
3            1           0            0           0          0             0   
4            1           0            0           0          0             0   

   Color_Violet  Color_White  Color_Yellow  
0             0            0             0  
1             0            0             0  
2             0            0             0  
3             0            0             0  
4             0            0             0  


## Missing values
Para mirar cómo procedemos cuando encontramos `missing values` en nuestro dataframe vamos primero a eliminar unos valores de la columna `KM`, covirtiendo ciertos valores a NaN. Luego lo que hacemos para gestionar valores faltantes es "imputar" valores que serán calculados a partir de la data que sí existe. Una manera es usando la mediana

In [38]:
print('Número de filas válidas para la columna KM: ', 
      toyota_df['KM'].count()) 
missingRows = toyota_df.sample(10).index
print('Filas de las que eliminaremos los datos: ', missingRows)
print()

toyota_df.loc[missingRows, 'KM'] = np.nan
print('Número de filas válidas para la columna KM luego de aplicar NaN en un sample: ', 
      toyota_df['KM'].count()) 

Número de filas válidas para la columna KM:  1436
Filas de las que eliminaremos los datos:  Int64Index([31, 842, 349, 658, 1285, 567, 713, 431, 87, 1089], dtype='int64')

Número de filas válidas para la columna KM luego de aplicar NaN en un sample:  1426


In [39]:
# Cuando son pocas filas con missing values y las filas tienen valores faltantes en varias de las columnas se 
# puede evaluar si lo mejor es quitarlas del dataframe

# Probemos entonces la opción de eliminar filas que contienen missing values, para no clamiar nuestro dataframe, 
# mejor creamos uno nuevo

reduced_df = toyota_df.dropna() #búsqueda de missing values en todos los campos del dataframe
print('Número de filas después de eliminar las que tienen missing values: ', len(reduced_df))

Número de filas después de eliminar las que tienen missing values:  1426


### Uso de la mediana
Un método habitual para imputar valores en las celdas vacías de una columna es basarse en los valores existentes de las celdas válidas.
Replace the missing values using the median of the remaining values.

Pandas usa la mediana o `median` para imputar missing values de la columna. 

In [40]:
missing = toyota_df['KM'].isna().sum()
print('Número de valores faltantes en la columan KM: ', missing)

medianKM = toyota_df['KM'].median()
print('Mediana para KM: ', medianKM)

toyota_df.KM = toyota_df.KM.fillna(value=medianKM)
print('Número de filas válidas para la columna KM luego de imputar missing values con la mediana: ',
      toyota_df['KM'].count())

Número de valores faltantes en la columan KM:  10
Mediana para KM:  63200.5
Número de filas válidas para la columna KM luego de imputar missing values con la mediana:  1436
