In [1]:
import pandas as pd

### Cargamos los datos.

In [2]:
data = pd.read_csv('data/measurements.csv')

In [3]:
data.head()

Unnamed: 0,distance,consume,speed,temp_inside,temp_outside,specials,gas_type,AC,rain,sun,refill liters,refill gas
0,28,5,26,215,12,,E10,0,0,0,45.0,E10
1,12,42,30,215,13,,E10,0,0,0,,
2,112,55,38,215,15,,E10,0,0,0,,
3,129,39,36,215,14,,E10,0,0,0,,
4,185,45,46,215,15,,E10,0,0,0,,


In [4]:
data2 = pd.read_excel('data/measurements2.xlsx')

In [5]:
data2.head()

Unnamed: 0,distance,consume,speed,temp_inside,temp_outside,specials,gas_type,AC,rain,sun,refill liters,refill gas
0,28.0,5.0,26,21.5,12,,E10,0,0,0,45.0,E10
1,12.0,4.2,30,21.5,13,,E10,0,0,0,,
2,11.2,5.5,38,21.5,15,,E10,0,0,0,,
3,12.9,3.9,36,21.5,14,,E10,0,0,0,,
4,18.5,4.5,46,21.5,15,,E10,0,0,0,,


Nos damos cuenta de que los dos datasets son muy similares, así que lo comprobamos.

In [6]:
data2 == data

Unnamed: 0,distance,consume,speed,temp_inside,temp_outside,specials,gas_type,AC,rain,sun,refill liters,refill gas
0,False,False,True,False,True,False,True,True,True,True,False,True
1,False,False,True,False,True,False,True,True,True,True,False,False
2,False,False,True,False,True,False,True,True,True,True,False,False
3,False,False,True,False,True,False,True,True,True,True,False,False
4,False,False,True,False,True,False,True,True,True,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...
383,False,False,True,False,True,False,True,True,True,True,False,False
384,False,False,True,False,True,True,True,True,True,True,False,False
385,False,False,True,False,True,False,True,True,True,True,False,False
386,False,False,True,False,True,True,True,True,True,True,False,False


Los DataFrames no son exactamente iguales. Parece que lo que ocurre es que contienen la misma información, pero en diferente tipo de datos (dígitos en string vs. float, por ejemplo).

Profundizaremos un poco más en las características de los datos y, si comprobamos que nuestras sospechas se cumplen, nos quedaremos con el dataset que más nos convenga (el que requiera de una limpieza menor para empezar a trabajar).

### Exploración y limpieza básica inicial.

Iremos chequeando lo mismo para los dos datasets para poder compararlos.

In [7]:
data.shape

(388, 12)

In [8]:
data2.shape

(388, 12)

In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 388 entries, 0 to 387
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   distance       388 non-null    object
 1   consume        388 non-null    object
 2   speed          388 non-null    int64 
 3   temp_inside    376 non-null    object
 4   temp_outside   388 non-null    int64 
 5   specials       93 non-null     object
 6   gas_type       388 non-null    object
 7   AC             388 non-null    int64 
 8   rain           388 non-null    int64 
 9   sun            388 non-null    int64 
 10  refill liters  13 non-null     object
 11  refill gas     13 non-null     object
dtypes: int64(5), object(7)
memory usage: 36.5+ KB


In [10]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 388 entries, 0 to 387
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   distance       388 non-null    float64
 1   consume        388 non-null    float64
 2   speed          388 non-null    int64  
 3   temp_inside    376 non-null    float64
 4   temp_outside   388 non-null    int64  
 5   specials       93 non-null     object 
 6   gas_type       388 non-null    object 
 7   AC             388 non-null    int64  
 8   rain           388 non-null    int64  
 9   sun            388 non-null    int64  
 10  refill liters  13 non-null     float64
 11  refill gas     13 non-null     object 
dtypes: float64(4), int64(5), object(3)
memory usage: 36.5+ KB


Observamos como los dos datasets tienen el mismo shape y las mismas columnas.

La diferencia entre ambos es el tipo de datos que contienen cada columna. Mientras en data2 las columnas numéricas son de tipo float; en data esta columnas son tipo object (contienen strings). Todo indica a que este dataset es una variación del primero como resultado de diferentes procesos de limpieza básica. Evidentemente nos interesa tener ya los datos en el tipo adecuado, por lo que trabajaremos sobre **data2**.

In [11]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 388 entries, 0 to 387
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   distance       388 non-null    float64
 1   consume        388 non-null    float64
 2   speed          388 non-null    int64  
 3   temp_inside    376 non-null    float64
 4   temp_outside   388 non-null    int64  
 5   specials       93 non-null     object 
 6   gas_type       388 non-null    object 
 7   AC             388 non-null    int64  
 8   rain           388 non-null    int64  
 9   sun            388 non-null    int64  
 10  refill liters  13 non-null     float64
 11  refill gas     13 non-null     object 
dtypes: float64(4), int64(5), object(3)
memory usage: 36.5+ KB


Encontramos dos columnas con muy pocos valores no nulos (13 sobre 388; 3,35% de los datos).

Probablemente lo más apropiado sea eliminar estas columnas ('refill liters' y 'refill gas') ya que no tenemos manera de manejar los datos nulos).
También encontramos muchos valores nulos en la columna 'specials', pero la proporción sobre el total de registros no es tan elevada, por lo que deberemos estudiar mejor la situación respecto a esta columna.

In [12]:
data2['refill liters'].value_counts()

45.0    2
37.7    2
39.0    2
37.6    1
38.0    1
38.3    1
10.0    1
41.0    1
37.0    1
37.2    1
Name: refill liters, dtype: int64

In [13]:
data2['refill gas'].value_counts()

SP98    8
E10     5
Name: refill gas, dtype: int64

In [14]:
# Eliminamos estas 2 columnas ya que no podemos identificar el valor que aportan al dataset.

data2.drop(columns = ['refill liters', 'refill gas'], inplace=True)

**Analizamos la situación de 'specials'.**

In [15]:
data2.specials.value_counts()

rain                  32
sun                   27
AC rain                9
ac                     8
AC                     6
snow                   3
sun ac                 3
AC snow                1
half rain half sun     1
AC sun                 1
AC Sun                 1
ac rain                1
Name: specials, dtype: int64

In [16]:
data2.columns

Index(['distance', 'consume', 'speed', 'temp_inside', 'temp_outside',
       'specials', 'gas_type', 'AC', 'rain', 'sun'],
      dtype='object')

In [17]:
data2.AC.value_counts()

0    358
1     30
Name: AC, dtype: int64

Nos damos cuenta de que los valores no nulos de esta columna se relacionan con otras columnas del DataFrame. ('AC', 'rain' y 'sun').

Lo que se ha hecho (antes de entregarnos los datos) ha sido generar variables ficticias (dummies) en función del contenido de 'specials': el valor de estas columnas es 0 o 1 en función de si aparece 'AC', 'rain' o 'sun' en la columna 'specials'.

Por tanto, podemos eliminar la columna 'specials' ya que la información que nos aporta está recogida en los datos de las tres columnas anteriormente mencionadas.

In [18]:
data2.drop('specials', axis=1, inplace=True)

In [19]:
data2.head()

Unnamed: 0,distance,consume,speed,temp_inside,temp_outside,gas_type,AC,rain,sun
0,28.0,5.0,26,21.5,12,E10,0,0,0
1,12.0,4.2,30,21.5,13,E10,0,0,0
2,11.2,5.5,38,21.5,15,E10,0,0,0
3,12.9,3.9,36,21.5,14,E10,0,0,0
4,18.5,4.5,46,21.5,15,E10,0,0,0


In [20]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 388 entries, 0 to 387
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   distance      388 non-null    float64
 1   consume       388 non-null    float64
 2   speed         388 non-null    int64  
 3   temp_inside   376 non-null    float64
 4   temp_outside  388 non-null    int64  
 5   gas_type      388 non-null    object 
 6   AC            388 non-null    int64  
 7   rain          388 non-null    int64  
 8   sun           388 non-null    int64  
dtypes: float64(3), int64(5), object(1)
memory usage: 27.4+ KB


Llegados a este punto solo nos quedan 12 valores nulos en la columna 'temp_inside'. Esto probablemente se deba al desconocimiento del dato para los registros con valores nulos. Por el momento no eliminaremos estos registros y simplemente sustituiremos los 'NaN' por 'unknown'.

In [21]:
data2.temp_inside.fillna('unknown', inplace=True)

In [22]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 388 entries, 0 to 387
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   distance      388 non-null    float64
 1   consume       388 non-null    float64
 2   speed         388 non-null    int64  
 3   temp_inside   388 non-null    object 
 4   temp_outside  388 non-null    int64  
 5   gas_type      388 non-null    object 
 6   AC            388 non-null    int64  
 7   rain          388 non-null    int64  
 8   sun           388 non-null    int64  
dtypes: float64(2), int64(5), object(2)
memory usage: 27.4+ KB


Ya tenemos los datos preparados para comenzar a trabajar con ellos y tratar de extraer conclusiones relevantes.

Expotamos los datos para trabajar con ellos en otro notebook.

In [24]:
data2.to_csv('data/clean_data.csv', index=False)