# Introducción
The objective of this introductory notebook is to learn how to read a data file and obtain some first insights. 
El objetivo de este libro introductorio es aprender a como leer un fichero de datos y realizar un primer análisis de éste

#### Librerías requeridas
* <a href = "https://pandas.pydata.org/"><code>Pandas</code></a>
* <a href = "https://www.scipy.org/"><code>Scipy</code></a> 
* <a href = "https://numpy.org/"><code>Numpy</code></a> 

#### Tabla de contenidos
<ol>
    <li><a href="#read_data_files">Leer ficheros de datos</a></li>
    <li><a href="#save_data_files">Guardar ficheros de datos</a></li>
    <li><a href="#subsetting_dataframe">Seleccionar muestras de un dataframe</a><br>
        3.1. <a href="#subset_selection_indexing_operator">Seleccionar muestras con<code>[]</code></a><br>
        3.2. <a href="#subset_selection_loc">Seleccionar muestras con <code>.loc</code></a><br>
        3.3. <a href="#subset_selection_iloc">Seleccionar muestras con <code>.iloc</code></a>
    </li>
    <li><a href="#insights_dataframe">Análisis de un dataframe</a><br>
        4.1. <a href="#data_types">Tipos de datos</a><br>
        4.2. <a href="#describe"><code>describe</code></a>
    </li>
</ol>

***

<h2 id="read_data_files">1 - Leer ficheros de datos</h2>

Existen varias formas de almacenar datos. Los más comunes son
* Comma separated values (**CSV**).
* Attribute-Relation File Format (**ARFF**).
* Microsoft Excel (XLSX).
* JavaScript Object Notation (JSON).

<a href = "https://pandas.pydata.org/">**Pandas**</a> es una librería muy potente para leer y procesar estos formatos de ficheros de datos. Cuando un fichero de datos es leido, éste es cargado en memoria usando una estructura de datos específica llamada <code>DataFrame</code>, la cual nos permite trabajar con datos internos. Un <code>DataFrame</code> es una estructura tabular de dos dimensiones, con datos potencialmente heterogeneos y ejes etiquetados (columnas y filas).

In [None]:
import pandas as pd

#dir(pd)
#dir(pd.DataFrame)
#help(pd.DataFrame.shape)

Para entender mejor el funcionamiento interno de esta librería, vamos a trabajar con este conjunto de datos open-source, <a href = "https://archive.ics.uci.edu/ml/datasets/automobile">**Automobile**</a> disponible en <a href = "https://archive.ics.uci.edu/ml/index.php">**UCI Machine learning repository**</a> Aunque podemos bajarnos el conjunto de datos de la web oficial, por simplicidad vamos a trabajar con nuestra propia copia.
* <code>Data/automobile.csv</code>
* <code>Data/automobile.arff</code>

Usamos la función <code>pandas.read_csv()</code> para leer el fichero csv. Dentro del paréntesis colocaremos el path del fichero que queremos leer entre comillas. El path bien puede ser una URL o un fichero local.<br>

In [None]:
df = pd.read_csv("automobile.csv")

In [None]:
df.shape

(205, 26)

Después de leer el conjunto de datos, vamos a usar <code>dataframe.head(n)</code> para chequear las primeras n filas de él, donde n es un entero. De modo contrario a <code>dataframe.head(n)</code>, <code>dataframe.tail(n)</code> nos mostrará las últimas n filas.

In [None]:
# show the first 5 rows using dataframe.head() method
print("Las primeras 5 filas del dataframe") 
df.head(10)

Las primeras 5 filas del dataframe


Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,?,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
9,0,?,audi,gas,turbo,two,hatchback,4wd,front,99.5,...,131,mpfi,3.13,3.4,7.0,160,5500,16,22,?


<h2 id="save_data_files">2 - Guardar fichero de datos</h2>
<p>
Pandas nos permite guardar nuestro conjunto de datos a un fichero csv medinate el método <code>dataframe.to_csv(). </code>
</p>
<p>
    Por ejemplo, si quisiéramos guardar el dataframe <code>df</code> como <b>automobile.csv</b> en nuestra máquina local, podemos usar la sintáxis:
</p>

In [None]:
df.to_csv("automobile.csv", index=False) 

Podemos leer o cargar el conjunto de datos en otros formatos de forma similar a la que lo hacemos con el formato csv:

| Data format  | Read           | Save             |
| ------------- |:--------------:| ----------------:|
| csv           | `pd.read_csv()`  |`df.to_csv()`     |
| json          | `pd.read_json()` |`df.to_json()`    |
| excel         | `pd.read_excel()`|`df.to_excel()`   |
| hdf           | `pd.read_hdf()`  |`df.to_hdf()`     |
| sql           | `pd.read_sql()`  |`df.to_sql()`     |
| ...           |   ...          |       ...        |


Sin embargo, no disponemos del tipo de datos <a href="https://www.cs.waikato.ac.nz/ml/weka/arff.html">**ARFF**. 
</a>. Esto es debido a que Pandas no soporta directamente este tipo de datos. Para cargar un fichero en formato ARFF necesitamos usar otra librería, Scipy. Ésta generará un array Numpy primero. Después, pasaremos este array a un Dataframe de Pandas.

In [None]:
from scipy.io import arff

# Scipy no permite cargar arhivos Arff desde una URL directamente como sí nos permite Pandas
data_arff = arff.loadarff("automobile.arff")
df_arff = pd.DataFrame(data_arff[0])

df_arff.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,b'3',,b'alfa-romero',b'gas',b'std',b'two',b'convertible',b'rwd',b'front',88.6,...,130.0,b'mpfi',3.47,2.68,9.0,111.0,5000.0,21.0,27.0,13495.0
1,b'3',,b'alfa-romero',b'gas',b'std',b'two',b'convertible',b'rwd',b'front',88.6,...,130.0,b'mpfi',3.47,2.68,9.0,111.0,5000.0,21.0,27.0,16500.0
2,b'1',,b'alfa-romero',b'gas',b'std',b'two',b'hatchback',b'rwd',b'front',94.5,...,152.0,b'mpfi',2.68,3.47,9.0,154.0,5000.0,19.0,26.0,16500.0
3,b'2',164.0,b'audi',b'gas',b'std',b'four',b'sedan',b'fwd',b'front',99.8,...,109.0,b'mpfi',3.19,3.4,10.0,102.0,5500.0,24.0,30.0,13950.0
4,b'2',164.0,b'audi',b'gas',b'std',b'four',b'sedan',b'4wd',b'front',99.4,...,136.0,b'mpfi',3.19,3.4,8.0,115.0,5500.0,18.0,22.0,17450.0


Habrás notado que todas las columnas con valores discretos tiene una <code>b'</code> precediendo su valor. Esto es debido a que Scipy ha cargado cada uno de estos valores como una secuenca de bits. Esto se puede solucionar transformándolos en en strings:

In [None]:
import numpy as np

#float_df = df_arff.select_dtypes(float) # To test how to select other columns by their data type

str_df = df_arff.select_dtypes([np.object])
str_df = str_df.stack().str.decode('utf-8').unstack()
str_df.head(5)

Unnamed: 0,symboling,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,engine-type,num-of-cylinders,fuel-system
0,3,alfa-romero,gas,std,two,convertible,rwd,front,dohc,four,mpfi
1,3,alfa-romero,gas,std,two,convertible,rwd,front,dohc,four,mpfi
2,1,alfa-romero,gas,std,two,hatchback,rwd,front,ohcv,six,mpfi
3,2,audi,gas,std,four,sedan,fwd,front,ohc,four,mpfi
4,2,audi,gas,std,four,sedan,4wd,front,ohc,five,mpfi


In [None]:
df.dtypes

symboling              int64
normalized-losses     object
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                  object
stroke                object
compression-ratio    float64
horsepower            object
peak-rpm              object
city-mpg               int64
highway-mpg            int64
price                 object
dtype: object

In [None]:
df[["make", "symboling"]]

Unnamed: 0,make,symboling
0,alfa-romero,3
1,alfa-romero,3
2,alfa-romero,1
3,audi,2
4,audi,2
...,...,...
200,volvo,-1
201,volvo,-1
202,volvo,-1
203,volvo,-1


<h2 id="subsetting_dataframe">3 - Seleccionar muestras de un DataFrame </h2>
Un DataFrame está compuesto de tres elementos, el índice, las columnas y los datos (o Valores). La principal ide de un DataFrame es que cada columna y cada fila tiene una etiqueta. Estas etiquetas son usadas para acceder a columnas y filas específicas en el DataFrame. Es similar a como los humanos usamos los nombres para referirnos a personas específicas. 

In [None]:
index = df.index
columns = df.columns
values = df.values

print(type(index))
print(type(columns))
print(type(values))

<class 'pandas.core.indexes.range.RangeIndex'>
<class 'pandas.core.indexes.base.Index'>
<class 'numpy.ndarray'>


Hay tres formas de seleccionar muestras de un DataFrame en Pandas:
* El operador <code>[]</code> (también llamado **indexing operator**). 
* El atributo <code>loc</code> seguido del operador <code>[]</code>. 
* El atributo<code>iloc</code> seguido del operador <code>[]</code>.

<h3 id="subset_selection_indexing_operator">3.1 - Selección de muestras con <code>[]</code></h3>
Su principal propósito es seleccionar columnas haciendo uso de su nombre. Podemos seleccionar una o varias columnas

In [None]:
df["make"].head(5)

0    alfa-romero
1    alfa-romero
2    alfa-romero
3           audi
4           audi
Name: make, dtype: object

Si seleccionamos una sola columna obtendermos otro tipo de contenedor de Pandas. Las <code>Series</code>. Una <code>Serie</code> es un conjunto de datos de 1 dimensión etiquetados.  Una serie tiene dos componentes: El índice y los datos (o valores). No existen columnas en las Series.

In [None]:
df[["normalized-losses"]].head(5)

Unnamed: 0,normalized-losses
0,?
1,?
2,?
3,164
4,164


Si usamos doble <code>[]</code> en vez de uno, obtenemos un <code>DataFrame</code> en vez de una <code>Series</code>.

In [None]:
df[["fuel-system", "make"]].tail(5) # we dont have to follow the original column order when subsetting

Unnamed: 0,fuel-system,make
200,mpfi,volvo
201,mpfi,volvo
202,mpfi,volvo
203,idi,volvo
204,mpfi,volvo


<h3 id="subset_selection_loc">3.2 - Selección de muestras con  <code>.loc</code></h3>

el método .loc selecciona muestras de una forma diferente. Puede seleccionar un conjunto de filas o columnas. Además, puede seleccionar simultáneamente un conjunto de filas y columnas. Y lo más importante, solo selecciona datos a partir de las etiquetas de las filas y las columnas.

<span style="color:red">**Nota:** Si no se han asignado etiquetas, tendremos que usar índices </span>

#### Ejemplos sin etiquetas en las filas o columnas

In [None]:
df_simple = pd.DataFrame([[1, 2], [4, 5], [7, 8]], columns=["a", "b"])
df_simple

Unnamed: 0,a,b
0,1,2
1,4,5
2,7,8


#### Ejemplos con etiquetas tanto en filas como en columnas

In [None]:
df_simple = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]],
                  index=['cobra', 'viper', 'sidewinder'],
                  columns=['cobra', 'viper', 'sidewinder'])
df_simple

Unnamed: 0,cobra,viper,sidewinder
cobra,1,2,3
viper,4,5,6
sidewinder,7,8,9


In [None]:
df_simple.loc["viper"]

cobra         4
viper         5
sidewinder    6
Name: viper, dtype: int64

In [None]:
df_simple.loc["cobra", ["cobra","viper"]]

cobra    1
viper    2
Name: cobra, dtype: int64

#### Ejemplo con etiquetas de columnas pero sin etiquetas en las filas

In [None]:
df.loc[0] # first row, returns a Series

symboling                      3
normalized-losses              ?
make                 alfa-romero
fuel-type                    gas
aspiration                   std
num-of-doors                 two
body-style           convertible
drive-wheels                 rwd
engine-location            front
wheel-base                  88.6
length                     168.8
width                       64.1
height                      48.8
curb-weight                 2548
engine-type                 dohc
num-of-cylinders            four
engine-size                  130
fuel-system                 mpfi
bore                        3.47
stroke                      2.68
compression-ratio              9
horsepower                   111
peak-rpm                    5000
city-mpg                      21
highway-mpg                   27
price                      13495
Name: 0, dtype: object

Es posible hacer un ‘slice’ de las filas de un DataFrame con .loc haciendo uso de la notación slice. Ésta usa el símbolo de dos puntos para separar el comienzo, final y paso de los valores. Por ejemplo, podríamos seleccionar las primero 5 filas del siguiente modo:

In [None]:
df.loc[0:4]

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


In [None]:
df.loc[5::2] # Slice from 5 to the end with a step of 2 

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
5,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
7,1,?,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
9,0,?,audi,gas,turbo,two,hatchback,4wd,front,99.5,...,131,mpfi,3.13,3.4,7.0,160,5500,16,22,?
11,0,192,bmw,gas,std,four,sedan,rwd,front,101.2,...,108,mpfi,3.5,2.8,8.8,101,5800,23,29,16925
13,0,188,bmw,gas,std,four,sedan,rwd,front,101.2,...,164,mpfi,3.31,3.19,9.0,121,4250,21,28,21105
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,-1,74,volvo,gas,std,four,wagon,rwd,front,104.3,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,13415
197,-1,74,volvo,gas,std,four,wagon,rwd,front,104.3,...,141,mpfi,3.78,3.15,9.5,114,5400,24,28,16515
199,-1,74,volvo,gas,turbo,four,wagon,rwd,front,104.3,...,130,mpfi,3.62,3.15,7.5,162,5100,17,22,18950
201,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045


In [None]:
df.loc[:3,"make"] # Select using the row and column indexes

0    alfa-romero
1    alfa-romero
2    alfa-romero
3           audi
Name: make, dtype: object

<h3 id="subset_selection_iloc">3.2 - Selección de muestras con <code>.iloc</code></h3>
El método  <code>.iloc</code> es muy parecido a .loc pero sólo usa enteros para su selección. La palabra <code>.iloc</code> de hecho se refiere a integer location. Debido a que en muchos casos el índice de las filas es un entero, su sintaxis es igual:

In [None]:
df.iloc[0:5] # Select all columns for rows 0 to 4 (notice the difference with .loc for this case)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


In [None]:
df.iloc[5::2, 0:3] # Slice from 5 to the end with a step of 2 only for the first column

Unnamed: 0,symboling,normalized-losses,make
5,2,?,audi
7,1,?,audi
9,0,?,audi
11,0,192,bmw
13,0,188,bmw
...,...,...,...
195,-1,74,volvo
197,-1,74,volvo
199,-1,74,volvo
201,-1,95,volvo


<h2 id="insights_dataframe">4 - Análisis de un DataFrame </h2>

Existen varias formas de realizar un primer análisis para comprender mejor nuestro conjunto de datos.


<h3 id ="data_types">4.1 - Tipos de datos</h3>
Los principales tipos de datos almacenados en Pandas son <code>object</code>, <code>float</code>, <code>int</code>, <code>bool</code> and <code>datetime64</code>. Con el objetivo de entender mejor cada atributo es siempre bueno saber el tipo de dato de cada columna. En pandas:

In [None]:
df.dtypes

symboling              int64
normalized-losses     object
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                  object
stroke                object
compression-ratio    float64
horsepower            object
peak-rpm              object
city-mpg               int64
highway-mpg            int64
price                 object
dtype: object

devuelve una Serie con los datos de cada columna.
<p>
Como resultado, se puede ver que "symboling" y "curb-weight" son de tipo <code>int64</code>, "normalized-losses" de tipo <code>object</code> y "wheel-base" <code>float64</code>
</p>
<p>
Estos tipos de datos se pueden cambiar. En seguida veremos cómo
</p>

<h3 id="describe">4.2 - <code>describe</code></h3>
Si lo que nos interesa es tener un resúmen estadístico de cada columna: número de elementos, valores medios, desviaciones estandar, etc. Usaremos el método describe:

In [None]:
df.describe()

Unnamed: 0,symboling,wheel-base,length,width,height,curb-weight,engine-size,compression-ratio,city-mpg,highway-mpg
count,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0
mean,0.834146,98.756585,174.049268,65.907805,53.724878,2555.565854,126.907317,10.142537,25.219512,30.75122
std,1.245307,6.021776,12.337289,2.145204,2.443522,520.680204,41.642693,3.97204,6.542142,6.886443
min,-2.0,86.6,141.1,60.3,47.8,1488.0,61.0,7.0,13.0,16.0
25%,0.0,94.5,166.3,64.1,52.0,2145.0,97.0,8.6,19.0,25.0
50%,1.0,97.0,173.2,65.5,54.1,2414.0,120.0,9.0,24.0,30.0
75%,2.0,102.4,183.1,66.9,55.5,2935.0,141.0,9.4,30.0,34.0
max,3.0,120.9,208.1,72.3,59.8,4066.0,326.0,23.0,49.0,54.0


Esto muestra el resúmen estadístico de todos los datos numéricos (int, float). <br>
This shows the statistical summary of all numeric-typed (int, float) columns.<br>

Sin embargo, ¿que ocurre sí nos interesa chequear todas las columnas, incluso aquellas que son de tipo object?. Simplemente añadiríamos el argumento <code>include = "all"</code> dentro del paréntesis:

In [None]:
# describe all the columns in "df" 
df.describe(include = "all")

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
count,205.0,205,205,205,205,205,205,205,205,205.0,...,205.0,205,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205
unique,,52,22,2,2,3,5,3,2,,...,,8,39.0,37.0,,60.0,24.0,,,187
top,,?,toyota,gas,std,four,sedan,fwd,front,,...,,mpfi,3.62,3.4,,68.0,5500.0,,,?
freq,,41,32,185,168,114,96,120,202,,...,,94,23.0,20.0,,19.0,37.0,,,4
mean,0.834146,,,,,,,,,98.756585,...,126.907317,,,,10.142537,,,25.219512,30.75122,
std,1.245307,,,,,,,,,6.021776,...,41.642693,,,,3.97204,,,6.542142,6.886443,
min,-2.0,,,,,,,,,86.6,...,61.0,,,,7.0,,,13.0,16.0,
25%,0.0,,,,,,,,,94.5,...,97.0,,,,8.6,,,19.0,25.0,
50%,1.0,,,,,,,,,97.0,...,120.0,,,,9.0,,,24.0,30.0,
75%,2.0,,,,,,,,,102.4,...,141.0,,,,9.4,,,30.0,34.0,


** IMPORTANTE: Missing values son ignorados.**

In [None]:
#### Put your code here
df[["symboling", "length"]].describe()

Unnamed: 0,symboling,length
count,205.0,205.0
mean,0.834146,174.049268
std,1.245307,12.337289
min,-2.0,141.1
25%,0.0,166.3
50%,1.0,173.2
75%,2.0,183.1
max,3.0,208.1


## References

#### Links
1. <a href="https://www.coursera.org/learn/data-analysis-with-python/">Santarcangelo, J. (2019). "Data analysis with Python".</a>
1. <a href="https://medium.com/dunder-data/selecting-subsets-of-data-in-pandas-6fcd0170be9c">Petrou, T. (2017). "Selecting Subsets of Data in Pandas: Part 1".</a>