# Introducción
The objective of this introductory notebook is to learn how to read a data file and obtain some first insights. 
El objetivo de este libro introductorio es aprender a como leer un fichero de datos y realizar un primer análisis de éste

#### Librerías requeridas
* <a href = "https://pandas.pydata.org/"><code>Pandas</code></a>
* <a href = "https://www.scipy.org/"><code>Scipy</code></a> 
* <a href = "https://numpy.org/"><code>Numpy</code></a> 

#### Tabla de contenidos
<ol>
    <li><a href="#read_data_files">Leer ficheros de datos</a></li>
    <li><a href="#save_data_files">Guardar ficheros de datos</a></li>
    <li><a href="#subsetting_dataframe">Seleccionar muestras de un dataframe</a><br>
        3.1. <a href="#subset_selection_indexing_operator">Seleccionar muestras con<code>[]</code></a><br>
        3.2. <a href="#subset_selection_loc">Seleccionar muestras con <code>.loc</code></a><br>
        3.3. <a href="#subset_selection_iloc">Seleccionar muestras con <code>.iloc</code></a>
    </li>
    <li><a href="#insights_dataframe">Análisis de un dataframe</a><br>
        4.1. <a href="#data_types">Tipos de datos</a><br>
        4.2. <a href="#describe"><code>describe</code></a>
    </li>
</ol>

***

<h2 id="read_data_files">1 - Leer ficheros de datos</h2>

Existen varias formas de almacenar datos. Los más comunes son
* Comma separated values (**CSV**).
* Attribute-Relation File Format (**ARFF**).
* Microsoft Excel (XLSX).
* JavaScript Object Notation (JSON).

<a href = "https://pandas.pydata.org/">**Pandas**</a> es una librería muy potente para leer y procesar estos formatos de ficheros de datos. Cuando un fichero de datos es leido, éste es cargado en memoria usando una estructura de datos específica llamada <code>DataFrame</code>, la cual nos permite trabajar con datos internos. Un <code>DataFrame</code> es una estructura tabular de dos dimensiones, con datos potencialmente heterogeneos y ejes etiquetados (columnas y filas).

In [1]:
import pandas as pd

#dir(pd)
#dir(pd.DataFrame)
#help(pd.DataFrame.shape)

Para entender mejor el funcionamiento interno de esta librería, vamos a trabajar con este conjunto de datos open-source, <a href = "https://archive.ics.uci.edu/ml/datasets/automobile">**Automobile**</a> disponible en <a href = "https://archive.ics.uci.edu/ml/index.php">**UCI Machine learning repository**</a> Aunque podemos bajarnos el conjunto de datos de la web oficial, por simplicidad vamos a trabajar con nuestra propia copia.
* <code>Data/automobile.csv</code>
* <code>Data/automobile.arff</code>

Usamos la función <code>pandas.read_csv()</code> para leer el fichero csv. Dentro del paréntesis colocaremos el path del fichero que queremos leer entre comillas. El path bien puede ser una URL o un fichero local.<br>

In [3]:
df = pd.read_csv("automobile.csv")

In [4]:
df.shape

(201, 26)

Después de leer el conjunto de datos, vamos a usar <code>dataframe.head(n)</code> para chequear las primeras n filas de él, donde n es un entero. De modo contrario a <code>dataframe.head(n)</code>, <code>dataframe.tail(n)</code> nos mostrará las últimas n filas.

In [5]:
# show the first 5 rows using dataframe.head() method
print("Las primeras 5 filas del dataframe") 
df.head(10)

Las primeras 5 filas del dataframe


Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495
1,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500
2,1,122.0,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450
5,2,122.0,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110.0,5500.0,19,25,15250
6,1,158.0,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110.0,5500.0,19,25,17710
7,1,122.0,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110.0,5500.0,19,25,18920
8,1,158.0,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140.0,5500.0,17,20,23875
9,2,192.0,bmw,gas,std,two,sedan,rwd,front,101.2,...,108,mpfi,3.5,2.8,8.8,101.0,5800.0,23,29,16430


<h2 id="save_data_files">2 - Guardar fichero de datos</h2>
<p>
Pandas nos permite guardar nuestro conjunto de datos a un fichero csv medinate el método <code>dataframe.to_csv(). </code>
</p>
<p>
    Por ejemplo, si quisiéramos guardar el dataframe <code>df</code> como <b>automobile.csv</b> en nuestra máquina local, podemos usar la sintáxis:
</p>

In [11]:
df.to_csv("automobile_new.csv", index=False)
df.to_json("automobile_new.json", index=False)

Podemos leer o cargar el conjunto de datos en otros formatos de forma similar a la que lo hacemos con el formato csv:

| Data format  | Read           | Save             |
| ------------- |:--------------:| ----------------:|
| csv           | `pd.read_csv()`  |`df.to_csv()`     |
| json          | `pd.read_json()` |`df.to_json()`    |
| excel         | `pd.read_excel()`|`df.to_excel()`   |
| hdf           | `pd.read_hdf()`  |`df.to_hdf()`     |
| sql           | `pd.read_sql()`  |`df.to_sql()`     |
| ...           |   ...          |       ...        |


<h2 id="subsetting_dataframe">3 - Seleccionar muestras de un DataFrame </h2>
Un DataFrame está compuesto de tres elementos, el índice, las columnas y los datos (o Valores). La principal ide de un DataFrame es que cada columna y cada fila tiene una etiqueta. Estas etiquetas son usadas para acceder a columnas y filas específicas en el DataFrame. Es similar a como los humanos usamos los nombres para referirnos a personas específicas. 

In [12]:
index = df.index
columns = df.columns
values = df.values

print(type(index))
print(type(columns))
print(type(values))

<class 'pandas.core.indexes.range.RangeIndex'>
<class 'pandas.core.indexes.base.Index'>
<class 'numpy.ndarray'>


Hay tres formas de seleccionar muestras de un DataFrame en Pandas:
* El operador <code>[]</code> (también llamado **indexing operator**). 
* El atributo <code>loc</code> seguido del operador <code>[]</code>. 
* El atributo<code>iloc</code> seguido del operador <code>[]</code>.

<h3 id="subset_selection_indexing_operator">3.1 - Selección de muestras con <code>[]</code></h3>
Su principal propósito es seleccionar columnas haciendo uso de su nombre. Podemos seleccionar una o varias columnas

In [13]:
df["make"].head(5)

0    alfa-romero
1    alfa-romero
2    alfa-romero
3           audi
4           audi
Name: make, dtype: object

Si seleccionamos una sola columna obtendermos otro tipo de contenedor de Pandas. Las <code>Series</code>. Una <code>Serie</code> es un conjunto de datos de 1 dimensión etiquetados.  Una serie tiene dos componentes: El índice y los datos (o valores). No existen columnas en las Series.

In [14]:
df[["normalized-losses"]].head(5)

Unnamed: 0,normalized-losses
0,122.0
1,122.0
2,122.0
3,164.0
4,164.0


Si usamos doble <code>[]</code> en vez de uno, obtenemos un <code>DataFrame</code> en vez de una <code>Series</code>.

In [15]:
df[["fuel-system", "make"]].tail(5) # we dont have to follow the original column order when subsetting

Unnamed: 0,fuel-system,make
196,mpfi,volvo
197,mpfi,volvo
198,mpfi,volvo
199,idi,volvo
200,mpfi,volvo


<h3 id="subset_selection_loc">3.2 - Selección de muestras con  <code>.loc</code></h3>

el método .loc selecciona muestras de una forma diferente. Puede seleccionar un conjunto de filas o columnas. Además, puede seleccionar simultáneamente un conjunto de filas y columnas. Y lo más importante, solo selecciona datos a partir de las etiquetas de las filas y las columnas.

<span style="color:red">**Nota:** Si no se han asignado etiquetas, tendremos que usar índices </span>

#### Ejemplos sin etiquetas en las filas o columnas

In [16]:
df_simple = pd.DataFrame([[1, 2], [4, 5], [7, 8]], columns=["a", "b"])
df_simple

Unnamed: 0,a,b
0,1,2
1,4,5
2,7,8


#### Ejemplos con etiquetas tanto en filas como en columnas

In [17]:
df_simple = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]],
                  index=['cobra', 'viper', 'sidewinder'],
                  columns=['cobra', 'viper', 'sidewinder'])
df_simple

Unnamed: 0,cobra,viper,sidewinder
cobra,1,2,3
viper,4,5,6
sidewinder,7,8,9


In [18]:
df_simple.loc["viper"]

cobra         4
viper         5
sidewinder    6
Name: viper, dtype: int64

In [19]:
df_simple.loc["cobra", ["cobra","viper"]]

cobra    1
viper    2
Name: cobra, dtype: int64

#### Ejemplo con etiquetas de columnas pero sin etiquetas en las filas

In [20]:
df.loc[0] # first row, returns a Series

symboling                      3
normalized-losses          122.0
make                 alfa-romero
fuel-type                    gas
aspiration                   std
num-of-doors                 two
body-style           convertible
drive-wheels                 rwd
engine-location            front
wheel-base                  88.6
length                     168.8
width                       64.1
height                      48.8
curb-weight                 2548
engine-type                 dohc
num-of-cylinders            four
engine-size                  130
fuel-system                 mpfi
bore                        3.47
stroke                      2.68
compression-ratio            9.0
horsepower                 111.0
peak-rpm                  5000.0
city-mpg                      21
highway-mpg                   27
price                      13495
Name: 0, dtype: object

Es posible hacer un ‘slice’ de las filas de un DataFrame con .loc haciendo uso de la notación slice. Ésta usa el símbolo de dos puntos para separar el comienzo, final y paso de los valores. Por ejemplo, podríamos seleccionar las primero 5 filas del siguiente modo:

In [21]:
df.loc[0:4]

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495
1,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500
2,1,122.0,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450


In [22]:
df.loc[5::2] # Slice from 5 to the end with a step of 2 

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
5,2,122.0,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.40,8.5,110.0,5500.0,19,25,15250
7,1,122.0,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.40,8.5,110.0,5500.0,19,25,18920
9,2,192.0,bmw,gas,std,two,sedan,rwd,front,101.2,...,108,mpfi,3.50,2.80,8.8,101.0,5800.0,23,29,16430
11,0,188.0,bmw,gas,std,two,sedan,rwd,front,101.2,...,164,mpfi,3.31,3.19,9.0,121.0,4250.0,21,28,20970
13,1,122.0,bmw,gas,std,four,sedan,rwd,front,103.5,...,164,mpfi,3.31,3.19,9.0,121.0,4250.0,20,25,24565
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
191,-1,74.0,volvo,gas,std,four,wagon,rwd,front,104.3,...,141,mpfi,3.78,3.15,9.5,114.0,5400.0,23,28,13415
193,-1,74.0,volvo,gas,std,four,wagon,rwd,front,104.3,...,141,mpfi,3.78,3.15,9.5,114.0,5400.0,24,28,16515
195,-1,74.0,volvo,gas,turbo,four,wagon,rwd,front,104.3,...,130,mpfi,3.62,3.15,7.5,162.0,5100.0,17,22,18950
197,-1,95.0,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160.0,5300.0,19,25,19045


In [23]:
df.loc[:3,"make"] # Select using the row and column indexes

0    alfa-romero
1    alfa-romero
2    alfa-romero
3           audi
Name: make, dtype: object

<h3 id="subset_selection_iloc">3.2 - Selección de muestras con <code>.iloc</code></h3>
El método  <code>.iloc</code> es muy parecido a .loc pero sólo usa enteros para su selección. La palabra <code>.iloc</code> de hecho se refiere a integer location. Debido a que en muchos casos el índice de las filas es un entero, su sintaxis es igual:

In [24]:
df.iloc[0:5] # Select all columns for rows 0 to 4 (notice the difference with .loc for this case)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495
1,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500
2,1,122.0,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450


In [25]:
df.iloc[5::2, 0:3] # Slice from 5 to the end with a step of 2 only for the first column

Unnamed: 0,symboling,normalized-losses,make
5,2,122.0,audi
7,1,122.0,audi
9,2,192.0,bmw
11,0,188.0,bmw
13,1,122.0,bmw
...,...,...,...
191,-1,74.0,volvo
193,-1,74.0,volvo
195,-1,74.0,volvo
197,-1,95.0,volvo


<h2 id="insights_dataframe">4 - Análisis de un DataFrame </h2>

Existen varias formas de realizar un primer análisis para comprender mejor nuestro conjunto de datos.


<h3 id ="data_types">4.1 - Tipos de datos</h3>
Los principales tipos de datos almacenados en Pandas son <code>object</code>, <code>float</code>, <code>int</code>, <code>bool</code> and <code>datetime64</code>. Con el objetivo de entender mejor cada atributo es siempre bueno saber el tipo de dato de cada columna. En pandas:

In [26]:
df.dtypes

symboling              int64
normalized-losses    float64
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                 float64
stroke               float64
compression-ratio    float64
horsepower           float64
peak-rpm             float64
city-mpg               int64
highway-mpg            int64
price                  int64
dtype: object

devuelve una Serie con los datos de cada columna.
<p>
Como resultado, se puede ver que "symboling" y "curb-weight" son de tipo <code>int64</code>, "normalized-losses" de tipo <code>object</code> y "wheel-base" <code>float64</code>
</p>
<p>
Estos tipos de datos se pueden cambiar. En seguida veremos cómo
</p>

<h3 id="describe">4.2 - <code>describe</code></h3>
Si lo que nos interesa es tener un resúmen estadístico de cada columna: número de elementos, valores medios, desviaciones estandar, etc. Usaremos el método describe:

In [27]:
df.describe()

Unnamed: 0,symboling,normalized-losses,wheel-base,length,width,height,curb-weight,engine-size,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
count,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0
mean,0.840796,122.0,98.797015,174.200995,65.889055,53.766667,2555.666667,126.875622,3.330692,3.256874,10.164279,103.405534,5117.665368,25.179104,30.686567,13207.129353
std,1.254802,31.99625,6.066366,12.322175,2.101471,2.447822,517.296727,41.546834,0.268072,0.316048,4.004965,37.3657,478.113805,6.42322,6.81515,7947.066342
min,-2.0,65.0,86.6,141.1,60.3,47.8,1488.0,61.0,2.54,2.07,7.0,48.0,4150.0,13.0,16.0,5118.0
25%,0.0,101.0,94.5,166.8,64.1,52.0,2169.0,98.0,3.15,3.11,8.6,70.0,4800.0,19.0,25.0,7775.0
50%,1.0,122.0,97.0,173.2,65.5,54.1,2414.0,120.0,3.31,3.29,9.0,95.0,5125.369458,24.0,30.0,10295.0
75%,2.0,137.0,102.4,183.5,66.6,55.5,2926.0,141.0,3.58,3.41,9.4,116.0,5500.0,30.0,34.0,16500.0
max,3.0,256.0,120.9,208.1,72.0,59.8,4066.0,326.0,3.94,4.17,23.0,262.0,6600.0,49.0,54.0,45400.0


Esto muestra el resúmen estadístico de todos los datos numéricos (int, float). <br>
This shows the statistical summary of all numeric-typed (int, float) columns.<br>

Sin embargo, ¿que ocurre sí nos interesa chequear todas las columnas, incluso aquellas que son de tipo object?. Simplemente añadiríamos el argumento <code>include = "all"</code> dentro del paréntesis:

In [28]:
# describe all the columns in "df" 
df.describe(include = "all")

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
count,201.0,201.0,201,201,201,201,201,201,201,201.0,...,201.0,201,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0
unique,,,22,2,2,2,5,3,2,,...,,8,,,,,,,,
top,,,toyota,gas,std,four,sedan,fwd,front,,...,,mpfi,,,,,,,,
freq,,,32,181,165,115,94,118,198,,...,,92,,,,,,,,
mean,0.840796,122.0,,,,,,,,98.797015,...,126.875622,,3.330692,3.256874,10.164279,103.405534,5117.665368,25.179104,30.686567,13207.129353
std,1.254802,31.99625,,,,,,,,6.066366,...,41.546834,,0.268072,0.316048,4.004965,37.3657,478.113805,6.42322,6.81515,7947.066342
min,-2.0,65.0,,,,,,,,86.6,...,61.0,,2.54,2.07,7.0,48.0,4150.0,13.0,16.0,5118.0
25%,0.0,101.0,,,,,,,,94.5,...,98.0,,3.15,3.11,8.6,70.0,4800.0,19.0,25.0,7775.0
50%,1.0,122.0,,,,,,,,97.0,...,120.0,,3.31,3.29,9.0,95.0,5125.369458,24.0,30.0,10295.0
75%,2.0,137.0,,,,,,,,102.4,...,141.0,,3.58,3.41,9.4,116.0,5500.0,30.0,34.0,16500.0


** IMPORTANTE: Missing values son ignorados.**

In [29]:
#### Put your code here
df[["symboling", "length"]].describe()

Unnamed: 0,symboling,length
count,201.0,201.0
mean,0.840796,174.200995
std,1.254802,12.322175
min,-2.0,141.1
25%,0.0,166.8
50%,1.0,173.2
75%,2.0,183.5
max,3.0,208.1


## References

#### Links
1. <a href="https://www.coursera.org/learn/data-analysis-with-python/">Santarcangelo, J. (2019). "Data analysis with Python".</a>
1. <a href="https://medium.com/dunder-data/selecting-subsets-of-data-in-pandas-6fcd0170be9c">Petrou, T. (2017). "Selecting Subsets of Data in Pandas: Part 1".</a>