![Logo de AA1](logo_AA1_texto_small.png) 
# Sesión 1 - Carga de datos
En esta práctica vamos a ver cómo cargar datos en un programa para poder posteriormente entrenar algoritmos de aprendizaje automático con los mismos. Esencialmente vamos a ver tres manera de incorporar datos a un programa:
1. Utilizando los conjuntos de datos de ejemplo que vienen en la librería `scikit-learn`
2. Generando conjuntos artificiales
3. Leyendo datos que tengamos en ficheros de texto o en hojas de cálculo

Por supuesto, existen otras maneras de incorporar datos a nuestros programas, como pueden ser la incorporación directa desde una base de datos utilizando la API adecuada o la lectura desde otro formato de fichero. Sin embargo, para los objetivos de esta asignatura los tres métodos explicados serán más que suficientes.

## 1.1 Conjuntos de datos de la librería `scikit-learn`
`sklearn` dispone de una serie de conjuntos de datos de ejemplos que podemos cargar rápidamente para empezar a hacer pruebas con ellos. En <https://scikit-learn.org/stable/datasets.html> podéis acceder a un listado de los mismos.

Lo que nos interesa en este caso son los `Toy datasets` y los `Real world datasets`. Los primeros son conjuntos pequeños que suelen utilizarse cuando nos estamos iniciando en el Aprendizaje Automático, como es el caso. Los segundos, son problemas clásicos, ampliamente conocidos, con bastantes ejemplos y con ciertas particularidades que los hacen un poco más difíciles o adecuados para tareas un poco más complejas dentro del Aprendizaje Automático.

Lo primero que tendremos que hacer para cargar uno de estos conjuntos es incorporar el módulo `datasets` de la librería `scikit-learn`. Desde este módulo tendremos acceso a todo lo relativo con la carga y generación de datos dentro de la librería.

Por tanto, ya podemos cargar un conjunto de datos. La intrucción para cargar un conjunto será la llamada a la función `load_X()` correspondiente, donde `X` debe sustituirse por el nombre del conjunto que queramos cargar. 

En este caso vamos a cargar el conjuto de los lirios, cuyo nombre es `iris`, con lo que la función será `load_iris()`.

In [11]:
# Cargamos el módulo datasets de la librería scikit-learn
from sklearn import datasets

# Cargamos el conjunto de los lirios
cjto = datasets.load_iris()

display(type(cjto))

sklearn.utils._bunch.Bunch

Como podéis ver, la función `load_X()` devuelve un objeto de tipo `Bunch` que contiene muchas cosas pero básicamente nos interesan tres: i) los datos tomados para cada uno de los ejemplo (`data`), la clase de esos ejemplos (`target`) y la descripción del conjunto de datos (`DESCR`).

En los Notebooks podemos utilizar las instrucciones `display()` y `print()` para mostrar el contenido de variables. La salida que ofrece `display()` presenta para algunas variables un formato más visual, así que a veces utilizaremos esta instrucción. En los scripts o programas que hagamos utilizaremos `print()` puesto que `display()` solo funciona en los notebook.

In [12]:
# almacenamos en la variable X los datos tomados para cada uno de los ejemplos
X = cjto.data
display(type(X))
print(X)

# obtenemos el número de ejemplos y el número de atributos
n_samples, n_features = X.shape
print("Número de ejemplos:", n_samples)
print("Número de atributos:", n_features)

numpy.ndarray

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

Así, la variable `X` contendrá un array de `numpy` de dos dimensiones, del cual podremos obtener el número de ejemplos y el número de atributos.

La clase de los ejemplos podemos extraerla de la propiedad `target`:

In [13]:
# cargamos la clase de los ejemplos en una variable
Y = cjto.target
display(type(Y))
print(Y)
print(Y.shape)

numpy.ndarray

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
(150,)


Si quisiésemos obtener una descripción del conjunto de datos que acabamos de cargar bastaría con la siguiente instrucción:

In [14]:
# almacenamos la clase en una variable
print(cjto.DESCR)


.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

## 1.2 Generando conjuntos artificiales
A veces nos interesa crear conjuntos de datos artificiales para comprobar el rendimiento de un algoritmo frente a datos que cumplan unas determinadas características. Vamos a ver cómo podemos genera conjuntos de ejemplos de regresión (cuando se trata de predecir un número) y conjuntos de clasificación (cuando se quiere predecir una categoría).

### 1.2.1 Generando un conjunto de regresión

In [23]:
# es necesario importar el módulo datasets
from sklearn import datasets

# se utiliza la función 'make_regression'
X, Y, coeficientes = datasets.make_regression(n_samples=20, n_features=3, 
                                                n_informative=2, n_targets=1, coef=True)

print("Coeficientes:\n", coeficientes)
print("Matriz de datos:\n", X[:4])
print("Clase:\n", Y[:4])

Coeficientes:
 [56.67437567 44.75931499  0.        ]
Matriz de datos:
 [[-1.29805747 -0.62438707  1.83593197]
 [-0.03490065 -0.03170317 -0.32389249]
 [ 0.96395357  1.48788051  1.33981505]
 [ 0.15998564 -1.19323512  0.24830464]]
Clase:
 [-101.51373397   -3.39698472  121.22797913  -44.34130059]


En el código anterior se puede ver un ejemplo de utilización de la función `make_regression` que generará un conjunto de datos de regresión donde la clase será un valor real. Además le estamos especificando que genere 20 ejemplos (`n_samples`) con 3 atributos cada uno (`n_features`) donde únicamente 2 de esos 3 atributos tendrán relevancia para el cálculo de la clase (`n_informative`). Además se le indica que la clase de un ejemplo será un solo número (`n_targets`) y que queremos que retorne los coeficientes con los que ha calculado la clase (`coef=True`).

Esta función tiene muchos más parámetros que pueden utilizarse para crear conjuntos de datos a nuestra medida.
En <https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression> se puede encontrar una descripción más detallada de todos sus parámetros.

Si ejecutáis el código anterior varias veces, observaréis que en cada ejecución se genera un conjunto de datos diferente. Si no quisiésemos que esto fuese así, se debería utilizar el parámetro `random_state` y así garantizar que la salida de la función se reproducirá en cada ejecución.

Se ha limitado la salida a 4 casos (`[:4]`) para que no sea demasiado larga.

### 1.2.2 Generando un conjunto de clasificación
Vamos a generar ahora un conjunto de clasificación:

In [25]:
# el módulo datasets debe estar cargado

X, Y = datasets.make_classification(n_samples=20, n_features=3, n_informative=2, n_redundant=1, 
                                    n_classes=2, weights=[0.8, 0.2])

print("Matriz de datos:\n", X[:4])
print("Clase:\n", Y)

Matriz de datos:
 [[-1.14039656 -1.362421    0.68151442]
 [-1.89992685 -0.0333128  -1.08717286]
 [-0.69809106  1.97260753 -2.37195417]
 [-1.20133633  0.47282464 -1.17824111]]
Clase:
 [0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 0]


En este caso hemos generado de nuevo 20 ejemplos con 3 atributos donde 2 son importantes para predecir la clase y, además, hay un atributo redundante (será una combinación lineal de los otros dos). Se le indica también que los ejemplos pertenecerán a 2 clases posibles (`n_classes`) y habrá un 80% de ejemplos de una clase y un 20% de la otra (`weights`).

Podéis encontrar más información sobre esta función en <https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification>

## 1.3 Cargando datos desde ficheros
Vamos a ver ahora cómo podemos cargar datos desde un fichero de texto y desde una hoja de cálculo.

Para ello vamos a utilizar una nueva librería, `pandas`, sobre la que volveremos en futuras sesiones.

### 1.3.1 Desde un fichero de texto

Para leer datos desde ficheros de texto, una de las formas más efectivas es mediante el uso de la función `read_csv`de la librería `pandas`. Esta función, como su nombre indica, está pensada para la lectura de ficheros de texto en formato CSV (comma-separated values), sin embargo, asignado los argumentos adecuados a sus parámetros podremos leer datos de cualquier fichero de texto.

Vamos a ver cómo cargar el fichero **Container_Crane_Controller_Data_Set.csv** que tenéis en el directorio y que ha sido obtenido del *Machine Learning Repository* de la UCI (Universidad de California en Irvine): <https://archive.ics.uci.edu/ml/datasets/Container+Crane+Controller+Data+Set>.


In [17]:
# importamos la librería pandas y le damos el nombre de 'pd'
import pandas as pd

# procedemos a la carga de los datos contenidos en el fichero de texto utilizando los parámetros adecuados
df = pd.read_csv('Container_Crane_Controller_Data_Set.csv', sep=';', header=0, decimal=',')
display(type(df))
print(df)

pandas.core.frame.DataFrame

    Speed  Angle  Power
0       1     -5    0.3
1       2      5    0.3
2       3     -2    0.5
3       1      2    0.5
4       2      0    0.7
5       6     -5    0.5
6       7      5    0.5
7       6     -2    0.3
8       7      2    0.3
9       6      0    0.7
10      8     -5    0.5
11      9      5    0.5
12     10     -2    0.3
13      8      2    0.3
14      9      0    0.5


Si echáis un vistazo al fichero de texto **Container_Crane_Controller_Data_Set.csv** podréis observar que cada ejemplo está en una línea y que cada atributo está separado por un ';'. Cuenta con una línea de cabecera, donde se indica el nombre de los dos atributos (*Speed* y *Angle*) y de la clase (*Power*). Además, si nos fijamos en la última columna, se está utilizando como separador decimal la ','. 

Por todas estas razones, en la llamada a `read_csv` se utilizan los parámetros `sep` (para indicar el separador entre atributos), `header` (para indicar que los nombres de los atributos están en la fila 0) y `decimal` (con el que se indica el separador decimal).

En <https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html> se puede encontrar más información sobre cómo utilizar esta función y todos sus parámetros.

En este caso vemos que el tipo de la variable `df` es `pandas.core.frame.DataFrame`. Un `DataFrame` es una estructura de almacenamiento muy potente sobre la que trabajaremos en varias sesiones de prácticas más adelante. 

De momento debemos quedarnos con que `scikit-learn` es capaz de leer datos de un `DataFrame` y con que podemos convertir los datos de un `DataFrame` a arrays de Numpy. Veamos cómo:

In [18]:
# separamos las dos primeras columnas y las almacenamos en X
X = df.iloc[:,0:2]
print(X)
print(type(X))

# extraemos los datos de X en forma de array de numpy
X_np = X.values
print(X_np)
print(type(X_np))

# repetimos las operaciones para obtener la clase de cada ejemplo como DataFrame y como array de numpy
Y = df.iloc[:,2]
Y_np = Y.values

    Speed  Angle
0       1     -5
1       2      5
2       3     -2
3       1      2
4       2      0
5       6     -5
6       7      5
7       6     -2
8       7      2
9       6      0
10      8     -5
11      9      5
12     10     -2
13      8      2
14      9      0
<class 'pandas.core.frame.DataFrame'>
[[ 1 -5]
 [ 2  5]
 [ 3 -2]
 [ 1  2]
 [ 2  0]
 [ 6 -5]
 [ 7  5]
 [ 6 -2]
 [ 7  2]
 [ 6  0]
 [ 8 -5]
 [ 9  5]
 [10 -2]
 [ 8  2]
 [ 9  0]]
<class 'numpy.ndarray'>


Utilizando `iloc[]` podemos acceder a las filas y columnas que queramos de un `DataFrame`. Utilizando la propiedad `values` podremos tener el contenido del `DataFrame` como un array de dos dimensiones de numpy.

### 1.3.2 Cargando datos desde una hoja de cálculo
Para realizar esta operación utilizaremos también una función de la librería `pandas` que se llama `read_excel` y que retorna también un `DataFrame`:

In [19]:
# se importa la librería
import pandas as pd

# se llama a la función con los parámetros adecuados
df = pd.read_excel('Container_Crane_Controller_Data_Set.xlsx', sheet_name='Data', header=0)
display(type(df))
print(df)

pandas.core.frame.DataFrame

    Speed  Angle  Power
0       1     -5    0.3
1       2      5    0.3
2       3     -2    0.5
3       1      2    0.5
4       2      0    0.7
5       6     -5    0.5
6       7      5    0.5
7       6     -2    0.3
8       7      2    0.3
9       6      0    0.7
10      8     -5    0.5
11      9      5    0.5
12     10     -2    0.3
13      8      2    0.3
14      9      0    0.5


En este caso le indicamos que lea los datos del fichero **Container_Crane_Controller_Data_Set.xlsx** en la pestaña `'Data'`. Esta hoja de cálculo tiene dos pestañas, una con una descripción del conjunto de datos y otra con los datos, así que debemos indicarle la pestaña de la que debe tomar los datos.

Más información sobre esta función podéis encontrarla en: <https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html>

In [20]:
# separamos las dos primeras columnas y las almacenamos en X
X = df.iloc[:,0:2]
print(X)
print(type(X))

# extraemos los datos de X en forma de array de numpy
X_np = X.values
print(X_np)
print(type(X_np))

# repetimos las operaciones para obtener la clase de cada ejemplo como DataFrame y como array de numpy
Y = df.iloc[:,2]
Y_np = Y.values

    Speed  Angle
0       1     -5
1       2      5
2       3     -2
3       1      2
4       2      0
5       6     -5
6       7      5
7       6     -2
8       7      2
9       6      0
10      8     -5
11      9      5
12     10     -2
13      8      2
14      9      0
<class 'pandas.core.frame.DataFrame'>
[[ 1 -5]
 [ 2  5]
 [ 3 -2]
 [ 1  2]
 [ 2  0]
 [ 6 -5]
 [ 7  5]
 [ 6 -2]
 [ 7  2]
 [ 6  0]
 [ 8 -5]
 [ 9  5]
 [10 -2]
 [ 8  2]
 [ 9  0]]
<class 'numpy.ndarray'>


## Ejercicios
Para practicar lo visto en este notebook deberías hacer uno o varios programas en python (programas, no notebooks) en los que pruebes a cargar conjuntos de datos. Sería recomendable que practicases con todas las formas vistas en este notebook:
1. Cargando algún conjunto que ya venga en `scikit-learn`
2. Generando un conjunto artificial
3. Cargando desde un fichero de texto. Puedes descargar los ficheros con datos de <https://openml.org>, de <https://archive.ics.uci.edu/ml/datasets.php> o de infinidad de sitios en los que hay datos disponibles.
4. Cargando datos desde una excel que podéis crear vosotros mismos.

Estos ejercicios no es necesario entregarlos.