# Datos

Los datos son el elemento sobre el cual aplicamos las diferentes técnicas para la obtención de información sobre estos. 

En este notebook veremos maneras de cargar los datos de distintas fuentes y su gestión:

* Conjuntos de datos proporcionados por scikit
* Carga de conjuntos de datos usando Pandas
* Conjuntos de datos de openml
* Otros formatos


[Enlace a la documentación de scikit
](https://scikit-learn.org/stable/datasets/index.html)


In [1]:
# Vamos a cargar las librerias básicas
%matplotlib inline
import pandas as pd
import numpy as np


## Conjuntos de datos proporcionados por scikit

Para empezar a tomar contacto con conjuntos de datos que ya nos vienen preparados con la misma libreria. 

Son conjuntos muy populares para el aprendizaje. Uno de ellos, que probablemente ya conoceis, es el conjunto de datos Iris.

[Enlace](https://scikit-learn.org/stable/datasets/index.html#toy-datasets)

In [None]:
from sklearn.datasets import load_iris

data = load_iris() # Cargamos un diccionario

data.keys()

In [None]:
# Exploración del conjunto de datos


data['data'].shape

## Carga de conjuntos de datos usando pandas

Realizaremos la carga de los diferentes conjuntos de datos, usando la libreria Pandas. Esto nos permitirá tener una representación en forma de tabla (filas y columnas).


[Repositorio](https://archive.ics.uci.edu/ml/machine-learning-databases/)

In [None]:
url_info = 'https://archive.ics.uci.edu/ml/machine-learning-databases/zoo/zoo.names'
url_data= 'https://archive.ics.uci.edu/ml/machine-learning-databases/zoo/zoo.data'

In [None]:
!pip install requests

In [None]:
import requests
response = requests.get(url_info)
print(response.text)

In [None]:
# Leemos los datos que se encuentran en formato csv y lo cargamos en un dataframe
df = pd.read_csv(url_data, header=None)
df.columns = ["animal name", "hair", "feathers","eggs","milk","airborne","aquatic","predator","toothed","backbone","breathes","venomous","fins","legs","tail","domestic","catsize","type"]
df

Como habéis podido observar los dataframes nos son muy prácticos para gestionar los datos ya que nos permiten trabajar con una representación en forma de tabla. Nos ofrece una manera sencilla de realizar el trabajo con los datos antes de usar las técnicas de aprendizaje máquina.

Algunas operaciones de filtrado que podemos realizar:

In [None]:
df["animal name"]

new_df = df[["animal name", "eggs"]]

new_df[:10]



**Nota:** En el siguiente enlace ([módulo 2](https://github.com/bmalcover/MADM2019)) contiene un pequeño tutorial de **Pandas** que puede ser útil seguir.



Evidentemente tambien podemos cargar ficheros que tengamos en el disco, vamos a verlo con un ejemplo.


In [None]:
df_who = pd.read_csv("data/WHO.csv")
df_who.head() # muestra las 5 primeras filas

Es evidente, que nuestras fuentes de datos no van a ser solamente ficheros CSV. Pandas permite la lectura de otros tipos de fichero: [documentación lectura usando Pandas](https://pandas.pydata.org/pandas-docs/stable/reference/io.html)

## Openml
[openml.org](https://www.openml.org/) es un repositorio público para datos y experimentos de aprendizaje automático, que permite a todos cargar conjuntos de datos abiertos.

sklearn.datasets puede descargar conjuntos de datos del repositorio *openml* utilizando la función:

```
sklearn.datasets.fetch_openml
```

In [None]:
# Vamos a cargar un dataset
from sklearn.datasets import fetch_openml

credit = fetch_openml(name='credit-g')

credit.keys()



Al final, nos interesa acabar la carga de datos con una matriz donde las filas son las observaciones y las columnas las diferentes características o *features* de los datos.

## Otros formatos de datos

Es evidente que no todos los datos que vamos a usar se adaptarán a la estructura descrita en este módulo. Un caso claro, es el uso de las técnicas del curso aplicadas a visión por computador.

El tratamiento de imágenes debe realizarse con bibliotecas específicas como pueden ser: **opencv** o **skimage**.

El tratamiento de datos provenientes de audio puede realizarse con la biblioteca: **scipy.io.wavfile.read**