# Datos

Los datos son el elemento sobre el cual aplicamos las diferentes técnicas para la obtención de información sobre estos. 

En este notebook veremos maneras de obtener datos de distintas fuentes:

* Conjuntos de datos proporcionados por scikit
* Carga de conjuntos de datos usando Pandas
* Conjuntos de datos de openml
* Otros formatos


[Enlace a la documentación de scikit
](https://scikit-learn.org/stable/datasets/index.html)


In [20]:
# Vamos a cargar las librerias básicas

import pandas as pd
import numpy as np


## Conjuntos de datos proporcionados por scikit

Para empezar, vamos a tomar contacto con conjuntos de datos que ya nos vienen preparados con la misma libreria. Son conjuntos muy populares para el aprendizaje. Tienen dos categorias, los mas simples, *toy datasets*, y aquellos que no ofrecen un reto mayor.

* [Toy datasets](https://scikit-learn.org/stable/datasets/index.html#toy-datasets)
* [Real world](https://scikit-learn.org/stable/datasets/index.html#real-world-datasets)

Es interesante conocerlos porque nos permitirá aplicar las técnicas que aprenderemos durante el curso en un entorno controlado.


Uno de ellos, que probablemente ya conoceis, es el conjunto de datos Iris.



In [18]:
from sklearn.datasets import load_iris

data = load_iris() # Cargamos un diccionario

data.keys()

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])

In [14]:
# Exploración del conjunto de datos


## Carga de conjuntos de datos usando pandas

Realizaremos la carga de los diferentes conjuntos de datos, usando la libreria Pandas. Esto nos permitirá tener una representación en forma de tabla (filas y columnas).


[Repositorio del ejemplo](https://archive.ics.uci.edu/ml/machine-learning-databases/)

In [2]:
url_info = 'https://archive.ics.uci.edu/ml/machine-learning-databases/zoo/zoo.names'
url_data= 'https://archive.ics.uci.edu/ml/machine-learning-databases/zoo/zoo.data'

In [None]:
!pip install requests

In [3]:
import requests
response = requests.get(url_info)
print(response.text)

1. Title: Zoo database

2. Source Information
   -- Creator: Richard Forsyth
   -- Donor: Richard S. Forsyth 
             8 Grosvenor Avenue
             Mapperley Park
             Nottingham NG3 5DX
             0602-621676
   -- Date: 5/15/1990
 
3. Past Usage:
   -- None known other than what is shown in Forsyth's PC/BEAGLE User's Guide.

4. Relevant Information:
   -- A simple database containing 17 Boolean-valued attributes.  The "type"
      attribute appears to be the class attribute.  Here is a breakdown of
      which animals are in which type: (I find it unusual that there are
      2 instances of "frog" and one of "girl"!)

      Class# Set of animals:
           1 (41) aardvark, antelope, bear, boar, buffalo, calf,
                  cavy, cheetah, deer, dolphin, elephant,
                  fruitbat, giraffe, girl, goat, gorilla, hamster,
                  hare, leopard, lion, lynx, mink, mole, mongoose,
                  opossum, oryx, platypus, polecat, pony,
           

In [27]:
# Leemos los datos que se encuentran en formato csv y lo cargamos en un dataframe
df = pd.read_csv(url_data, header=None)
df.columns = ["animal_name", "hair", "feathers","eggs","milk","airborne","aquatic","predator","toothed","backbone","breathes","venomous","fins","legs","tail","domestic","catsize","type"]
df.head(10)

Unnamed: 0,animal_name,hair,feathers,eggs,milk,airborne,aquatic,predator,toothed,backbone,breathes,venomous,fins,legs,tail,domestic,catsize,type
0,aardvark,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1
1,antelope,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1
2,bass,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4
3,bear,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1
4,boar,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1
5,buffalo,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1
6,calf,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1
7,carp,0,0,1,0,0,1,0,1,1,0,0,1,0,1,1,0,4
8,catfish,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4
9,cavy,1,0,0,1,0,0,0,1,1,1,0,0,4,0,1,0,1


Como habéis podido observar los dataframes nos son muy prácticos para gestionar los datos ya que nos permiten trabajar con una representación en forma de tabla. Nos ofrece una manera sencilla de realizar el trabajo con los datos antes de usar las técnicas de aprendizaje máquina.

Algunas operaciones de filtrado que podemos realizar:

In [43]:
df.loc[df["legs"] == 2, ["animal_name"]]

Unnamed: 0,animal_name
11,chicken
16,crow
20,dove
21,duck
23,flamingo
27,fruitbat
29,girl
32,gorilla
33,gull
37,hawk



**Nota:** El siguiente [enlace](https://github.com/bmalcover/MADM2019) contiene un pequeño tutorial de **Pandas** que puede ser útil seguir si no habéis trabajado con esta libreria con anterioridad.



Evidentemente tambien podemos cargar ficheros que tengamos en el disco, vamos a verlo con un ejemplo.


In [39]:
df_who = pd.read_csv("data/WHO.csv")
df_who.head() # muestra las 5 primeras filas

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
0,Afghanistan,1,1,151.0,28.0,,,,26088.0,4.0,...,692.5,,,,257.0,231.9,257.0,5740436.0,5.44,22.9
1,Albania,2,2,27.0,98.7,6000.0,93.0,94.0,3172.0,0.6,...,3499.12,4790000000.0,78.14,-2040000000.0,18.47,15.5,18.47,1431793.9,2.21,45.4
2,Algeria,3,3,6.0,69.9,5940.0,94.0,96.0,33351.0,1.5,...,137535.56,69700000000.0,351.36,4700000000.0,40.0,31.2,40.0,20800000.0,2.61,63.3
3,Andorra,4,2,,,,83.0,83.0,74.0,1.0,...,,,,,,,,,,
4,Angola,5,3,146.0,67.4,3890.0,49.0,51.0,16557.0,2.8,...,8991.46,14900000000.0,27.13,9140000000.0,164.1,242.5,164.1,8578749.0,4.14,53.3


Nuestras fuentes de datos no van a ser solamente ficheros CSV. Pandas permite la lectura de otros tipos de fichero: [documentación lectura usando Pandas](https://pandas.pydata.org/pandas-docs/stable/reference/io.html)

## Openml
[openml.org](https://www.openml.org/) es un repositorio público para datos y experimentos de aprendizaje automático, que permite a todos cargar conjuntos de datos abiertos.

sklearn.datasets puede descargar conjuntos de datos del repositorio *openml* utilizando la función:

```
sklearn.datasets.fetch_openml
```

In [22]:
# Vamos a cargar un dataset
from sklearn.datasets import fetch_openml

credit = fetch_openml(name='credit-g')

credit.keys()


ImportError: cannot import name 'fetch_openml' from 'sklearn.datasets' (/home/biel/anaconda3/envs/fava/lib/python3.7/site-packages/sklearn/datasets/__init__.py)


Al final, nos interesa acabar la carga de datos con una matriz donde las filas son las observaciones y las columnas las diferentes características o *features* de los datos.

## Otros formatos de datos

Sabemos que no todos los datos que vamos a usar se adaptarán a la estructura descrita en este módulo. Un caso claro, es el uso de las técnicas del curso aplicadas a visión por computador.

El tratamiento de imágenes debe realizarse con bibliotecas específicas como pueden ser: **opencv** o **skimage**.

El tratamiento de datos provenientes de audio puede realizarse con la biblioteca: **scipy.io.wavfile.read**