![](../imagenes/titulo_021.png)

## Índice

* [Introducción](#Introduccion)
* [DataSets](#DataSets)
* [Generar y almacenar datos](#Generar-y-almacenar-datos)
* [Cargar datos](#Cargar-datos)
    * [Cargando .csv](#Cargando-csv)    
* [Funciones y métodos](#Funciones-y-metodos)
* [Visualizacion](#Visualizacion)
* [Referencias](#Referencias)
* [Licencia](#Licencia)

## Introduccion

Imaginemos que deseamos guardar o cargar los datos de un experimento, datos de una adquisición, o simplemente leer o escribir un archivo de texto con datos numéricos. En cualquier caso, la librería [NumPy](030-intro_numpy.ipynb) nos ofrece varias funciones para realizar estas tareas forma matricial. **Pero con el limitante que solo pueden ser datos numéricos.**

## DataSets

Un conjunto de datos (conocido también por el anglicismo: **DataSet**, comúnmente utilizado en algunos países hispanohablantes) es una colección de datos habitualmente tabulada. En general y en su versión más simple, un dataset corresponde a los contenidos de una única tabla de base de datos o una única matriz de datos, donde cada columna de la tabla representa una variable en particular, y cada fila representa a un miembro determinado del conjunto de datos en cuestión.

Un ejemplo, bien podría ser, la altura y el peso de un objeto, en dos columnas y n filas por n objetos medidos. 

El almacenamiento de datos en archivos de texto, es un estándar para el análisis de datos y en este sentido hay muchos repositorios de datos a los que se pueden acceder de manera gratuita, por ejemplo:

* Dataset para el análisis de música: https://github.com/mdeff/fma
* Dataset de datos públicos generados por organismos del Gobierno de la República Argentina: http://datos.gob.ar/dataset
* Dataset de datos públicos generados por organismos de la Ciudad Autónoma de Buenos Aires.https://data.buenosaires.gob.ar/
* Repositorio para machine learning (Donald Bren School of Information & Computer Sciences): https://archive.ics.uci.edu/ml/index.php
* Repositorio de dataScience https://www.kaggle.com/

Recuerden que en esta clase vamos a ver solo datasets de datos numéricos, la mayoría de los datasets combina datos numéricos con categóricos y para su manipulación es necesario el uso de otra librería, denominada [Pandas](https://pandas.pydata.org/).

## Generar y almacenar datos

Un ejemplo sencillo de un dataset, pueden ser las notas de 10 alumnos para 4 materias:

| Alumno N° | Matemática | Fisica | Quimica |  
| ---- | ---- | ---- | ---- |
| 1 | 65 | 10 | 90 |
| 2 | 40 | 23 | 93 | 
| 3 | 74 | 87 | 50 | 
| 4 | 90 | 52 | 38 | 
| 5 | 21 | 100 | 69 | 
| 7 | 63 | 91 | 84 | 
| 8 | 55 | 86 | 56 | 
| 9 | 32 | 40 | 83 |
| 10 | 65 | 73 | 90 | 

De este ejemplo podemos observar que todos los datos son numéricos y este detalle es importante destacar dado que Numpy solo puede leer datos numéricos, como habíamos mencionado anteriormente. Más adelante profundizamos en Pandas , una biblioteca que se basa en NumPy y hace que el análisis de datos sea aún más fácil. Resuelve dos de los mayores puntos de dolor que son:

* No puede mezclar múltiples tipos de datos en una matriz.
* Debe recordar qué tipo de datos contiene cada columna. 

Entonces partamos del ejemplo anterior, para crear un archivo .dat (los archivos .dat, son archivos de datos genéricos):

In [None]:
import numpy as np

notas = np.array([[65,10,90],
                  [40,23,93],
                  [74,87,50],
                  [90,52,38],
                  [21,100,69],
                  [63,91,84],
                  [55,86,56],
                  [32,40,83],
                  [65,73,90]])

np.savetxt('../data/notas.dat', notas, fmt='%.4e')
np.savetxt('../data/notas.dat', notas, fmt='%2.0f')

> **Nota:** abrir el archivo y ver el resultado.

La pregunta que surge es, ¿Cómo sabemos que argumento utilizar en el método `savetxt`?
Bien hay dos caminos, para encontrar la respuesta:

1. Utilizando el `help`.
2. Utilizando la [referencia oficial online](https://docs.scipy.org/doc/numpy/reference/generated/numpy.savetxt.html) de la librería.

In [None]:
np.savetxt?

## Cargar datos

Ahora que tenemos el archivo almacenado con los datos de nuestros alumnos, vamos a cargarlos para trabajar con ellos.

In [None]:
B = np.loadtxt('../data/notas.dat')
B

El comportamiento por defecto de `loadtxt` será:

Leer todas las líneas (se pueden saltar las n primeras utilizando el argumento `skiprows`, salvo las que empiecen por # (se puede cambiar esto utilizando el argumento `comments`), esperará que los datos estén separados por espacios (se puede cambiar utilizando el argumento `delimiter`), y devolverá un array de NumPy de tipo float (el tipo se puede asignar con el argumento `dtype`).

### Cargando csv

Vamos a cargar datos almacenados en un archivo .csv (es un archivo de texto que contiene una serie de valores separados por comas, Comma Separated Values). Estos datos corresponden a un dataset de vinos extraído de:

> P. Cortez, A. Cerdeira, F. Almeida, T. Matos y J. Reis. *Modelar las preferencias del vino mediante la extracción de datos a partir de propiedades fisicoquímicas*. En Decision Support Systems , Elsevier, 47 (4): 547-553, 2009.

La estructura del archivo winequality-red.csv es:

| Acidez fija | Azucar residual | Densidad | PH | Alcohol | Calidad |  
| ---- | ---- | ---- | ---- | ---- | ---- | 

In [None]:
# función para cargar los datos
data = np.loadtxt(fname='../data/winequality-red.csv', delimiter=',')

print(data)

In [None]:
type(data)  # tipo de la variable data

Un `numpy.ndarray` es un array, un bloque de memoria que contiene elementos del mismo tipo. 

A continuación algunos ejemplos de lo que podemos almacenar en un array:

* Vectores y matrices.
* Datos de experimentos:
    * En distintos instantes discretos.
    * En distintos puntos del espacio.
* Resultado de evaluar funciones con los datos anteriores.
* Discretizaciones para usar algoritmos de: integración, derivación, interpolación...

In [None]:
data.dtype  # tipo de elementos de data

Según hemos observado al imprimir el contenido de `data`, se trata de un array de dos dimensiones, pero ¿cuántos elementos tiene? ¿cuántos elementos tiene en cada dimensión?

In [None]:
data.size

In [None]:
data.shape

El resultado es que tiene 1599 **filas** y 6 **columnas**, es decir, 9594 **elementos**.

> **Nota:** `size` y `shape` son **atributos** del array, esto es lo mismo que decir, que son variables ligadas al array.

## Accediendo a los datos

Para acceder a elementos de un array, lo haremos entre corchetes, al igual que hacíamos con [listas](11_primeros_pasos_I.ipynb#Listas) y [tuplas](11_primeros_pasos_I.ipynb#Tuplas):

In [None]:
print('Primer elemento de data es:', data[0, 0])

Un array de M×N (M filas y N columnas) tiene índices que van desde 0 hasta M-1 y N-1. Al principio cuesta un poco acostumbrarse a esto.

In [None]:
print (['acidez fija', 'azucar residual', 'densidad', 'PH', 'alcohol', 'calidad'])

In [None]:
# primer fila, primer vino evaluado
print(data[0, :])

In [None]:
# primer columna, la acidez fija de todos los vinos evaluados
print(data[:, 0])

In [None]:
# 10 vinos evaluados su azucar residual y su densidad
print(data[10:20, 1:3])

## Funciones y metodos

`NumPy` no solo nos provee de una estructura para almacenar elementos de una manera eficiente, sino también de muchas funciones para realizar operaciones con ellos. Por ejemplo, podemos obtener la inflamación media:

In [None]:
# la calidad media de los vinos evaluados es
calidad = data[:,5]
calidad.mean()

La función `mean`, está disponible como **función** (`np.mean`) y como **método de un array** (`ndarray.mean()`). Las funciones ya las conocemos, se puede decir que **un método es una función que pertenece a un elemento**, del mismo modo que **las variables que pertenecen a ese elemento se llaman atributos**.

Los arrays de NumPy tienen numerosos **métodos**:

In [None]:
# máximo
print('Máxima calidad:', calidad.max())
# mínimo
print('Mínima calidad:', calidad.min())
# desviación standard
print('Desviación standard de la calidad :', calidad.std())

Si queremos hacer esto, para todos los vinos evaluados y para cada parametro, podemos usar el argumento `axis`.

![](../imagenes/python-operations-across-axes.svg)

In [None]:
print (['acidez fija', 'azucar residual', 'densidad', 'ph', 'alcohol', 'calidad'])
data.mean(axis=0)

In [None]:
data.max(axis=0)

In [None]:
data.min(axis=0)

In [None]:
data.std(axis=0)

## Visualizacion

Una de las mejores maneras de extraer información de nuestros datos es representarlos. Hagamos una pequeña introducción a la visualización con `matplotlib`. Ya habrá tiempo de introducirnos en los detalles, pero tratemos de mostrar gráficamente los datos de la calidad de los vinos.

Empecemos con la función mágica y luego importar la librería.

In [None]:
%matplotlib inline

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.hist(data[:,5], bins=5)
plt.xlabel('Calidad')
plt.ylabel('Cant. de vinos evaluados')
plt.axis([0, 10, 0, 700])
plt.grid(True)

## Referencias

* Molloy, Derek. Exploring Raspberry Pi: interfacing to the real world with embedded Linux. John Wiley & Sons, 2016.
* Cano, Juan Luis. Curso Aero Python. Extraido de [GitHub](https://github.com/AeroPython/Curso_AeroPython), 2016.
* G. Van Rossum. El tutorial de Python. Extraido de [PyAr](http://docs.python.org.ar/tutorial/), 2018.
* Datos y variables, 2009.
* Massimo Di Pierro. Web2py - Manual de Referencia. Extraido de [www.web2py.com](http://www.web2py.com/books/default/chapter/36/02/el-lenguaje-python), 2018.
* Eugenia Bahit. Python para principiante. Extraido de [Libros Web](http://librosweb.es/libro/python/), 2018.
* INTI - Electrónica e Informática, UT Comunicaciones. Introducción al Procesamiento Digital de Señales, 2017.

## Licencia

<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Licencia de Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />Este documento se destribuye con una <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">licencia Atribución CompartirIgual 4.0 Internacional de Creative Commons</a>.

© 2019. Infiniem Lab DSP. infiniemlab.dsp@gmail.com. Introducción a Python3 (CC BY-SA 4.0))