

<h1><font color="#004D7F" size=6>Cargar un conjunto de datos</font></h1>

---

<h1><font color="#004D7F" size=5>Cargar CSV</font></h1>

* 1. Desde la librería standard de Python.
* 2. Desde NumPy
* 3. Desde Pandas

In [2]:
# Permite ajustar la anchura de la parte útil de la libreta (reduce los márgenes)
from IPython.core.display import display, HTML
display(HTML("<style>.container{ width:98% }</style>"))

---

<a id="section21"></a>
## <font color="#004D7F">1. Desde la librería estándar de Python.</font>

La API de Python proporciona el módulo CSV y funciones `reader()` que se pueden usar para cargar archivos CSV. Una vez cargado, puede convertir los datos CSV a un array NumPy y usarlos para el aprendizaje automático. Por ejemplo, puede descargar el conjunto de datos de los indios Pima en su directorio local con el nombre de archivo `pima-indians-diabetes.data.csv`. Todos los campos en este conjunto de datos son numéricos y no hay una línea de encabezado. El ejemplo carga un objeto que puede iterar sobre cada fila de datos y puede convertirse fácilmente en un array NumPy. Ejecutar el ejemplo imprime la forma del array

In [4]:
# Load CSV Using Python Standard Library
import csv
import numpy as np

filename='data/pima-indians-diabetes.csv' 
raw_data = open(filename, 'r')
reader = csv.reader(raw_data, delimiter = ',', quoting = csv. QUOTE_NONE)
x = list(reader)
data = np.array(x).astype('float')
print(data.shape)

(768, 9)


---

<a id="section22"></a>
## <font color="#004D7F">2. Desde NumPy</font>

Puede cargar sus datos CSV usando NumPy y la función `numpy.loadtxt()}`. Esta función no supone una fila de encabezado y todos los datos tienen el mismo formato. El siguiente ejemplo supone que el archivo `pima-indians-diabetes.data.csv` está en su directorio de trabajo actual. Ejecutar el ejemplo cargará el archivo como `numpy.ndarray` e imprimirá la forma de los datos.

In [2]:
# Load CSV using NumPy

import numpy as np
filename='data/pima-indians-diabetes.csv' 
raw_data = open(filename, 'rb')
data = np.loadtxt(raw_data, delimiter = ',')
print(data)

[[  6. 148.  72. ... 627.  50.   1.]
 [  1.  85.  66. ... 351.  31.   0.]
 [  8. 183.  64. ... 672.  32.   1.]
 ...
 [  5. 121.  72. ... 245.  30.   0.]
 [  1. 126.  60. ... 349.  47.   1.]
 [  1.  93.  70. ... 315.  23.   0.]]


---

<a id="section23"></a>
## <font color="#004D7F">3. Desde Pandas</font>

Puede cargar sus datos CSV usando Pandas y la función `pandas.read_csv()`. Esta función es muy flexible y es quizás mi enfoque recomendado para cargar sus datos de aprendizaje automático. La función devuelve un pandas. [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) que puede comenzar a resumir y trazar de inmediato. El siguiente ejemplo supone que el archivo `pima-indians-diabetes.csv` está en el directorio de trabajo actual. Tenga en cuenta que en este ejemplo especificamos explícitamente los nombres de cada atributo al DataFrame

In [9]:
# Load CSV using Pandas
import pandas as pd
filename='data/pima-indians-diabetes.csv' 
nombres = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names = nombres)
data

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.00,50,1
1,1,85,66,29,0,26.6,351.00,31,0
2,8,183,64,0,0,23.3,672.00,32,1
3,1,89,66,23,94,28.1,167.00,21,0
4,0,137,40,35,168,43.1,2288.00,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,171.00,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,245.00,30,0
766,1,126,60,0,0,30.1,349.00,47,1


---

También podemos modificar este ejemplo para cargar datos CSV directamente desde una URL

In [10]:
# load dataset
import pandas as pd
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data'
dataframe = pd.read_csv(url, header = None)
dataframe

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,M,0.455,0.365,0.095,0.5140,0.2245,0.1010,0.1500,15
1,M,0.350,0.265,0.090,0.2255,0.0995,0.0485,0.0700,7
2,F,0.530,0.420,0.135,0.6770,0.2565,0.1415,0.2100,9
3,M,0.440,0.365,0.125,0.5160,0.2155,0.1140,0.1550,10
4,I,0.330,0.255,0.080,0.2050,0.0895,0.0395,0.0550,7
...,...,...,...,...,...,...,...,...,...
4172,F,0.565,0.450,0.165,0.8870,0.3700,0.2390,0.2490,11
4173,M,0.590,0.440,0.135,0.9660,0.4390,0.2145,0.2605,10
4174,M,0.600,0.475,0.205,1.1760,0.5255,0.2875,0.3080,9
4175,F,0.625,0.485,0.150,1.0945,0.5310,0.2610,0.2960,10


<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---