<a href="https://colab.research.google.com/github/MyAppsTest/ciencia_datos_udemy_fg/blob/main/Importaci%C3%B3n%20y%20Exportaci%C3%B3n%20de%20Datos%20con%20NumPy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Importación y Exportación de Datos con NumPy

En esta lección vamos a aprender cómo importar datos desde archivos externos para cargarlos en nuestros arrays de NumPy, y también vamos a aprender el proceso inverso: cómo exportar nuestros arrays de NumPy hacia archivos externos, como Excel o csv.

NumPy tiene herramientas que facilitan la importación de datos desde varios tipos de archivos, y es bastante similar a como lo hacemos con Pandas.

Te propongo que descargues el archivo provisto en esta lección para hacer la prueba.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import numpy as np

In [3]:
ruta = "/content/drive/MyDrive/cd_udemy_fg/medallas.csv"

Ahora que tenemos nuestra ruta cargada, vamos a usar un método de NumPy que se llama `genfromtxt()`, que se podría traducir más o menos como *"**gen**erar desde un texto"*. Este método es parecido a `read_csv()` de Pandas, pero tiene algunas particularidades que iremos conociendo.

Lo voy a aplicar tal cual como lo haría con `read_csv()` (colocando solo la ruta del archivo), para comenzar desde allí. No te asustes cuando recibas un mensaje de error.

In [4]:
array = np.genfromtxt(ruta)
array

ValueError: Some errors were detected !
    Line #15 (got 2 columns instead of 1)
    Line #17 (got 2 columns instead of 1)
    Line #20 (got 2 columns instead of 1)
    Line #22 (got 2 columns instead of 1)
    Line #24 (got 2 columns instead of 1)
    Line #27 (got 4 columns instead of 1)
    Line #36 (got 2 columns instead of 1)
    Line #39 (got 3 columns instead of 1)
    Line #44 (got 4 columns instead of 1)
    Line #63 (got 2 columns instead of 1)
    Line #65 (got 2 columns instead of 1)
    Line #70 (got 2 columns instead of 1)
    Line #72 (got 3 columns instead of 1)
    Line #73 (got 3 columns instead of 1)
    Line #74 (got 4 columns instead of 1)
    Line #77 (got 2 columns instead of 1)
    Line #78 (got 2 columns instead of 1)
    Line #82 (got 2 columns instead of 1)
    Line #86 (got 3 columns instead of 1)

Bien, como puedes ver, estamos obteniendo un mensaje de error que nos muestra un montón de alertas. Ciertamente hay mucho que atender aquí, y eso es porque hay que tener en cuenta una cosa muy importante: aquí no estamos guardando nuestros datos en un **DataFrame** de Pandas, sino en un **array* de NumPy, que son dos cosas muy diferentes.

En primer lugar hay que considerar que los **arrays** solo pueden contener un solo tipo de datos a la vez, por lo que se genera un conflicto con nuestro archivo de origen, ya que contiene **tanto números como texto**, por lo que no podemos meter esa información dentro de un array así como así.

Por esa razón, para poder lograr nuestro objetivo, vamos a tener que meter mano en los parámetros del método `genfromtxt()`, para poder adecuarlo a nuestras necesidades.

En primer lugar, `genfromtxt()` requiere que le específiquemos qué tipo de delimitador tienen nuestros datos.

In [5]:
array = np.genfromtxt(ruta, delimiter=',')
array

array([[ nan,  nan,  nan,  nan,  nan],
       [ nan,   1.,   2.,   3.,  nan],
       [ nan,   2.,   2.,   4.,  nan],
       [ 17.,   7.,  22.,  46.,  nan],
       [  1.,   1.,   5.,   7.,  nan],
       [ nan,   3.,   4.,   7.,  nan],
       [  2.,  nan,  nan,   2.,  nan],
       [ nan,   1.,  nan,   1.,  nan],
       [  1.,   3.,   3.,   7.,  nan],
       [  3.,   1.,   3.,   7.,  nan],
       [  1.,  nan,  nan,   1.,  nan],
       [ nan,  nan,   1.,   1.,  nan],
       [  7.,   6.,   8.,  21.,  nan],
       [  3.,   1.,   2.,   6.,  nan],
       [ nan,  nan,   1.,   1.,  nan],
       [  7.,   6.,  11.,  24.,  nan],
       [  2.,   4.,   6.,  12.,  nan],
       [ nan,   4.,   1.,   5.,  nan],
       [  3.,   3.,   2.,   8.,  nan],
       [ nan,  nan,   1.,   1.,  nan],
       [  7.,   3.,   5.,  15.,  nan],
       [  4.,   4.,   3.,  11.,  nan],
       [  3.,   4.,   4.,  11.,  nan],
       [ nan,   3.,   2.,   5.,  nan],
       [  2.,   1.,  nan,   3.,  nan],
       [  1.,   1.,   4.,

Ahora ya no recibimos un mensaje de error, pero ciertamente nuestros datos están repletos de valores `NaN`. Esto lo podemos atender con el parámetro `filling_values`.

In [None]:
array = np.genfromtxt(ruta, delimiter=',', filling_values=0)
array

array([[  0.,   0.,   0.,   0.,   0.],
       [  0.,   1.,   2.,   3.,   0.],
       [  0.,   2.,   2.,   4.,   0.],
       [ 17.,   7.,  22.,  46.,   0.],
       [  1.,   1.,   5.,   7.,   0.],
       [  0.,   3.,   4.,   7.,   0.],
       [  2.,   0.,   0.,   2.,   0.],
       [  0.,   1.,   0.,   1.,   0.],
       [  1.,   3.,   3.,   7.,   0.],
       [  3.,   1.,   3.,   7.,   0.],
       [  1.,   0.,   0.,   1.,   0.],
       [  0.,   0.,   1.,   1.,   0.],
       [  7.,   6.,   8.,  21.,   0.],
       [  3.,   1.,   2.,   6.,   0.],
       [  0.,   0.,   1.,   1.,   0.],
       [  7.,   6.,  11.,  24.,   0.],
       [  2.,   4.,   6.,  12.,   0.],
       [  0.,   4.,   1.,   5.,   0.],
       [  3.,   3.,   2.,   8.,   0.],
       [  0.,   0.,   1.,   1.,   0.],
       [  7.,   3.,   5.,  15.,   0.],
       [  4.,   4.,   3.,  11.,   0.],
       [  3.,   4.,   4.,  11.,   0.],
       [  0.,   3.,   2.,   5.,   0.],
       [  2.,   1.,   0.,   3.,   0.],
       [  1.,   1.,   4.,

Genial, ahora ya no tenemos valores `NaN`, pero observa este detalle: la primera fila del array contiene puros ceros, y esto es porque en realidad lo que había aquí eran los títulos de las columnas.

Vamos a ayudar a `getfromtxt()` a eliminarlas, diciéndole que ignore los encabezados de columna, ya que no tiene sentido tener ceros ahí.

In [None]:
array = np.genfromtxt(ruta, delimiter=',', filling_values=0, skip_header=1)
array

array([[  0.,   1.,   2.,   3.,   0.],
       [  0.,   2.,   2.,   4.,   0.],
       [ 17.,   7.,  22.,  46.,   0.],
       [  1.,   1.,   5.,   7.,   0.],
       [  0.,   3.,   4.,   7.,   0.],
       [  2.,   0.,   0.,   2.,   0.],
       [  0.,   1.,   0.,   1.,   0.],
       [  1.,   3.,   3.,   7.,   0.],
       [  3.,   1.,   3.,   7.,   0.],
       [  1.,   0.,   0.,   1.,   0.],
       [  0.,   0.,   1.,   1.,   0.],
       [  7.,   6.,   8.,  21.,   0.],
       [  3.,   1.,   2.,   6.,   0.],
       [  0.,   0.,   1.,   1.,   0.],
       [  7.,   6.,  11.,  24.,   0.],
       [  2.,   4.,   6.,  12.,   0.],
       [  0.,   4.,   1.,   5.,   0.],
       [  3.,   3.,   2.,   8.,   0.],
       [  0.,   0.,   1.,   1.,   0.],
       [  7.,   3.,   5.,  15.,   0.],
       [  4.,   4.,   3.,  11.,   0.],
       [  3.,   4.,   4.,  11.,   0.],
       [  0.,   3.,   2.,   5.,   0.],
       [  2.,   1.,   0.,   3.,   0.],
       [  1.,   1.,   4.,   6.,   0.],
       [ 39.,  41.,  33.,

Y por último, puedes ver que los números se han cargado como **floats**, porque eso es lo que hace `genfromtxt()` por defecto. Pero por supuesto podemos modificar esto con el parámetro `dtype`:

In [None]:
array = np.genfromtxt(ruta, delimiter=',', filling_values=0, skip_header=1, dtype=int)
array

array([[  0,   1,   2,   3,   0],
       [  0,   2,   2,   4,   0],
       [ 17,   7,  22,  46,   0],
       [  1,   1,   5,   7,   0],
       [  0,   3,   4,   7,   0],
       [  2,   0,   0,   2,   0],
       [  0,   1,   0,   1,   0],
       [  1,   3,   3,   7,   0],
       [  3,   1,   3,   7,   0],
       [  1,   0,   0,   1,   0],
       [  0,   0,   1,   1,   0],
       [  7,   6,   8,  21,   0],
       [  3,   1,   2,   6,   0],
       [  0,   0,   1,   1,   0],
       [  7,   6,  11,  24,   0],
       [  2,   4,   6,  12,   0],
       [  0,   4,   1,   5,   0],
       [  3,   3,   2,   8,   0],
       [  0,   0,   1,   1,   0],
       [  7,   3,   5,  15,   0],
       [  4,   4,   3,  11,   0],
       [  3,   4,   4,  11,   0],
       [  0,   3,   2,   5,   0],
       [  2,   1,   0,   3,   0],
       [  1,   1,   4,   6,   0],
       [ 39,  41,  33, 113,   0],
       [  1,   0,   1,   2,   0],
       [  1,   1,   2,   4,   0],
       [  1,   0,   1,   2,   0],
       [  0,  

Todo esto te ha dado herramientas más que suficientes para importar datos externos dentro de un array.

¿Pero que tal si lo que queremos es exportar nuestros arrays de NumPy para guardarlos en archivos externos?. Lo hagamos con un pequeño array de prueba.

In [None]:
array_ejemplo = np.array([[1, 2, 3],
                         [4, 5, 6]])

Ahora voy a crear la ruta de salida (es decir, dónde quiero que se guarde mi nuevo archivo):

In [None]:
ruta = "C:/Users/Win10/Downloads/00 - FEDE/Udemy/Python para Data Science/Día 8/10 - Importación y Exportación de Datos con Numpy/mi_array.csv"

Y a continuación voy a aplicar el método `savetxt()` para exportarlo.

En este caso necesitaré brindarle tres argumentos a `savetxt()`:
* la ruta de destino
* el array que quiero guardar en ese archivo
* y ya que quiero crear un archivo .csv, debo informarle qué delimitador quiero usar

In [None]:
np.savetxt(ruta,
          array_ejemplo,
          delimiter=',')

De esta manera, nuestro archivo se ha exportado correctamente, pero puede sorprenderte un detalle: si bien nuestro array contenía los números enteros del 1 al 6, nuestro archivo resultante tiene unos números inmensos y extraños.

![](https://github.com/MyAppsTest/ciencia_datos_udemy_fg/blob/main/exportado%20con%20numeros%20cientificos.png?raw=1)

 ¿Por qué ha sucedido esto? Lo que estás viendo es el resultado del comportamiento predeterminado de la función `savetxt()` de NumPy, la cual guarda los números en un formato de punto flotante con notación científica.

 Esto es así porque por defecto, `savetxt()` utiliza el parámetro `fmt` (que significa *formato*) con el valor `%.18e`, que sirve para escribir los números de esa manera, ya que es una representación detallada y con notación científica.

Si prefieres que los números se guarden como **enteros**, o con un formato más sencillo, puedes especificar un formato diferente.

In [None]:
np.savetxt(ruta,
          array_ejemplo,
          delimiter=',',
          fmt='%d')

Antes de ejecutar la celda anterior, no olvides eliminar el archivo que creaste antes, ya que de lo contrario te va a devolver un error.

Ahora sí, hemos logrado que nuestro array se guarde tal como queríamos.

![](https://github.com/MyAppsTest/ciencia_datos_udemy_fg/blob/main/exportado%20con%20numeros%20enteros.png?raw=1)