# CLASE 2.2: MANIPULACIÓN DE DATOS EN SERIES Y DATAFRAMES.
---

## Carga y guardado de datos en Pandas.
En general, cuando recibimos información para la posterior realización de un estudio o análisis, ésta suele venir en una gran cantidad de formatos, y que dependerán por supuesto del tipo de tarea que necesitemos realizar. La data que es objeto de análisis suele venir en un formato de tabla típico de softwares tales como Microsoft Excel® u otros, y que incluye extensiones de archivo tales como `.txt`, `.csv` o `.xlsx`. Para una gran cantidad de estas extensiones, **Pandas** nos ofrece una gran cantidad de funciones para cargar los datos contenidos en estos archivos en series o DataFrames.

Un ejemplo de función de carga de archivos en **Pandas** corresponde a `pd.read_excel()`, la que permite cargar cualquier archivo con extensión` .xlsx` típico de Microsoft Excel® en una serie o DataFrame, según sea el caso. Esta función tiene como único argumento obligatorio a `io`, que corresponde a la ruta del archivo al que queremos acceder. Otros argumentos opcionales incluyen `sheet_name`, que es el nombre de la hoja del libro de Excel® a la que queremos acceder; `engine`, que corresponde al motor de lectura de archivos que se usará para acceder al mismo (nosotros, puntualmente, usaremos uno que viene por defecto en una instalación de Anaconda®, llamado `openpyxl`; sin embargo, si por alguna razón no se encuentra instalado en nuestras dependencias, siempre podremos hacerlo nosotros mismos mediante la instrucción `pip install openpyxl`); y `decimal`, que corresponde a un string que denota el separador de decimales utilizado en el archivo (por defecto, dicho separador es `,`).

Podemos cargar el archivo `pillars_data.xlsx`, ubicado en la ruta `/seccion_02_pandas/datasets`, a fin de probar esta función:

In [1]:
import numpy as np
import pandas as pd

In [2]:
# Carga de archivos de Excel (extensión .xlsx).
data = pd.read_excel(io="datasets/pillars_data.xlsx", engine="openpyxl")

Revisemos la geometría de este DataFrame mediante su atributo `shape` (que se hereda igualmente desde **Numpy**):

In [3]:
# Geometría de nuestro DataFrame.
data.shape

(923, 7)

Este DataFrame tiene 923 filas, así que usaremos el método `head()` para verificar sus primeras 5 filas:

In [4]:
# Imprimimos en pantalla las primeras 5 filas de nuestro DataFrame.
data.head()

Unnamed: 0,x,y,z,area,frec_fracturas,sigma_z,tiraje_prom
0,1006.1766,488.6437,2346,286.5643,1.979,11.126392,122.685
1,1040.602,492.5178,2346,286.5643,3.07,9.646313,121.178
2,1075.0274,496.3919,2346,286.5643,3.07,10.590594,118.942
3,1109.4528,500.266,2346,286.5643,1.75,10.605144,120.012
4,1143.8782,504.1401,2346,286.5643,0.67,10.059537,122.787


La carga de datos desde archivos con extensión `.xlsx` suele ser muy lenta. Por esa razón, es preferible cargar data desde archivos que sean de menor complejidad. Un ejemplo de este tipo de archivos corresponde a aquellos con extensión `.csv` (valores separados por comas), debido a que éstos consumen mucha menos memoria que aquellos generados por defecto en Microsoft Excel®.

Para testear la diferencia en el tiempo de carga de archivos en **Pandas** con ambos tipos de formato, primero guardaremos nuestro DataFrame en formato `.csv`. Para ello, podemos utilizar el método `to_csv()` aplicado sobre nuestro DataFrame, considerando la ruta y el nombre de archivo con el cual guardaremos esta data:

In [7]:
# Guardamos nuestra data en un archivo de valores separados por comas (.csv).
data.to_csv("datasets/pillars_data.csv")

La carga de datos desde archivos con extensión `.csv` en **Pandas** puede realizarse mediante el uso de la función `pd.read_csv()`, cuyo único argumento obligatorio es `filepath_or_buffer`, y que corresponde a la ruta del archivo desde el cual cargamos nuestros datos. Esta función también comparte varios argumentos con `pd.read_excel()`, como `decimal`, y que cumple la misma función:

In [8]:
# Volvemos a cargar nuestra data, pero esta vez desde un archivo .csv.
data = pd.read_csv(filepath_or_buffer="datasets/pillars_data.csv")

Vemos que se trata casi exactamente del mismo archivo:

In [9]:
# Esta es la misma data que antes, sólo que cargada desde un archivo más liviano.
data.head()

Unnamed: 0.1,Unnamed: 0,x,y,z,area,frec_fracturas,sigma_z,tiraje_prom
0,0,1006.1766,488.6437,2346,286.5643,1.979,11.126392,122.685
1,1,1040.602,492.5178,2346,286.5643,3.07,9.646313,121.178
2,2,1075.0274,496.3919,2346,286.5643,3.07,10.590594,118.942
3,3,1109.4528,500.266,2346,286.5643,1.75,10.605144,120.012
4,4,1143.8782,504.1401,2346,286.5643,0.67,10.059537,122.787


Observamos que el archivo cargado previamente tiene una columna adicional cuyo nombre es `"Unnamed: 0"`. La razón de aquello es porque, al guardar un DataFrame mediante el método` to_csv()`, el índice de filas asignado por defecto al mismo se guarda también. Para evitar guardar un el índice de un DataFrame junto con sus datos, basta con especificar el argumento `index` en el método `to_csv()` con valor igual a `False`.

Previo a hacer esto, primero eliminaremos la columna `"Unnamed: 0"`. Para eliminar cualquier fila o columna en un DataFrame, podemos usar siempre el método `drop()` para eliminar cualquier fila o columna, especificando para ello el eje estructural que sirve como referencia para la correspondiente eliminación (`axis=0` para las filas, y `axis=1` para las columnas, similar a lo que ocurre en arreglos bidimensionales de **Numpy**). Por supuesto, `drop()` requiere que especifiquemos el índice asociado a la fila o columna (o conjunto de filas o columnas) que deseamos eliminar. Finalmente, usamos el argumento `inplace` (que es de tipo Booleano) para indicar a **Pandas** que la eliminación se realiza sobre la serie o DataFrame en cuestión, guardando los cambios una vez que éstos se realizan. De este modo, para eliminar la columna` "Unnamed: 0"`, basta con escribir:

In [10]:
# Eliminamos la columna 'Unnamed: 0'.
data.drop("Unnamed: 0", axis=1, inplace=True)

Ahora guardamos nuestro DataFrame, ignorando el índice de filas:

In [11]:
# Guardamos nuestro DataFrame en formato .csv, descartando el índice de filas.
data.to_csv("datasets/pillars_data.csv", index=False)

Vemos que ahora, si cargamos nuestra data y la imprimimos en pantalla, no existirá la columna `"Unnamed: 0"`:

In [12]:
# Cargamos nuestra data nuevamente.
data = pd.read_csv(filepath_or_buffer="datasets/pillars_data.csv")
data.head()

Unnamed: 0,x,y,z,area,frec_fracturas,sigma_z,tiraje_prom
0,1006.1766,488.6437,2346,286.5643,1.979,11.126392,122.685
1,1040.602,492.5178,2346,286.5643,3.07,9.646313,121.178
2,1075.0274,496.3919,2346,286.5643,3.07,10.590594,118.942
3,1109.4528,500.266,2346,286.5643,1.75,10.605144,120.012
4,1143.8782,504.1401,2346,286.5643,0.67,10.059537,122.787


Si tomamos el tiempo de ejecución de ambas funciones de carga de archivos, veremos que la función `pd.read_csv()` es muchísimo más rápida que `pd.read_excel()` al abrir el mismo archivo con extensiones diferentes:

In [13]:
%timeit pd.read_excel(io="datasets/pillars_data.xlsx", engine="openpyxl")

101 ms ± 2.41 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [14]:
%timeit pd.read_csv(filepath_or_buffer="datasets/pillars_data.csv")

2.66 ms ± 50.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


¡`pd.read_csv()` fue casi 40 veces más rápida que `pd.read_excel()`, siendo que ambos archivos tenían almacenada la misma data!

## Iteraciones sobre filas.
Con iteraciones sobre filas nos referimos a cualquier cálculo repetitivo que se realice sobre todas las filas de una estructura de datos de **Pandas** (ya sea una serie o un DataFrame), una a la vez. Estas operaciones suelen tener un tiempo de ejecución lento y que motiva, de hecho, a que **Pandas** nos ofrezca una amigable advertencia en su [documentación oficial](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#iteration) relativa al hecho de que, en efecto, este es un proceso que tarda más tiempo del que quizás nos gustaría esperar. Por lo tanto, antes de proceder a iterar sobre filas, debemos detenernos a pensar en qué queremos hacer con cada una de ellas, y empaquetar dicha acción en alguna función que aplicaremos posteriormente sobre nuestra serie o DataFrame mediante el método `apply()`

Antes de proceder a explicar cómo generar iteraciones sobre filas, nos detendremos un poco a comentar cómo aplicar funciones sobre una serie o DataFrame mediante el uso del método `apply()`. Dicho método es propio de cualquiera de estas estructuras de datos, y permite aplicar cualquier función previamente definida sobre todos los datos de una serie o DataFrame, o bien, sobre los datos que están referenciados por algún eje (filas o columnas).

De la misma forma que ocurre con los arreglos bidimensionales, los DataFrames son estructuras que están ordenadas siguiendo una convención que justifica su geometría. Tal convención es exactamente la misma que la usada en **Numpy** para tales arreglos, y hace uso de los ejes 0 y 1 para hacer referencia a operaciones que aplican ya sea sobre filas o columnas, respectivamente. Esta referencia, igualmente, se explicita mediante el argumento axis, y es algo que ya vimos al usar el método `drop()`.

Los ejes que definen la geometría de un arreglo se ilustran en el siguiente bloque de código: