<img src = "https://drive.google.com/uc?export=view&id=1WaM3ez8iLaUk3VyWNYZQuifnvbEX4vbK" alt = "Encabezado MLDS" width = "100%">  </img>



# **Entendimiento de los datos con *pandas* I**
---
<img src = "https://pandas.pydata.org/static/img/pandas.svg" alt = "pandas Logo" width = "70%">  </img>



***Pandas*** es una librería de código abierto de *Python* muy popular diseñada para tareas de análisis y manipulación de datos. Es, junto a *NumPy* y *SciPy*, un módulo fundamental del ecosistema de computación científica en *Python* que es usado en proyectos de análisis de datos.

En este material se discutirán las funcionalidades que *pandas* ofrece para el proceso de entendimiento de los datos, desde sus estructuras de datos fundamentales, sus atributos y métodos principales, además de herramientas de escritura y lectura de datos.

## **1. Importar *pandas***
---

*pandas*, al igual que *NumPy*, viene instalado por defecto en la mayoría de distribuciones de *Python*. En este material, y en muchos recursos que encontrará en la web, se utilizará el alias **`pd`** como abreviatura de *pandas*. Si lo desea, puede trabajar sin alias o con módulos específicos, tal como se discutió en la guía de *NumPy*.

*pandas* está construido encima de *NumPy* y depende de este para muchas de sus funcionalidades principales. Se recomienda instalar en conjunto estas librerías, pues juntas proveen una herramienta poderosa para la manipulación de conjuntos de datos. Se usará el alias **`np`** como abreviatura de *NumPy* y **`pd`** como abreviatura de *Pandas*.


In [None]:
import numpy as np
import pandas as pd

In [None]:
!python --version
print('NumPy', np.__version__)
print('pandas', pd.__version__)

Este material fue realizado con las siguientes versiones:

- Python 3.10.6
- NumPy 1.22.4
- pandas 1.5.3


## **2. pd.Series y pd.DataFrame**
---

*Pandas* está orientado al manejo de datos de carácter tabular, como las tablas de hojas de cálculo o de bases de datos relacionales. Su funcionalidad gira en torno a dos estructuras de datos fundamentales:
* **`Series`**
* **`Dataframes`**



### **2.1. *Series***
---

El primer objeto a considerar es el objeto *Series*. Una serie es un arreglo unidimensional de datos, cuyos elementos son identificados por un índice (no necesariamente uno único como en los diccionarios de *Python*). Se puede considerar como dos arreglos de *NumPy* asociados. Uno, el *índice* o **index** de la serie, cuyos valores corresponden a los valores usados para identificar cada entrada de la serie. El otro es el contenido de la serie, del mismo tamaño de su índice. Esta relación permite obtener los elementos en una serie de la forma en que se haría con un diccionario, permitiendo a su vez un espectro mayor de funcionalidad y utilidad para el análisis de datos.

La forma principal de crear *Series* en *pandas* es mediante el constructor **`pd.Series`**. Esta función admite como argumento distintos tipos de dato y argumentos adicionales para la definición de series. Los tipos de dato permitidos son:

**1.  Listas o tuplas de Python**: Al usar listas de *Python* como entrada, su contenido se convierte en el contenido del nuevo objeto *Series*. El argumento **`index`** permite definir el índice de la lista. Si no se pasa este argumento el índice son los números enteros desde 0 hasta el tamaño de la serie, como en un arreglo o una lista.

In [None]:
#Listas y tuplas de Python (Variables, listas/tuplas literales, comprensión de listas...)
pd.Series(['a', 'b', 'c'])

In [None]:
pd.Series(('a', 'b', 'c'))

In [None]:
values = [f'Value: {i}' for i in range(10)]
index  = [f'Index: {i}' for i in range(10)] # Índices con cadenas de caracteres

serie = pd.Series(values,          # Valores de la serie
                  index = index )  # Índice de la serie

print(type(serie)) # Imprime el tipo de dato: Series
serie

**2.  Arreglos de *NumPy***: Tanto el argumento de contenido como el argumento de índice **`index`** aceptan arreglos de *NumPy* en su definición. Como *pandas* y sus objetos están diseñados utilizando arreglos de *NumPy*, también se consideran los tipos de dato de *NumPy* para sus objetos. Estos pueden inferirse si provienen de una lista o un arreglo, o pueden especificarse con el argumento **`dtype`**.

In [None]:
#Arreglos de NumPy (Tanto para los valores como para el índice)
pd.Series(np.logspace(0, 4, 10), index = np.linspace(0, 90, 10, dtype = 'int'))

In [None]:
pd.Series(np.linspace(0, 500, 10), dtype = 'float16')

**3.  Diccionarios de *Python***: El constructor también admite diccionarios de *Python* como argumento para su definición. Al recibir este tipo de dato, las llaves del diccionario se interpretan como el índice y sus valores asociados como el contenido de la serie.

In [None]:
#Diccionarios
data = {
    'a' : 1,
    'b' : 2,
    'c' : 3
    }
pd.Series(data)

Además, se le puede añadir un nombre con el argumento **`name`**. Esto será de utilidad cuando se use de la mano con objetos **`pd.DataFrame`**, que se presentarán a continuación.

### **2.2. DataFrame**
---

Los objetos **`pd.DataFrame`** son el objeto principal de *pandas*. Representan una tabla, un tipo de conjunto de datos con un índice asignado a sus filas y uno asignado a sus columnas. Cada fila o columna representa un objeto **`pd.Series`**.

En el análisis de datos, se tiene una convención para distinguir entre filas y columnas. Las filas se suelen considerar observaciones, repeticiones de un experimento, o individuos de algo en particular. Por su parte, las columnas representan variables asociadas a cada observación (características), por lo que pueden tener distintos tipos de dato o semántica independiente. La intersección entre una fila y una columna se conoce como celda, y representa el valor de una variable de una instancia específica.

Para crear un objeto *DataFrame* se puede utilizar el constructor **`pd.DataFrame`**. Al igual que las *Series*, este constructor admite distintos tipos de dato:

**1.  Arreglo de *NumPy*:**  Los datos de entrada se pueden especificar como un arreglo de *NumPy* de dos dimensiones. Al hacer esto, los valores de la primera dimensión (axis = 0) son organizados por filas, y los arreglos de la segunda dimensión (axis = 1) son organizados por columnas. Añadir un arreglo de 1 dimensión construye un *DataFrame* de 1 sola columna en lugar de una serie. Arreglos con otras dimensiones generarán un error.

Esta vez, para distinguir entre filas y columnas se definen dos argumentos para la definición de los arreglos usados para representar sus índices. Estos son:

*  **`index`**: Este argumento (igual al recibido por el constructor **`pd.Series`**) define el valor de los índices de las filas de la tabla.
*  **`columns`**: Este argumento define el valor de los índices de las columnas de la tabla.

No es necesario que estos argumentos contengan valores únicos, aunque es recomendable si se desea manejar cada elemento de forma aislada. También es válido usar combinaciones de tuplas y listas para esta definición.

In [None]:
#Arreglo de NumPy
pd.DataFrame(np.full((3,7), 10), index = list('aba'))

In [None]:
#Combinación de tuplas y listas
#Los índices de filas y columnas por defecto son números enteros empezando desde 0.
pd.DataFrame([(10, 20), (30, 40)] )

**3.  Diccionarios de *Python***: El constructor también admite diccionarios de *Python* como argumento para su definición. Al recibir este tipo de dato, las llaves del diccionario se interpretan como el índice de las *columnas* y sus valores asociados como el contenido de cada columna, en forma de estructuras de 1 dimensión como arreglos o listas. Es importante que estas tengan la misma longitud, o se producirá un error.

In [None]:
data = {
   'a' : [1,2,3],
   'b' : [10,20,30]
}

pd.DataFrame(data)

### **2.3. Atributos**
---


Los objetos *Series* y *DataFrame* tienen algunos atributos a los que se puede acceder con el símbolo **`.`**. Algunos de estos son heredados de sus objetos internos de *NumPy*. A continuación se muestran algunos de ellos:

In [None]:
s  = pd.Series(np.random.randn(10),
               name = 'mi serie'
               )

df = pd.DataFrame(np.eye(6,3),
                  index = list('abcdef'),
                  columns = list('XYZ')
                  )

In [None]:
s

In [None]:
df

* **`values:`** El arreglo de *NumPy* con el contenido del objeto.

In [None]:
s.values

In [None]:
df.values

* **`index`**: El objeto de tipo **`pd.Index`** con el índice de la serie, o el índice de las filas del *DataFrame*.

In [None]:
s.index

In [None]:
df.index

* **`columns` (solo *DataFrame*)**: El objeto de tipo **`pd.Index`** con el índice de las columnas del *DataFrame*.

In [None]:
df.columns

* **`name` (solo *Series*)**: Cadena de texto con el nombre que recibe la serie.

In [None]:
s.name

Cada fila y cada columna en un *DataFrame* son objetos *Series*. El indexado en *pandas* se verá en detalle en el próximo material. Ahora mismo, para algunas de las funcionalidades presentadas puede ser útil dar un vistazo a la indexación básica de columnas de *pandas*. Esta se realiza como el indexado de diccionarios de *Python*, de la siguiente forma:

In [None]:
df['X'] # Esto retorna la serie correspondiente a la columna X del DataFrame.

In [None]:
type(df['X']) # Una única columna es de tipo Series.

#### **2.3.1. Atributos heredados de *NumPy***
---

* **`size`**: Tamaño (número de elementos) del arreglo de *NumPy* del contenido del objeto.

In [None]:
s.size

In [None]:
df.size

* **`shape`**: Tupla con el tamaño de las dimensiones del arreglo de *NumPy* del contenido del objeto.

In [None]:
s.shape

In [None]:
df.shape

* **`dtype | dtypes`**: Tipo del arreglo que representa el contenido del objeto. En DataFrames se usa el atributo **`dtypes`**, que retorna una serie con el tipo de dato de cada columna.

In [None]:
s.dtype

In [None]:
df.dtypes

* **`ndim`**: Retorna el número de dimensiones. Por definición siempre va a retornar $1$ si se llama en *Series* y $2$ si se llama en *DataFrame*. En el caso de arreglos n-dimensionales en *NumPy* es muy útil.

In [None]:
s.ndim

In [None]:
df.ndim

* **`T`**: Retorna el *DataFrame* transpuesto. Las filas se convierten en columnas y las columnas en filas. En las *Series*, retorna el mismo objeto. El objeto transpuesto de un *DataFrame* puede ser usado como cualquier objeto *DataFrame*, añadiendo flexibilidad en el tratamiento de los datos.

In [None]:
s.T

In [None]:
df.T

In [None]:
df.T.index #El índice de la tabla transpuesta es el índice de las columnas.

## **3. Importar y exportar datos**
---
*Pandas* permite generar y cargar distintos orígenes de datos para su procesamiento o almacenamiento. Uno de los primeros pasos en un proceso de análisis de datos es la adquisición e integración de dichos datos para su posterior procesamiento.

### **3.1. Exportar datos**
---

En esta guía empezaremos por el proceso de exportación de datos por conveniencia, ya que usaremos los datos generados para explicar el cómo importarlos posteriormente.

Los objetos *Series* y *DataFrame* tienen métodos de conveniencia para generar como salida archivos de varios formatos importantes. Estos métodos tienen la estructura **`.to_<>`**, en donde **`<>`** corresponde al nombre del formato deseado. A continuación se presentan los más importantes. Se recomienda consultar la [documentación oficial](https://pandas.pydata.org/docs/user_guide/io.html#io-store-in-csv) si necesita un formato en particular.

La mayoría de los métodos expuestos, salvo algunas excepciones, funcionan tanto para *DataFrame* como para *Series*. En este tutorial se enseñarán ejemplos del funcionamiento con *DataFrame*, dado que es el escenario más común en el manejo de tablas externas.

In [None]:
#Este ejemplo será usado en el resto de explicaciones.

index = list('abcd')
columns = list('xyz')

data = np.random.randint(10, 99, (4,3))
df = pd.DataFrame(data, index = index, columns = columns)

df

####  **3.1.1. CSV | `.to_csv`**
---
Del inglés *Comma-separated values*, *csv* es uno de los formatos de archivos de texto más comunes para el almacenamiento de datos tabulares. Como su nombre lo indica, los elementos son almacenados celda a celda separados por comas (u otros delimitadores, si así se desea) y separando las filas con saltos de líneas. Este método acepta muchos argumentos, que permiten personalizar un formato particular. Estos permiten definir, entre otras cosas:

  * El nombre y extensión del archivo generado. (**`path`**)
  * Un delimitador distinto a la coma. (**`sep`**)
  * La representación para datos faltantes. (**`na_rep`**)
  * El formato de los decimales. (**`float_format`**)
  * El formato de las fechas. (**`date_format`**)
  * Imprimir o no el encabezado y el nombre del indice. (**`header`** | **`index`**)
  * Filas y columnas a escribir. (**`columns`** | **`chunksize`**)

Lo invitamos a consultar la [especificación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html) de la función en la documentación oficial para más detalles sobre cómo usar estos argumentos.

Todos los argumentos son opcionales, y en caso de faltar *pandas* define un comportamiento por defecto con el formato más común y el recomendado en la mayoría de los casos.


In [None]:
#Si no se define una ruta, se escribe en una cadena de texto.
df.to_csv()

In [None]:
#La extensión no tiene que ser csv (aunque se recomienda)
df.to_csv('df_to_csv.txt')

In [None]:
#Se muestran los archivos en el directorio actual con el comando del sistema "ls".
!ls

In [None]:
#Miramos el contenido del archivo generado con el comando del sistema "cat".
!cat df_to_csv.txt

####  **3.1.2. Hojas de cálculo | `.to_excel`**
---
Otro de los formatos más comunes es el formato del software *Microsoft Office Excel* (o su alternativa abierta *LibreOffice* con documentos en formato .*odf*), que permite disponer de datos tabulares en hojas de cálculo. Existen muchos datos almacenados en este formato, y suele ser requisito del proceso utilizarlo. *Pandas* permite generar y cargar archivos en este formato, ofreciendo opciones de personalización específicas. Algunas de estas son:

  * El nombre y extensión del archivo generado. (**`excel_writer`**)
  * El nombre de la hoja de cálculo. (**`sheet_name`**)
  * Fila y columna en donde empezar a escribir los datos. (**`startrow`** | **`startcol`**)
  *  Combinar celdas de índices múltiples. (**`merge_cells`**)

Además, comparte argumentos de detalles de formato con otras funciones, como se mencionó previamente.

  Lo invitamos a consultar la [especificación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html) de la función en la documentación oficial para más detalles sobre cómo usar estos argumentos.

In [None]:
df.to_excel('df_to_excel.xlsx', 'hoja_ejemplo')

In [None]:
#(SOLO PARA COLAB) Función para descargar el archivo generado.
from google.colab import files
files.download('df_to_excel.xlsx')

También, puede consultar y descargar los archivos que tiene disponibles en el sistema de archivos de *Google Colab* haciendo clic en el icono de directorio que aparece en la parte izquierda de esta ventana.

####  **3.1.3. JSON | `.to_json`**
---
Otro formato común es el *.json* (*JavaScript Object Notation*). Este estándar proviene del lenguaje de programación [*JavaScript*](https://developer.mozilla.org/en-US/docs/Web/JavaScript) y es muy similar a la notación usada en los diccionarios de *Python*, pues usa una combinación entre objetos compuestos por parejas de llaves y valores y listas. *JavaScript* es el lenguaje principal en el desarrollo de páginas web. El estándar *JSON* es independiente del lenguaje, y es muy común usarlo para el intercambio de datos.

El principal argumento específico de este formato es **`orient`**, que define los detalles del formato de JSON a generar.

Al igual que antes, comparte argumentos de detalles de formato con otras funciones.

Lo invitamos a consultar la [especificación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_json.html) de la función en la documentación oficial para más detalles sobre cómo usar estos argumentos.

In [None]:
#Python tiene soporte para este formato con el módulo json
import json

def print_json(raw_json):
  parsed = json.loads(raw_json)
  print(json.dumps(parsed, indent = 2))

In [None]:
# columns - Retorna un objeto con las columnas como llave y las filas en forma de objeto.

s = df.to_json(orient = 'columns')
print_json(s)

In [None]:
# split - Retorna las columnas, índice y valores por separado

s = df.to_json(orient = 'split')
print_json(s)

In [None]:
# records - Retorna una lista de los registros (filas) en forma de objeto

s = df.to_json(orient = 'records')
print_json(s)

In [None]:
# index - Retorna un objeto con los índices como llave y las columnas en forma de objeto.

s = df.to_json(orient = 'index')
print_json(s)

In [None]:
# values - Retorna únicamente el arreglo de valores.

s = df.to_json(orient = 'values')
print(s)

In [None]:
# table - Formato de tabla con datos descriptivos de su estructura.

s = df.to_json(orient = 'table')
print_json(s)

In [None]:
df.to_json('df_to_json.json') # El orient por defecto es "columns"

In [None]:
!cat df_to_json.json

####  **3.1.4. HTML | `.to_html`**
---
*Pandas* también permite generar tablas **HTML** (*Hyper Text Markup Language*), el formato usado en páginas web, perfecto para presentar los resultados de un análisis o exponer un conjunto de datos.
Este formato tiene muchas opciones de personalización definidas en sus argumentos, que corresponden principalmente al estilo generado, además de los argumentos de detalles de formato comunes.

Lo invitamos a consultar la [especificación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_html.html) de la función en la documentación oficial para más detalles sobre cómo usar estos argumentos.

In [None]:
import IPython

#Función para renderizar HTML en el notebook.

def print_HTML(str):
  display(IPython.display.HTML(df.to_html()))


In [None]:
s = df.to_html('df_to_html.html')

print_HTML(s)

####  **3.1.5. LaTeX | `.to_latex`**
---
En algunas ocasiones, se puede requerir de formatos más específicos que no sean usados posteriormente en otras aplicaciones. Es el caso de *LaTeX*, estándar para la generación de documentos científicos, con notación especial para ecuaciones y personalización de formatos. *Pandas* también permite generar tablas en este formato, listas para añadirse al código fuente del documento para su renderizado.
Este método tiene también múltiples opciones de personalización específicas del formato por medio de argumentos.

Lo invitamos a consultar la [especificación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_latex.html) de la función en la documentación oficial para más detalles sobre cómo usar estos argumentos.

In [None]:
df.style.to_latex('df_to_latex.tex')

In [None]:
!cat df_to_latex.tex

####  **3.1.6. Markdown | `.to_markdown`**
---
Al hablar de formatos de presentación, no podía faltar *Markdown*, formato usado, entre otras cosas, en el renderizado de las celdas de texto de los *Notebook*. *Pandas* permite generar texto que representa el formato de tablas usado en este lenguaje. Es ideal para generar tablas para sus proyectos con *Notebooks* de *Python*, o para plataformas como *GitHub*.
La mayoría de sus argumentos corresponde a la especificación de la librería [*tabulate*](https://pypi.org/project/tabulate/), sobre la cual *pandas* define la personalización de las tablas de *Markdown* generadas.

Lo invitamos a consultar la [especificación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_markdown.html) de la función en la documentación oficial para más detalles sobre cómo usar estos argumentos.

In [None]:
s = df.to_markdown()

s

In [None]:
from IPython.display import display_markdown, Markdown

#Módulo de IPython para imprimir código fuente de markdown.
display_markdown(Markdown(s))

*Pandas* ha dado soporte a una gran variedad de formatos, pero esta guía sería muy extensa si se presentaran en detalle. A continuación, presentamos una lista de los formatos soportados por *pandas* para la generación de tablas a partir de *DataFrames* y *Series*, o de utilidades específicas que le podrían interesar.

*  [*Python* Pickle](https://docs.python.org/3/library/pickle.html): [**`.to_pickle`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_pickle.html)
*  [*Apache Parquet*](https://parquet.apache.org/): [**`.to_parquet`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_parquet.html)
*  [*Hierarchical Data Format*](https://www.hdfgroup.org/solutions/hdf5/): [**`.to_hdf`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_hdf.html)
*  [*SQL (Structured Query Language)*](https://docs.sqlalchemy.org/en/13/): [**`.to_sql`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_sql.html)
*  [*Feather File Format*](https://arrow.apache.org/docs/python/feather.html): [**`.to_feather`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_feather.html)
*  [*Stata dta*](https://www.stata.com/): [**`.to_stata`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_stata.html)
*  [*Google Big Query*](https://cloud.google.com/bigquery): [**`.to_gbq`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_gbq.html)
*  [Diccionario de *Python*](https://docs.python.org/3/tutorial/datastructures.html#dictionaries): [**`.to_dict`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_dict.html)
*  [*NumPy* record](https://numpy.org/devdocs/reference/generated/numpy.recarray.html#numpy.recarray): [**`.to_records`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_records.html)
*  Cadena de texto de *Python*: [**`.to_string`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_string.html)
*  Copiar al portapapeles: [**`.to_clipboard`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_clipboard.html)



### **3.2. Importar datos**
---

*Pandas*, además de generar, brinda soporte para cargar y dar formato a diversos orígenes de datos. Inicialmente, se requiere reunir y entender los datos de interés y, posteriormente, integrarlos en un conjunto sobre el cual hacer actividades propias del análisis de datos.

Para esto, *pandas* dispone de la familia de métodos **`pd.read_*`** que, a diferencia de la familia de métodos **`.to_x`**, son llamados desde el módulo **`pd`** en vez que desde un objeto *DataFrame* o *Series*. Existen aún más métodos para la carga de orígenes de datos que aquellos usados en la generación. Se consideran también orígenes remotos, como conjuntos de datos alojados en la web, bases de datos remotas o de APIs específicas para la consulta de datos.

Al llamar estos métodos, *pandas* puede retornar objetos de tipo *Series* o de tipo *DataFrame*, dependiendo de las dimensiones del objeto cargado. Le recomendamos que consulte los detalles específicos de cada método de la documentación oficial.

####  **3.2.1. CSV | `pd.read_csv`**

---
De la misma forma en que generamos un archivo en este formato, *pandas* permite cargarlo en forma de *DataFrame* o *Series*.
En este punto, los argumentos de la función se vuelven fundamentales, dados los posibles problemas que se pueden generar al cargar de forma inadecuada un archivo. *Pandas* permite realizar tareas de limpieza de datos, que se verá en detalle en la segunda parte de este material.
Algunos de los argumentos más importantes a tener en cuenta a la hora de cargar archivos en formato .csv son:

*  **`path`**: Ruta del archivo a cargar. Este argumento es el primero en posición y es obligatorio. Esta ruta no se limita a archivos locales, también se consideran URLs remotas.
*  **`sep`**: Separador de los elementos del archivo.
*  **`header`**: Posición del header. La fila indicada será interpretada como los nombres de las columnas y se cargarán las filas que le precedan.
*  **`names`**: Nombres a usar para las columnas cargadas. La longitud de esta lista/arreglo debe coincidir con el número de columnas.
*  **`index_col`**: Posición o posiciones de las etiquetas usadas como índice. Si es una lista se crea un índice múltiple. Si se pasa el valor **`False`** se puede indicar a *pandas* que no use la primera columna como el índice del *DataFrame*.
*  **`usecols`**: Subconjunto de las columnas cargadas a usar en la generación del *DataFrame*.  
*  **`true_values` | `true_values`**: Caracteres que serán interpretados como valores de verdad **`True`** y **`False`**.

*  **`skip_rows` | `skip_footer`**: Filas a saltar desde el inicio y desde el final.
*  **`nrows`**: Total de filas a cargar. Especialmente útil para conjuntos de datos grandes en donde no nos interese toda la información.
*  **`na_values` | `keep_default_na` | `na_filter`**: Herramientas para el tratamiento de datos faltantes. Muy importante en el proceso de limpieza de datos.

Además de estos, existen muchos argumentos usados para la definición del formato de origen como la fecha o los números decimales, ofreciendo una gran variedad de opciones en la lectura de conjuntos de datos.


  Lo invitamos a consultar la [especificación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csv) de la función en la documentación oficial para más detalles sobre cómo usar estos argumentos.

> **Nota:** El siguiente ejemplo solo funciona en *Google Colab*, que trae por defecto algunos *datasets* generales. Para hacerlo en local, ubique el archivo a cargar en la misma ruta.

In [None]:
# Carga de archivo ubicado en el sistema de archivos de Google Colab.
# En este caso se trata del dataset de prueba de alojamientos en el estado de California.

df = pd.read_csv('sample_data/california_housing_test.csv')

df

In [None]:
# Podemos cargar el archivo generado anteriormente.
# Recuerde que tiene que haber ejecutado la celda donde se genera o se producirá un error.

df = pd.read_csv('df_to_csv.txt', index_col=0)
df

In [None]:
# La ruta también puede ser remota, como la de una URL.
url = 'https://drive.google.com/uc?export=download&id=1sO-OfJ-GT5emHXr6fRXCWFlzsHqL-YdQ'
df = pd.read_csv(url)
df

####  **3.2.2. Hojas de cálculo | `pd.read_excel`**
---
*Pandas* permite cargar hojas de cálculo de los formatos *xls*, *xlsx*, *xlsm*, *xlsb*, *odf*, *ods* y *odt*. Al igual que antes, la ruta especificada puede ser local o remota en forma de URL. Algunos argumentos a considerar son:

  * El nombre de la hoja a cargar. (**`sheet_name`**)
  * Posición del encabezado. (**`header`**)
  * Columnas de la hoja de cálculo a usar. Se pueden definir en formato de letras o rangos de letras, notación usada para etiquetar columnas. Expresiones de la forma 'A', 'A,C:E', entre otros. (**`usecols`**)
  *  Tipo de dato interpretado por columna. (**`dtype`**)
  *  Número de filas a cargar. (**`nrows`**)

Además, comparte argumentos de detalles de formato con otras funciones, como se mencionó previamente.

  Lo invitamos a consultar la [especificación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html) de la función en la documentación oficial para más detalles sobre cómo usar estos argumentos.

In [None]:
pd.read_excel('df_to_excel.xlsx', index_col=0)

La siguiente es una URL con el *dataset* de datos abiertos de cifras de turismo por mes de la ciudad de Bogotá:

In [None]:
#URL con dataset de datos abiertos de cifras de turismo de la ciudad de Bogotá

url = 'https://github.com/JuezUN/datasets/blob/master/cifras_turismobog_2018.xlsx?raw=true'

df = pd.read_excel(url,
              sheet_name = 'Número de Turistas', #Hoja de cálculo a cargar.
              header = 8,  #Posición del encabezado
              usecols = 'A:D',  #Usar las primeras 5 columnas
              nrows = 48
            )

df.head()

####  **3.2.3. JSON | `pd.read_json`**
---
En la sección anterior se discutían los métodos para almacenar un objeto mediante el argumento **`orient`**, y se recuerda pues es importante al definir la forma en que se va a cargar un archivo codificado con este estándar en *pandas*. Además de este, otros argumentos a considerar son:


  *  Tipo de objeto (*Series* o *DataFrame*) a recuperar. ( **`typ`**)
  *  Opciones de formato de fechas específicos de este estándar  (**`convert_dates`** |  **`keep_default_dates`**)

Al igual que antes, comparte argumentos de detalles de formato con otras funciones.

Lo invitamos a consultar la [especificación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html) de la función en la documentación oficial para más detalles sobre cómo usar estos argumentos.

In [None]:
df = pd.read_json('df_to_json.json')

df

El siguiente ejemplo se realizará con el *dataset* del ejemplo del Cuarteto de Anscombe, cargado por defecto en Google Colab y explorado en la **Unidad 4**.

> **Nota:** Si está trabajando en local, recuerde descargar y ubicar apropiadamente el *dataset*.

In [None]:
#Primero debemos ver en qué formato se encuentra
!cat sample_data/anscombe.json

In [None]:
df = pd.read_json('sample_data/anscombe.json', orient = 'records')

df

####  **3.2.4. HTML | `pd.read_html`**
---
Este método permite leer páginas web (usando los protocolos *http*, *ftp* y *file* de URL) en busca de tablas HTML, que son retornadas en una lista de objetos *DataFrame*. Algunos argumentos de interés son:

  *  Cadena de texto o expresión regular a buscar en el contenido de las tablas. Si se especifica, solo las tablas que cumplan con esta condición serán cargadas. (**`match`**)

  * Etiquetas o atributos HTML usados para identificar una tabla en particular. (**`attrs`**)

Lo invitamos a consultar la [especificación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_html.html) de la función en la documentación oficial para más detalles sobre cómo usar estos argumentos.

In [None]:
# Conjunto de datos de abanderados de los juegos olímpicos de Río de Janeiro 2016.
dfs = pd.read_html('https://es.wikipedia.org/wiki/Anexo:Abanderados_en_la_ceremonia_de_apertura_de_los_Juegos_Ol%C3%ADmpicos_de_R%C3%ADo_de_Janeiro_2016')

# Recuerde que la función retorna una lista con todas las tablas, así solo se encuentre una.

dfs[0] # Accedemos a la primera posición de la lista de DataFrames.

## **4. Combinar y agrupar conjuntos de datos**
---

Cuando se manejan datos que provienen desde múltiples fuentes, es frecuente enfrentar escenarios en los que se requiera combinarlos con el fin de consolidar el conjunto de datos. Esto puede ser necesario para realizar tareas de limpieza, preparación y análisis sobre el conjunto de variables completo.

*pandas* permite realizar esta tarea de varias formas, ofreciendo flexibilidad en la manipulación y estructura de datos con sus objetos *DataFrame* y *Series*.

A continuación se presentan los métodos principales para la combinación de datos en *pandas*.



#### **4.1. Combinación de datos**
---
* **`pd.concat`**: *Pandas* dispone de un método de alto nivel para concatenar objetos *DataFrame* y *Series* de manera secuencial. Similarmente al método **`concatenate`** de *NumPy*, se puede realizar esta concatenación en cualquiera de los dos ejes o *axis* posibles. ($0$ para filas y $1$ para columnas).
Al ser de alto nivel, los objetos se pasan como primer argumento en una colección tipo lista o tupla.

  Algunos argumentos adicionales a tener en cuenta son:

  *  Definir si conservar o no todos los registros, o sólo a aquellos que son producto de la intersección de los índices de todos los objetos. (**`join`**)   
  *  Decidir si respetar el índice de los objetos de entrada, o crear un índice de enteros que empiece en 0. (**`ignore_index`**)
  *  Decidir si ordenar o no el eje que no es concatenado.   (**`sort`**)


In [None]:
a = pd.Series([10,11,12], name = 'a')

a

In [None]:
b = pd.Series([5,4,3], name = 'b')

b

In [None]:
pd.concat([a, b]) # Por defecto se concatena por filas.

In [None]:
pd.concat([a, b], axis = 1) # Los nombres (atributo name) definen el nombre de la columna.

In [None]:
df_a = pd.DataFrame(np.eye(3))

df_a

In [None]:
df_b = pd.DataFrame(np.full((3,2), -1))

df_b

In [None]:
pd.concat([df_a, df_b], ignore_index= True)

In [None]:
pd.concat([df_a, df_b], axis = 1, ignore_index = True)

 * **`df.assign`**: Otro método para combinar *Series* u otros objetos similares y añadir su contenido a un *DataFrame* existente en forma de columnas. Los datos permitidos para construir columnas con el método **`assign`** son:

  * Objetos *Series*.
  * Listas y tuplas de *Python*.
  * Arreglos de *NumPy*
  * Valores escalares.
  * Valores invocables como funciones o clases.

Todos los argumentos ingresados al método se interpretan como columnas nuevas a ser creadas.
  


In [None]:
df = pd.DataFrame({'a' : [1, 2, 3],
                   'b' : [4, 5, 6],
                   'c' : [7, 8, 9]})
df

In [None]:
serie = pd.Series(['a', 'b', 'c'])
lista = [-1] * 3
arreglo = np.linspace(0, 1, 3)
escalar = 100
función = lambda x : x['a'] + x['b']

df.assign(d = serie,
          e = lista,
          f = arreglo,
          g = escalar,
          h = función)

In [None]:
# El objeto original no se modifica. Recuerde reasignar.
df

In [None]:
df = df.assign(d = serie,
          e = lista,
          f = arreglo,
          g = escalar,
          h = función)
df

* **`df.merge`**: Este método permite combinar el contenido de dos *DataFrame*. Los valores de la columna indicada, que correspondan en ambos objetos, formarán una nueva fila con los datos de ambos *DataFrame* originales, combinando los valores de las demás columnas en vez de agregarlos secuencialmente. El método es llamado en el primer *DataFrame*, mientras que el segundo es pasado como el primer argumento.

  Algunos de sus argumentos son:

  * **`how`**: Este argumento define qué valores se van a conservar. Tiene 4 opciones, inspiradas en los *join* de SQL.
  * **`outer`**: Se conservan todos los elementos.
  * **`inner`**: Se conservan solo los elementos que estén en ambos *DataFrame*.
  * **`left`**: Se conservan todos los elementos del *DataFrame* izquierdo.
  * **`right`**: Se conservan todos los elementos del *DataFrame* derecho.
  * **`on` | `left_on` | `right_on`**: Nombre de la columna a combinar. Se puede definir nombres distintos por cada *DataFrame*.

  * **`left_index` | `right_index`**: Utilizar el índice en vez de una columna.
  * **`suffixes` | `indicator`**: Generar columnas con información general de la combinación, como el origen de la columna o el método usado.


In [None]:
df_izq = pd.DataFrame(
    {
     'a' : ['a0', 'a1', 'a2'],
     'b' : ['b0', 'b1', 'b2']
    }
)

df_izq

In [None]:
df_der = pd.DataFrame(
    {
     'a' : ['a1', 'a2', 'a3'],
     'c' : ['c1', 'c2', 'c3']
    }
)
df_der

In [None]:
# Por defecto el método es "inner"
df_izq.merge(df_der, on = 'a') # Se une con respecto a la columna 'a' en ambas tablas.

In [None]:
df_izq.merge(df_der, on = 'a', how = 'outer')

In [None]:
df_izq.merge(df_der, on = 'a', how = 'left')

In [None]:
df_izq.merge(df_der, on = 'a', how = 'right')

In [None]:
df_der = pd.DataFrame(
  {
    'col_a' : ['a1', 'a2', 'a3'],
    'b' : ['B1', 'B2', 'B3']
  }
)
df_der

In [None]:
#Cuando se encuentran registros solapados se crean columnas aparte con sufijos por cada tabla.
df_izq.merge(df_der,
              left_on = 'a',      # Columna usada en la tabla izquierda.
              right_on = 'col_a', # Columna usada en la tabla derecha.
              how = 'outer')

In [None]:
df_izq.merge(df_der,
              left_on = 'a',      # Columna usada en la tabla izquierda.
              right_on = 'col_a', # Columna usada en la tabla derecha.
              how = 'outer',
              suffixes = ('_izq', '_der'), # Sufijos para columnas solapadas.
              indicator = True # Indicador (columna "_merge") de origen de cada fila.
              )

* **`df.join`**: Este método comparte la funcionalidad de **`merge`**, pero acercándose más al estilo de combinación de tablas SQL, que realiza combinaciones en los índices de cada tabla. Si bien se puede obtener el mismo resultado con **`merge`** y los argumentos **`left_index`** y **`right_index`**, se recomienda usar **`join`** para simplificar la tarea.

In [None]:
df_izq = pd.DataFrame(
    {
     'a' : ['a0', 'a1', 'a2'],
     'b' : ['b0', 'b1', 'b2']
    },
    index = ['i0', 'i1', 'i2'] #Usamos el mismo ejemplo, pero con índice distinto.
)

df_izq

In [None]:
df_der = pd.DataFrame(
    {
     'c' : ['c1', 'c3', 'c4'],
     'd' : ['d1', 'd3', 'd4']
    },
    index = ['i1', 'i3', 'i4']
)

df_der

In [None]:
# Usando merge
df_izq.merge(df_der, left_index = True, right_index = True, how = 'outer')

In [None]:
# El mismo resultado con join
df_izq.join(df_der, how = 'outer')

El objeto pasado como argumento puede ser un objeto *Series* con nombre. El nombre es necesario pues corresponde al nombre de la columna creada.

In [None]:
sr = pd.Series([0, 1, 0, 0],
                 index = ['i0', 'i1', 'i3', 'i4'],
                 name = 's')

df_der.join(sr) # En join el método por defecto es "left"

In [None]:
df_der2 = pd.DataFrame(
    {
      'b' : ['b1', 'b3', 'b4'],
      'c' : ['c1', 'c3', 'c4']
    },
    index = ['i1', 'i3', 'i4']
)

df_izq.join(df_der2,
             how = 'outer',
             lsuffix = '_izq', # Los sufijos se especifican por separado.
             rsuffix = '_der'
             )

El método **`join`** también permite hacer múltiples combinaciones en un solo llamado, pasando como argumento del método una lista de *DataFrames*.

In [None]:
df_der2 = pd.DataFrame(
    {
      'e' : ['e0', 'e3', 'e4'],
      'f' : ['f0', 'f3', 'f4']
    },
    index = ['i0', 'i3', 'i4']
)


df_izq.join([df_der, df_der2],
             how = 'outer')

#### **4.2. Agrupación de datos con `df.groupby`**
---

*Pandas* ofrece métodos para realizar operaciones de agrupación y combinación de datos dentro de un mismo objeto. Estas operaciones consisten en tres fases:

*  **Separar** los datos en grupos basándose en algunos criterios.
*  **Aplicar** una función a cada grupo. Estas funciones pueden ser de agregación, transformación o filtrado.
*  **Combinar** los resultados de la función en una estructura de datos nueva, como un *DataFrame*.


Esto es posible con el método **`groupby`**, que realiza un agrupamiento respecto a los criterios definidos en su argumento.

In [None]:
#Usaremos de nuevo el dataset de ejemplo de Anscombe para este ejemplo.
df = pd.read_json('sample_data/anscombe.json', orient = 'records')

df

In [None]:
# Podemos definir una columna categórica respecto a la cual agrupar.
df.groupby('Series')

La agrupación genera un objeto de tipo **`groupby`**, que contiene la información y los métodos necesarios para operar con cada grupo obtenido. Cada grupo es técnicamente un *DataFrame*, aunque para esto se tienen que iterar.

In [None]:
for nombre, grupo in df.groupby('Series'):
  print(f'Nombre del grupo: {nombre}')
  print(grupo)

Si se desea obtener un grupo en particular, puede usar el método **`get_group`**, indicando el nombre del grupo creado.

In [None]:
df.groupby('Series').get_group('I')

También pueden tomarse funciones, que son evaluadas en el índice del objeto. Sin embargo, es más práctico utilizar los métodos propios del objeto para **aplicar** funciones comunes.

A continuación se presentan algunos de los métodos más importantes y flexibles definidos para objetos de este tipo.

* **`groupby.apply`**: Este método es el más general para la aplicación de funciones en grupos de un objeto **`groupby`**. Permite aplicar una función en un objeto por cada grupo (un objeto *DataFrame*) calculado.

In [None]:
#Máximo de los elementos en la columna Y de cada grupo.
df.groupby('Series').apply(lambda df: df['Y'].max())

In [None]:
def apply_func(df):
  '''
  Función más compleja que define una fila nueva
  con los máximos y mínimos en X y Y de cada grupo.
  '''
  return pd.Series({
       'max_x': df['X'].max(),
       'min_x': df['X'].min(),
       'max_y': df['Y'].min(),
       'min_y': df['Y'].min()
   })

df.groupby('Series').apply(apply_func)

El método **`apply`** está definido también en objetos *DataFrame* y *Series*.

In [None]:
# En Series recibe funciones que toman como parámetros valores escalares.

s = pd.Series(np.linspace(0,1,11))

s

In [None]:
# Función de números negativos.

s.apply(lambda x: -x)

In [None]:
# En DataFrame, el argumento recibe una fila o columna en forma de Series.

df = pd.DataFrame(np.random.rand(7,3), columns = list('abc'))
df

In [None]:
df.apply(lambda row: row.sum()) # Por defecto se aplica la función en columnas.

In [None]:
df.apply(lambda row: row.sum(), axis = 1) #El argumento axis = 1 indica que se aplique por filas.

* **`groupby.aggregate|agg`**: Uno de los tipos de aplicación de funciones más importante es la **agregación** que consiste en realizar un cálculo en cada grupo que resuma o represente al grupo completo, como la suma o la media. Para esto, se puede usar el método **`.aggregate`** (o su equivalente **`.agg`**), que acepta como argumento una función de agregación a aplicar en los *DataFrame* definidos en cada grupo.


En el siguiente video presentamos un ejemplo de su aplicación, con una tabla ficticia de datos de una competición deportiva internacional.

> **Nota:** Las funciones **`agg`** y **`aggregate`** también están disponibles como métodos de *DataFrame* y *Series*.

In [None]:
#@title **4.2.1. Agrupación y agregación (animación)**
from IPython.display import IFrame

IFrame(src="https://drive.google.com/file/d/15bQjLpq4Dfvb_IkwYs5pZzg1mEiL7OcS/preview",
       width='768px', height='432px')

In [None]:
df = pd.DataFrame({
      'País'      : ['COL', 'BRA', 'VEN', 'COL', 'VEN', 'COL'],
      'Edad'      : [20, 24, 30, 34, 25, 35],
      'Medallas'  : [5, 14, 4, 4, 10, 0]
   },
   index = ['1001', '1002','1003','1004','1005','1006']
   )

df

El método **`agg`** acepta funciones puntuales como **`apply`**, además de permitir ingresar una o varias funciones de agregación por columna mediante un diccionario.

In [None]:
# Tabla que refleja la edad máxima y el total de medallas por país.

df.groupby('País').agg({'Edad' : max, 'Medallas' : sum})

In [None]:
# Se pueden agregar varias funciones por columna.

df.groupby('País').agg({'Edad' : [min, max], 'Medallas' : sum})

In [None]:
# El mismo resultado se puede conseguir con una función y el método apply.

def resumen_deportivo(df):
  return pd.Series({
                      'Edad (max)': df['Edad'].max(),
                      'Medallas (sum)': df['Medallas'].sum()
                    })

df.groupby('País').apply(resumen_deportivo)

## **Recursos adicionales**
---

En este material se consideran algunas de las funciones más comunes, pero quedan muchas otras fuera de alcance. Lo invitamos a que consulte la [documentación oficial](https://pandas.pydata.org/pandas-docs/stable/reference/index.html), y en especial la [Guía de usuario](https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html) de *pandas*.

Además, a continuación se presenta una lista de recursos adicionales que le podrán ser de utilidad:

*  [University of California San Diego. Coursera - Machine Learning With Big Data](https://www.coursera.org/learn/big-data-machine-learning)
*  [Data vedas - Exploración y preparación de los datos](https://www.datavedas.com/data-exploration-and-preparation/)
*  [Kaggle - Pandas](https://www.kaggle.com/learn/pandas)
*  [CodeCademy - Learn Data Analysis with Pandas](https://www.codecademy.com/learn/data-processing-pandas)
*  [University of Michigan. Coursera - Applied Data Science with Python Specialization](https://www.coursera.org/specializations/data-science-python)

## **Créditos**
---

* **Profesor:** [Felipe Restrepo Calle](https://dis.unal.edu.co/~ferestrepoca/)
* **Asistentes docentes:**
  - Alberto Nicolai Romero Martínez
  - Miguel Angel Ortiz Marín

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*