# Preprocesamiento de datos con Pandas

Archivos a descargar:
*   [Archivo histórico de enero 2022 de sistema ECOBICI](https://www.ecobici.cdmx.gob.mx/es/informacion-del-servicio/open-data)
* [Planetas descubiertos](https://exoplanets.nasa.gov/discovery/exoplanet-catalog/)



In [None]:
# Importa Pandas y Numpy
import pandas as pd
import numpy as np

## Lectura y escritura

La API I/O de Pandas es un conjunto de:
* funciones de lectura de alto nivel a las que se accede como `pandas.read_csv()` y que generalmente devuelven un objeto de Pandas
* y métodos de escritura de objetos a los que se accede como `DataFrame.to_csv()`.

A pesar de que los CSV son los archivos de lectura y escritura en Pandas, también es posible utilizar el API I/O con archivos XLSX, HTML, HDF5, JSON, SQL, entre otros. La lectura es posible hacerla desde un archivo local o en en la nube.

In [None]:
# Lee CSV como dataframe (df)
# path = "./2022-01.csv"
path = 'https://raw.githubusercontent.com/sarahiaguilar/fundamentos-cdd/main/datos/2022-01.csv'
df = pd.read_csv(path)

In [None]:
# Escribe dataframe df como CSV
new_path = './2022-01_copy_.csv'
df.to_csv(new_path, index=False)

## Vista

In [None]:
%reset

Después de importar un conjunto de datos, es importante tener una idea general de cómo se compone en términos de formato, filas (observaciones) y columnas (variables). Para ello, los siguientes atributos y métodos resultan útiles:


*   `DataFrame.shape`: Imprime dimensiones de un dataframe en una tupla (total de filas, total de columnas). 
* `DataFrame.columns`: Devuelve nombres de columnas de un dataframe. 
*   `DataFrame.info()`: Imprime información sobre un dataframe, incluido el tipo de índice y las columnas, los valores no nulos y el uso de la memoria.
*   `DataFrame.describe()`: Devuelve estadísticas descriptivas de un dataframe, incluyendo aquellas que resumen la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos, excluyendo los valores de NaN.Analiza series numéricas y de objetos, así como conjuntos de columnas DataFrame de tipos de datos mixtos. 
* `DataFrame.head()`: Devuelve las primeras n filas de un dataframe. Es útil para probar rápidamente si un dataframe tiene el tipo correcto de datos.
* `DataFrame.tail()`: Devuelve las últimas n filas de un dataframe. Es útil para verificar datos rápidamente, por ejemplo, después de ordenar o agregar filas.
* `unique()`: Devuelve los elementos únicos ordenados de un arreglo.



In [None]:
# Imprime dimensiones de dataframe df
df.shape

(393116, 9)

In [None]:
# Devuelve nombres de columnas 
df.columns

Index(['Genero_Usuario', 'Edad_Usuario', 'Bici', 'Ciclo_Estacion_Retiro',
       'Fecha_Retiro', 'Hora_Retiro', 'Ciclo_EstacionArribo', 'Fecha Arribo',
       'Hora_Arribo'],
      dtype='object')

In [None]:
# Imprime información de dataframe df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 393116 entries, 0 to 393115
Data columns (total 9 columns):
 #   Column                 Non-Null Count   Dtype 
---  ------                 --------------   ----- 
 0   Genero_Usuario         377537 non-null  object
 1   Edad_Usuario           393116 non-null  int64 
 2   Bici                   393116 non-null  int64 
 3   Ciclo_Estacion_Retiro  393116 non-null  int64 
 4   Fecha_Retiro           393116 non-null  object
 5   Hora_Retiro            393116 non-null  object
 6   Ciclo_EstacionArribo   393116 non-null  int64 
 7   Fecha Arribo           393116 non-null  object
 8   Hora_Arribo            393116 non-null  object
dtypes: int64(4), object(5)
memory usage: 27.0+ MB


In [None]:
# Imprime estadísticas descriptivas de dataframe df
df.describe()

Unnamed: 0,Edad_Usuario,Bici,Ciclo_Estacion_Retiro,Ciclo_EstacionArribo
count,393116.0,393116.0,393116.0,393116.0
mean,36.507705,9374.873134,185.939069,183.460363
std,10.674899,2524.103726,133.939351,132.985855
min,18.0,859.0,1.0,1.0
25%,29.0,7837.0,68.0,67.0
50%,34.0,9418.0,158.0,153.0
75%,42.0,11178.0,288.0,283.0
max,87.0,15339.0,480.0,480.0


In [None]:
# Imprime primeras 5 filas de dataframe df
df.head()

Unnamed: 0,Genero_Usuario,Edad_Usuario,Bici,Ciclo_Estacion_Retiro,Fecha_Retiro,Hora_Retiro,Ciclo_EstacionArribo,Fecha Arribo,Hora_Arribo
0,M,26,15023,360,31/12/2021,23:50:40,175,01/01/2022,00:01:30
1,M,31,7396,461,31/12/2021,23:34:04,102,01/01/2022,00:01:52
2,,33,11066,43,31/12/2021,23:15:15,120,01/01/2022,00:02:31
3,,33,11426,119,31/12/2021,21:52:58,120,01/01/2022,00:02:39
4,,33,8032,43,31/12/2021,23:16:58,120,01/01/2022,00:02:44


In [None]:
# Imprime primeras 20 filas de dataframe df
df.head(20)

Unnamed: 0,Genero_Usuario,Edad_Usuario,Bici,Ciclo_Estacion_Retiro,Fecha_Retiro,Hora_Retiro,Ciclo_EstacionArribo,Fecha Arribo,Hora_Arribo
0,M,26,15023,360,31/12/2021,23:50:40,175,01/01/2022,00:01:30
1,M,31,7396,461,31/12/2021,23:34:04,102,01/01/2022,00:01:52
2,,33,11066,43,31/12/2021,23:15:15,120,01/01/2022,00:02:31
3,,33,11426,119,31/12/2021,21:52:58,120,01/01/2022,00:02:39
4,,33,8032,43,31/12/2021,23:16:58,120,01/01/2022,00:02:44
5,F,36,9381,68,01/01/2022,00:00:02,75,01/01/2022,00:03:49
6,M,44,4227,154,31/12/2021,23:52:49,25,01/01/2022,00:04:22
7,M,39,11297,450,31/12/2021,23:47:13,89,01/01/2022,00:04:51
8,M,30,7640,154,31/12/2021,23:41:25,118,01/01/2022,00:08:30
9,M,31,11303,107,31/12/2021,23:55:51,171,01/01/2022,00:11:21


In [None]:
# Imprime últimas 5 filas de dataframe df
df.tail()

Unnamed: 0,Genero_Usuario,Edad_Usuario,Bici,Ciclo_Estacion_Retiro,Fecha_Retiro,Hora_Retiro,Ciclo_EstacionArribo,Fecha Arribo,Hora_Arribo
393111,M,32,10395,68,31/01/2022,23:10:11,321,31/01/2022,23:31:47
393112,F,29,6783,68,31/01/2022,23:09:58,321,31/01/2022,23:31:51
393113,M,27,11424,34,31/01/2022,23:25:27,125,31/01/2022,23:31:56
393114,F,29,7414,132,31/01/2022,23:24:40,61,31/01/2022,23:32:41
393115,F,30,7905,91,31/01/2022,22:45:04,91,31/01/2022,23:33:10


In [None]:
# Imprime últimas 20 filas de dataframe df
df.tail(20)

Unnamed: 0,Genero_Usuario,Edad_Usuario,Bici,Ciclo_Estacion_Retiro,Fecha_Retiro,Hora_Retiro,Ciclo_EstacionArribo,Fecha Arribo,Hora_Arribo
393096,M,31,9382,321,31/01/2022,23:05:41,133,31/01/2022,23:27:20
393097,,27,8524,90,31/01/2022,22:47:22,43,31/01/2022,23:27:23
393098,F,32,9542,430,31/01/2022,23:16:21,404,31/01/2022,23:27:29
393099,,28,3970,90,31/01/2022,22:48:12,43,31/01/2022,23:27:40
393100,M,27,9612,188,31/01/2022,23:13:03,77,31/01/2022,23:27:41
393101,M,51,10081,85,31/01/2022,23:01:27,85,31/01/2022,23:27:46
393102,M,47,8825,60,31/01/2022,23:06:39,60,31/01/2022,23:28:01
393103,M,40,9829,351,31/01/2022,23:01:39,476,31/01/2022,23:28:02
393104,M,52,11997,351,31/01/2022,23:12:42,180,31/01/2022,23:28:16
393105,M,44,12153,67,31/01/2022,23:23:38,36,31/01/2022,23:28:18


In [None]:
# Devuelve valores únicos de columna Edad_Usuario ordenados de dataframe df
np.unique(df.Edad_Usuario)

array([18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 87])

## Indexacción y selección

In [None]:
%reset

Recordemos que un `DataFrame` actúa en muchos aspectos como como un diccionario de estructuras de `Series` que comparten el mismo índice y, en otros, como una matriz bidimensional mejorada. Estas analogías pueden ser útiles cuando en la selección de datos dentro de esta estructura.

Teniendo en mente la primer analogía, podemos acceder a las series individuales que componen las columnas del dataframe a través de la indexación estilo diccionario con el nombre de la columna.

In [None]:
# Devuelve columna Genero_Usuario del dataframe df
df['Genero_Usuario']

0           M
1           M
2         NaN
3         NaN
4         NaN
         ... 
393111      M
393112      F
393113      M
393114      F
393115      F
Name: Genero_Usuario, Length: 393116, dtype: object

Y de manera equivalente, podemos usar el acceso estilo atributo con los nombres de columna que son cadenas de caracteres. Aunque esta es una abreviatura útil, no funciona para todos los casos. Por ejemplo, si los nombres de las columnas no son cadenas de caracteres, o si los nombres de las columnas entran en conflicto con los métodos del `DataFrame`, este acceso estilo atributo no es posible. Por ejemplo, el `DataFrame` tiene un método `pop()`, por lo que df.pop apuntará a este método en lugar de a una columna llamada "pop". 

In [None]:
# Devuelve columna Genero_Usuario del dataframe df
df.Genero_Usuario

0           M
1           M
2         NaN
3         NaN
4         NaN
         ... 
393111      M
393112      F
393113      M
393114      F
393115      F
Name: Genero_Usuario, Length: 393116, dtype: object

Ahora bien, considerando la segunda analogía, podemos examinar la matriz de datos subyacente sin procesar utilizando el atributo de  `values`. 

In [None]:
# Devuelve matriz subyacente de dataframe df
df.values

array([['M', 26, 15023, ..., 175, '01/01/2022', '00:01:30'],
       ['M', 31, 7396, ..., 102, '01/01/2022', '00:01:52'],
       [nan, 33, 11066, ..., 120, '01/01/2022', '00:02:31'],
       ...,
       ['M', 27, 11424, ..., 125, '31/01/2022', '23:31:56'],
       ['F', 29, 7414, ..., 61, '31/01/2022', '23:32:41'],
       ['F', 30, 7905, ..., 91, '31/01/2022', '23:33:10']], dtype=object)

In [None]:
# Imprime primer observación de dataframe df
df.values[0]

array(['M', 26, 15023, 360, '31/12/2021', '23:50:40', 175, '01/01/2022',
       '00:01:30'], dtype=object)

Con esto en mente, podemos subsecuentemente realizar operaciones de matrices en el `DataFrame` mismo. 

In [None]:
# Devuelve el dataframe df transpuesto
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,...,393076,393077,393078,393079,393080,393081,393082,393083,393084,393085,393086,393087,393088,393089,393090,393091,393092,393093,393094,393095,393096,393097,393098,393099,393100,393101,393102,393103,393104,393105,393106,393107,393108,393109,393110,393111,393112,393113,393114,393115
Genero_Usuario,M,M,,,,F,M,M,M,M,M,M,M,,M,M,M,M,M,F,M,M,M,F,M,F,M,M,M,F,M,M,M,M,,,,M,,M,...,M,M,M,M,F,F,F,M,M,M,F,M,M,F,M,M,F,M,M,M,M,,F,,M,M,M,M,M,M,M,M,M,M,F,M,F,M,F,F
Edad_Usuario,26,31,33,33,33,36,44,39,30,31,21,19,35,30,33,78,28,36,31,46,36,64,34,25,26,33,28,38,38,35,47,38,43,35,41,38,43,30,30,51,...,34,48,26,37,23,29,34,33,38,34,40,28,46,40,40,28,26,39,43,24,31,27,32,28,27,51,47,40,52,44,34,26,39,20,34,32,29,27,29,30
Bici,15023,7396,11066,11426,8032,9381,4227,11297,7640,11303,12207,9629,8717,11937,7621,8053,9702,9146,12300,8230,8755,8462,7595,12500,15176,8152,8987,10691,11021,9561,10291,9896,7098,11297,12121,8476,9102,11128,8806,4285,...,10047,12422,7875,12306,8093,8242,8704,8725,11021,7945,11015,11245,12291,6849,11283,8018,12232,7124,10621,8842,9382,8524,9542,3970,9612,10081,8825,9829,11997,12153,7330,12295,10598,9668,12264,10395,6783,11424,7414,7905
Ciclo_Estacion_Retiro,360,461,43,119,43,68,154,450,154,107,185,63,106,398,73,24,103,28,183,6,25,224,115,115,175,191,17,17,17,17,297,24,79,89,126,24,24,137,137,129,...,305,385,277,62,5,5,26,26,116,41,28,135,216,125,347,32,3,25,14,129,321,90,430,90,188,85,60,351,351,67,136,148,59,83,295,68,68,34,132,91
Fecha_Retiro,31/12/2021,31/12/2021,31/12/2021,31/12/2021,31/12/2021,01/01/2022,31/12/2021,31/12/2021,31/12/2021,31/12/2021,31/12/2021,01/01/2022,31/12/2021,31/12/2021,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,...,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022
Hora_Retiro,23:50:40,23:34:04,23:15:15,21:52:58,23:16:58,00:00:02,23:52:49,23:47:13,23:41:25,23:55:51,23:27:26,00:05:20,23:21:44,23:40:54,00:11:09,00:06:27,00:06:07,00:20:24,00:20:35,00:25:41,00:11:41,00:26:00,00:24:04,00:23:04,00:08:35,00:25:01,00:25:10,00:24:28,00:24:16,00:24:39,00:25:28,00:20:39,00:00:14,00:22:36,00:10:07,00:21:18,00:21:41,05:03:57,05:13:32,05:00:29,...,23:13:35,23:10:58,23:05:37,23:10:48,23:16:48,23:16:31,22:31:38,22:31:22,23:20:01,23:16:29,23:10:20,22:59:43,23:04:27,23:22:01,23:18:35,23:10:48,23:13:25,23:14:51,23:16:09,23:20:22,23:05:41,22:47:22,23:16:21,22:48:12,23:13:03,23:01:27,23:06:39,23:01:39,23:12:42,23:23:38,23:16:47,23:25:27,23:20:15,23:19:50,23:19:19,23:10:11,23:09:58,23:25:27,23:24:40,22:45:04
Ciclo_EstacionArribo,175,102,120,120,120,75,25,89,118,171,106,46,89,43,32,38,103,53,270,1,146,224,43,43,222,163,208,208,208,208,78,217,102,262,442,147,147,123,137,97,...,288,372,169,135,25,25,30,30,114,91,271,205,107,135,154,52,111,259,75,123,133,43,404,43,77,85,60,476,180,36,1,151,182,288,309,321,321,125,61,91
Fecha Arribo,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,01/01/2022,...,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022,31/01/2022
Hora_Arribo,00:01:30,00:01:52,00:02:31,00:02:39,00:02:44,00:03:49,00:04:22,00:04:51,00:08:30,00:11:21,00:14:10,00:14:58,00:15:36,00:16:42,00:16:54,00:19:28,00:23:16,00:25:55,00:26:30,00:28:08,00:28:10,00:30:22,00:32:56,00:32:59,00:33:08,00:38:33,00:41:29,00:41:35,00:41:41,00:41:43,00:42:46,00:45:27,00:48:31,00:48:35,01:00:56,01:08:49,01:09:01,05:08:35,05:20:43,05:21:22,...,23:23:03,23:23:16,23:23:40,23:23:42,23:23:53,23:24:04,23:24:17,23:24:19,23:24:21,23:24:52,23:24:59,23:24:57,23:25:09,23:25:20,23:26:13,23:26:04,23:26:49,23:26:49,23:26:58,23:27:15,23:27:20,23:27:23,23:27:29,23:27:40,23:27:41,23:27:46,23:28:01,23:28:02,23:28:16,23:28:18,23:28:29,23:28:42,23:29:27,23:29:33,23:31:48,23:31:47,23:31:51,23:31:56,23:32:41,23:33:10


Sin embargo, para la indexación de estilo matriz, necesitamos otra convención. Pandas utiliza los indexadores `loc` e `iloc`. 

Primero, el indexador `loc` permite la indexación y el corte que siempre hace referencia al índice explícito. 

In [None]:
# Devuelve columnas Genero_Usuario y Edad_Usuario de dataframe df
df.loc[:, ['Genero_Usuario', 'Edad_Usuario']]

Unnamed: 0,Genero_Usuario,Edad_Usuario
0,M,26
1,M,31
2,,33
3,,33
4,,33
...,...,...
393111,M,32
393112,F,29
393113,M,27
393114,F,29


Segundo, el indexador `iloc` permite la indexación y el corte que siempre hace referencia al índice implícito. 

In [None]:
# Devuelve primeras 5 filas y dos primeras columnas de dataframe df
df.iloc[0:5, [1,2]]

Unnamed: 0,Edad_Usuario,Bici
0,26,15023
1,31,7396
2,33,11066
3,33,11426
4,33,8032


Cuando se pretende busca un escalar en todo el dataframe, se pueden utilizar los indexadores `at` e `iat`. 

In [None]:
# Regresa valor de primer fila y primer columna de dataframe df
df.iat[0, 1]

26

In [None]:
# Regresa valor de Edad_Usuario de la primer fila de dataframe df
df.at[0, "Edad_Usuario"]

26

Las operaciones de máscaras también funcionan en dataframes y se interpretan por filas. Por ello, si se necesita seleccionar filas por dos o condiciones, se requerirá del indexador `loc`.

In [None]:
# Devuelve filas en las que Genero_Usuario es igual a "M" de dataframe df
df[df.Genero_Usuario == 'M']

Unnamed: 0,Genero_Usuario,Edad_Usuario,Bici,Ciclo_Estacion_Retiro,Fecha_Retiro,Hora_Retiro,Ciclo_EstacionArribo,Fecha Arribo,Hora_Arribo
0,M,26,15023,360,31/12/2021,23:50:40,175,01/01/2022,00:01:30
1,M,31,7396,461,31/12/2021,23:34:04,102,01/01/2022,00:01:52
6,M,44,4227,154,31/12/2021,23:52:49,25,01/01/2022,00:04:22
7,M,39,11297,450,31/12/2021,23:47:13,89,01/01/2022,00:04:51
8,M,30,7640,154,31/12/2021,23:41:25,118,01/01/2022,00:08:30
...,...,...,...,...,...,...,...,...,...
393107,M,26,12295,148,31/01/2022,23:25:27,151,31/01/2022,23:28:42
393108,M,39,10598,59,31/01/2022,23:20:15,182,31/01/2022,23:29:27
393109,M,20,9668,83,31/01/2022,23:19:50,288,31/01/2022,23:29:33
393111,M,32,10395,68,31/01/2022,23:10:11,321,31/01/2022,23:31:47


In [None]:
# Devuelve filas en las que Genero_Usuario es igual a "M" y Edad_Usuario es mayor o igual a 30 de dataframe df
df.loc[(df.Genero_Usuario == 'M') & (df.Edad_Usuario >= 30)]

Unnamed: 0,Genero_Usuario,Edad_Usuario,Bici,Ciclo_Estacion_Retiro,Fecha_Retiro,Hora_Retiro,Ciclo_EstacionArribo,Fecha Arribo,Hora_Arribo
1,M,31,7396,461,31/12/2021,23:34:04,102,01/01/2022,00:01:52
6,M,44,4227,154,31/12/2021,23:52:49,25,01/01/2022,00:04:22
7,M,39,11297,450,31/12/2021,23:47:13,89,01/01/2022,00:04:51
8,M,30,7640,154,31/12/2021,23:41:25,118,01/01/2022,00:08:30
9,M,31,11303,107,31/12/2021,23:55:51,171,01/01/2022,00:11:21
...,...,...,...,...,...,...,...,...,...
393104,M,52,11997,351,31/01/2022,23:12:42,180,31/01/2022,23:28:16
393105,M,44,12153,67,31/01/2022,23:23:38,36,31/01/2022,23:28:18
393106,M,34,7330,136,31/01/2022,23:16:47,1,31/01/2022,23:28:29
393108,M,39,10598,59,31/01/2022,23:20:15,182,31/01/2022,23:29:27


El método `isin()` es particularmente útil para seleccionar filas bajo condiciones aplicadas a una variable categórica.  

In [None]:
# Devuelve filas en las que Ciclo_Estacion_Retiro es igual a 42 o 52 de dataframe df
df[df.Ciclo_Estacion_Retiro.isin([42, 52])]

Unnamed: 0,Genero_Usuario,Edad_Usuario,Bici,Ciclo_Estacion_Retiro,Fecha_Retiro,Hora_Retiro,Ciclo_EstacionArribo,Fecha Arribo,Hora_Arribo
295,F,45,8540,52,01/01/2022,09:45:04,43,01/01/2022,10:26:03
1022,M,27,8779,42,01/01/2022,11:48:09,72,01/01/2022,11:56:18
1362,M,37,7187,42,01/01/2022,14:24:44,53,01/01/2022,14:31:51
1823,M,25,12411,42,01/01/2022,15:33:33,144,01/01/2022,15:44:11
2028,F,34,7656,52,01/01/2022,15:25:52,136,01/01/2022,16:14:22
...,...,...,...,...,...,...,...,...,...
392226,F,26,10578,52,31/01/2022,21:04:43,258,31/01/2022,21:30:43
392274,F,35,6781,52,31/01/2022,20:41:46,95,31/01/2022,21:34:38
392322,M,22,4170,52,31/01/2022,21:23:56,262,31/01/2022,21:38:54
392367,F,22,7799,52,31/01/2022,21:28:25,41,31/01/2022,21:43:11


Cuando se importa un conjunto de datos como dataframe, el índice asignado por defecto es el de enteros empezando en 0. A veces, requeriremos utilizar otra columna como índice. Esto lo podemos hacer desde la lectura definiendo explícitamente el parámetro `index_col` en la función de lectura, o bien, con la función `set_index()` sobre un dataframe.

In [None]:
# Redefine columna Ciclo_Estacion_Retiro como índice en dataframe df
df.set_index('Ciclo_Estacion_Retiro', inplace=True)

In [None]:
# Imprime primeras 5 filas de dataframe df
df.head()

Unnamed: 0_level_0,Genero_Usuario,Edad_Usuario,Bici,Fecha_Retiro,Hora_Retiro,Ciclo_EstacionArribo,Fecha Arribo,Hora_Arribo
Ciclo_Estacion_Retiro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
360,M,26,15023,31/12/2021,23:50:40,175,01/01/2022,00:01:30
461,M,31,7396,31/12/2021,23:34:04,102,01/01/2022,00:01:52
43,,33,11066,31/12/2021,23:15:15,120,01/01/2022,00:02:31
119,,33,11426,31/12/2021,21:52:58,120,01/01/2022,00:02:39
43,,33,8032,31/12/2021,23:16:58,120,01/01/2022,00:02:44


El método `reset_index()` es el opuesto del `set_index()`, es decir, vuelve a  asignar al dataframe el índice por defecto de enteros empezando en 0. 

In [None]:
# Redefine índice por defecto en dataframe df
df.reset_index(inplace=True)

In [None]:
# Imprime primeras 5 filas de dataframe df
df.head()

Unnamed: 0,Ciclo_Estacion_Retiro,Genero_Usuario,Edad_Usuario,Bici,Fecha_Retiro,Hora_Retiro,Ciclo_EstacionArribo,Fecha Arribo,Hora_Arribo
0,360,M,26,15023,31/12/2021,23:50:40,175,01/01/2022,00:01:30
1,461,M,31,7396,31/12/2021,23:34:04,102,01/01/2022,00:01:52
2,43,,33,11066,31/12/2021,23:15:15,120,01/01/2022,00:02:31
3,119,,33,11426,31/12/2021,21:52:58,120,01/01/2022,00:02:39
4,43,,33,8032,31/12/2021,23:16:58,120,01/01/2022,00:02:44


## Setting

In [None]:
%reset

Podemos crear una nueva columna a partir de un escalar o una serie.

In [None]:
# Crea nueva columna (Ciudad) con valor "CDMX" en dataframe df
df['Ciudad'] = 'CDMX'

In [None]:
# Imprime primeras 5 filas de dataframe df
df.head()

Unnamed: 0,Ciclo_Estacion_Retiro,Genero_Usuario,Edad_Usuario,Bici,Fecha_Retiro,Hora_Retiro,Ciclo_EstacionArribo,Fecha Arribo,Hora_Arribo,Ciudad
0,360,M,26,15023,31/12/2021,23:50:40,175,01/01/2022,00:01:30,CDMX
1,461,M,31,7396,31/12/2021,23:34:04,102,01/01/2022,00:01:52,CDMX
2,43,,33,11066,31/12/2021,23:15:15,120,01/01/2022,00:02:31,CDMX
3,119,,33,11426,31/12/2021,21:52:58,120,01/01/2022,00:02:39,CDMX
4,43,,33,8032,31/12/2021,23:16:58,120,01/01/2022,00:02:44,CDMX


In [None]:
# Declara serie (s1) a partir de arreglo de valores aleatorios en el intervalo [0, 3)
s1 = pd.Series(np.random.randint(1, 5, df.shape[0]))

# Crea nueva columna (Modelo_Bici) a partir de serie s1 en dataframe df
df['Modelo_Bici'] = s1

In [None]:
# Imprime primeras 5 filas de dataframe df
df.head()

Unnamed: 0,Ciclo_Estacion_Retiro,Genero_Usuario,Edad_Usuario,Bici,Fecha_Retiro,Hora_Retiro,Ciclo_EstacionArribo,Fecha Arribo,Hora_Arribo,Ciudad,Modelo_Bici
0,360,M,26,15023,31/12/2021,23:50:40,175,01/01/2022,00:01:30,CDMX,3
1,461,M,31,7396,31/12/2021,23:34:04,102,01/01/2022,00:01:52,CDMX,2
2,43,,33,11066,31/12/2021,23:15:15,120,01/01/2022,00:02:31,CDMX,3
3,119,,33,11426,31/12/2021,21:52:58,120,01/01/2022,00:02:39,CDMX,3
4,43,,33,8032,31/12/2021,23:16:58,120,01/01/2022,00:02:44,CDMX,1


Es posible también crear nuevas columnas a partir de operaciones sobre columnas ya existentes.

In [None]:
# Concatena columnas Fecha_Retiro y Hora_Retiro en nueva columna (DT_Retiro) de dataframe df
df['DT_Retiro'] = df.Fecha_Retiro + ' ' + df.Hora_Retiro

In [None]:
# Convierte tipo de dato de columna DT_Retiro a datetime de dataframe df
df['DT_Retiro'] = pd.to_datetime(df.DT_Retiro)

In [None]:
# Convierte tipo de dato de columna DT_Retiro a datetime de dataframe df
df['Hora_Entera_Retiro'] = df.DT_Retiro.dt.hour

In [None]:
# Imprime primeras 5 filas de dataframe df
df.head()

Unnamed: 0,Ciclo_Estacion_Retiro,Genero_Usuario,Edad_Usuario,Bici,Fecha_Retiro,Hora_Retiro,Ciclo_EstacionArribo,Fecha Arribo,Hora_Arribo,Ciudad,Modelo_Bici,DT_Retiro,Hora_Entera_Retiro
0,360,M,26,15023,31/12/2021,23:50:40,175,01/01/2022,00:01:30,CDMX,3,2021-12-31 23:50:40,23
1,461,M,31,7396,31/12/2021,23:34:04,102,01/01/2022,00:01:52,CDMX,2,2021-12-31 23:34:04,23
2,43,,33,11066,31/12/2021,23:15:15,120,01/01/2022,00:02:31,CDMX,3,2021-12-31 23:15:15,23
3,119,,33,11426,31/12/2021,21:52:58,120,01/01/2022,00:02:39,CDMX,3,2021-12-31 21:52:58,21
4,43,,33,8032,31/12/2021,23:16:58,120,01/01/2022,00:02:44,CDMX,1,2021-12-31 23:16:58,23


Para modificar valores específicos en el dataframe, podemos utilizar indexadores para seleccionar aquellas filas sobre las cuáles se busca modificar el valor. 

In [None]:
# Modifica valor "M" por "Mujer" en columna Genero_Usuario en dataframe df 
df.loc[df.Genero_Usuario == 'M', "Genero_Usuario"] = "Male"

In [None]:
# Imprime primeras 5 filas de dataframe df
df.head()

Unnamed: 0,Ciclo_Estacion_Retiro,Genero_Usuario,Edad_Usuario,Bici,Fecha_Retiro,Hora_Retiro,Ciclo_EstacionArribo,Fecha Arribo,Hora_Arribo,Ciudad,Modelo_Bici,DT_Retiro,Hora_Entera_Retiro
0,360,Male,26,15023,31/12/2021,23:50:40,175,01/01/2022,00:01:30,CDMX,3,2021-12-31 23:50:40,23
1,461,Male,31,7396,31/12/2021,23:34:04,102,01/01/2022,00:01:52,CDMX,2,2021-12-31 23:34:04,23
2,43,,33,11066,31/12/2021,23:15:15,120,01/01/2022,00:02:31,CDMX,3,2021-12-31 23:15:15,23
3,119,,33,11426,31/12/2021,21:52:58,120,01/01/2022,00:02:39,CDMX,3,2021-12-31 21:52:58,21
4,43,,33,8032,31/12/2021,23:16:58,120,01/01/2022,00:02:44,CDMX,1,2021-12-31 23:16:58,23


## Tratamiento de valores faltantes

In [None]:
%reset

Los datos del mundo real rara vez están limpios y son homogéneos. En particular, a muchos conjuntos de datos les faltará cierta cantidad de datos. Y para complicar aún más las cosas, hoy en día, en el preprocesamiento de datos, no existe una manera universal de representar datos faltantes; diferentes sistemas y lenguajes utilizan diferentes convenciones. 

### `None`: Valores faltantes estilo Python

El primer valor utilizado por Pandas para representar valores faltantes es `None`, un objeto único de Python que a menudo se usa para datos faltantes en código de Python. Debido a que es un objeto de Python, `None` no se puede usar en ninguna matriz NumPy/Pandas arbitraria, sino solo en matrices con el tipo de datos `object` (es decir, matrices de objetos de Python). 

In [None]:
# Declara arreglo (a)
a = np.array([1, None, 3, 4])

# Imprime arreglo a
a

array([1, None, 3, 4], dtype=object)

`dtype=object` significa que la mejor representación de tipo de datos que NumPy podría inferir para el contenido de la matriz es que son objetos de Python. Si bien este tipo de matriz de objetos es útil para algunos propósitos, cualquier operación en los datos se realizará en el nivel de Python de forma mucho menos eficiente que las operaciones típicamente ejecutadas sobre las matrices con tipos nativos. 

El uso de objetos de Python en una matriz también significa que si realizan agregaciones como `sum()` o `min()` en una matriz con un valor `None`, generalmente resultará en un error.

In [None]:
# Suma valores de arreglo a
a.sum()

TypeError: ignored

### `NaN`: Datos numéricos faltantes

La otra representación de datos faltantes, `NaN` (acrónimo de Not a Number),  es un valor de punto flotante especial reconocido por todos los sistemas que usan la representación de punto flotante estándar IEEE.

In [None]:
# Declara arreglo (a)
a = np.array([1, np.nan, 3, 4])

# Imprime arreglo a
a

array([ 1., nan,  3.,  4.])

In [None]:
# Imprime tipo de dato de arreglo a
a.dtype

dtype('float64')

NumPy elige el punto flotante nativo como tipo de dato para matrices con valores `NaN`: esto significa que, a diferencia de las matrices de objetos, estas matrices de punto flotante nativo admiten operaciones rápidas. No obstante, se debe tener siempre presente que los valores `NaN`, independientemente de la operación, el resultado será otro `NaN`. 

### `NA`: Quien llegó para salvarnos

A partir de pandas 1.0, un valor `pd.NA` experimental está disponible para representar valores faltantes escalares. En este momento, se utiliza en los tipos de datos enteros y cadenas de caracteres como indicador de valor faltante.

El objetivo de `pd.NA` es proporcionar un indicador de datos faltantes que se pueda usar de manera consistente en todos los tipos de datos (en lugar de `None` y `NaN` según el tipo de datos).

In [None]:
# Declara arreglo de enteros con valores faltante
pd.Series([1, 2, np.nan, 4], dtype='Int64')

0       1
1       2
2    <NA>
3       4
dtype: Int64

In [None]:
# Declara arreglo de enteros con valores faltante
pd.Series(['1', '2', None, '4'], dtype='string')

0       1
1       2
2    <NA>
3       4
dtype: string


### ¿Cómo tratarlos?

Cuando nos enfrentamos con valores faltantes, lo primero que debemos hacer es identificar si existe algún patrón o recurrencia. Esto determinará cuál de las siguientes posibles acciones podría ser la más conveniente en tomar: 
*   Predicción
*   Sustitución por media, mediana o moda
*   Interpolación
*   Imputación

Pandas facilita la manipulación de valores faltantes con las funciones `.isna()`, `.dropna()` y `.fillna()`. 

In [None]:
# Declara dataframe (df)
df = pd.DataFrame(np.random.random([10, 5]), columns=['A', 'B', 'C', 'D', 'E'])

In [None]:
# Imprime primeras 5 filas de dataframe df 
df.head()

Unnamed: 0,A,B,C,D,E
0,0.971327,0.86052,0.581236,0.427846,0.684196
1,0.294088,0.689453,0.581572,0.247712,0.71789
2,0.108712,0.246618,0.302536,0.89767,0.029062
3,0.501987,0.865855,0.640948,0.204016,0.749141
4,0.168139,0.02024,0.82322,0.637844,0.823348


In [None]:
# Crea nueva columna (G) con valores faltantes en dataframe df
df.loc[0:1, 'F'] = 1

In [None]:
# Crea nueva columna (G) con valores faltantes en dataframe df
df.loc[::2, 'G'] = 1

In [None]:
# Imprime primeras 5 filas de dataframe df 
df.head()

Unnamed: 0,A,B,C,D,E,F,G
0,0.971327,0.86052,0.581236,0.427846,0.684196,1.0,1.0
1,0.294088,0.689453,0.581572,0.247712,0.71789,1.0,
2,0.108712,0.246618,0.302536,0.89767,0.029062,,1.0
3,0.501987,0.865855,0.640948,0.204016,0.749141,,
4,0.168139,0.02024,0.82322,0.637844,0.823348,,1.0


In [None]:
# Ejecuta máscara sobre valores faltantes en dataframe df
pd.isna(df)

Unnamed: 0,A,B,C,D,E,F,G
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,True
2,False,False,False,False,False,True,False
3,False,False,False,False,False,True,True
4,False,False,False,False,False,True,False
5,False,False,False,False,False,True,True
6,False,False,False,False,False,True,False
7,False,False,False,False,False,True,True
8,False,False,False,False,False,True,False
9,False,False,False,False,False,True,True


In [None]:
# Ejecuta máscara sobre valores faltantes en dataframe df
df.dropna(how='any')

Unnamed: 0,A,B,C,D,E,F,G
0,0.971327,0.86052,0.581236,0.427846,0.684196,1.0,1.0


In [None]:
# Remueve filas con valores faltantes en columna G en dataframe df
df.dropna(subset=['G'])

Unnamed: 0,A,B,C,D,E,F,G
0,0.971327,0.86052,0.581236,0.427846,0.684196,1.0,1.0
2,0.108712,0.246618,0.302536,0.89767,0.029062,,1.0
4,0.168139,0.02024,0.82322,0.637844,0.823348,,1.0
6,0.901959,0.244778,0.941342,0.253023,0.008059,,1.0
8,0.619963,0.129741,0.504709,0.718081,0.513588,,1.0


In [None]:
# Reemplaza valores faltantes por 0.0 en dataframe df
df.fillna(value=0.0)

Unnamed: 0,A,B,C,D,E,F,G
0,0.971327,0.86052,0.581236,0.427846,0.684196,1.0,1.0
1,0.294088,0.689453,0.581572,0.247712,0.71789,1.0,0.0
2,0.108712,0.246618,0.302536,0.89767,0.029062,0.0,1.0
3,0.501987,0.865855,0.640948,0.204016,0.749141,0.0,0.0
4,0.168139,0.02024,0.82322,0.637844,0.823348,0.0,1.0
5,0.395578,0.944122,0.407808,0.327282,0.652545,0.0,0.0
6,0.901959,0.244778,0.941342,0.253023,0.008059,0.0,1.0
7,0.861069,0.864252,0.28196,0.662068,0.522847,0.0,0.0
8,0.619963,0.129741,0.504709,0.718081,0.513588,0.0,1.0
9,0.526114,0.713968,0.35051,0.139079,0.3265,0.0,0.0


In [None]:
# Reemplaza valores faltantes en dataframe df
values = {'F': 0.2, 'G': 0.3}
df.fillna(value=values)

Unnamed: 0,A,B,C,D,E,F,G
0,0.971327,0.86052,0.581236,0.427846,0.684196,1.0,1.0
1,0.294088,0.689453,0.581572,0.247712,0.71789,1.0,0.3
2,0.108712,0.246618,0.302536,0.89767,0.029062,0.2,1.0
3,0.501987,0.865855,0.640948,0.204016,0.749141,0.2,0.3
4,0.168139,0.02024,0.82322,0.637844,0.823348,0.2,1.0
5,0.395578,0.944122,0.407808,0.327282,0.652545,0.2,0.3
6,0.901959,0.244778,0.941342,0.253023,0.008059,0.2,1.0
7,0.861069,0.864252,0.28196,0.662068,0.522847,0.2,0.3
8,0.619963,0.129741,0.504709,0.718081,0.513588,0.2,1.0
9,0.526114,0.713968,0.35051,0.139079,0.3265,0.2,0.3


## Combinación de conjuntos de datos

In [None]:
%reset

Algunos de los análisis de datos más interesantes provienen de la combinación de diferentes fuentes de datos. Las operaciones de combinación entre conjuntos de datos pueden implicar desde una concatenación muy sencilla, hasta uniones y fusiones más complicadas que impliquen una cuidadosa superposición. Pandas construye las `Series` y los `DataFrames` con todas estas operaciones en mente e incluye funciones y métodos que hacen que estas puedan ejecutarse de manera rápida y sencilla.

### `concat()`

La concatenación de objetos `Series` y `DataFrame` es muy similar a la concatenación de objetos `ndarray`, que se puede realizar entre dos o más a través de la función `np.concatenate`. 

In [None]:
# Declara matriz 2X3 (m)
m = np.array([[1, 2, 3], 
              [4, 5, 6]])

# Imprime matriz m
m

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
# Concatena dos arreglos bidimencionales en el eje vertical
np.concatenate([m, m], axis=0)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

La función `pd.concat`, que tiene una sintaxis similar a `np.concatenate` pero contiene parámetros adicionales que facilitaran operaciones entre series y dataframes. 

In [None]:
# Declara serie (s1)
s1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])

# Imprime serie s1
s1

1    A
2    B
3    C
dtype: object

In [None]:
# Declara serie (s2)
s2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])

# Imprime serie s2
s2

4    D
5    E
6    F
dtype: object

In [None]:
# Concatena serie s1 y serie s2 en el eje horizontal
pd.concat([s1, s2], axis=1)

Unnamed: 0,0,1
1,A,
2,B,
3,C,
4,,D
5,,E
6,,F


In [None]:
# Concatena serie s1 y serie s2 en el eje vertical
pd.concat([s1, s2], axis=0)

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [None]:
# Declara dataframe (df1)
df1 = pd.DataFrame({c: [str(c) + str(i) for i in [0, 1]] for c in ['A', 'B']})

# Imprime primeras filas de dataframe df1
df1.head()

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


In [None]:
# Declara dataframe (df2)
df2 = pd.DataFrame({c: [str(c) + str(i) for i in [0, 1]] for c in ['C', 'D']})

# Imprime primeras filas de dataframe df2
df2.head()

Unnamed: 0,C,D
0,C0,D0
1,C1,D1


In [None]:
# Concatena dataframe df1 y dataframe df2 en el eje horizontal
pd.concat([df1, df2], axis=1)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


In [None]:
# Concatena dataframe df1 y dataframe df2 en el eje vertical
pd.concat([df1, df2], axis=0)

Unnamed: 0,A,B,C,D
0,A0,B0,,
1,A1,B1,,
0,,,C0,D0
1,,,C1,D1


Una consideración importante al utilizar `pd.concat()` es que conserva los índices, incluso si el resultado tiene índices duplicados. En los casos en los que el índice en sí mismo no importa, y por ende, podemos simplemente ignorarlo, es posible configurar tal con el parámetro `ignore_index`. Al establecer dicho parámetro en `True`, la concatenación creará un nuevo índice entero para la serie resultante.

In [None]:
# Concatena dataframe df1 y dataframe df2 en el eje horizontal
pd.concat([df1, df2], axis=0, ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,,
1,A1,B1,,
2,,,C0,D0
3,,,C1,D1


En la práctica, es común que los datos de diferentes fuentes puedan tener algunas variables compartidas pero no todas. `pd.concat()` ofrece varias opciones para estos casos. 

In [None]:
# Declara dataframe (df3)
df3 = pd.DataFrame({c: [str(c) + str(i) for i in [0, 1]] for c in ['A', 'B', 'D']})

# Imprime primeras filas de dataframe df3
df3.head()

Unnamed: 0,A,B,D
0,A0,B0,D0
1,A1,B1,D1


In [None]:
# Declara dataframe (df4)
df4 = pd.DataFrame({c: [str(c) + str(i) for i in [2, 3]] for c in ['A', 'B', 'C']})

# Imprime primeras filas de dataframe df4 
df4.head()

Unnamed: 0,A,B,C
0,A2,B2,C2
1,A3,B3,C3


In [None]:
# Concatena dataframe df3 y dataframe df4 en el eje horizontal
pd.concat([df3, df4])

Unnamed: 0,A,B,D,C
0,A0,B0,D0,
1,A1,B1,D1,
0,A2,B2,,C2
1,A3,B3,,C3


De forma predeterminada, las observaciones para las que no hay datos disponibles se rellenan con valores `NA`. No obstante, es posible especificar, mediante el parámetro `join`, el tipo de unión que se desea hacer. La concatenación establecida por defecto es una unión `outer` de las columnas de entrada, pero es posible establecerla también como `inner`. 

In [None]:
# Concatena internamente dataframe df3 y dataframe df4 en el eje vertical
pd.concat([df3, df4], join='inner')

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A2,B2
1,A3,B3


No obstante, cuando se trata de alto rendimiento, una característica esencial que ofrece Pandas son sus operaciones de `merge()` y `join()`. 

### `merge()`

La función `pd.merge()` implementa varios tipos de uniones: uniones de uno a uno, de muchos a uno y de muchos a muchos. Se accede a los tres tipos de uniones a través de una llamada idéntica, pero el tipo de unión realizada depende de la forma de los datos de entrada. 

#### Uniones de uno a uno

Quizás es el tipo más simple de uniones, que en muchos aspectos es muy similar a la concatenación por columnas que se logra con `pd.concat()`. 

In [None]:
# Declara dataframe (df1)
df1 = pd.DataFrame({'student': ['Daphne', 'Richard', 'Ingrid', 'Yann'],
                    'major': ['Maths', 'Physics', 'Maths', 'Comp Sci']})

# Imprime primeras filas de dataframe df1
df1.head()

Unnamed: 0,student,major
0,Daphne,Maths
1,Richard,Physics
2,Ingrid,Maths
3,Yann,Comp Sci


In [None]:
# Declara dataframe (df2)
df2 = pd.DataFrame({'student': ['Yann', 'Ingrid', 'Richard', 'Daphne', 'Maggie', 'Bertie'],
                    'grad_year': [2022, 2025, 2023, 2024, 2022, 2024]})

# Imprime primeras filas de dataframe df2
df2.head(10)

Unnamed: 0,student,grad_year
0,Yann,2022
1,Ingrid,2025
2,Richard,2023
3,Daphne,2024
4,Maggie,2022
5,Bertie,2024


In [None]:
# Declara dataframe (d3) a partir de unión de dataframe df1 y dataframe df2
df3 = pd.merge(df1, df2)

# Imprime primeras filas de dataframe df3
df3.head()

Unnamed: 0,student,major,grad_year
0,Daphne,Maths,2024
1,Richard,Physics,2023
2,Ingrid,Maths,2025
3,Yann,Comp Sci,2022


La función `pd.merge()` reconoce que cada dataframe tiene una columna compartida y se unen automáticamente usando esta columna como clave. El resultado de la fusión es un nuevo dataframe que combina la información de las dos entradas.

Es importante tener en mente que el orden de las entradas en cada columna no se mantiene necesariamente con `pd.merge()`. Adicionalmente, la unión con esta función descarta el índice, excepto en el caso especial de uniones con índice explícito. 

#### Uniones muchos a uno

Las uniones de muchos a uno son uniones en las que una de las dos columnas clave contiene entradas duplicadas. Por lo tanto, en esta , el DataFrame resultante conservará esas entradas duplicadas según corresponda. Considere el siguiente ejemplo de una combinación de muchos a uno: 

In [None]:
# Declara dataframe (df4)
df4 = pd.DataFrame({'major': ['Maths', 'Physics', 'Comp Sci'],
                    'mentor': ['Ada', 'Isaac', 'Alan']})

# Imprime primeras filas de dataframe df4
df4.head()

Unnamed: 0,major,mentor
0,Maths,Ada
1,Physics,Isaac
2,Comp Sci,Alan


In [None]:
# Declara dataframe (df5) a partir de unión de dataframe df3 y dataframe df4
df5 = pd.merge(df3, df4)

# Imprime primeras filas de dataframe df5
df5.head()

Unnamed: 0,student,major,grad_year,mentor
0,Daphne,Maths,2024,Ada
1,Ingrid,Maths,2025,Ada
2,Richard,Physics,2023,Isaac
3,Yann,Comp Sci,2022,Alan


#### Uniones de muchos a muchos

Las uniones de muchos a muchos son un poco confusas conceptualmente, sin embargo, están bien definidas. Si la columna clave tanto en la matriz izquierda como en la matriz derecha contiene duplicados, entonces el resultado es una combinación de muchos a muchos. 

In [None]:
# Declara dataframe (df6)
df6 = pd.DataFrame({'major': ['Maths', 'Physics', 'Comp Sci', 'Maths', 'Economics', 'Comp Sci'], 
                    'course': ['Algebra', 'Relativity', 'ML', 'Geometry', 'Econometrics', 'OOP']})

# Imprime primeras filas de dataframe df6
df6.head(10)

Unnamed: 0,major,course
0,Maths,Algebra
1,Physics,Relativity
2,Comp Sci,ML
3,Maths,Geometry
4,Economics,Econometrics
5,Comp Sci,OOP


In [None]:
# Imprime primeras filas de dataframe df1
df1.head()

Unnamed: 0,student,major
0,Daphne,Maths
1,Richard,Physics
2,Ingrid,Maths
3,Yann,Comp Sci


In [None]:
# Declara dataframe (df5) a partir de unión de dataframe df3 y dataframe df4
df7 = pd.merge(df1, df6)

# Imprime primeras filas de dataframe df5
df7.head(10)

Unnamed: 0,student,major,course
0,Daphne,Maths,Algebra
1,Daphne,Maths,Geometry
2,Ingrid,Maths,Algebra
3,Ingrid,Maths,Geometry
4,Richard,Physics,Relativity
5,Yann,Comp Sci,ML
6,Yann,Comp Sci,OOP


### Especificación de llaves

Para poder configurar las uniones de forma más específica, es necesario conocer los parámetros más relevantes `pd.merge()` y los valores que puede recibir:

`DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, suffixes=('_x', '_y'))`

Particularmente, los valores que puede recibir el parámetro `how` son importantes. 
* `left`: usa solo llaves de la matriz izquierda, similar a una unión externa  izquierda de SQL.
* `right`: usa solo llaves de la matriz derecha, similar a una unión externa derecha de SQL.
* `outer`: usa la unión de llaves de ambas matrices, similar a una unión externa completa de SQL.
* `inner`: usa la intersección de llaves de ambas matrices, similar a una unión interna de SQL. 
* `cross`: crea el producto cartesiano de ambas matrices.

In [None]:
# Imprime primeras filas de dataframe df1
df1.head()

Unnamed: 0,student,major
0,Daphne,Maths
1,Richard,Physics
2,Ingrid,Maths
3,Yann,Comp Sci


In [None]:
# Imprime primeras filas de dataframe df2
df2.head(10)

Unnamed: 0,student,grad_year
0,Yann,2022
1,Ingrid,2025
2,Richard,2023
3,Daphne,2024
4,Maggie,2022
5,Bertie,2024


In [None]:
# Une dataframe df1 y dataframe df2
pd.merge(df1, df2, how='cross') 

Unnamed: 0,student_x,major,student_y,grad_year
0,Daphne,Maths,Yann,2022
1,Daphne,Maths,Ingrid,2025
2,Daphne,Maths,Richard,2023
3,Daphne,Maths,Daphne,2024
4,Daphne,Maths,Maggie,2022
5,Daphne,Maths,Bertie,2024
6,Richard,Physics,Yann,2022
7,Richard,Physics,Ingrid,2025
8,Richard,Physics,Richard,2023
9,Richard,Physics,Daphne,2024


## Agregación y agrupamiento

In [None]:
%reset

Once deleted, variables cannot be recovered. Proceed (y/[n])? y


Una parte esencial del análisis de datos es el resumen eficiente: computar agregaciones como `count()`, `first()`, `last()`, `min()`, `max()`, `mean()`, `median()`, `std()`, `var()`, `sum()` o `prod()` en las que un solo número da una idea de la naturaleza de una cantidad potencialmente grande en un conjunto de datos completo. 

No obstance, a menudo preferiríamos agregar condicionalmente basándonos en alguna índice o categoría. Esto se implementa con la operación `pd.groupby()`, que se puede explicar mediante los términos acuñados por primera vez por Hadley Wickham de Rstats: dividir, aplicar y combinar.

* La división implica separar y agrupar un `DataFrame` según el valor de la llave especificada.
* La aplicación implica calcular alguna función, generalmente un agregado, transformación o selección, dentro de los grupos individuales.
* La combinación concatena los resultados de estas operaciones en una matriz de salida.

<img src="https://static.packt-cdn.com/products/9781783985128/graphics/5128OS_09_01.jpg"/>

In [None]:
# Lee CSV como dataframe (df)
path = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv'
df = pd.read_csv(path)

In [None]:
# Imprime primeras filas de dataframe df
df.head(10)

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009
5,Radial Velocity,1,185.84,4.8,76.39,2008
6,Radial Velocity,1,1773.4,4.64,18.15,2002
7,Radial Velocity,1,798.5,,21.41,1996
8,Radial Velocity,1,993.3,10.3,73.1,2008
9,Radial Velocity,2,452.8,1.99,74.79,2010


In [None]:
# Imprime estadísticas descriptivas de dataframe df
df.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


In [None]:
# Agrupa dataframe df por columna method y calcula media de todas las columnas
df.groupby('method').mean()

Unnamed: 0_level_0,number,orbital_period,mass,distance,year
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Astrometry,1.0,631.18,,17.875,2011.5
Eclipse Timing Variations,1.666667,4751.644444,5.125,315.36,2010.0
Imaging,1.315789,118247.7375,,67.715937,2009.131579
Microlensing,1.173913,3153.571429,,4144.0,2009.782609
Orbital Brightness Modulation,1.666667,0.709307,,1180.0,2011.666667
Pulsar Timing,2.2,7343.021201,,1200.0,1998.4
Pulsation Timing Variations,1.0,1170.0,,,2007.0
Radial Velocity,1.721519,823.35468,2.630699,51.600208,2007.518987
Transit,1.95466,21.102073,1.47,599.29808,2011.236776
Transit Timing Variations,2.25,79.7835,,1104.333333,2012.5


In [None]:
# Agrupa dataframe df por columna method y calcula mediana de columna orbital_period
df.groupby(['method'])['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

## Reorganización

In [None]:
%reset

Once deleted, variables cannot be recovered. Proceed (y/[n])? y


La indexación jerárquica es posible en Pandas... y es emocionante...

La indexación jerárquica o multinivel permite almacenar y manipular datos con un número arbitrario de dimensiones. Esto abre la puerta a análisis y métodos de preprocesamiento de datos bastante sofisticados, especialmente para trabajar con datos de varias dimensiones. 

In [None]:
# Declara lista de dos dimensiones (arrays)
arrays = [
    ['uno', 'uno', 'dos', 'dos', 'tres', 'tres', 'cuatro', 'cuatro',],
    ['a', 'a', 'b', 'b', 'c', 'c', 'd', 'd', 'e', 'e'],
]

In [None]:
# Convierte lista arrays en lista de tuplas (tuples)
tuples = list(zip(*arrays))

# Devuelve lista de tuplas tuples
tuples

[('uno', 'a'),
 ('uno', 'a'),
 ('dos', 'b'),
 ('dos', 'b'),
 ('tres', 'c'),
 ('tres', 'c'),
 ('cuatro', 'd'),
 ('cuatro', 'd')]

In [None]:
# Declara objeto MultiIndex (index) a partir de lista de tuplas tuples
index = pd.MultiIndex.from_tuples(tuples, names=["first", "second"])

In [None]:
# Declara serie (s)
s = pd.Series(np.random.randn(8), index=index)

# Devuelve serie s
s

first   second
uno     a        -0.422227
        a         0.716995
dos     b         0.164310
        b         1.025589
tres    c         0.774782
        c        -0.268994
cuatro  d        -0.885879
        d        -0.174136
dtype: float64

El concepto de indexación jerárquica es importante para entender los métodos de reorganización en Pandas: tablas dinámicas, stacking y unstacking. 

La función `pivot_table()` se puede usar para crear tablas dinámicas al estilo de una hoja de cálculo y recibe los siguientes parámetros: 
* `data`: un objeto DataFrame.
* `values`: una columna o una lista de columnas para agregar.
* `index`: una columna, agrupador o matriz, o una lista de ellos para agrupar en el índice de la tabla dinámica. 
* `columns`: una columna, agrupador, matriz , o una lista de ellos para agrupar en la columna de la tabla dinámica. 

In [None]:
# Importa datetime
import datetime

In [None]:
# Declara dataframe (df)
df = pd.DataFrame(
    {
        "A": ["one", "one", "two", "three"] * 6,
        "B": ["A", "B", "C"] * 8,
        "C": ["foo", "foo", "foo", "bar", "bar", "bar"] * 4,
        "D": np.random.randn(24),
        "E": np.random.randn(24),
        "F": [datetime.datetime(2022, i, 2) for i in range(1, 13)]
        + [datetime.datetime(2022, i, 22) for i in range(1, 13)],
    }
)

# Devuelve dataframe df
df

Unnamed: 0,A,B,C,D,E,F
0,one,A,foo,-0.604252,-1.02472,2022-01-02
1,one,B,foo,-0.930554,-1.058121,2022-02-02
2,two,C,foo,-0.513594,-1.641459,2022-03-02
3,three,A,bar,-0.700769,1.679292,2022-04-02
4,one,B,bar,-0.226017,1.987174,2022-05-02
5,one,C,bar,-1.439637,-0.073006,2022-06-02
6,two,A,foo,-1.22923,0.277038,2022-07-02
7,three,B,foo,-0.795634,0.054218,2022-08-02
8,one,C,foo,-1.552635,0.864982,2022-09-02
9,one,A,bar,2.473767,0.48297,2022-10-02


In [None]:
# Crea tabla pivote a partir de dataframe df
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,1.186029,-0.4882
one,B,-0.015729,0.126938
one,C,-1.307895,-0.857719
three,A,-0.074514,
three,B,,-0.206032
three,C,0.925937,
two,A,,-0.91154
two,B,0.156169,
two,C,,-0.219198


In [None]:
# Crea tabla pivote a partir de dataframe df
pd.pivot_table(df, values="D", index=["B"], columns=["A", "C"], aggfunc=np.sum)

A,one,one,three,three,two,two
C,bar,foo,bar,foo,bar,foo
B,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,2.372059,-0.976401,-0.149027,,,-1.823079
B,-0.031457,0.253875,,-0.412064,0.312338,
C,-2.615789,-1.715438,1.851874,,,-0.438397


## Ejercicios

Utiliza pandas para resolver las siguientes preguntas sobre el conjunto de datos [Archivo histórico de enero 2022 de sistema ECOBICI](https://www.ecobici.cdmx.gob.mx/es/informacion-del-servicio/open-data): 


1. ¿Cuál es el usuario con más viajes?
2. ¿Cuál es el tiempo promedio (minutos) de viajes?
3. ¿Cuál es el viaje más común? (Ciclo_EstacionRetiro-Ciclo_EstacionArribo)
4. ¿Cuál es el tiempo mediano (minutos) de viajes para los rangos de edad 18 a 29, 30 a 39 y 40 a 49? 
5. Estima el total de viajes que el sistema ECOBICI podría perder en febrero del 2022 si las bicicletas clasificadas como "OUT OF SERVICE" al cierre del mes estuviesen fuera de servicio todo febrero del 2022. 

