# Pandas

Pandas es una librería de código abierto enfocada al análisis y maniputación de datos, es de código abierto y escrito en python. Cuenta con estructuras de datos y funciones de análisis de datos de alto rendimiento.

Esta líbreria esta construida sobre `numpy` lo cual facilita la aplicación de cálculos matemáticos complejos de una forma bastante sencilla y eficiente.

Ademas integra funcionalidades de `matplotlib` que nos permite crear graficos directamente desde un DataFrame o Serie.

<div class="alert alert-info", role="alert">
    <b>📢 Antes de empezar</b>
    <p>
      Antes de continuar con este notebook es necesario descargar el Data Source en formato CSV y colocarlo en la carpeta <b>data/raw</b>. <br>
      <a href="https://www.kaggle.com/datasets/tunguz/online-retail">Data Source</a>
    </p>
</div>

In [1]:
import pandas as pd
import numpy as np

## 2.1 - Estructuras de datos

El núcleo de Pandas son sus dos estructuras de datos principales:
- DataFrames
- Series

### 2.1.1 DataFrames

Estructura en formato tabular (tidy data), se conforma de filas (observaciones) y columnas (variables).

Podemos crear `DataFrames` de multiples formas:
- A partir de un array de numpy.
- A partir de una lista o lista de diccionarios directamente python.
- A partir de un diccionario de python.
- Desde archivos con formatos: `CSV`, `JSON`, `XLSX`, etc.

En este notebook nos enfocaremos en los DataFrame a partir de un archivo CSV que contiene datos de ventas retail en línea.

Aquí otro notebook donde se explora la creación de DataFrames con los métodos antes mencionados.
https://github.com/pahoalapizco/numpy-pandas-introduction/blob/main/pandas/series_dataframes.ipynb

In [2]:
# DataFrame desde un archivo CSV
retail_df = pd.read_csv("../data/raw/online_retail.csv")
retail_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


### 2.1.2 Series

Una serie en pandas es una estructura unidimensional similar a un array de `numpy`, también es la estructura de una de columna de un DataFrame.

In [3]:
desc_series = retail_df["Description"]
print(type(desc_series))
desc_series.head()

<class 'pandas.core.series.Series'>


0     WHITE HANGING HEART T-LIGHT HOLDER
1                    WHITE METAL LANTERN
2         CREAM CUPID HEARTS COAT HANGER
3    KNITTED UNION FLAG HOT WATER BOTTLE
4         RED WOOLLY HOTTIE WHITE HEART.
Name: Description, dtype: object

## 2.2 - Funciones

Pandas nos provee de multiples funciones para explorar los datos de un DataFrame y/o Serie, entre las mas utilizadas encontramos las siguientes:
- `head()`: Retorna las primeras 5 filas (por default) del DataFrame/Serie.
- `tail()`: Retorna las últimas 5 filas (por default) del DataFrame/Serie.
- `sample()`: Retorna aleatoriamente 5 dilas del del DataFrame/Serie.
- `info()`: Nos da un resumen del DataFrame.
- `describe()`: Devuelve los estadisticos principales de los de las columnas numéricas.
    - Conteos
    - media
    - Desviasión estandar
    - Caurtil 1, 2 y 4 
    - Máximo y Mínimo
- `mean()`: Media o promedio de una columna numérica.
- `std()`: Desviasión estándar.
- `median()`: Mediana de una columna/Serie numérica.
- `percentile()`: Percentiles de una columna/serie numérica.

📌 **Nota**: La función `descreibe()` en columnas categóricas (strings) nos regresa los conteos, valores únicos y frecuencias. 

### 2.2.1 head, tail & sample

In [4]:
display(retail_df.head(2), retail_df.tail(2), retail_df.sample(2))

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,2011-12-09 12:50:00,4.95,12680.0,France


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
485561,577609,47504H,ENGLISH ROSE SPIRIT LEVEL,12,2011-11-21 09:51:00,0.79,12349.0,Italy
136534,547965,22990,COTTON APRON PANTRY DESIGN,2,2011-03-28 15:47:00,4.95,15809.0,United Kingdom


### 2.2.2 info & describe

In [5]:
# DataFrame
display(retail_df.info(), retail_df.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


None

Unnamed: 0,Quantity,UnitPrice,CustomerID
count,541909.0,541909.0,406829.0
mean,9.55225,4.611114,15287.69057
std,218.081158,96.759853,1713.600303
min,-80995.0,-11062.06,12346.0
25%,1.0,1.25,13953.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16791.0
max,80995.0,38970.0,18287.0


In [6]:
# Serie
desc_series.describe()

count                                 540455
unique                                  4223
top       WHITE HANGING HEART T-LIGHT HOLDER
freq                                    2369
Name: Description, dtype: object

### 2.2.3 Funciones estadísticas

In [7]:
quantity_mean = retail_df["Quantity"].mean()
quantity_std = retail_df["Quantity"].std()
quantity_median = retail_df["Quantity"].median()
quantity_q1 = retail_df["Quantity"].quantile(.25)
print(f"Media: {quantity_mean}")
print(f"Mediana: {quantity_median}")
print(f"1er Cuartil: {quantity_q1}")
print(f"Desviasión Estandar: {quantity_std}")

Media: 9.55224954743324
Mediana: 3.0
1er Cuartil: 1.0
Desviasión Estandar: 218.08115784986612


## 2.3 - Acceso a datos

### 2.3.1 iloc

La funcionalidad `iloc` esta basado en el acceso a datos mediante la posición numérica de las filas o columnas de un DataFrame. `iloc` sigue las reglas de indexación, esto quiere decir que el primer índice es el $0$.


📌 **Nota**: En el caso de una serie solo podemos acceder a las filas.

Sintaxis: `data_df.iloc[filas, columnas]`. <br>
Donde:
- `filas`: Una sola posición, un array con las posiciones numéricas o un slicing con la sintaxis 
- `columnas`: Una sola posición, un array con las posiciones numéricas de las columnas o bien un slicing.

Sintaxis de slicing en `iloc` aplica tanto para las filas como para las columnas <br>
<code>
  [posicion_inicio : posicion_final : saltos]
</code>


In [8]:
print("Fila 5:")
row_5 = retail_df.iloc[5]
print(row_5)
print(type(row_5))

Fila 5:
InvoiceNo                            536365
StockCode                             22752
Description    SET 7 BABUSHKA NESTING BOXES
Quantity                                  2
InvoiceDate             2010-12-01 08:26:00
UnitPrice                              7.65
CustomerID                          17850.0
Country                      United Kingdom
Name: 5, dtype: object
<class 'pandas.core.series.Series'>


In [9]:
print("Fila 5, columnas 2 y 3:")
row_5_cols_2_3 = retail_df.iloc[5, [2,3]]
print(row_5_cols_2_3)
print(type(row_5_cols_2_3))

Fila 5, columnas 2 y 3:
Description    SET 7 BABUSHKA NESTING BOXES
Quantity                                  2
Name: 5, dtype: object
<class 'pandas.core.series.Series'>


In [10]:
print("Filas 0 a 5, columnas 2 y 3:")
rows_05_cols_2_3 = retail_df.iloc[:5, 2:4]
print(type(rows_05_cols_2_3))
display(rows_05_cols_2_3)

Filas 0 a 5, columnas 2 y 3:
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Description,Quantity
0,WHITE HANGING HEART T-LIGHT HOLDER,6
1,WHITE METAL LANTERN,6
2,CREAM CUPID HEARTS COAT HANGER,8
3,KNITTED UNION FLAG HOT WATER BOTTLE,6
4,RED WOOLLY HOTTIE WHITE HEART.,6


In [11]:
print("Filas 8,5,6,2:")
rows_8562 = retail_df.iloc[[8,5,6,2]]
print(type(rows_8562))
display(rows_8562)

Filas 8,5,6,2:
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
8,536366,22632,HAND WARMER RED POLKA DOT,6,2010-12-01 08:28:00,1.85,17850.0,United Kingdom
5,536365,22752,SET 7 BABUSHKA NESTING BOXES,2,2010-12-01 08:26:00,7.65,17850.0,United Kingdom
6,536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER,6,2010-12-01 08:26:00,4.25,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom


In [12]:
print("Filas 8,5,6,2 y columnas 1, 4, 6:")
rows_8562_cols_146 = retail_df.iloc[[8,5,6,2], [1, 4, 6]]
print(type(rows_8562_cols_146))
display(rows_8562_cols_146)

Filas 8,5,6,2 y columnas 1, 4, 6:
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,StockCode,InvoiceDate,CustomerID
8,22632,2010-12-01 08:28:00,17850.0
5,22752,2010-12-01 08:26:00,17850.0
6,21730,2010-12-01 08:26:00,17850.0
2,84406B,2010-12-01 08:26:00,17850.0


### 2.3.2 loc

Con `loc` podemos acceder a los datos por medio de los valores de los indices y no de la posición numérica de las filas y columnas, éste método es "basado en etiquetas".

Características de `loc`:
- Si el index de un DataFrame o Serie es categoríco, podemos acceder a el por medio de su valor.
- También recibe valores numéricos para las posición, pero su indexación empieza desde el $1$.
- Permite filtrado booleano de las filas.
- Permite la selección de columnas mediante el nombre de éstas.


Sintaxis: `data_df.loc[filas, columnas]`. <br>
Donde:
- `filas`: Una sola posición, un array con las posiciones numéricas, un slicing o una selección booleana.
- `columnas`: Nombre de una columna o un array con los nombres de las columnas.

Sintaxis de slicing en `loc` aplica tanto para las filas como para las columnas <br>
<code>
  [posicion_inicio : posicion_final : saltos]
</code>

In [13]:
print("Filas de la 2 a la 8:")
rows_from_2_to_8 = retail_df.loc[2:8]
print(type(rows_from_2_to_8))
display(rows_from_2_to_8)

Filas de la 2 a la 8:
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
5,536365,22752,SET 7 BABUSHKA NESTING BOXES,2,2010-12-01 08:26:00,7.65,17850.0,United Kingdom
6,536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER,6,2010-12-01 08:26:00,4.25,17850.0,United Kingdom
7,536366,22633,HAND WARMER UNION JACK,6,2010-12-01 08:28:00,1.85,17850.0,United Kingdom
8,536366,22632,HAND WARMER RED POLKA DOT,6,2010-12-01 08:28:00,1.85,17850.0,United Kingdom


In [14]:
print("Ventas de 6 unidades en Arabia Saudita")
advance_selection = (
  retail_df.loc[
    (retail_df["Country"] == "Saudi Arabia")& (retail_df["Quantity"] == 6),
    ["Description", "Quantity", "UnitPrice", "InvoiceDate"]
  ]
)
display(advance_selection)

Ventas de 6 unidades en Arabia Saudita


Unnamed: 0,Description,Quantity,UnitPrice,InvoiceDate
100811,GLASS JAR MARMALADE,6,2.95,2011-02-24 10:34:00
100812,GLASS JAR PEACOCK BATH SALTS,6,2.95,2011-02-24 10:34:00
100813,GLASS JAR DAISY FRESH COTTON WOOL,6,2.95,2011-02-24 10:34:00


## 2.4 - Datos Faltantes

Los datos faltantes, por lo general son valores nulos o bien valores que están fuera de rango (según la variable). <br>

Los datos pueden faltar en nuestro dataset por varias razones:
- Datos no disponibles a la hora de la recolección.
- Errores durante el almacenamiento.
- Errores en la recolección.

Durante el proceso de limpieza de datos se les da tratamiento a los valores faltantes, que pueden ser:
- Imputación (rellenar los faltantes con valores conocidos, ej: media, mediana)
- Eliminación

**Busqueda de datos faltantes**:

Para buscar valores faltantes pandas nos provee dos funciones:
- `isna()`
- `isnull()`

Ambdas funciones regresan un dataframe booleano, donde:
- `False`: El dato NO es faltante.
- `True`: El dato SI es faltante.

Al DataFrame resultante podemos aplicarle la función `sum()` y obtendremos una `Serie` con el conteo (sumatoria) de los valores en `True`, el indice de la serie es el nombre de la columna. 

In [15]:
# Cuantos faltantes tenemos en total?
total_missing = retail_df.isna().sum().sum()
print(f"Total de valores faltantes: {total_missing}")
# Cuantos faltantes tenemos por columna?
total_missing_column = retail_df.isnull().sum()
print("Total de valores faltantes por cada columna:\n", total_missing_column)

# Cual es la proporción de faltatantes respecto a total de registros?
lenght = retail_df.shape[0]
column_proportion = round((total_missing_column[total_missing_column > 0] / lenght) * 100, 2)

total_proportion = round((total_missing / lenght) * 100, 2)

print(f"\nProporción total de faltantes: {total_proportion}")
print("Proporción de faltantes por columna:\n", column_proportion)

Total de valores faltantes: 136534
Total de valores faltantes por cada columna:
 InvoiceNo           0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
dtype: int64

Proporción total de faltantes: 25.2
Proporción de faltantes por columna:
 Description     0.27
CustomerID     24.93
dtype: float64


En en análisis podemos observar que el $25.2\%$ del DataFrame corresponde a datos faltantes, de los cuales solo el $0.27\%$ corresponden a la columna `Description` y el resto al `CustomerID`.

Para el caso de la columna `Description` podemos eliminar los registros con datos faltantes dado que la proporción es mínima.

Sin embargo eliminar el $24.93\%$ de datos faltantes en `CustomerID` conllevaría una perdida de información considerable, por lo tanto es mejor proceder a imputar dichos valores faltantes.

### 2.4.1 Eliminar datos faltantes

La función `drona()` elimina datos faltantes tanto de un DataFrame como de una Serie, la función por si sola (sin parámetros) devuelve un DataFrame/Serie sin los registros que tengan algún valor faltante, sin embargo podemos enviar una serie de parámetros para modificar este resultado.

Parámetros:
- `axis`: 0 (default) para eliminar filas, 1 para eliminar columnas.
- `how`: "any" (default) elimina la fila/columna si encuentra algún valor faltante, "all" elimina la fila/columna si y solo si todos los elementos son faltantes.
- `subset`: Lista de columnas a evaluar si cuentan con nulos.
- `inplace`: `False` (default) no modifica el DataFrame/Serie pero retorna uno nuevo sin los faltantes, `True` modifica el DataFrame/Serie y no retorna nada.


Análisis de datos donde `Description` tiene valores faltantes.

In [16]:
data_description_na = retail_df[retail_df["Description"].isna()]
data_description_na.sample(5)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
21792,538143,84534B,,1,2010-12-09 15:58:00,0.0,,United Kingdom
255902,559376,48116,,-35,2011-07-08 10:38:00,0.0,,United Kingdom
7191,536999,21421,,110,2010-12-03 15:32:00,0.0,,United Kingdom
136883,547999,20860,,-7,2011-03-29 10:24:00,0.0,,United Kingdom
13959,537436,84270,,7,2010-12-06 17:00:00,0.0,,United Kingdom


In [17]:
quantity_less_0 = data_description_na[data_description_na["Quantity"] < 0].shape[0]
print(f"Total de datos de 'Quantity' menor a 0: {quantity_less_0}")
print("Valores de 'UnitPrice': ", data_description_na["UnitPrice"].unique())
print("Valores de 'CustomerID': ", data_description_na["CustomerID"].unique())

Total de datos de 'Quantity' menor a 0: 862
Valores de 'UnitPrice':  [0.]
Valores de 'CustomerID':  [nan]


Las columnas `CustomerID`, `UnitPrice` y `Quantity` cuando `Description` es null (valor faltante) son a su vez faltantes y negativos, por lo tanto podemos concluir que eliminar los registros donde `Description` es null no incurrirá en análisis sesgados o con interpretaciones erróneas. 

In [18]:
# Eliminamos las filas con valores faltantes solo en la columna "Description" y modificamos el DataFrame
retail_df.dropna(subset=["Description"], inplace=True)
retail_df.isna().sum()

InvoiceNo           0
StockCode           0
Description         0
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     133626
Country             0
dtype: int64

### 2.4.2 Imputar datos faltantes

Pandas incluye funciones para imputar datos faltantes a partir de un dato conocido.
Funciones:
- `ffill()`: Forward Fill o llenado hacia adelante, rellena los valores faltantes (NA/NaN) a partir del último dato valido hasta el siguiente dato valido.
- `bfill()`: Backward Fill o llenado hacia atrás, rellena los valores faltantes (NA/NaN) a partir del siguiente dato valido hasta rellenar los datos faltantes que están detrás.

Ambas funciones reciben el parámetro `inplace` para indicarle a pandas si modifica o no el DataFrame original.

Para la columna `CustomerID` aplicaré la función `ffill`.

In [19]:
retail_df["CustomerID"].ffill(inplace=True)
retail_df.isna().sum()

InvoiceNo      0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
UnitPrice      0
CustomerID     0
Country        0
dtype: int64

## 2.5 Manipulación y creación de columnas

**Manipular y transformar los datos:**

- Permite realizar cálculos derivados de datos existentes.
- Prepara los datos para análisis más avanzados.
- Tratamiento de los datos más eficiente.

Sintaxis para crear una columna: `df["nombre_columna_nueva"] = ...` <br>
Sintaxis para modificar una columna: `df["nombre_columna"] = ...`

Algunas de las formas de manipular o crear columnas con pandas, son:
1. Crear una columna a partir de una operación aritmética  entre dos columnas existentes.


In [20]:
# Precio total = Cantidad * Precio unitario.
retail_df["TotalPrice"] = retail_df["Quantity"] * retail_df["UnitPrice"]
retail_df["TotalPrice"].head()

0    15.30
1    20.34
2    22.00
3    20.34
4    20.34
Name: TotalPrice, dtype: float64

2. Crear una columna a partir de un valor unitario.

In [21]:
retail_df["DiscountValue"] = 0.9
retail_df["DiscountValue"].head()

0    0.9
1    0.9
2    0.9
3    0.9
4    0.9
Name: DiscountValue, dtype: float64

3. Crear una columna a partir de una condición booleana.

In [22]:
retail_df["HighValue"] = retail_df["TotalPrice"] > 1_000
retail_df["HighValue"].value_counts()

False    540067
True        388
Name: HighValue, dtype: int64

4. Modificar una columna cambiando el tipo de dato de ésta.

In [23]:
retail_df["InvoiceDate"].dtype

dtype('O')

In [24]:
retail_df["InvoiceDate"] = pd.to_datetime(retail_df["InvoiceDate"])
retail_df["InvoiceDate"].dtype

dtype('<M8[ns]')

5. Crear una columna a partir de aplicar una función especifica.

In [25]:
def categorize_price(price):
  if price >= 1_000:
    return "High"
  elif price > 500:
    return "Medium"
  else:
    return "Low"

In [26]:
retail_df["PriceCategory"] = retail_df["UnitPrice"].apply(categorize_price)
retail_df["PriceCategory"].value_counts()

Low       540200
Medium       135
High         120
Name: PriceCategory, dtype: int64

## 2.6  Groupby

La función `groupby` trabaja en conjunto con funciones de agregación (media, moda, suma, conteos, etc.) o bien con funciones definidas por el usuario por medio del método `apply()`. <br>

Esta función nos ayudadara a realizar análisis más avanzados y con máyor profundidad, va de la mano de preguntas que necesitemos responder.

📌 **Nota**: La lógica que siguen `groupby` en pandas es igual a su homónima en SQL. 

**Como implementar `groupby`?**
- Agrupamos los datos por una o más columnas.
- Seleccionamos las columnas a las cuales queremos aplicar la función de agregación. <br>
📢 Este punto es opcional, sino se indican las columnas la función de agregación se aplicará a todas las columnas.
- Aplicamos la función de agregación.
    - Funciones estadísticas: media, moda, mediana, desviación estándar, etc.
    - Conteos y sumatorias
    - Funciones definidas por el usuario o funciones lambda (con `apply`)

📌 **Nota**: Lo anterior es solo una forma de las muchas que existen para implementar groupby, la imaginación es el limite 🪄.

Agrupamiento por una sola columna y selección de solo una columna para aplicar la función `mean`:

In [27]:
# Cuál es el promedio total de ventas por país?
avg_sale_per_country = retail_df.groupby("Country")["TotalPrice"].mean().head()
print(type(avg_sale_per_country))
print(type(avg_sale_per_country.index))
print(avg_sale_per_country.head())

<class 'pandas.core.series.Series'>
<class 'pandas.core.indexes.base.Index'>
Country
Australia    108.877895
Austria       25.322494
Bahrain       28.863158
Belgium       19.773301
Brazil        35.737500
Name: TotalPrice, dtype: float64


Aplicación de dos funciones de agregación distintas a una sola columna:

In [28]:
# Cuál es el promedio total de ventas por país y cuál es el total vendido?
avg_total_sale_per_country = retail_df.groupby("Country")["TotalPrice"].agg(["mean", "sum"]).head(10)
print(type(avg_total_sale_per_country))
print(type(avg_total_sale_per_country.index))
print(avg_total_sale_per_country.head())

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.indexes.base.Index'>
                 mean        sum
Country                         
Australia  108.877895  137077.27
Austria     25.322494   10154.32
Bahrain     28.863158     548.40
Belgium     19.773301   40910.96
Brazil      35.737500    1143.60


Agrupamiento por dos columnas:

In [29]:
# Cuál es el total de ventas por producto en cada país?
country_stock = retail_df.groupby(["Country", "StockCode"])["Quantity"].sum()
print(type(country_stock))
print(type(country_stock.index))
print(country_stock)

<class 'pandas.core.series.Series'>
<class 'pandas.core.indexes.multi.MultiIndex'>
Country      StockCode
Australia    15036        600
             15056BL        3
             16161P       400
             16169E        25
             20665          6
                         ... 
Unspecified  85180A         2
             85180B         1
             85212         12
             85213         12
             85227         10
Name: Quantity, Length: 19725, dtype: int64


Alicando una función definida por le usuario:

In [30]:
# Total ventas con descuento
def total_revenue_disc(group):
  return (group["TotalPrice"] * group["DiscountValue"]).sum()

In [31]:
# Cuál es el total de ventas con desceunto aplicado por país
total_revenue = retail_df.groupby("Country").apply(total_revenue_disc)
print(type(total_revenue))
print(type(total_revenue.index))
print(total_revenue.head())

<class 'pandas.core.series.Series'>
<class 'pandas.core.indexes.base.Index'>
Country
Australia    123369.543
Austria        9138.888
Bahrain         493.560
Belgium       36819.864
Brazil         1029.240
dtype: float64


Reto: Encontrar el top 3 mejores y peores ventas por país

In [32]:
# Forma 1: 
top_3_best_sales = (
  retail_df
  .groupby("Country")
  .apply(lambda x: (x["Quantity"] * x["UnitPrice"]).sum())
  .sort_values(ascending=False)
  .head(3)
)
print("Forma #1\n")
print("Mejores 3:", top_3_best_sales)

top_3_worst_sales = (
  retail_df
  .groupby("Country")
  .apply(lambda x: (x["Quantity"] * x["UnitPrice"]).sum())
  .sort_values(ascending=True)
  .head(3)
)
print("\nPeores 3:", top_3_worst_sales)


Forma #1

Mejores 3: Country
United Kingdom    8187806.364
Netherlands        284661.540
EIRE               263276.820
dtype: float64

Peores 3: Country
Saudi Arabia      131.17
Bahrain           548.40
Czech Republic    707.72
dtype: float64


## 2.7 Filtrado de datos

Es una técica que permite extraer un subconjunto especifico de datos a partir de un Dataset, se basa en condicionales lógicos dentro del mismo DataFrame. 

Filtrar los datos nos permite prestar atención más detallada en aspectos especificos de los datos:
- Datos de un periodo de tiempo especifico.
- Información de una región o regiones en concreto.
- Datos según una categoría.

**Sintaxis**
Obtendremos un nuevo DataFrame con los datos que cumplan con la condición dada:
```python
df[df["columna"] == "un valor"]

# Dos condiciones 
df[(df["columna"] >= "un valor") & (df["columna"] <= "un valor")] # operador and
df[(df["columna"] <= "un valor") | (df["columna"] >= "un valor")] # operatos or

# Con .loc
df.loc[df["columna"] == "un valor"]
```


**Ejemplos:**

In [33]:
# Ventas realizadas en Reino Unido, solo necesitamos Descripción y Cantidad:
uk_sales = retail_df[retail_df["Country"] == "United Kingdom"][["Description", "Quantity"]]

print("Ventas en Reino Unido")
display(uk_sales.head())

# Ventas realizadas en semana santa del 2011
# 17/abirl/2011 al 23/abril/2011
ss_2011 = retail_df[(retail_df["InvoiceDate"] >= pd.Timestamp(2011,4,17)) & (retail_df["InvoiceDate"] <= pd.Timestamp(2011,4,23))]

print("Semana Sanda 2011")
display(ss_2011.head())

Ventas en Reino Unido


Unnamed: 0,Description,Quantity
0,WHITE HANGING HEART T-LIGHT HOLDER,6
1,WHITE METAL LANTERN,6
2,CREAM CUPID HEARTS COAT HANGER,8
3,KNITTED UNION FLAG HOT WATER BOTTLE,6
4,RED WOOLLY HOTTIE WHITE HEART.,6


Semana Sanda 2011


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalPrice,DiscountValue,HighValue,PriceCategory
158579,C550300,72803A,ROSE SCENT CANDLE JEWELLED DRAWER,-1,2011-04-17 10:10:00,4.25,17243.0,United Kingdom,-4.25,0.9,False,Low
158580,550301,85194L,HANGING SPRING FLOWER EGG LARGE,36,2011-04-17 10:15:00,0.85,17243.0,United Kingdom,30.6,0.9,False,Low
158581,550301,22464,HANGING METAL HEART LANTERN,6,2011-04-17 10:15:00,1.65,17243.0,United Kingdom,9.9,0.9,False,Low
158582,550301,22241,GARLAND WOODEN HAPPY EASTER,9,2011-04-17 10:15:00,1.25,17243.0,United Kingdom,11.25,0.9,False,Low
158583,550301,22284,HEN HOUSE DECORATION,6,2011-04-17 10:15:00,1.65,17243.0,United Kingdom,9.9,0.9,False,Low


In [34]:
# Solo las ventas de diciembre:
december_sales = retail_df.loc[
    (retail_df["InvoiceDate"].dt.year == 2011) & (retail_df["InvoiceDate"].dt.month == 12),
    ["Description", "Quantity", "UnitPrice", "TotalPrice"]    
  ]

print("Ventas de Diciembre de 2011")
display(december_sales.head())

Ventas de Diciembre de 2011


Unnamed: 0,Description,Quantity,UnitPrice,TotalPrice
516384,SET OF 3 REGENCY CAKE TINS,-8,4.15,-33.2
516385,ANTIQUE SILVER TEA GLASS ENGRAVED,-1,1.25,-1.25
516386,RED SPOT PAPER GIFT BAG,-1,0.82,-0.82
516387,MULTI COLOUR SILVER T-LIGHT HOLDER,-2,0.85,-1.7
516388,BOTANICAL GARDENS WALL CLOCK,-1,25.0,-25.0


## 2.8 Pivot table

Una **pivot table** es una herramienta para resumir y reorganizar columnas de un DataFrame de pandas, que ademas permite crear cálculos estadísticos (suma, conteos, promedios, etc.). 

Básicamente transforma los valores de determinadas filas o columnas en indices de un nuevo DataFrame, la intersección de éstos es el valor resultante. 

La nueva organización de los datos nos ayuda a encontrar patrones que pudieran estar ocultos en los datos crudos.

**Función**:
- `pivot_table()`: Puede implementarse directo del DataFrame o a partir de la librería en si misma `pd.pivot_table()` con la diferencia de que ésta última recibe el DF como parámetro.

**Parámetros**:
- `data`: Cuando se utiliza la función directamente de pandas.
- `values`: Nombre de la columna o columnas (lista) que rellenarán la tabla a partir de la función de agregación.
- `index`: Nombre de la columna donde se tomarán los valores para crear los indices del DataFrame resultante.
- `columns`: Nombre de la columna donde se tomarán los valores las nuevas columnas del DataFrame resultante.
- `aggfunc`: Función de agregación a aplicar.


**Ejemplo #1**: Crear un resumen del promedio de ventas que tuvo cada país durante los doce meces del año 2011.

In [35]:
# Creamos una copia del DataFrame original
sales_2011 = retail_df.loc[retail_df["InvoiceDate"].dt.year == 2011, ::]

# Creamos la columna "Year" donde guardaremos la extracción de año a partir del "InvoiceDate"
sales_2011["Month"] = sales_2011["InvoiceDate"].dt.month

# Hacemos un pivot table 
sales_by_year = sales_2011.pivot_table(
  values="TotalPrice",
  index="Country",
  columns="Month",
  aggfunc="mean"
)

sales_by_year.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """


Month,1,2,3,4,5,6,7,8,9,10,11,12
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Australia,71.005591,160.741429,155.048091,16.67,115.495847,147.162398,21.970369,210.179439,48.382019,150.443246,151.244222,
Austria,,24.68381,94.895556,26.183846,24.498627,-12.1,21.671818,17.228182,,19.329259,18.996857,97.6
Bahrain,-205.74,,,,32.258824,,,,,,,
Belgium,18.318254,18.011,20.451411,15.887398,18.302013,18.498571,19.175349,17.949848,22.690919,21.166217,25.017711,14.381939
Brazil,,,,35.7375,,,,,,,,


**Ejemplo #2**: Crear un resumen del promedio de ventas que tuvo cada país durante los 4 trimestres del año 2011.

In [36]:
# Función para calcular cual es el trimestre del año
def quarter_of_year(value):
  if value in [1, 2, 3]:
    return "1st"
  elif value in [4, 5, 6]:
    return "2nd"
  elif value in [7, 8, 9]: 
    return "3rd"
  else:
    return "4th"

In [37]:
# Aplicamos la función para calcular el trimestre correspondiente 
sales_2011["Quarter"] = sales_2011["Month"].apply(quarter_of_year)

# Hacemos pivot table donde las columnas seran cada trimestre del 2011
quarter_sales = sales_2011.pivot_table(
  values="TotalPrice",
  index="Country",
  columns="Quarter",
  aggfunc="mean"
)
quarter_sales.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Quarter,1st,2nd,3rd,4th
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Australia,124.086799,126.62356,75.440421,150.669937
Austria,57.089231,24.126709,18.937273,23.334046
Bahrain,-205.74,32.258824,,
Belgium,19.216618,17.801829,19.975656,21.645309
Brazil,,35.7375,,


## 2.9 Fusión/Unión de DataFrames

Consiste en crear un nuevo DataFrame a partir de dos  DataFrames, aplica la misma lógica que los joins en `SQL`.

Pandas provee dos funciones para está tarea.

<table>
  <thead>
    <td> <code> merge() </code> </td>
    <td> <code> join() </code> </td>
  </thead>
  
  <tr>
    <td> Se llama directo desde la librería. </td>
    <td> Se utiliza a partir del DF. </td>
  </tr>

  <tr>
    <td> La unión se realiza a partir de una columna especificada por el usuario. </td>
    <td> La unión se realiza a partir de los indices de ambos DF.</td>
  </tr>
  <tr>
    <td colspan="2" align="center" > <b>Parámetros</b> </td>
  </tr>
  
  <tr>
    <td> <code>left</code>: DataFrame que esta estará la izquierda. </td>
    <td> <code>other</code>: DataFrame que queremos unir. </td>
  </tr>

  <tr>
    <td> <code>right</code>: DataFrame que esta estará la derecha. </td>
    <td> <code>on</code>: Default es el índice del DF. </td>
  </tr>

  <tr>    
    <td colspan="2"> <code>how</code>: Cómo será la union entre los DF. </td>
  </tr>
  
  <tr>
    <td> <code>on</code>: Nombre de la columna a partir del cual se realizará el merge.  </td>
    <td></td>
  </tr>
</table>

📢 En ambas funciones, el parámetro `how` recibe los mismos valores:

- `inner`: Intersección entre los dos DataFrames.
- `outer`: Lo opuesto a la intersección, solo los elementos que no estén en ambos DataFrames.
- `left`: Regresa todos los elementos del DataFrame de la izquierda (incluyendo la intersección)
- `right`: Regresa todos los elementos del DataFrame de la derecha (incluyendo la intersección)
- `cross`: Crea un producto cartesiano de ambos DataFrames

📌 A excepción de `inner`, los otros métodos de unión regresan `NaN` (Not a Number) cuando los datos nos se comparten en ambos DataFrames.


**`concat()`** Es otra función que también nos permite unir DataFrames, con las diferencias de que podemos incluir más de dos DF y podemos seleccionar la orientación de la unión (horizontal ó vertical).

**Parámetros**

- `objs`: Lista con los DataFrames.
- `axis`: Orientación, 0 = vertical/filas (default), 1 = horizontal/columnas
- `join`: Tipo de concatenación, inner o outer.

### 2.9.1 `merge`

In [38]:
df1 = pd.DataFrame({
  'key': ['A', 'B', 'C'],
  'value1': [1,2,3]
})

df2 = pd.DataFrame({
  'key': ['B', 'C', 'D'],
  'value2': [4,5,6]
})

display(df1, df2)


Unnamed: 0,key,value1
0,A,1
1,B,2
2,C,3


Unnamed: 0,key,value2
0,B,4
1,C,5
2,D,6


In [39]:
inner_merge = pd.merge(left=df1, right=df2, on="key", how="inner")
print("Inner merge:")
display(inner_merge)

outer_merge = pd.merge(left=df1, right=df2, on="key", how="outer")
print("Outer merge:")
display(outer_merge)

Inner merge:


Unnamed: 0,key,value1,value2
0,B,2,4
1,C,3,5


Outer merge:


Unnamed: 0,key,value1,value2
0,A,1.0,
1,B,2.0,4.0
2,C,3.0,5.0
3,D,,6.0


In [40]:
display(df1,df2)
left_merge = pd.merge(left=df1, right=df2, on="key", how="left")
print("Left merge:")
display(left_merge)

right_merge = pd.merge(left=df1, right=df2, on="key", how="right")
print("Right merge:")
display(right_merge)

Unnamed: 0,key,value1
0,A,1
1,B,2
2,C,3


Unnamed: 0,key,value2
0,B,4
1,C,5
2,D,6


Left merge:


Unnamed: 0,key,value1,value2
0,A,1,
1,B,2,4.0
2,C,3,5.0


Right merge:


Unnamed: 0,key,value1,value2
0,B,2.0,4
1,C,3.0,5
2,D,,6


### 2.9.2 `concat`

In [41]:
df3 = pd.DataFrame({
  'A': ['A0', 'A1', 'A2'],
  'B': ['B0', 'B1', 'B2'],
})

df4 = pd.DataFrame({
  'A': ['A3', 'A4', 'A5'],
  'B': ['B3', 'B4', 'B5'],
}) 

display(df3, df4)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2


Unnamed: 0,A,B
0,A3,B3
1,A4,B4
2,A5,B5


In [42]:
vertical_concat = pd.concat([df3, df4], axis=0)
print("Concatenación vertical (filas)")
display(vertical_concat)

horizontal_concat = pd.concat([df3, df4], axis=1)
print("Concatenación horizontal (columnas)")
display(horizontal_concat)

Concatenación vertical (filas)


Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
0,A3,B3
1,A4,B4
2,A5,B5


Concatenación horizontal (columnas)


Unnamed: 0,A,B,A.1,B.1
0,A0,B0,A3,B3
1,A1,B1,A4,B4
2,A2,B2,A5,B5


### 2.9.3 `join`

In [43]:
df5 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
  }, 
  index = ['K0', 'K1', 'K2']
) 

df6 = pd.DataFrame({
    'C': ['C0', 'C1', 'C2'],
    'D': ['DO', 'D1', 'D2']
  }, 
  index = ['K0', 'K2', 'K3']
)

display(df5, df6)

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


Unnamed: 0,C,D
K0,C0,DO
K2,C1,D1
K3,C2,D2


In [44]:
inner_join = df5.join(other=df6, how="inner")
print("Inner join")
display(inner_join)

left_join = df5.join(other=df6, how="left")
print("Left join")
display(left_join)

Inner join


Unnamed: 0,A,B,C,D
K0,A0,B0,C0,DO
K2,A2,B2,C1,D1


Left join


Unnamed: 0,A,B,C,D
K0,A0,B0,C0,DO
K1,A1,B1,,
K2,A2,B2,C1,D1


## 2.10 Series de tiempo

Las series de tiempo representan datos en un punto determinado del tiempo, esto nos permite realizar análisis de tendencias, patrones estacionales, fluctuaciones u otros comportamientos a lo largo del tiempo.

Trabajar con series de tiempo nos permite realizar operaciones complejas de forma eficiente. <br>
Por ejemplo:
- Filtrado por fechas.
- Remuestreo.
- Análisis de tendencias.
- Acceso avanzado a los datos por medio de la funcionalidad `loc`, indicando solo el año, mes o rango de fechas.

Al trabajarlas con pandas debemos:
- Asegurar que las columnas que contengan datos de fecha y hora tengan el formato adecuado. <br>
Se corrigen con la función `pd.to_date()`.
- Cambiar el ídice numérico del DataFrame por el valor de la columna que contenga la fecha en el formato `datetime`. <br>
Se logra con la función integrada en la instancia del DF `df.set_index("columna", inplace=True)`


El formato datetime de pandas habilita nuevas funcionalidades:
- Extracción de partes especificas de la fecha (año, mes, día, nombre del mes, día de la semana, etc.).
- Indexación por fechas.
- Generar rango de tiempo con `pf.date_range()`.
- Manejo de datos faltantes con `interpolate`.
- Etc.



In [45]:
"""
Cambiamos el indice numérico del dataframe por un indice datetime a partir 
de la columna  InvoiceDate
"""

print("Indice anterior:", retail_df.index.dtype)

retail_df.set_index("InvoiceDate", inplace=True)
print("Indice nuevo:", retail_df.index.dtype)
retail_df.head()

Indice anterior: int64
Indice nuevo: datetime64[ns]


Unnamed: 0_level_0,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID,Country,TotalPrice,DiscountValue,HighValue,PriceCategory
InvoiceDate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2010-12-01 08:26:00,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2.55,17850.0,United Kingdom,15.3,0.9,False,Low
2010-12-01 08:26:00,536365,71053,WHITE METAL LANTERN,6,3.39,17850.0,United Kingdom,20.34,0.9,False,Low
2010-12-01 08:26:00,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2.75,17850.0,United Kingdom,22.0,0.9,False,Low
2010-12-01 08:26:00,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,3.39,17850.0,United Kingdom,20.34,0.9,False,Low
2010-12-01 08:26:00,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,3.39,17850.0,United Kingdom,20.34,0.9,False,Low


Al colocar `InvoiceDate` como índice ésta columna ya no aparece en el DataFrame, por lo tanto para acceder a sus respectivos valores lo haremos mediante la propiedad `index`.

In [55]:
print(retail_df.index[:5])

# Extraer elementos de especificos de una fecha:
print("Año", retail_df.sample(5).index.year[:5])
print("Mes", retail_df.sample(5).index.month[:5])
print("Nombre mes:", retail_df.sample(5).index.month_name())

DatetimeIndex(['2010-12-01 08:26:00', '2010-12-01 08:26:00',
               '2010-12-01 08:26:00', '2010-12-01 08:26:00',
               '2010-12-01 08:26:00'],
              dtype='datetime64[ns]', name='InvoiceDate', freq=None)
Año Int64Index([2011, 2011, 2011, 2011, 2011], dtype='int64', name='InvoiceDate')
Mes Int64Index([5, 12, 11, 8, 2], dtype='int64', name='InvoiceDate')
Nombre mes: Index(['August', 'August', 'January', 'December', 'July'], dtype='object', name='InvoiceDate')


In [63]:
# Filtro avanzado a partir del indice tipo datetime con .loc
print("Enero 2011:")
display(retail_df.loc["2011-01"].sample(5))

print("Rango: desde 01/15/2011 al 15/12/2011 ")
display(retail_df.loc["2011-12-01" : "2011-12-15"].sample(5))


Enero 2011:


Unnamed: 0_level_0,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID,Country,TotalPrice,DiscountValue,HighValue,PriceCategory
InvoiceDate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2011-01-11 14:42:00,540832,20727,LUNCH BAG BLACK SKULL.,6,4.96,13784.0,United Kingdom,29.76,0.9,False,Low
2011-01-18 16:06:00,541508,21042,RED RETROSPOT APRON,1,12.46,15939.0,United Kingdom,12.46,0.9,False,Low
2011-01-25 13:38:00,542107,22913,RED COAT RACK PARIS FASHION,1,4.95,16222.0,United Kingdom,4.95,0.9,False,Low
2011-01-06 14:53:00,540353,22840,ROUND CAKE TIN VINTAGE RED,1,7.95,13764.0,United Kingdom,7.95,0.9,False,Low
2011-01-05 10:50:00,C540142,22960,JAM MAKING SET WITH JARS,-12,3.75,12782.0,Portugal,-45.0,0.9,False,Low


Rango: desde 01/15/2011 al 15/12/2011 


Unnamed: 0_level_0,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID,Country,TotalPrice,DiscountValue,HighValue,PriceCategory
InvoiceDate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2011-12-07 17:56:00,581197,23162,REGENCY TEA STRAINER,1,3.75,12935.0,United Kingdom,3.75,0.9,False,Low
2011-12-02 12:43:00,C580263,21934,SKULL SHOULDER BAG,-10,1.65,12536.0,France,-16.5,0.9,False,Low
2011-12-08 11:21:00,581256,22426,ENAMEL WASH BOWL CREAM,1,8.29,16891.0,United Kingdom,8.29,0.9,False,Low
2011-12-09 12:31:00,581585,23084,RABBIT NIGHT LIGHT,12,2.08,15804.0,United Kingdom,24.96,0.9,False,Low
2011-12-07 09:35:00,581015,22299,PIG KEYRING WITH LIGHT & SOUND,48,0.39,13949.0,United Kingdom,18.72,0.9,False,Low


Generación de una serie de tiempo a partir de un rango.

In [69]:
new_date_range = pd.date_range(start="2024-01-01", end="2024-12-31", freq="D")
ts_example = pd.DataFrame(new_date_range, columns=["date"])

print(ts_example.shape)
display(ts_example.head())
print(ts_example["date"].dtype)

(366, 1)


Unnamed: 0,date
0,2024-01-01
1,2024-01-02
2,2024-01-03
3,2024-01-04
4,2024-01-05


datetime64[ns]
