 # **<font color="DarkBlue">Series de tiempo 🐼 </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

 # **<font color="DarkBlue">Timestamp y Period</font>**

<p align="justify">
  En el análisis de datos, la representación y manipulación del tiempo son fundamentales, especialmente en áreas como finanzas, logística, y análisis de series temporales.
  <br><br>
  Pandas ofrece dos tipos principales de objetos para trabajar con datos relacionados con el tiempo: <code>Timestamp</code> y <code>Period</code>. Ambos juegan un papel crucial para modelar, analizar y procesar datos temporales de manera eficiente y precisa.
  <br><br>
  <strong>1. Timestamp:</strong> Este objeto representa un punto único en el tiempo. Es una generalización del tipo <code>datetime</code> de Python, pero con funcionalidad ampliada para análisis de datos. Un <code>Timestamp</code> se define con:
  <br><br>


  $$T = Y, M, D, H, m, s, \mu, \text{tz}$$

  
  donde:
  <ul>
    <li>$Y$: Año</li>
    <li>$M$: Mes</li>
    <li>$D$: Día</li>
    <li>$H$: Hora</li>
    <li>$m$: Minutos</li>
    <li>$s$: Segundos</li>
    <li>$\mu$: Microsegundos</li>
    <li>$\text{tz}$: Zona horaria (opcional)</li>
  </ul>
  <br>
  <p align="justify">
  Los <code>Timestamps</code> permiten realizar operaciones como comparación, diferencias temporales, y conversión a diferentes formatos. Son ideales para indexar y manejar series temporales densas, donde cada punto de datos tiene una marca de tiempo única.
  <br><br>
  <strong>2. Period:</strong> A diferencia de <code>Timestamp</code>, un <code>Period</code> representa un intervalo fijo de tiempo, como un día, un mes, o un trimestre. Su definición incluye:
  <br><br>
  <center>
    $ P = (R, F) $
  </center>
  donde:
  <ul>
    <li>$R$: Punto de referencia temporal (por ejemplo, "2024-11")</li>
    <li>$F$: Frecuencia (como "M" para mensual o "Q" para trimestral)</li>
  </ul>
  <br>
  <p align="justify">
  Las operaciones con <code>Period</code> incluyen la agregación de datos en intervalos regulares, como calcular totales trimestrales o promedios mensuales. Además, son útiles para modelar y predecir tendencias en series temporales agrupadas por intervalos.
  <br><br>
  Tanto <code>Timestamp</code> como <code>Period</code> son fundamentales en pandas para trabajar con datos temporales y permiten un enfoque robusto para modelar tiempo en análisis de datos complejos.
</p>


In [None]:
import pandas as pd
import numpy as np
import plotly.express as px

## **<font color="DarkBlue">Timestamp</font>**

🚀 Empezando a manipular objetos temporales

In [None]:
# Crear un DataFrame con marcas de tiempo para ventas de un negocio
data = {
    "Producto": ["A", "B", "C"],
    "FechaVenta": ["2024-11-15 10:30:00", "2024-11-15 11:00:00", "2024-11-15 12:15:00"],
    "MontoVenta": [100, 200, 150]
}

data

{'Producto': ['A', 'B', 'C'],
 'FechaVenta': ['2024-11-15 10:30:00',
  '2024-11-15 11:00:00',
  '2024-11-15 12:15:00'],
 'MontoVenta': [100, 200, 150]}

In [None]:
# Convertir la columna de fechas a Timestamp

df = pd.DataFrame(data)
df["FechaVenta"] = pd.to_datetime(df["FechaVenta"])
df

Unnamed: 0,Producto,FechaVenta,MontoVenta
0,A,2024-11-15 10:30:00,100
1,B,2024-11-15 11:00:00,200
2,C,2024-11-15 12:15:00,150


In [None]:
# Calcular el tiempo transcurrido desde la última venta

df["TiempoDesdeUltimaVenta"] = df["FechaVenta"].diff()
df

Unnamed: 0,Producto,FechaVenta,MontoVenta,TiempoDesdeUltimaVenta
0,A,2024-11-15 10:30:00,100,NaT
1,B,2024-11-15 11:00:00,200,0 days 00:30:00
2,C,2024-11-15 12:15:00,150,0 days 01:15:00


🚀 Generando un ejemplo con Timestamp

In [None]:
# Generar datos de transacciones de una tienda con marcas de tiempo

np.random.seed(42)  # Asegura reproducibilidad
n_transacciones = 50


In [None]:
# Generar un rango de fechas aleatorias para un mes

fechas = pd.date_range("2024-11-01", "2024-11-30", freq="h").to_pydatetime()
fechas_aleatorias = np.random.choice(fechas, size=n_transacciones, replace=True)


Generación de Fechas Aleatorias:
<br><br>
<p align="justify">
Utilizamos pd.date_range para crear una lista de fechas y horas que cubren todo noviembre.
Luego, seleccionamos al azar 50 marcas de tiempo utilizando np.random.choice.

In [None]:
# Crear un DataFrame con productos, precios y marcas de tiempo

data = {
    "Producto": np.random.choice(["Producto A", "Producto B", "Producto C"], size=n_transacciones),
    "FechaVenta": fechas_aleatorias,
    "MontoVenta": np.random.randint(50, 500, size=n_transacciones)
}

df = pd.DataFrame(data)
df.head()


Unnamed: 0,Producto,FechaVenta,MontoVenta
0,Producto B,2024-11-05 06:00:00,58
1,Producto B,2024-11-19 03:00:00,393
2,Producto B,2024-11-12 06:00:00,178
3,Producto A,2024-11-05 10:00:00,185
4,Producto B,2024-11-03 23:00:00,112


<p align="justify">
Creamos un conjunto de datos simulando transacciones, donde cada fila contiene un producto, una marca de tiempo, y un monto de venta.


In [None]:
# Asegurarse de que las fechas estén ordenadas

df = df.sort_values("FechaVenta").reset_index(drop=True)
df.head()

Unnamed: 0,Producto,FechaVenta,MontoVenta
0,Producto A,2024-11-01 20:00:00,188
1,Producto C,2024-11-01 20:00:00,256
2,Producto B,2024-11-01 21:00:00,221
3,Producto C,2024-11-03 10:00:00,498
4,Producto B,2024-11-03 23:00:00,112


<p align="justify">
Ordenamos las fechas para que el análisis sea cronológico, algo fundamental en series temporales.


In [None]:
# Análisis con Timestamp:
# 1. Calcular el tiempo entre transacciones

df["TiempoDesdeUltimaVenta"] = df["FechaVenta"].diff()
df.head()

Unnamed: 0,Producto,FechaVenta,MontoVenta,TiempoDesdeUltimaVenta
0,Producto A,2024-11-01 20:00:00,188,NaT
1,Producto C,2024-11-01 20:00:00,256,0 days 00:00:00
2,Producto B,2024-11-01 21:00:00,221,0 days 01:00:00
3,Producto C,2024-11-03 10:00:00,498,1 days 13:00:00
4,Producto B,2024-11-03 23:00:00,112,0 days 13:00:00


<p align="justify">
Usamos el método <code>diff()</code> en la columna FechaVenta para calcular el tiempo transcurrido desde la última transacción. Esto es útil para entender patrones de compra.


In [None]:
# 2. Filtrar las ventas realizadas en un rango específico

inicio_rango = pd.Timestamp("2024-11-15 00:00:00")
fin_rango = pd.Timestamp("2024-11-16 23:59:59")
ventas_en_rango = df[(df["FechaVenta"] >= inicio_rango) & (df["FechaVenta"] <= fin_rango)]
ventas_en_rango.head()

Unnamed: 0,Producto,FechaVenta,MontoVenta,TiempoDesdeUltimaVenta
25,Producto B,2024-11-15 07:00:00,317,0 days 13:00:00
26,Producto A,2024-11-16 12:00:00,280,1 days 05:00:00


<p align="justify">
Definimos un rango de fechas usando objetos Timestamp para seleccionar transacciones realizadas entre el 15 y el 16 de noviembre.


In [None]:
# 3. Identificar el producto con mayor recaudación en todo el período

producto_top = df.groupby("Producto")["MontoVenta"].sum().idxmax()
producto_top

'Producto B'

<p align="justify">
Agrupamos por Producto y sumamos las ventas para determinar cuál generó mayores ingresos.


In [None]:
# Resultados

print("Datos procesados:\n", df)
print("\nVentas entre el 15 y el 16 de noviembre:\n", ventas_en_rango)
print("\nProducto con mayor recaudación:", producto_top)


Datos procesados:
       Producto          FechaVenta  MontoVenta TiempoDesdeUltimaVenta
0   Producto A 2024-11-01 20:00:00         188                    NaT
1   Producto C 2024-11-01 20:00:00         256        0 days 00:00:00
2   Producto B 2024-11-01 21:00:00         221        0 days 01:00:00
3   Producto C 2024-11-03 10:00:00         498        1 days 13:00:00
4   Producto B 2024-11-03 23:00:00         112        0 days 13:00:00
5   Producto B 2024-11-04 15:00:00         310        0 days 16:00:00
6   Producto B 2024-11-05 03:00:00          90        0 days 12:00:00
7   Producto B 2024-11-05 06:00:00          58        0 days 03:00:00
8   Producto A 2024-11-05 10:00:00         185        0 days 04:00:00
9   Producto C 2024-11-06 01:00:00         441        0 days 15:00:00
10  Producto B 2024-11-06 10:00:00         184        0 days 09:00:00
11  Producto A 2024-11-06 10:00:00         408        0 days 00:00:00
12  Producto B 2024-11-07 16:00:00         265        1 days 06:00:00
1

## **<font color="DarkBlue">Period</font>**

In [None]:
# Crear un DataFrame con datos trimestrales de ganancias
data = {
    "Trimestre": ["2024Q1", "2024Q2", "2024Q3", "2024Q4"],
    "Ganancia": [50000, 60000, 55000, 70000]
}

data

{'Trimestre': ['2024Q1', '2024Q2', '2024Q3', '2024Q4'],
 'Ganancia': [50000, 60000, 55000, 70000]}

In [None]:
# Convertir la columna de trimestres a Period

df = pd.DataFrame(data)
df["Trimestre"] = pd.PeriodIndex(df["Trimestre"], freq="Q")
df

Unnamed: 0,Trimestre,Ganancia
0,2024Q1,50000
1,2024Q2,60000
2,2024Q3,55000
3,2024Q4,70000


In [None]:
# Calcular la variación porcentual entre trimestres

df["VariacionPorcentual"] = df["Ganancia"].pct_change() * 100
df.VariacionPorcentual = df.VariacionPorcentual.round(2)
df

Unnamed: 0,Trimestre,Ganancia,VariacionPorcentual
0,2024Q1,50000,
1,2024Q2,60000,20.0
2,2024Q3,55000,-8.33
3,2024Q4,70000,27.27


🚀 Generando un ejemplo con Period

In [None]:
# Simulación de ventas trimestrales en un negocio

np.random.seed(42)  # Asegura reproducibilidad
n_periodos = 12  # 12 trimestres


In [None]:
# Crear un rango de períodos trimestrales

periodos = pd.period_range(start="2020Q1", periods=n_periodos, freq="Q")


<p align="justify">
Creamos una serie de períodos utilizando pd.period_range con frecuencia trimestral (freq="Q"). Esto permite trabajar con intervalos de tiempo específicos como trimestres o años.


In [None]:
# Generar un DataFrame con ingresos trimestrales y costos trimestrales

data = {
    "Periodo": periodos,
    "Ingresos": np.random.randint(5000, 15000, size=n_periodos),
    "Costos": np.random.randint(2000, 10000, size=n_periodos)
}

df = pd.DataFrame(data)
df

Unnamed: 0,Periodo,Ingresos,Costos
0,2020Q1,12270,4391
1,2020Q2,5860,7611
2,2020Q3,10390,9581
3,2020Q4,10191,8949
4,2021Q1,10734,4433
5,2021Q2,11265,7311
6,2021Q3,5466,7051
7,2021Q4,9426,8420
8,2022Q1,10578,3184
9,2022Q2,13322,6555


<p align="justify">
Asignamos ingresos y costos simulados a cada trimestre. Cada fila del DataFrame representa un período trimestral.


In [None]:
# Análisis con Period:
# 1. Calcular ganancias trimestrales

df["Ganancias"] = df["Ingresos"] - df["Costos"]
df

Unnamed: 0,Periodo,Ingresos,Costos,Ganancias
0,2020Q1,12270,4391,7879
1,2020Q2,5860,7611,-1751
2,2020Q3,10390,9581,809
3,2020Q4,10191,8949,1242
4,2021Q1,10734,4433,6301
5,2021Q2,11265,7311,3954
6,2021Q3,5466,7051,-1585
7,2021Q4,9426,8420,1006
8,2022Q1,10578,3184,7394
9,2022Q2,13322,6555,6767


<p align="justify">
Restamos los costos de los ingresos para calcular las ganancias de cada trimestre, agregando esta información como una nueva columna.


In [None]:
# 2. Identificar el trimestre con mayores ganancias

max_ganancias_periodo = df.loc[df["Ganancias"].idxmax(), "Periodo"]
max_ganancias_periodo

Period('2020Q1', 'Q-DEC')

<p align="justify">
Utilizamos <code>idxmax()</code> para localizar el índice del trimestre con mayores ganancias.


In [None]:
# 3. Filtrar datos anuales

df["Año"] = df["Periodo"].dt.year
ganancias_anuales = df.groupby("Año")["Ganancias"].sum()
ganancias_anuales

Unnamed: 0_level_0,Ganancias
Año,Unnamed: 1_level_1
2020,8179
2021,9676
2022,15113


<p align="justify">
Creamos una columna adicional con el año <code>df["Periodo"].dt.year</code> y agrupamos las ganancias por año para obtener un resumen anual.


In [None]:
# 4. Conversión a formato de fecha

df["Inicio_Periodo"] = df["Periodo"].dt.start_time
df["Fin_Periodo"] = df["Periodo"].dt.end_time
df

Unnamed: 0,Periodo,Ingresos,Costos,Ganancias,Año,Inicio_Periodo,Fin_Periodo
0,2020Q1,12270,4391,7879,2020,2020-01-01,2020-03-31 23:59:59.999999999
1,2020Q2,5860,7611,-1751,2020,2020-04-01,2020-06-30 23:59:59.999999999
2,2020Q3,10390,9581,809,2020,2020-07-01,2020-09-30 23:59:59.999999999
3,2020Q4,10191,8949,1242,2020,2020-10-01,2020-12-31 23:59:59.999999999
4,2021Q1,10734,4433,6301,2021,2021-01-01,2021-03-31 23:59:59.999999999
5,2021Q2,11265,7311,3954,2021,2021-04-01,2021-06-30 23:59:59.999999999
6,2021Q3,5466,7051,-1585,2021,2021-07-01,2021-09-30 23:59:59.999999999
7,2021Q4,9426,8420,1006,2021,2021-10-01,2021-12-31 23:59:59.999999999
8,2022Q1,10578,3184,7394,2022,2022-01-01,2022-03-31 23:59:59.999999999
9,2022Q2,13322,6555,6767,2022,2022-04-01,2022-06-30 23:59:59.999999999


<p align="justify">
Usamos <code>dt.start_time</code> y <code>dt.end_time</code> para obtener las fechas de inicio y fin de cada trimestre, útil para análisis adicionales basados en fechas exactas.


In [None]:
# Resultados

print("Datos procesados:\n", df)
print("\nTrimestre con mayores ganancias:", max_ganancias_periodo)
print("\nGanancias anuales:\n", ganancias_anuales)


Datos procesados:
    Periodo  Ingresos  Costos  Ganancias   Año Inicio_Periodo  \
0   2020Q1     12270    4391       7879  2020     2020-01-01   
1   2020Q2      5860    7611      -1751  2020     2020-04-01   
2   2020Q3     10390    9581        809  2020     2020-07-01   
3   2020Q4     10191    8949       1242  2020     2020-10-01   
4   2021Q1     10734    4433       6301  2021     2021-01-01   
5   2021Q2     11265    7311       3954  2021     2021-04-01   
6   2021Q3      5466    7051      -1585  2021     2021-07-01   
7   2021Q4      9426    8420       1006  2021     2021-10-01   
8   2022Q1     10578    3184       7394  2022     2022-01-01   
9   2022Q2     13322    6555       6767  2022     2022-04-01   
10  2022Q3      6685    5385       1300  2022     2022-07-01   
11  2022Q4      5769    6117       -348  2022     2022-10-01   

                     Fin_Periodo  
0  2020-03-31 23:59:59.999999999  
1  2020-06-30 23:59:59.999999999  
2  2020-09-30 23:59:59.999999999  
3  2020-

<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>