<a href="https://colab.research.google.com/github/cinth90/Datascience1/blob/main/series_de_tiempos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

 #Series de Tiempo:
es una secuencia de datos recolectados o registrados en intervalos de tiempo sucesivos. Estos datos pueden representar la evolución de una variable a lo largo del tiempo, como el precio de una acción, la temperatura diaria, o las ventas mensuales de una empresa. Permite a los analistas entender patrones pasados, identificar tendencias, hacer predicciones futuras, y tomar decisiones informadas. Las series de tiempo pueden ayudar a descomponer datos en componentes como tendencia, estacionalidad y ruido, proporcionando una visión más clara de los fenómenos observados.

Por ejemplo, una empresa puede analizar sus ventas mensuales a lo largo de los años para detectar patrones estacionales y ajustar sus estrategias de marketing en consecuencia. En finanzas, el análisis de series de tiempo es fundamental para modelar y prever el comportamiento de los mercados.

Pandas facilita significativamente el manejo de series de tiempo. Con Pandas, puedes crear, manipular y analizar series de tiempo de manera eficiente. Algunas de las capacidades clave que ofrece Pandas incluyen:

**Conversión de datos a objetos de tiempo:** Pandas permite convertir datos como fechas en objetos Datetime, lo que facilita la manipulación de series de tiempo.

**Resampling**: Cambiar la frecuencia de los datos, como convertir datos diarios en mensuales, es una tarea sencilla con Pandas.

**Indexación y selección de datos:** Puedes indexar series de tiempo utilizando fechas y seleccionar datos específicos basados en intervalos de tiempo, lo que simplifica el análisis temporal.

**Operaciones aritméticas y agregaciones**: Pandas permite realizar operaciones aritméticas directamente sobre series de tiempo y aplicar funciones de agregación como suma, media o mediana en períodos específicos.

**Manejo de datos ausentes:** En series de tiempo, es común encontrar datos faltantes. Pandas proporciona métodos eficientes para manejar estos valores ausentes, como el relleno hacia adelante o hacia atrás (forward fill y backward fill).

#Tipos de Datos de Tiempo en Pandas
*Conceptos Clave*

**Punto en el tiempo (Timestamp)**: Un momento específico en el tiempo, como "15 de mayo de 2024 a las 10:00 AM". Es el tipo de dato fundamental para representar una fecha y hora exactas. Cuando usas muchos de estos en un índice de un DataFrame, se convierte en un DatetimeIndex.

**Período (Period):** Un intervalo de tiempo fijo, como "el mes de mayo de 2024" o "el tercer trimestre". A diferencia de un Timestamp, no es un momento exacto, sino un rango de tiempo bien definido. Su índice correspondiente es un PeriodIndex.

**Duración (Timedelta):** La diferencia entre dos puntos en el tiempo, como "3 días y 5 horas". Es el resultado de restar dos Timestamps y representa una cantidad de tiempo. Su índice es el TimedeltaIndex.

En resumen, piensa en:

**Timestamp:** ¿Cuándo ocurrió algo?

**Period:** ¿En qué intervalo de tiempo?

**Timedelta:** ¿Cuánto tiempo duró?

Conversión de datos a objetos de tiempo (ejemplo):

In [1]:
import pandas as pd

# 1. Crear un DataFrame con una columna de fechas como texto
data = {
    'fecha_evento': ['2023-01-15', '2023-02-20', '2023-03-25']
}
df = pd.DataFrame(data)

print('DataFrame Original:')
print(df)
print('\nTipo de dato de la columna "fecha_evento":')
print(df['fecha_evento'].dtype)

# 2. Convertir la columna de texto a formato de fecha y hora
df['fecha_evento_dt'] = pd.to_datetime(df['fecha_evento']) #analiza cadenas de texto que representan fechas y horas
#y las convierte en un formato especial de pandas llamado datetime64[ns].

print('\nDataFrame después de la conversión:')
print(df)
print('\nTipo de dato de la nueva columna "fecha_evento_dt":')
print(df['fecha_evento_dt'].dtype)

DataFrame Original:
  fecha_evento
0   2023-01-15
1   2023-02-20
2   2023-03-25

Tipo de dato de la columna "fecha_evento":
object

DataFrame después de la conversión:
  fecha_evento fecha_evento_dt
0   2023-01-15      2023-01-15
1   2023-02-20      2023-02-20
2   2023-03-25      2023-03-25

Tipo de dato de la nueva columna "fecha_evento_dt":
datetime64[ns]


#Resampling (ejemplo)

In [2]:
import pandas as pd
import numpy as np

# 1. Crear un DataFrame con datos diarios
rng = pd.date_range('2023-01-01', periods=90, freq='D') # 1 de enero al 31 de marzo
df_diario = pd.DataFrame({
    'fecha': rng,
    'ventas': np.random.randint(500, 1500, size=len(rng)) #ventas contiene valores aleatorios para cada día
})
df_diario.set_index('fecha', inplace=True)

print('--- DataFrame Original (Diario) ---')
print(df_diario.head())

# 2. Re-muestrear los datos para obtener el total de ventas mensuales
df_mensual = df_diario.resample('M').sum() #El argumento 'M' le dice a pandas que la nueva frecuencia deseada es mensual.
#Este comando agrupa los datos por mes, creando un objeto resampler.

print('\n--- DataFrame Re-muestreado (Mensual) ---')
print(df_mensual)

--- DataFrame Original (Diario) ---
            ventas
fecha             
2023-01-01     706
2023-01-02    1008
2023-01-03    1106
2023-01-04     705
2023-01-05    1439

--- DataFrame Re-muestreado (Mensual) ---
            ventas
fecha             
2023-01-31   31614
2023-02-28   28576
2023-03-31   32178


  df_mensual = df_diario.resample('M').sum()


#Indexación y selección de datos (ejemplo)

In [3]:
import pandas as pd

# Crear un DataFrame con un índice de fecha (febrero y marzo de 2023)
idx_febrero = pd.date_range('2023-02-01', '2023-02-28', freq='D')
idx_marzo = pd.date_range('2023-03-01', '2023-03-31', freq='D')
idx = idx_febrero.union(idx_marzo)

df = pd.DataFrame({'ventas': range(len(idx))}, index=idx)
print('--- DataFrame Original ---')
print(df.head(5))
print(df.tail(5))

# 1. Selección de un solo día
ventas_dia_especifico = df.loc['2023-02-15']
print('\n--- Ventas del 15 de febrero de 2023 ---')
print(ventas_dia_especifico)

# 2. Selección de un rango de fechas
ventas_febrero = df.loc['2023-02'] # filtra automáticamente y devuelve todas las filas que caen dentro del mes de febrero.
print('\n--- Ventas de todo el mes de febrero ---')
print(ventas_febrero.tail(3))

# 3. Selección de un intervalo de tiempo
primeras_dos_semanas = df.loc['2023-03-01':'2023-03-14'] #La sintaxis de "slice" con df.loc['2023-03-01':'2023-03-14'] es la forma más común de seleccionar un intervalo de tiempo.
print('\n--- Ventas de las primeras dos semanas de marzo ---')
print(primeras_dos_semanas)

--- DataFrame Original ---
            ventas
2023-02-01       0
2023-02-02       1
2023-02-03       2
2023-02-04       3
2023-02-05       4
            ventas
2023-03-27      54
2023-03-28      55
2023-03-29      56
2023-03-30      57
2023-03-31      58

--- Ventas del 15 de febrero de 2023 ---
ventas    14
Name: 2023-02-15 00:00:00, dtype: int64

--- Ventas de todo el mes de febrero ---
            ventas
2023-02-26      25
2023-02-27      26
2023-02-28      27

--- Ventas de las primeras dos semanas de marzo ---
            ventas
2023-03-01      28
2023-03-02      29
2023-03-03      30
2023-03-04      31
2023-03-05      32
2023-03-06      33
2023-03-07      34
2023-03-08      35
2023-03-09      36
2023-03-10      37
2023-03-11      38
2023-03-12      39
2023-03-13      40
2023-03-14      41


#Operaciones aritméticas y agregaciones (ejemplo)

In [4]:
import pandas as pd
import numpy as np

# 1. Crear un DataFrame con datos diarios de ventas y gastos
rng = pd.date_range('2023-01-01', periods=20, freq='D')
df = pd.DataFrame({
    'ventas': np.random.randint(100, 200, size=len(rng)),
    'gastos': np.random.randint(50, 100, size=len(rng))
}, index=rng)

print('--- DataFrame Original ---')
print(df)

# 2. Calcular la ganancia diaria (operación aritmética)
df['ganancia'] = df['ventas'] - df['gastos']

print('\n--- DataFrame con ganancia diaria ---')
print(df)

# 3. Calcular la ganancia promedio semanal (agregación)
ganancia_promedio_semanal = df['ganancia'].resample('W').mean()

print('\n--- Ganancia Promedio Semanal ---')
print(ganancia_promedio_semanal)

--- DataFrame Original ---
            ventas  gastos
2023-01-01     143      80
2023-01-02     115      68
2023-01-03     142      80
2023-01-04     189      65
2023-01-05     183      52
2023-01-06     171      71
2023-01-07     112      95
2023-01-08     169      99
2023-01-09     182      56
2023-01-10     169      63
2023-01-11     163      53
2023-01-12     163      81
2023-01-13     183      58
2023-01-14     124      83
2023-01-15     171      54
2023-01-16     144      68
2023-01-17     188      69
2023-01-18     179      55
2023-01-19     138      89
2023-01-20     163      98

--- DataFrame con ganancia diaria ---
            ventas  gastos  ganancia
2023-01-01     143      80        63
2023-01-02     115      68        47
2023-01-03     142      80        62
2023-01-04     189      65       124
2023-01-05     183      52       131
2023-01-06     171      71       100
2023-01-07     112      95        17
2023-01-08     169      99        70
2023-01-09     182      56       1

#Manejo de datos ausentes (ejemplo)


In [5]:
import pandas as pd
import numpy as np

# 1. Crear un DataFrame con datos de temperatura por hora
# Se incluyen algunos valores nulos para simular datos faltantes
rng = pd.date_range('2023-01-01 00:00', periods=6, freq='H')
df = pd.DataFrame({'temperatura': [20, 21, np.nan, 22, np.nan, 23]}, index=rng)

print('--- DataFrame Original con datos faltantes ---')
print(df)

# 2. Relleno hacia adelante (Forward Fill)
# El valor nulo se llena con el último valor válido
df_ffill = df.fillna(method='ffill')
print('\n--- DataFrame después de Ffill ---')
print(df_ffill)

# 3. Relleno hacia atrás (Backward Fill)
# El valor nulo se llena con el siguiente valor válido
df_bfill = df.fillna(method='bfill')
print('\n--- DataFrame después de Bfill ---')
print(df_bfill)

--- DataFrame Original con datos faltantes ---
                     temperatura
2023-01-01 00:00:00         20.0
2023-01-01 01:00:00         21.0
2023-01-01 02:00:00          NaN
2023-01-01 03:00:00         22.0
2023-01-01 04:00:00          NaN
2023-01-01 05:00:00         23.0

--- DataFrame después de Ffill ---
                     temperatura
2023-01-01 00:00:00         20.0
2023-01-01 01:00:00         21.0
2023-01-01 02:00:00         21.0
2023-01-01 03:00:00         22.0
2023-01-01 04:00:00         22.0
2023-01-01 05:00:00         23.0

--- DataFrame después de Bfill ---
                     temperatura
2023-01-01 00:00:00         20.0
2023-01-01 01:00:00         21.0
2023-01-01 02:00:00         22.0
2023-01-01 03:00:00         22.0
2023-01-01 04:00:00         23.0
2023-01-01 05:00:00         23.0


  rng = pd.date_range('2023-01-01 00:00', periods=6, freq='H')
  df_ffill = df.fillna(method='ffill')
  df_bfill = df.fillna(method='bfill')


Practica

In [8]:
import pandas as pd
import numpy as np

#Convertir String a Timestamp:
fecha = pd.to_datetime('07/09/2025', dayfirst=True) #dayfirst=True asegura de que el 07 se interprete como el día y el 09 como el mes.
print(fecha)

#Días desde el 7 de septiembre 2025 al 30 de septiembre 2025:
fecha_con_rango = pd.date_range(start=fecha, end= '30/09/2025')
print(fecha_con_rango)

#Ocho fechas desde el 7 de septiembre 2025, con períodos:
fecha_con_periodos = pd.date_range(start=fecha, periods=8) #La frecuencia por defecto es de un día. Por lo tanto, ocho períodos representan ocho días.
print(fecha_con_periodos)

# Ocho fechas, con una frecuencia de un mes
fecha_con_periodos_mensuales = pd.date_range(start=fecha, periods=8, freq='M') #freq= 'M' cambia a mes, freq='W' cambia a semana,
print(fecha_con_periodos_mensuales)

2025-09-07 00:00:00
DatetimeIndex(['2025-09-07', '2025-09-08', '2025-09-09', '2025-09-10',
               '2025-09-11', '2025-09-12', '2025-09-13', '2025-09-14',
               '2025-09-15', '2025-09-16', '2025-09-17', '2025-09-18',
               '2025-09-19', '2025-09-20', '2025-09-21', '2025-09-22',
               '2025-09-23', '2025-09-24', '2025-09-25', '2025-09-26',
               '2025-09-27', '2025-09-28', '2025-09-29', '2025-09-30'],
              dtype='datetime64[ns]', freq='D')
DatetimeIndex(['2025-09-07', '2025-09-08', '2025-09-09', '2025-09-10',
               '2025-09-11', '2025-09-12', '2025-09-13', '2025-09-14'],
              dtype='datetime64[ns]', freq='D')


#Frecuencias de Tiempo: parametros para freq=
*Horas, Minutos, Segundos y Milisegundos:*



*   H: Horas



*   T o min: Minutos

*   S: Segundos

*   L o ms: Milisegundos

*   U o us: Microsegundos

*   N o ns: Nanosegundos

*Frecuencias de Días y Semanas*
*   D: Días calendario.

*   B: Días hábiles (de lunes a viernes).

*   W: Semanal. Puedes especificar el día de la semana, por ejemplo, W-MON para semanas que terminan los lunes.

*Frecuencias de Meses y Trimestres*
*   M: Fin de mes calendario.

*   BM: Fin de mes hábil.

*   MS: Inicio de mes calendario.

*   BMS: Inicio de mes hábil.

*   Q: Fin de trimestre calendario. Puedes especificar el mes de finalización, por ejemplo, Q-DEC para trimestres que terminan en diciembre.

*   QS: Inicio de trimestre calendario.

*Frecuencias de Años*
*   A: Fin de año calendario.

*   AS: Inicio de año calendario.

*   BA: Fin de año hábil.

*Uso de Múltiplos*
Puedes combinar los códigos con un número para especificar un múltiplo, por ejemplo:

*   7D: Siete días.

*   2W: Cada dos semanas.

*   3M: Cada tres meses.

Mas ejemplos:

In [15]:
#Ocho meses consecutivos, a partir del mes de inicio:
mes_inicio= '2025/03'
ocho_meses_consecutivos = pd.date_range(start=mes_inicio, periods=8, freq= 'MS') #MS: Inicio de mes calendario.
print(ocho_meses_consecutivos)

DatetimeIndex(['2025-03-01', '2025-04-01', '2025-05-01', '2025-06-01',
               '2025-07-01', '2025-08-01', '2025-09-01', '2025-10-01'],
              dtype='datetime64[ns]', freq='MS')


#Operando objetos de tiempo

In [21]:
#¿Cuánto tiempo pasó desde el primer periodo al último?
cuanto= fecha_con_periodos[6]-fecha_con_periodos[2]
print(cuanto)

#Cuántos meses pasaron desde el primer periodo al último?
fecha_1= pd.to_datetime('01/01/2020', dayfirst=True)
fecha_2= pd.to_datetime('31/12/2025', dayfirst=True)

cuantos_meses = fecha_2.to_period('M')- fecha_1.to_period('M') #: Este método convierte el objeto Timestamp de fecha_1 en un objeto Period
                                                              #devuelve un objeto PeriodIndex que contiene la diferencia de meses.
print(f"Han pasado {cuantos_meses.n} meses.") #el atributo .n del objeto PeriodIndex te da el número entero de meses que han transcurrido, que en este caso es 71.




4 days 00:00:00
Han pasado 71 meses.
