<a href="https://colab.research.google.com/github/GustavoBD-Dev/AnalyticalModelsWithPythonCourse/blob/Session-1/03_TemporaryData.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Trabajo con datos temporales**

###**Trabajo con Datos Temporales en Pandas**

Pandas ofrece potentes herramientas para manipular y analizar datos temporales, facilitando tareas como la conversión de tipos de datos, el resampleo, el cálculo de estadísticas móviles y el manejo de fechas y horas. A continuación, se presentan las funciones y métodos más importantes.

### 1. **Conversión de Tipos de Datos**

Para trabajar con datos temporales, es esencial que las columnas de fechas estén en el formato `datetime`. Puedes usar `pd.to_datetime()` para convertir una columna a este tipo.

```python
import pandas as pd

# Ejemplo de DataFrame con una columna de fechas
df = pd.DataFrame({
    'Fecha': ['2024-01-01', '2024-01-02', '2024-01-03'],
    'Valor': [10, 15, 20]
})

# Convertir la columna 'Fecha' a tipo datetime
df['Fecha'] = pd.to_datetime(df['Fecha'])

print(df.dtypes)
```

### 2. **Indexación y Selección**

Configurar una columna de fechas como índice puede simplificar muchas operaciones temporales. Usa `set_index()` para hacerlo.

```python
# Establecer la columna 'Fecha' como índice
df.set_index('Fecha', inplace=True)

print(df)
```

### 3. **Resampleo**

El resampleo cambia la frecuencia temporal de los datos. Puedes usar `resample()` para agrupar datos por una nueva frecuencia temporal y aplicar funciones de agregación.

```python
# Crear una serie temporal con frecuencia diaria
df = pd.DataFrame({
    'Fecha': pd.date_range(start='2024-01-01', periods=10, freq='D'),
    'Valor': range(10)
}).set_index('Fecha')

# Resamplear a frecuencia semanal y calcular la suma
df_resampled = df.resample('W').sum()

print(df_resampled)
```

### 4. **Estadísticas Móviles**

Para calcular estadísticas móviles, como medias móviles, puedes usar el método `rolling()`.

```python
# Calcular la media móvil de 3 días
df['Media_Móvil'] = df['Valor'].rolling(window=3).mean()

print(df)
```

### 5. **Manipulación de Fechas y Horas**

Pandas proporciona varias funciones para manipular componentes de fechas y horas, como `dt.year`, `dt.month`, `dt.day`, etc.

```python
# Extraer componentes de la fecha
df['Año'] = df.index.year
df['Mes'] = df.index.month
df['Día'] = df.index.day

print(df)
```

### 6. **Desplazamiento Temporal**

Puedes desplazar datos hacia adelante o hacia atrás en el tiempo usando `shift()`, útil para calcular diferencias o lags.

```python
# Desplazar los datos una posición hacia abajo
df['Desplazado'] = df['Valor'].shift(1)

print(df)
```

### 7. **Tratamiento de Series Temporales Irregulares**

Si tus datos tienen fechas irregulares, puedes utilizar `asfreq()` para convertirlos a una frecuencia regular, rellenando valores faltantes si es necesario.

```python
# Convertir a frecuencia diaria y rellenar valores faltantes con interpolación
df_regular = df.asfreq('D').interpolate(method='linear')

print(df_regular)
```

### 8. **Uso de Offsets y Periodos**

Pandas también permite trabajar con periodos de tiempo y offsets (desplazamientos) temporales, lo que es útil para operaciones como agregar o restar tiempos específicos.

```python
from pandas.tseries.offsets import MonthEnd

# Agregar un mes al índice de fechas
df['Fecha_Siguiente_Mes'] = df.index + MonthEnd(1)

print(df)
```

###**Proceso para Trabajar con Datos Temporales**
```python
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

# Crear listas para las columnas
id_factura = [i for i in range(1, 101)]
fecha_inicio = datetime.now() - timedelta(days=365)
fecha = [(fecha_inicio + timedelta(days=random.randint(0, 365))).date() for _ in range(100)]
cliente = [f'Cliente_{i}' for i in range(1, 101)]
monto = [round(random.uniform(50, 1000), 2) for _ in range(100)]
metodo_pago = [random.choice(['Efectivo', 'Tarjeta de Crédito', 'Transferencia']) for _ in range(100)]
estado = [random.choice(['Pagada', 'Pendiente', 'Cancelada']) for _ in range(100)]

# Crear el DataFrame
df = pd.DataFrame({
    'ID_Factura': id_factura,
    'Fecha': fecha,
    'Cliente': cliente,
    'Monto': monto,
    'Método de Pago': metodo_pago,
    'Estado': estado
})

# Introducir algunos valores nulos y duplicados para limpieza de datos
df.loc[random.sample(range(100), 10), 'Monto'] = np.nan
df = pd.concat([df, df.sample(5, random_state=42)], ignore_index=True)

# Mostrar las primeras filas del DataFrame
print(df.head())
```
#### 1. **Conversión de Tipos de Datos**

Primero, aseguramos que la columna `Fecha` esté en formato `datetime`.

```python
df['Fecha'] = pd.to_datetime(df['Fecha'])
print(df.dtypes)
```

#### 2. **Indexación y Selección**

Configurar la columna `Fecha` como índice del DataFrame para facilitar el manejo de datos temporales.

```python
df.set_index('Fecha', inplace=True)
print(df.head())
```

#### 3. **Resampleo**

Podemos cambiar la frecuencia temporal de los datos. Por ejemplo, podemos resamplear a frecuencia mensual y calcular la suma de `Monto` para cada mes.

```python
# Resamplear a frecuencia mensual y calcular la suma de 'Monto'
df_resampled = df.resample('M').sum(numeric_only=True)
print(df_resampled)
```

#### 4. **Estadísticas Móviles**

Calcular estadísticas móviles, como la media móvil, usando el método `rolling()`.

```python
# Calcular la media móvil de 3 meses
df_resampled['Media_Móvil'] = df_resampled['Monto'].rolling(window=3).mean()
print(df_resampled)
```

#### 5. **Manipulación de Fechas y Horas**

Extraer componentes de la fecha, como el año, mes y día.

```python
df['Año'] = df.index.year
df['Mes'] = df.index.month
df['Día'] = df.index.day
print(df.head())
```

#### 6. **Desplazamiento Temporal**

Desplazar datos hacia adelante o hacia atrás en el tiempo.

```python
# Desplazar los datos una posición hacia abajo
df['Monto_Desplazado'] = df['Monto'].shift(1)
print(df.head())
```

#### 7. **Tratamiento de Series Temporales Irregulares**

Convertir a una frecuencia regular y rellenar valores faltantes.

```python
# Convertir a frecuencia diaria y rellenar valores faltantes con interpolación
df_regular = df.asfreq('D').interpolate(method='linear')
print(df_regular.head())
```

#### 8. **Uso de Offsets y Periodos**

Agregar un desplazamiento temporal específico, como un mes.

```python
from pandas.tseries.offsets import MonthEnd

# Agregar un mes al índice de fechas
df['Fecha_Siguiente_Mes'] = df.index + MonthEnd(1)
print(df.head())
```

### Resumen

1. **Conversión de Tipos de Datos**: Convertir la columna de fechas a tipo `datetime`.
2. **Indexación y Selección**: Establecer la columna de fechas como índice.
3. **Resampleo**: Cambiar la frecuencia de los datos y aplicar agregaciones.
4. **Estadísticas Móviles**: Calcular estadísticas móviles con `rolling()`.
5. **Manipulación de Fechas y Horas**: Extraer componentes de las fechas.
6. **Desplazamiento Temporal**: Desplazar datos temporalmente con `shift()`.
7. **Tratamiento de Series Temporales Irregulares**: Convertir a una frecuencia regular y rellenar valores faltantes.
8. **Uso de Offsets y Periodos**: Aplicar desplazamientos específicos con `MonthEnd`.

In [None]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

# Crear listas para las columnas
id_factura = [i for i in range(1, 101)]
fecha_inicio = datetime.now() - timedelta(days=365)
fecha = [(fecha_inicio + timedelta(days=random.randint(0, 365))).date() for _ in range(100)]
cliente = [f'Cliente_{i}' for i in range(1, 101)]
monto = [round(random.uniform(50, 1000), 2) for _ in range(100)]
metodo_pago = [random.choice(['Efectivo', 'Tarjeta de Crédito', 'Transferencia']) for _ in range(100)]
estado = [random.choice(['Pagada', 'Pendiente', 'Cancelada']) for _ in range(100)]

# Crear el DataFrame
df = pd.DataFrame({
    'ID_Factura': id_factura,
    'Fecha': fecha,
    'Cliente': cliente,
    'Monto': monto,
    'Método de Pago': metodo_pago,
    'Estado': estado
})

# Introducir algunos valores nulos y duplicados para limpieza de datos
df.loc[random.sample(range(100), 10), 'Monto'] = np.nan
df = pd.concat([df, df.sample(5, random_state=42)], ignore_index=True)

# Mostrar las primeras filas del DataFrame
print(df.head())

   ID_Factura       Fecha    Cliente   Monto      Método de Pago     Estado
0           1  2023-09-29  Cliente_1  405.15       Transferencia  Pendiente
1           2  2024-04-22  Cliente_2  565.60  Tarjeta de Crédito     Pagada
2           3  2024-03-10  Cliente_3  603.30       Transferencia  Cancelada
3           4  2024-01-12  Cliente_4     NaN  Tarjeta de Crédito  Cancelada
4           5  2023-08-09  Cliente_5     NaN       Transferencia     Pagada


In [None]:
#1. Conversión de Tipos de Datos
df['Fecha'] = pd.to_datetime(df['Fecha'])
print(df.dtypes)

ID_Factura                 int64
Fecha             datetime64[ns]
Cliente                   object
Monto                    float64
Método de Pago            object
Estado                    object
dtype: object


In [None]:
#2. Indexación y Selección
df.set_index('Fecha', inplace=True)
print(df.head())

            ID_Factura    Cliente   Monto      Método de Pago     Estado
Fecha                                                                   
2023-09-29           1  Cliente_1  405.15       Transferencia  Pendiente
2024-04-22           2  Cliente_2  565.60  Tarjeta de Crédito     Pagada
2024-03-10           3  Cliente_3  603.30       Transferencia  Cancelada
2024-01-12           4  Cliente_4     NaN  Tarjeta de Crédito  Cancelada
2023-08-09           5  Cliente_5     NaN       Transferencia     Pagada


In [None]:
#3. Resampleo
df_resampled = df.resample('M').sum(numeric_only=True)
print(df_resampled)

            ID_Factura    Monto
Fecha                          
2023-08-31         363  4188.54
2023-09-30         184  2571.12
2023-10-31         324  3097.33
2023-11-30         902  5142.05
2023-12-31         366  4680.05
2024-01-31         556  6358.93
2024-02-29         402  3130.92
2024-03-31         604  3296.83
2024-04-30         400  1724.85
2024-05-31         400  3674.34
2024-06-30         358  4781.26
2024-07-31         491  5517.39


In [None]:
#4. Estadísticas Móviles
df_resampled['Media_Móvil'] = df_resampled['Monto'].rolling(window=3).mean()
print(df_resampled)

            ID_Factura    Monto  Media_Móvil
Fecha                                       
2023-08-31         363  4188.54          NaN
2023-09-30         184  2571.12          NaN
2023-10-31         324  3097.33  3285.663333
2023-11-30         902  5142.05  3603.500000
2023-12-31         366  4680.05  4306.476667
2024-01-31         556  6358.93  5393.676667
2024-02-29         402  3130.92  4723.300000
2024-03-31         604  3296.83  4262.226667
2024-04-30         400  1724.85  2717.533333
2024-05-31         400  3674.34  2898.673333
2024-06-30         358  4781.26  3393.483333
2024-07-31         491  5517.39  4657.663333


In [None]:
#5. Manipulación de Fechas y Horas
df['Año'] = df.index.year
df['Mes'] = df.index.month
df['Día'] = df.index.day
print(df.head())

            ID_Factura    Cliente   Monto      Método de Pago     Estado  \
Fecha                                                                      
2023-09-29           1  Cliente_1  405.15       Transferencia  Pendiente   
2024-04-22           2  Cliente_2  565.60  Tarjeta de Crédito     Pagada   
2024-03-10           3  Cliente_3  603.30       Transferencia  Cancelada   
2024-01-12           4  Cliente_4     NaN  Tarjeta de Crédito  Cancelada   
2023-08-09           5  Cliente_5     NaN       Transferencia     Pagada   

             Año  Mes  Día  
Fecha                       
2023-09-29  2023    9   29  
2024-04-22  2024    4   22  
2024-03-10  2024    3   10  
2024-01-12  2024    1   12  
2023-08-09  2023    8    9  


In [None]:
#6. Desplazamiento Temporal
df['Monto_Desplazado'] = df['Monto'].shift(1)
print(df.head())

            ID_Factura    Cliente   Monto      Método de Pago     Estado  \
Fecha                                                                      
2023-09-29           1  Cliente_1  405.15       Transferencia  Pendiente   
2024-04-22           2  Cliente_2  565.60  Tarjeta de Crédito     Pagada   
2024-03-10           3  Cliente_3  603.30       Transferencia  Cancelada   
2024-01-12           4  Cliente_4     NaN  Tarjeta de Crédito  Cancelada   
2023-08-09           5  Cliente_5     NaN       Transferencia     Pagada   

             Año  Mes  Día  Monto_Desplazado  
Fecha                                         
2023-09-29  2023    9   29               NaN  
2024-04-22  2024    4   22            405.15  
2024-03-10  2024    3   10            565.60  
2024-01-12  2024    1   12            603.30  
2023-08-09  2023    8    9               NaN  


In [None]:
#7. Tratamiento de Series Temporales Irregulares
duplicate_dates = df.index.duplicated()
print(df[duplicate_dates])

df = df[~duplicate_dates]

df_regular = df.asfreq('D').interpolate(method='linear')
print(df_regular.head())

            ID_Factura     Cliente   Monto      Método de Pago     Estado  \
Fecha                                                                       
2023-08-17          45  Cliente_45  191.04  Tarjeta de Crédito  Cancelada   
2023-11-30          65  Cliente_65  405.29            Efectivo  Pendiente   
2024-02-11          71  Cliente_71  802.64            Efectivo  Pendiente   
2024-01-27          85  Cliente_85  628.12       Transferencia  Pendiente   
2024-03-14          95  Cliente_95     NaN  Tarjeta de Crédito  Cancelada   
2023-08-11          99  Cliente_99  613.82  Tarjeta de Crédito  Pendiente   
2023-11-25          84  Cliente_84     NaN  Tarjeta de Crédito  Pendiente   
2024-06-15          54  Cliente_54  822.02            Efectivo  Pendiente   
2024-02-11          71  Cliente_71  802.64            Efectivo  Pendiente   
2024-07-03          46  Cliente_46  355.57            Efectivo  Cancelada   
2023-08-17          45  Cliente_45  191.04  Tarjeta de Crédito  Cancelada   

  df_regular = df.asfreq('D').interpolate(method='linear')


In [None]:
#8. Uso de Offsets y Periodos
from pandas.tseries.offsets import MonthEnd

df['Fecha_Siguiente_Mes'] = df.index + MonthEnd(1)
print(df.head())

            ID_Factura    Cliente   Monto      Método de Pago     Estado  \
Fecha                                                                      
2023-09-29           1  Cliente_1  405.15       Transferencia  Pendiente   
2024-04-22           2  Cliente_2  565.60  Tarjeta de Crédito     Pagada   
2024-03-10           3  Cliente_3  603.30       Transferencia  Cancelada   
2024-01-12           4  Cliente_4     NaN  Tarjeta de Crédito  Cancelada   
2023-08-09           5  Cliente_5     NaN       Transferencia     Pagada   

             Año  Mes  Día  Monto_Desplazado Fecha_Siguiente_Mes  
Fecha                                                             
2023-09-29  2023    9   29               NaN          2023-09-30  
2024-04-22  2024    4   22            405.15          2024-04-30  
2024-03-10  2024    3   10            565.60          2024-03-31  
2024-01-12  2024    1   12            603.30          2024-01-31  
2023-08-09  2023    8    9               NaN          2023-08-31 