# Laboratorio Avanzado de Pandas

Vamos a cargar la base de datos sobre ventas 

In [53]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/DSandovalFlavio/CF-Laboratorio-Avanzado-Pandas/main/data/walmartsales.csv')
df_store = pd.read_csv('https://raw.githubusercontent.com/DSandovalFlavio/CF-Laboratorio-Avanzado-Pandas/main/data/storedesc.csv')

## ¡Pandas 🐼 vs el Tiempo 🕒!

Como utilizamos las funcionalidades de datetime

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Store         6435 non-null   int64  
 1   Date          6435 non-null   object 
 2   Weekly_Sales  6435 non-null   float64
 3   Holiday_Flag  6435 non-null   int64  
 4   Temperature   6435 non-null   float64
 5   Fuel_Price    6435 non-null   float64
 6   CPI           6435 non-null   float64
 7   Unemployment  6435 non-null   float64
dtypes: float64(5), int64(2), object(1)
memory usage: 402.3+ KB


Cambiamos el tipo de dato de la columna fecha a datetime

In [26]:
df['Date'].head()

0    05-02-2010
1    12-02-2010
2    19-02-2010
3    26-02-2010
4    05-03-2010
Name: Date, dtype: object

In [27]:
pd.to_datetime(df['Date']).head()

ValueError: time data "19-02-2010" doesn't match format "%m-%d-%Y", at position 2. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.

¿Como solucionamos el problema de el formato de la fecha?

Guía de los códigos de formato más comunes para `strftime`, que te permitirá personalizar la representación de tus fechas y horas:

**Directivas de Formato:**

* **%Y:** Año con cuatro dígitos (por ejemplo, 2024).
* **%y:** Año con dos dígitos (por ejemplo, 24).
* **%m:** Mes como número decimal (01 a 12).
* **%B:** Nombre completo del mes (por ejemplo, Enero).
* **%b:** Nombre abreviado del mes (por ejemplo, Ene).
* **%d:** Día del mes como número decimal (01 a 31).
* **%A:** Nombre completo del día de la semana (por ejemplo, Lunes).
* **%a:** Nombre abreviado del día de la semana (por ejemplo, Lun).
* **%H:** Hora (reloj de 24 horas) como número decimal (00 a 23).
* **%I:** Hora (reloj de 12 horas) como número decimal (01 a 12).
* **%p:** AM/PM.
* **%M:** Minuto como número decimal (00 a 59).
* **%S:** Segundo como número decimal (00 a 61).
* **%f:** Microsegundo como número decimal (000000 a 999999).
* **%z:** Desplazamiento UTC (por ejemplo, +0100).
* **%Z:** Nombre de la zona horaria (por ejemplo, CET).
* **%j:** Día del año como número decimal (001 a 366).
* **%U:** Número de la semana del año (domingo como primer día de la semana) como número decimal (00 a 53).
* **%W:** Número de la semana del año (lunes como primer día de la semana) como número decimal (00 a 53).
* **%c:** Representación de fecha y hora apropiada para la configuración regional.
* **%x:** Representación de fecha apropiada para la configuración regional.
* **%X:** Representación de hora apropiada para la configuración regional.


**Ejemplos:**

* `%Y-%m-%d`: "2024-07-28"
* `%d/%m/%Y %H:%M:%S`: "28/07/2024 19:01:49"
* `%A, %d de %B de %Y`: "Domingo, 28 de Julio de 2024"
* `%I:%M %p`: "07:01 PM"

**Consideraciones Importantes:**

* **Configuración Regional (Locale):** El formato de algunos códigos (como `%c`, `%x` y `%X`) depende de la configuración regional de tu sistema. Puedes usar `locale.setlocale(locale.LC_TIME, '')` para establecerla al valor predeterminado del sistema.

* **Personalización:** Combina los códigos de formato para crear representaciones de fecha y hora que se adapten a tus necesidades.

* **Más Opciones:** Existen muchas más directivas de formato disponibles. Consulta la documentación oficial de Python para obtener una lista completa: [https://docs.python.org/es/3/library/datetime.html](https://docs.python.org/es/3/library/datetime.html)

¡Espero que esta guía te ayude a aprovechar al máximo las capacidades de formateo de `strftime`!


In [28]:
df['Date'].head()

0    05-02-2010
1    12-02-2010
2    19-02-2010
3    26-02-2010
4    05-03-2010
Name: Date, dtype: object

In [29]:
pd.to_datetime(df['Date'], format='%d-%m-%Y').head()

0   2010-02-05
1   2010-02-12
2   2010-02-19
3   2010-02-26
4   2010-03-05
Name: Date, dtype: datetime64[ns]

In [30]:
df['Date'] = pd.to_datetime(df['Date'], format='%d-%m-%Y')

### Como extraer temporalidades de una fecha

In [31]:
# Año
df['Date'].dt.year.head()

0    2010
1    2010
2    2010
3    2010
4    2010
Name: Date, dtype: int32

In [None]:
# Mes
df['Date'].dt.month.head()

¿Por qué .dt es tan útil?

- **Simplifica el acceso a componentes de fechas**: Evita tener que usar funciones más complejas de Python para extraer años, meses, días, etc.
- **Facilita cálculos y comparaciones**: Permite realizar operaciones aritméticas y comparaciones entre fechas de manera intuitiva.
- **Mejora la legibilidad del código**: Hace que tu código sea más claro y fácil de entender.

Funciones más comunes de .dt:

- `dt.dayofweek`: Extrae el día de la semana como número entero (0 para lunes, 6 para domingo).
- `dt.day_name`: Extrae el nombre del día de la semana ("Monday", "Tuesday", etc.).
- `dt.month_name`: Extrae el nombre del mes ("January", "February", etc.).



In [32]:
df['Date'].dt.day_of_week.head()

0    4
1    4
2    4
3    4
4    4
Name: Date, dtype: int32

In [36]:
df['Date'].dt.day_name().head()

0    Friday
1    Friday
2    Friday
3    Friday
4    Friday
Name: Date, dtype: object

In [37]:
df['Date'].dt.month_name().head()

0    February
1    February
2    February
3    February
4       March
Name: Date, dtype: object

In [39]:
df['Month'] = df['Date'].dt.month_name()
df

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Month
0,1,2010-02-05,1643690.90,0,42.31,2.572,211.096358,8.106,February
1,1,2010-02-12,1641957.44,1,38.51,2.548,211.242170,8.106,February
2,1,2010-02-19,1611968.17,0,39.93,2.514,211.289143,8.106,February
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106,February
4,1,2010-03-05,1554806.68,0,46.50,2.625,211.350143,8.106,March
...,...,...,...,...,...,...,...,...,...
6430,45,2012-09-28,713173.95,0,64.88,3.997,192.013558,8.684,September
6431,45,2012-10-05,733455.07,0,64.89,3.985,192.170412,8.667,October
6432,45,2012-10-12,734464.36,0,54.47,4.000,192.327265,8.667,October
6433,45,2012-10-19,718125.53,0,56.47,3.969,192.330854,8.667,October


### Como hacer calculos con fechas

Suma de dias, meses, años a una fecha

In [41]:
df['Date']

0      2010-02-05
1      2010-02-12
2      2010-02-19
3      2010-02-26
4      2010-03-05
          ...    
6430   2012-09-28
6431   2012-10-05
6432   2012-10-12
6433   2012-10-19
6434   2012-10-26
Name: Date, Length: 6435, dtype: datetime64[ns]

In [40]:
df['Date'] + pd.DateOffset(days=1)

0      2010-02-06
1      2010-02-13
2      2010-02-20
3      2010-02-27
4      2010-03-06
          ...    
6430   2012-09-29
6431   2012-10-06
6432   2012-10-13
6433   2012-10-20
6434   2012-10-27
Name: Date, Length: 6435, dtype: datetime64[ns]

In [42]:
df['Date'] + pd.DateOffset(months=2)

0      2010-04-05
1      2010-04-12
2      2010-04-19
3      2010-04-26
4      2010-05-05
          ...    
6430   2012-11-28
6431   2012-12-05
6432   2012-12-12
6433   2012-12-19
6434   2012-12-26
Name: Date, Length: 6435, dtype: datetime64[ns]

In [43]:
df['Date'] + pd.DateOffset(months=2, days=10)

0      2010-04-15
1      2010-04-22
2      2010-04-29
3      2010-05-06
4      2010-05-15
          ...    
6430   2012-12-08
6431   2012-12-15
6432   2012-12-22
6433   2012-12-29
6434   2013-01-05
Name: Date, Length: 6435, dtype: datetime64[ns]

Resta de dias, meses, años a una fecha

In [44]:
df['Date'] - pd.DateOffset(years=1, months=2, days=10)

0      2008-11-25
1      2008-12-02
2      2008-12-09
3      2008-12-16
4      2008-12-26
          ...    
6430   2011-07-18
6431   2011-07-26
6432   2011-08-02
6433   2011-08-09
6434   2011-08-16
Name: Date, Length: 6435, dtype: datetime64[ns]

In [47]:
pd.Timestamp.now() - df['Date']

0      5289 days 00:06:23.944022
1      5282 days 00:06:23.944022
2      5275 days 00:06:23.944022
3      5268 days 00:06:23.944022
4      5261 days 00:06:23.944022
                  ...           
6430   4323 days 00:06:23.944022
6431   4316 days 00:06:23.944022
6432   4309 days 00:06:23.944022
6433   4302 days 00:06:23.944022
6434   4295 days 00:06:23.944022
Name: Date, Length: 6435, dtype: timedelta64[ns]

### Como formatear y filtrar fechas

In [52]:
df['Date'].dt.strftime('%Y-%m').head()

0    2010-02
1    2010-02
2    2010-02
3    2010-02
4    2010-03
Name: Date, dtype: object

In [51]:
df[df['Date'].dt.year == 2012]

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Month
100,1,2012-01-06,1550369.92,0,49.01,3.157,219.714258,7.348,January
101,1,2012-01-13,1459601.17,0,48.53,3.261,219.892526,7.348,January
102,1,2012-01-20,1394393.84,0,54.11,3.268,219.985689,7.348,January
103,1,2012-01-27,1319325.59,0,54.26,3.290,220.078852,7.348,January
104,1,2012-02-03,1636339.65,0,56.55,3.360,220.172015,7.348,February
...,...,...,...,...,...,...,...,...,...
6430,45,2012-09-28,713173.95,0,64.88,3.997,192.013558,8.684,September
6431,45,2012-10-05,733455.07,0,64.89,3.985,192.170412,8.667,October
6432,45,2012-10-12,734464.36,0,54.47,4.000,192.327265,8.667,October
6433,45,2012-10-19,718125.53,0,56.47,3.969,192.330854,8.667,October


## ¡Pandas🐼 vs Caos Textual🧹!

In [58]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Store         6435 non-null   int64  
 1   Date          6435 non-null   object 
 2   Weekly_Sales  6435 non-null   float64
 3   Holiday_Flag  6435 non-null   int64  
 4   Temperature   6435 non-null   float64
 5   Fuel_Price    6435 non-null   float64
 6   CPI           6435 non-null   float64
 7   Unemployment  6435 non-null   float64
dtypes: float64(5), int64(2), object(1)
memory usage: 402.3+ KB


##  ¡Pandas Ninja! 🐼🥷

## ¡Pandas Conquista SQL! 🐼⚔️

## ¡El Maestro del Match! 🐼

## ¡Pivot Table Pro! 🐼🧙‍♂️

## ¡Pandas, el Cambiaformas! 🐼