# Tecnicas de Limpieza y Transformacion de datos

In [10]:
import pandas as pd
#import polars as pl
import os

path_data = os.path.join(os.getcwd(), 'data') 

## Pandas

In [13]:
sales_data = pd.read_csv(
    filepath_or_buffer=os.path.join(path_data, 'sales.csv')
    )

In [17]:
sales_data

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,05-02-2010,1643690.90,0,42.31,2.572,211.096358,8.106
1,1,12-02-2010,1641957.44,1,38.51,2.548,211.242170,8.106
2,1,19-02-2010,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,26-02-2010,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,05-03-2010,1554806.68,0,46.50,2.625,211.350143,8.106
...,...,...,...,...,...,...,...,...
6430,45,28-09-2012,713173.95,0,64.88,3.997,192.013558,8.684
6431,45,05-10-2012,733455.07,0,64.89,3.985,192.170412,8.667
6432,45,12-10-2012,734464.36,0,54.47,4.000,192.327265,8.667
6433,45,19-10-2012,718125.53,0,56.47,3.969,192.330854,8.667


In [14]:
sales_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Store         6435 non-null   int64  
 1   Date          6435 non-null   object 
 2   Weekly_Sales  6435 non-null   float64
 3   Holiday_Flag  6435 non-null   int64  
 4   Temperature   6435 non-null   float64
 5   Fuel_Price    6435 non-null   float64
 6   CPI           6435 non-null   float64
 7   Unemployment  6435 non-null   float64
dtypes: float64(5), int64(2), object(1)
memory usage: 402.3+ KB


### Manejo de Fechas

In [16]:
sales_data['Date'] = pd.to_datetime(sales_data['Date'])

ValueError: time data "19-02-2010" doesn't match format "%m-%d-%Y", at position 2. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.

Guía de los códigos de formato más comunes para `strftime`, que te permitirá personalizar la representación de tus fechas y horas:

* **%Y:** Año con cuatro dígitos (por ejemplo, 2024).
* **%y:** Año con dos dígitos (por ejemplo, 24).
* **%m:** Mes como número decimal (01 a 12).
* **%B:** Nombre completo del mes (por ejemplo, Enero).
* **%b:** Nombre abreviado del mes (por ejemplo, Ene).
* **%d:** Día del mes como número decimal (01 a 31).
* **%A:** Nombre completo del día de la semana (por ejemplo, Lunes).
* **%a:** Nombre abreviado del día de la semana (por ejemplo, Lun).
* **%H:** Hora (reloj de 24 horas) como número decimal (00 a 23).
* **%I:** Hora (reloj de 12 horas) como número decimal (01 a 12).
* **%p:** AM/PM.
* **%M:** Minuto como número decimal (00 a 59).
* **%S:** Segundo como número decimal (00 a 61).
* **%f:** Microsegundo como número decimal (000000 a 999999).
* **%z:** Desplazamiento UTC (por ejemplo, +0100).
* **%Z:** Nombre de la zona horaria (por ejemplo, CET).
* **%j:** Día del año como número decimal (001 a 366).
* **%U:** Número de la semana del año (domingo como primer día de la semana) como número decimal (00 a 53).
* **%W:** Número de la semana del año (lunes como primer día de la semana) como número decimal (00 a 53).
* **%c:** Representación de fecha y hora apropiada para la configuración regional.
* **%x:** Representación de fecha apropiada para la configuración regional.
* **%X:** Representación de hora apropiada para la configuración regional.


**Ejemplos:**

* `%Y-%m-%d`: "2024-07-28"
* `%d/%m/%Y %H:%M:%S`: "28/07/2024 19:01:49"
* `%A, %d de %B de %Y`: "Domingo, 28 de Julio de 2024"
* `%I:%M %p`: "07:01 PM"


In [19]:
sales_data['Date'] = pd.to_datetime(sales_data['Date'], format='%d-%m-%Y')
sales_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Store         6435 non-null   int64         
 1   Date          6435 non-null   datetime64[ns]
 2   Weekly_Sales  6435 non-null   float64       
 3   Holiday_Flag  6435 non-null   int64         
 4   Temperature   6435 non-null   float64       
 5   Fuel_Price    6435 non-null   float64       
 6   CPI           6435 non-null   float64       
 7   Unemployment  6435 non-null   float64       
dtypes: datetime64[ns](1), float64(5), int64(2)
memory usage: 402.3 KB


In [20]:
sales_data.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,2010-02-05,1643690.9,0,42.31,2.572,211.096358,8.106
1,1,2010-02-12,1641957.44,1,38.51,2.548,211.24217,8.106
2,1,2010-02-19,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,2010-03-05,1554806.68,0,46.5,2.625,211.350143,8.106


Obtener las ventas por mes y año

In [24]:
sales_data['Y-M'] = sales_data['Date'].dt.to_period('M')
sales_data.groupby('Y-M')['Weekly_Sales'].sum().reset_index()

Unnamed: 0,Y-M,Weekly_Sales
0,2010-02,190333000.0
1,2010-03,181919800.0
2,2010-04,231412400.0
3,2010-05,186710900.0
4,2010-06,192246200.0
5,2010-07,232580100.0
6,2010-08,187640100.0
7,2010-09,177267900.0
8,2010-10,217161800.0
9,2010-11,202853400.0


In [25]:
pd.set_option('display.float_format', lambda x: f'{x:.0f}')


In [26]:
sales_data.groupby('Y-M')['Weekly_Sales'].sum().reset_index()

Unnamed: 0,Y-M,Weekly_Sales
0,2010-02,190332983
1,2010-03,181919802
2,2010-04,231412368
3,2010-05,186710934
4,2010-06,192246172
5,2010-07,232580126
6,2010-08,187640111
7,2010-09,177267896
8,2010-10,217161824
9,2010-11,202853370


In [27]:
sales_data['Date'].dt.year.head()

0    2010
1    2010
2    2010
3    2010
4    2010
Name: Date, dtype: int32

In [28]:
sales_data['Date'].dt.month.head()

0    2
1    2
2    2
3    2
4    3
Name: Date, dtype: int32

¿Por qué .dt es tan útil?

- **Simplifica el acceso a componentes de fechas**: Evita tener que usar funciones más complejas de Python para extraer años, meses, días, etc.
- **Facilita cálculos y comparaciones**: Permite realizar operaciones aritméticas y comparaciones entre fechas de manera intuitiva.
- **Mejora la legibilidad del código**: Hace que tu código sea más claro y fácil de entender.

Funciones más comunes de .dt:

- `dt.dayofweek`: Extrae el día de la semana como número entero (0 para lunes, 6 para domingo).
- `dt.day_name`: Extrae el nombre del día de la semana ("Monday", "Tuesday", etc.).
- `dt.month_name`: Extrae el nombre del mes ("January", "February", etc.).

In [29]:
sales_data['Date'].dt.day_of_week.head()

0    4
1    4
2    4
3    4
4    4
Name: Date, dtype: int32

In [30]:
sales_data['Date'].dt.day_name().head()

0    Friday
1    Friday
2    Friday
3    Friday
4    Friday
Name: Date, dtype: object

In [31]:
sales_data['Date'].dt.month_name().head()

0    February
1    February
2    February
3    February
4       March
Name: Date, dtype: object

### Como hacer calculos con fechas

Suma de dias, meses, años a una fecha

In [32]:
sales_data['Date']

0      2010-02-05
1      2010-02-12
2      2010-02-19
3      2010-02-26
4      2010-03-05
          ...    
6430   2012-09-28
6431   2012-10-05
6432   2012-10-12
6433   2012-10-19
6434   2012-10-26
Name: Date, Length: 6435, dtype: datetime64[ns]

In [33]:
sales_data['Date'] + pd.DateOffset(days=1)

0      2010-02-06
1      2010-02-13
2      2010-02-20
3      2010-02-27
4      2010-03-06
          ...    
6430   2012-09-29
6431   2012-10-06
6432   2012-10-13
6433   2012-10-20
6434   2012-10-27
Name: Date, Length: 6435, dtype: datetime64[ns]

In [34]:
sales_data['Date'] + pd.DateOffset(months=2)

0      2010-04-05
1      2010-04-12
2      2010-04-19
3      2010-04-26
4      2010-05-05
          ...    
6430   2012-11-28
6431   2012-12-05
6432   2012-12-12
6433   2012-12-19
6434   2012-12-26
Name: Date, Length: 6435, dtype: datetime64[ns]

In [39]:
sales_data['Date'] + pd.DateOffset(months=2, days=10)

0      2010-04-15
1      2010-04-22
2      2010-04-29
3      2010-05-06
4      2010-05-15
          ...    
6430   2012-12-08
6431   2012-12-15
6432   2012-12-22
6433   2012-12-29
6434   2013-01-05
Name: Date, Length: 6435, dtype: datetime64[ns]

In [40]:
sales_data['Date'] - pd.DateOffset(years=1, months=2, days=10)

0      2008-11-25
1      2008-12-02
2      2008-12-09
3      2008-12-16
4      2008-12-26
          ...    
6430   2011-07-18
6431   2011-07-26
6432   2011-08-02
6433   2011-08-09
6434   2011-08-16
Name: Date, Length: 6435, dtype: datetime64[ns]

In [41]:
pd.Timestamp.now() - sales_data['Date']

0      5344 days 20:23:16.945282
1      5337 days 20:23:16.945282
2      5330 days 20:23:16.945282
3      5323 days 20:23:16.945282
4      5316 days 20:23:16.945282
                  ...           
6430   4378 days 20:23:16.945282
6431   4371 days 20:23:16.945282
6432   4364 days 20:23:16.945282
6433   4357 days 20:23:16.945282
6434   4350 days 20:23:16.945282
Name: Date, Length: 6435, dtype: timedelta64[ns]

### Como formatear y filtrar fechas

In [42]:
sales_data['Date'].dt.strftime('%Y-%m').head()

0    2010-02
1    2010-02
2    2010-02
3    2010-02
4    2010-03
Name: Date, dtype: object

In [43]:
sales_data[sales_data['Date'].dt.year == 2012]

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Y-M
100,1,2012-01-06,1550370,0,49,3,220,7,2012-01
101,1,2012-01-13,1459601,0,49,3,220,7,2012-01
102,1,2012-01-20,1394394,0,54,3,220,7,2012-01
103,1,2012-01-27,1319326,0,54,3,220,7,2012-01
104,1,2012-02-03,1636340,0,57,3,220,7,2012-02
...,...,...,...,...,...,...,...,...,...
6430,45,2012-09-28,713174,0,65,4,192,9,2012-09
6431,45,2012-10-05,733455,0,65,4,192,9,2012-10
6432,45,2012-10-12,734464,0,54,4,192,9,2012-10
6433,45,2012-10-19,718126,0,56,4,192,9,2012-10


In [47]:
sales_data[sales_data['Date'].dt.month == 3]

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Y-M
4,1,2010-03-05,1554807,0,46,3,211,8,2010-03
5,1,2010-03-12,1439542,0,58,3,211,8,2010-03
6,1,2010-03-19,1472516,0,55,3,211,8,2010-03
7,1,2010-03-26,1404430,0,51,3,211,8,2010-03
56,1,2011-03-04,1636263,0,60,3,214,8,2011-03
...,...,...,...,...,...,...,...,...,...
6400,45,2012-03-02,782796,0,42,4,190,8,2012-03
6401,45,2012-03-09,776969,0,46,4,190,8,2012-03
6402,45,2012-03-16,788340,0,51,4,190,8,2012-03
6403,45,2012-03-23,791835,0,59,4,191,8,2012-03
