# Tecnicas de Limpieza y Transformacion de datos

In [1]:
import pandas as pd
import os

path_data = os.path.join(os.getcwd(), 'data')
path_file = lambda x: os.path.join(path_data, x)

## Pandas

In [7]:
sales_data = pd.read_csv(path_file('sales.csv'))

In [8]:
sales_data.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,05-02-2010,1643690.9,0,42.31,2.572,211.096358,8.106
1,1,12-02-2010,1641957.44,1,38.51,2.548,211.24217,8.106
2,1,19-02-2010,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,26-02-2010,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,05-03-2010,1554806.68,0,46.5,2.625,211.350143,8.106


In [9]:
sales_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Store         6435 non-null   int64  
 1   Date          6435 non-null   object 
 2   Weekly_Sales  6435 non-null   float64
 3   Holiday_Flag  6435 non-null   int64  
 4   Temperature   6435 non-null   float64
 5   Fuel_Price    6435 non-null   float64
 6   CPI           6435 non-null   float64
 7   Unemployment  6435 non-null   float64
dtypes: float64(5), int64(2), object(1)
memory usage: 402.3+ KB


### Manejo de Fechas

In [5]:
sales_data['Date'] = pd.to_datetime(sales_data['Date'])

ValueError: time data "19-02-2010" doesn't match format "%m-%d-%Y", at position 2. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.

Guía de los códigos de formato más comunes para `strftime`, que te permitirá personalizar la representación de tus fechas y horas:

* **%Y:** Año con cuatro dígitos (por ejemplo, 2024).
* **%y:** Año con dos dígitos (por ejemplo, 24).
* **%m:** Mes como número decimal (01 a 12).
* **%B:** Nombre completo del mes (por ejemplo, Enero).
* **%b:** Nombre abreviado del mes (por ejemplo, Ene).
* **%d:** Día del mes como número decimal (01 a 31).
* **%A:** Nombre completo del día de la semana (por ejemplo, Lunes).
* **%a:** Nombre abreviado del día de la semana (por ejemplo, Lun).
* **%H:** Hora (reloj de 24 horas) como número decimal (00 a 23).
* **%I:** Hora (reloj de 12 horas) como número decimal (01 a 12).
* **%p:** AM/PM.
* **%M:** Minuto como número decimal (00 a 59).
* **%S:** Segundo como número decimal (00 a 61).
* **%f:** Microsegundo como número decimal (000000 a 999999).
* **%z:** Desplazamiento UTC (por ejemplo, +0100).
* **%Z:** Nombre de la zona horaria (por ejemplo, CET).
* **%j:** Día del año como número decimal (001 a 366).
* **%U:** Número de la semana del año (domingo como primer día de la semana) como número decimal (00 a 53).
* **%W:** Número de la semana del año (lunes como primer día de la semana) como número decimal (00 a 53).
* **%c:** Representación de fecha y hora apropiada para la configuración regional.
* **%x:** Representación de fecha apropiada para la configuración regional.
* **%X:** Representación de hora apropiada para la configuración regional.


**Ejemplos:**

* `%Y-%m-%d`: "2024-07-28"
* `%d/%m/%Y %H:%M:%S`: "28/07/2024 19:01:49"
* `%A, %d de %B de %Y`: "Domingo, 28 de Julio de 2024"
* `%I:%M %p`: "07:01 PM"


In [10]:
sales_data['Date'] = pd.to_datetime(sales_data['Date'], format='%d-%m-%Y')
sales_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Store         6435 non-null   int64         
 1   Date          6435 non-null   datetime64[ns]
 2   Weekly_Sales  6435 non-null   float64       
 3   Holiday_Flag  6435 non-null   int64         
 4   Temperature   6435 non-null   float64       
 5   Fuel_Price    6435 non-null   float64       
 6   CPI           6435 non-null   float64       
 7   Unemployment  6435 non-null   float64       
dtypes: datetime64[ns](1), float64(5), int64(2)
memory usage: 402.3 KB


In [11]:
sales_data.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,2010-02-05,1643690.9,0,42.31,2.572,211.096358,8.106
1,1,2010-02-12,1641957.44,1,38.51,2.548,211.24217,8.106
2,1,2010-02-19,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,2010-03-05,1554806.68,0,46.5,2.625,211.350143,8.106


#### Filtrado de Fechas


In [12]:
sales_data.loc[sales_data['Date'] == '2010-02-26'].head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
146,2,2010-02-26,1865097.27,0,46.1,2.561,210.975957,8.324
289,3,2010-02-26,407204.86,0,52.05,2.561,214.647513,7.368
432,4,2010-02-26,1925728.84,0,41.36,2.59,126.552286,8.623
575,5,2010-02-26,270281.63,0,46.7,2.561,211.877147,6.566


#### Obtener las ventas por mes y año

In [10]:
filtro = sales_data['Date'] == '2010-02-26'
sales_data[filtro].head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
146,2,2010-02-26,1865097.27,0,46.1,2.561,210.975957,8.324
289,3,2010-02-26,407204.86,0,52.05,2.561,214.647513,7.368
432,4,2010-02-26,1925728.84,0,41.36,2.59,126.552286,8.623
575,5,2010-02-26,270281.63,0,46.7,2.561,211.877147,6.566


In [11]:
sales_data.query('Date == "2010-02-26"').head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
146,2,2010-02-26,1865097.27,0,46.1,2.561,210.975957,8.324
289,3,2010-02-26,407204.86,0,52.05,2.561,214.647513,7.368
432,4,2010-02-26,1925728.84,0,41.36,2.59,126.552286,8.623
575,5,2010-02-26,270281.63,0,46.7,2.561,211.877147,6.566


### Obtener las ventas por mes y año

In [12]:
sales_data['Y-M'] = sales_data['Date'].dt.to_period('M')
sales_data.groupby('Y-M')['Weekly_Sales'].sum().reset_index().head()

Unnamed: 0,Y-M,Weekly_Sales
0,2010-02,190333000.0
1,2010-03,181919800.0
2,2010-04,231412400.0
3,2010-05,186710900.0
4,2010-06,192246200.0


In [13]:
pd.set_option('display.float_format', lambda x: f'{x:.0f}')

In [14]:
sales_data.groupby('Y-M')['Weekly_Sales'].sum().reset_index().head()

Unnamed: 0,Y-M,Weekly_Sales
0,2010-02,190332983
1,2010-03,181919802
2,2010-04,231412368
3,2010-05,186710934
4,2010-06,192246172


In [15]:
sales_data['Date'].dt.year.head()

0    2010
1    2010
2    2010
3    2010
4    2010
Name: Date, dtype: int32

In [16]:
sales_data['Date'].dt.month.head()

0    2
1    2
2    2
3    2
4    3
Name: Date, dtype: int32

¿Por qué .dt es tan útil?

- **Simplifica el acceso a componentes de fechas**: Evita tener que usar funciones más complejas de Python para extraer años, meses, días, etc.
- **Facilita cálculos y comparaciones**: Permite realizar operaciones aritméticas y comparaciones entre fechas de manera intuitiva.
- **Mejora la legibilidad del código**: Hace que tu código sea más claro y fácil de entender.

Funciones más comunes de .dt:

- `dt.dayofweek`: Extrae el día de la semana como número entero (0 para lunes, 6 para domingo).
- `dt.day_name`: Extrae el nombre del día de la semana ("Monday", "Tuesday", etc.).
- `dt.month_name`: Extrae el nombre del mes ("January", "February", etc.).

In [17]:
sales_data['Date'].dt.day_of_week.head()

0    4
1    4
2    4
3    4
4    4
Name: Date, dtype: int32

In [18]:
sales_data['Date'].dt.day_name().head()

0    Friday
1    Friday
2    Friday
3    Friday
4    Friday
Name: Date, dtype: object

In [19]:
sales_data['Date'].dt.month_name().head()

0    February
1    February
2    February
3    February
4       March
Name: Date, dtype: object

#### Como hacer calculos con fechas

Suma de dias, meses, años a una fecha

In [20]:
sales_data['Date']

0      2010-02-05
1      2010-02-12
2      2010-02-19
3      2010-02-26
4      2010-03-05
          ...    
6430   2012-09-28
6431   2012-10-05
6432   2012-10-12
6433   2012-10-19
6434   2012-10-26
Name: Date, Length: 6435, dtype: datetime64[ns]

In [21]:
sales_data['Date'] + pd.DateOffset(days=2)

0      2010-02-07
1      2010-02-14
2      2010-02-21
3      2010-02-28
4      2010-03-07
          ...    
6430   2012-09-30
6431   2012-10-07
6432   2012-10-14
6433   2012-10-21
6434   2012-10-28
Name: Date, Length: 6435, dtype: datetime64[ns]

In [22]:
sales_data['Date'] + pd.DateOffset(months=6)

0      2010-08-05
1      2010-08-12
2      2010-08-19
3      2010-08-26
4      2010-09-05
          ...    
6430   2013-03-28
6431   2013-04-05
6432   2013-04-12
6433   2013-04-19
6434   2013-04-26
Name: Date, Length: 6435, dtype: datetime64[ns]

In [23]:
sales_data['Date'] + pd.DateOffset(months=6, days=20)

0      2010-08-25
1      2010-09-01
2      2010-09-08
3      2010-09-15
4      2010-09-25
          ...    
6430   2013-04-17
6431   2013-04-25
6432   2013-05-02
6433   2013-05-09
6434   2013-05-16
Name: Date, Length: 6435, dtype: datetime64[ns]

In [25]:
sales_data['Date'] - pd.DateOffset(years=5,months=6, days=20)

0      2004-07-16
1      2004-07-23
2      2004-07-30
3      2004-08-06
4      2004-08-16
          ...    
6430   2007-03-08
6431   2007-03-16
6432   2007-03-23
6433   2007-03-30
6434   2007-04-06
Name: Date, Length: 6435, dtype: datetime64[ns]

In [26]:
pd.Timestamp.now() - sales_data['Date']

0      5378 days 10:26:54.166611
1      5371 days 10:26:54.166611
2      5364 days 10:26:54.166611
3      5357 days 10:26:54.166611
4      5350 days 10:26:54.166611
                  ...           
6430   4412 days 10:26:54.166611
6431   4405 days 10:26:54.166611
6432   4398 days 10:26:54.166611
6433   4391 days 10:26:54.166611
6434   4384 days 10:26:54.166611
Name: Date, Length: 6435, dtype: timedelta64[ns]

#### Como formatear y filtrar fechas

In [27]:
sales_data['Date'].dt.strftime('%Y-%m').head()

0    2010-02
1    2010-02
2    2010-02
3    2010-02
4    2010-03
Name: Date, dtype: object

In [28]:
sales_data[sales_data['Date'].dt.strftime('%Y-%m') == '2010-02'].head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Y-M
0,1,2010-02-05,1643691,0,42,3,211,8,2010-02
1,1,2010-02-12,1641957,1,39,3,211,8,2010-02
2,1,2010-02-19,1611968,0,40,3,211,8,2010-02
3,1,2010-02-26,1409728,0,47,3,211,8,2010-02
143,2,2010-02-05,2136989,0,40,3,211,8,2010-02


In [29]:
sales_data[sales_data['Date'].dt.month == 4].head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Y-M
8,1,2010-04-02,1594968,0,62,3,211,8,2010-04
9,1,2010-04-09,1545419,0,66,3,211,8,2010-04
10,1,2010-04-16,1466058,0,66,3,210,8,2010-04
11,1,2010-04-23,1391256,0,65,3,210,8,2010-04
12,1,2010-04-30,1425101,0,67,3,210,8,2010-04


### Manejo de Strings

In [3]:
store = pd.read_csv(path_file('storedesc.csv'))
store.head()

Unnamed: 0,store,city,country,address
0,1,Honolulu,United States,09 Florence Way
1,2,Tulsa,United States,97 Hollow Ridge Hill
2,3,Tacoma,United States,1741 Center Court
3,4,Madison,United States,3879 Valley Edge Way
4,5,Sacramento,United States,76 Ludington Way


#### Dividir una columna de texto en varias columnas

In [32]:
store['address'].str.split(' ').apply(lambda X: len(X)).head()

0    3
1    4
2    3
3    4
4    3
Name: address, dtype: int64

In [34]:
store['address'].str.split(' ', n=1, expand=True).head()

Unnamed: 0,0,1
0,9,Florence Way
1,97,Hollow Ridge Hill
2,1741,Center Court
3,3879,Valley Edge Way
4,76,Ludington Way


#### Quitar numeros de un string

In [35]:
import re

def remove_numers(text):
    return re.sub(r'\d+', '', text)

store['address'].apply(remove_numers).head()

0          Florence Way
1     Hollow Ridge Hill
2          Center Court
3       Valley Edge Way
4         Ludington Way
Name: address, dtype: object

**Introducción a la librería re de Python**

La librería re de Python proporciona un conjunto de funciones que te permiten trabajar con expresiones regulares. Las expresiones regulares son secuencias de caracteres que definen patrones de búsqueda. Son increíblemente útiles para tareas como la validación de datos, la búsqueda y extracción de información, y la manipulación de cadenas de texto.

In [37]:
"""
Compila un patrón de expresión regular en un objeto de expresión regular, 
que puede ser usado para búsquedas posteriores. 
Esto mejora el rendimiento si vas a usar la misma expresión 
regular varias veces.
"""
import re

pattern = re.compile(r'\d+')
result = pattern.sub('', '1234 Main Street')
result

' Main Street'

In [38]:
"""
Escanea una cadena de texto buscando la primera ubicación 
donde coincide la expresión regular y devuelve 
un objeto de coincidencia.
"""

text = """
Esto es un texto de ejemplo que 
contiene un número 1234 en medio del texto y otro número 5678 al final.
"""

result = re.search(r'\d+', text)
result.group()

'1234'

In [39]:
result2 = re.findall(r'\d+', text)
result2

['1234', '5678']

In [40]:
"""
Encontrar un patrón en una cadena de texto y obtener los 
4 caracteres siguientes a la coincidencia.
"""

text = """ El ticket de compra es TCKT-1234-5678-9012-3456 
por favor guarde este ticket para futuras referencias."""

result3 = re.search(r'TCKT-\d{4}', text)
result3.group()

'TCKT-1234'

#### Guias de expresiones regulares
[Guias de expresiones regulares](./regex.md)