## Librerias

In [None]:
import pandas as pd
import os
import re

## Funciones - Estandares

In [None]:
pd.set_option('display.float_format', '{:.0f}'.format)

In [None]:
path_data = os.path.join(os.getcwd(), 'data')
path_file = lambda filename: os.path.join(path_data, filename)

In [None]:
def remove_numeric_preffix(text):
    return re.sub(r'^\d+\s*', '', text)

## Data

In [None]:
sales_data = pd.read_csv(path_file('sales.csv'))

In [None]:
storedesc = pd.read_csv(path_file('storedesc.csv'))

In [None]:
stores = pd.read_csv(path_file('stores.csv'))

## Notas

### Fecha

Guía de los códigos de formato más comunes para `strftime`, que te permitirá personalizar la representación de tus fechas y horas:

* **%Y:** Año con cuatro dígitos (por ejemplo, 2024).
* **%y:** Año con dos dígitos (por ejemplo, 24).
* **%m:** Mes como número decimal (01 a 12).
* **%B:** Nombre completo del mes (por ejemplo, Enero).
* **%b:** Nombre abreviado del mes (por ejemplo, Ene).
* **%d:** Día del mes como número decimal (01 a 31).
* **%A:** Nombre completo del día de la semana (por ejemplo, Lunes).
* **%a:** Nombre abreviado del día de la semana (por ejemplo, Lun).
* **%H:** Hora (reloj de 24 horas) como número decimal (00 a 23).
* **%I:** Hora (reloj de 12 horas) como número decimal (01 a 12).
* **%p:** AM/PM.
* **%M:** Minuto como número decimal (00 a 59).
* **%S:** Segundo como número decimal (00 a 61).
* **%f:** Microsegundo como número decimal (000000 a 999999).
* **%z:** Desplazamiento UTC (por ejemplo, +0100).
* **%Z:** Nombre de la zona horaria (por ejemplo, CET).
* **%j:** Día del año como número decimal (001 a 366).
* **%U:** Número de la semana del año (domingo como primer día de la semana) como número decimal (00 a 53).
* **%W:** Número de la semana del año (lunes como primer día de la semana) como número decimal (00 a 53).
* **%c:** Representación de fecha y hora apropiada para la configuración regional.
* **%x:** Representación de fecha apropiada para la configuración regional.
* **%X:** Representación de hora apropiada para la configuración regional.


**Ejemplos:**

* `%Y-%m-%d`: "2024-07-28"
* `%d/%m/%Y %H:%M:%S`: "28/07/2024 19:01:49"
* `%A, %d de %B de %Y`: "Domingo, 28 de Julio de 2024"
* `%I:%M %p`: "07:01 PM"


### .dt

¿Por qué .dt es tan útil?

- **Simplifica el acceso a componentes de fechas**: Evita tener que usar funciones más complejas de Python para extraer años, meses, días, etc.
- **Facilita cálculos y comparaciones**: Permite realizar operaciones aritméticas y comparaciones entre fechas de manera intuitiva.
- **Mejora la legibilidad del código**: Hace que tu código sea más claro y fácil de entender.

Funciones más comunes de .dt:

- `dt.dayofweek`: Extrae el día de la semana como número entero (0 para lunes, 6 para domingo).
- `dt.day_name`: Extrae el nombre del día de la semana ("Monday", "Tuesday", etc.).
- `dt.month_name`: Extrae el nombre del mes ("January", "February", etc.).

### regex

**Introducción a la librería re de Python**

La librería re de Python proporciona un conjunto de funciones que te permiten trabajar con expresiones regulares. Las expresiones regulares son secuencias de caracteres que definen patrones de búsqueda. Son increíblemente útiles para tareas como la validación de datos, la búsqueda y extracción de información, y la manipulación de cadenas de texto.

## Transformacion

### Fecha

#### Formato

In [None]:
sales_data['Date'] = pd.to_datetime(sales_data['Date'], format='%d-%m-%Y')

In [None]:
sales_data['Date'].dt.strftime('%Y-%m').head(2)

#### Filtro

In [None]:
filtro = sales_data['Date'] == '2010-02-26'
sales_data.loc[filtro].head(2)

In [None]:
sales_data.loc[sales_data['Date'].dt.strftime('%Y-%m') == '2010-02'].head(2)

In [None]:
sales_data.loc[sales_data['Date'].dt.month == 4].head(2)

In [None]:
sales_data.query('Date == "2010-02-26"').head(2)

#### Operaciones

In [None]:
# Ventas por mes y anio
# sales_data['Y-M'] = sales_data['Date'].dt.to_period('M')
# Forma 1
sales_data.groupby(sales_data['Date'].dt.strftime('%Y-%m'))['Weekly_Sales'].sum().head(2)
# Forma 2
sales_data.groupby(sales_data['Date'].dt.to_period('M'))['Weekly_Sales'].sum().head(2)

In [None]:
# operaciones con fechas
print(sales_data['Date'].head(2))
print((sales_data['Date'] + pd.DateOffset(months=2, days=5)).head(2))

### Strings

#### Formato

In [None]:
storedesc['address'].str.split(' ', n=1, expand=True).head(2)

In [None]:
storedesc['address'].apply(remove_numeric_preffix).head(2)

#### Operaciones

In [None]:
"""
Compila un patrón de expresión regular en un objeto de expresión regular, 
que puede ser usado para búsquedas posteriores. 
Esto mejora el rendimiento si vas a usar la misma expresión 
regular varias veces.
"""

pattern = re.compile(r'\d+')
pattern.sub('', '1234 Main Street')


In [None]:
"""
Escanea una cadena de texto buscando la primera ubicación 
donde coincide la expresión regular y devuelve 
un objeto de coincidencia.
"""

text = """
Esto es un texto de ejemplo que 
contiene un número 1234 en medio del texto y otro número 5678 al final.
"""

print(re.search(r'\d+', text).group())
print(re.findall(r'\d+', text))

In [None]:
"""
Encontrar un patrón en una cadena de texto y obtener los 
4 caracteres siguientes a la coincidencia.
"""

text = """ El ticket de compra es TCKT-1234-5678-9012-3456 
por favor guarde este ticket para futuras referencias."""

print(re.search(r'TCKT-\d{4}', text).group())
print(re.search(r'TCKT-(\d{4})-\d{4}', text).group(1))
print(re.search(r'TCKT-(\d{4})-(\d{4})', text).group(2))