**Tabla de contenido**

- [Librerías](#Lib)
- [Formatos de fechas](#formatos-de-fechas)
- [Funciones más comunes de .dt](#funciones-mas-comunes-de-.dt)

# Lib

In [8]:
import pandas as pd
import os


In [9]:
path_data = os.path.join(os.getcwd(),'data')
path_file = lambda x: os.path.join(path_data, x)

In [10]:
# lectura de datos
df = pd.read_csv(path_file('TFM_Table_Store.csv'), sep=';')
df.head()

Unnamed: 0,Store_ID,City,Open_Date,Zip_Code,Phone,Email
0,1,San Antonio,2003-07-24 21:45:30,78015,2136875667,store1@retail.com
1,2,San Antonio,2005-10-27 07:01:09,78201,2135167236,store2@retail.com
2,3,San Antonio,2007-02-01 16:59:13,78112,2123501192,store3@walmart.com
3,4,Houston,2004-07-17 00:28:08,77001,3129778178,store4@walmart.com
4,5,Houston,2009-04-23 01:08:37,77002,7136191883,store5@store.com


# formatos de fechas

- `%Y`: Año con cuatro dígitos (por ejemplo, 2024).
- `%y`: Año con dos dígitos (por ejemplo, 24).
- `%m`: Mes como número decimal (01 a 12).
- `%B`: Nombre completo del mes (por ejemplo, Enero).
- `%b`: Nombre abreviado del mes (por ejemplo, Ene).
- `%d`: Día del mes como número decimal (01 a 31).
- `%A`: Nombre completo del día de la semana (por ejemplo, Lunes).
- `%a`: Nombre abreviado del día de la semana (por ejemplo, Lun).
- `%H`: Hora (reloj de 24 horas) como número decimal (00 a 23).
- `%I`: Hora (reloj de 12 horas) como número decimal (01 a 12).
- `%p`: AM/PM.
- `%M`: Minuto como número decimal (00 a 59).
- `%S`: Segundo como número decimal (00 a 61).
- `%f`: Microsegundo como número decimal (000000 a 999999).
- `%z`: Desplazamiento UTC (por ejemplo, +0100).
- `%Z`: Nombre de la zona horaria (por ejemplo, CET).
- `%j`: Día del año como número decimal (001 a 366).
- `%U`: Número de la semana del año (domingo como primer día de la semana) como número decimal (00 a 53).
- `%W`: Número de la semana del año (lunes como primer día de la semana) como número decimal (00 a 53).
- `%c`: Representación de fecha y hora apropiada para la configuración regional.
- `%x`: Representación de fecha apropiada para la configuración regional.
- `%X`: Representación de hora apropiada para la configuración regional.

**Ejemplos:**

- `%Y-%m-%d`: `"2024-07-28"`
- `%d/%m/%Y %H:%M:%S`: `"28/07/2024 19:01:49"`
- `%A, %d de %B de %Y`: `"Domingo, 28 de Julio de 2024"`
- `%I:%M %p`: `"07:01 PM"`


# funciones mas comunes de .dt


- `dt.dayofweek`: Extrae el día de la semana como número entero (0 para lunes, 6 para domingo).
- `dt.day_name`: Extrae el nombre del día de la semana ("Monday", "Tuesday", etc.).
- `dt.month_name`: Extrae el nombre del mes ("January", "February", etc.).


In [11]:
# ver en pantalla de formato cientifico a numeros
pd.set_option('display.float_format', lambda x: f'{x:.0f}')

# Procesamiento de texto

In [13]:
# dividir columna de texto en varias columnas
df['City'].str.split(' ',n=1,expand=True)

Unnamed: 0,0,1
0,San,Antonio
1,San,Antonio
2,San,Antonio
3,Houston,
4,Houston,
5,Los,Angeles
6,Phoenix,
7,San,Diego
8,New,York
9,Philadelphia,


escanea una cadena de texto buscando la primera ubicación donde coincida la expresión regular y devuelve un objeto de coincidencia 

In [15]:
import re
text = """ Esto es un texto de ejemplo que contiene un numero 1234 en medio del texto y otro 5678 al final.
"""
result = re.findall(r'\d+', text)
result

['1234', '5678']

Encontrar un patron en una cadena de texto y obtener los 4 caracteres siguientes a la coincidencia.

In [18]:
text = """El tiket de compra es TCKT-1234-5676-9102-4556. Por favor guarde este ticket para futuras referencias.
"""
result = re.search(r'TCKT-(\d{4})', text)
result.group()

'TCKT-1234'