# Tecnicas de Limpieza y Transformacion de datos

In [1]:
import pandas as pd
import polars as pl
import os

path_data = os.path.join(os.getcwd(), 'data') 

## Pandas

In [52]:
sales_data = pd.read_csv(
    filepath_or_buffer=os.path.join(path_data, 'sales.csv')
    )


In [4]:
sales_data.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,05-02-2010,1643690.9,0,42.31,2.572,211.096358,8.106
1,1,12-02-2010,1641957.44,1,38.51,2.548,211.24217,8.106
2,1,19-02-2010,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,26-02-2010,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,05-03-2010,1554806.68,0,46.5,2.625,211.350143,8.106


In [5]:
sales_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Store         6435 non-null   int64  
 1   Date          6435 non-null   object 
 2   Weekly_Sales  6435 non-null   float64
 3   Holiday_Flag  6435 non-null   int64  
 4   Temperature   6435 non-null   float64
 5   Fuel_Price    6435 non-null   float64
 6   CPI           6435 non-null   float64
 7   Unemployment  6435 non-null   float64
dtypes: float64(5), int64(2), object(1)
memory usage: 402.3+ KB


### Manejo de Fechas

In [6]:
sales_data['Date'] = pd.to_datetime(sales_data['Date'])

ValueError: time data "19-02-2010" doesn't match format "%m-%d-%Y", at position 2. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.

Guía de los códigos de formato más comunes para `strftime`, que te permitirá personalizar la representación de tus fechas y horas:

* **%Y:** Año con cuatro dígitos (por ejemplo, 2024).
* **%y:** Año con dos dígitos (por ejemplo, 24).
* **%m:** Mes como número decimal (01 a 12).
* **%B:** Nombre completo del mes (por ejemplo, Enero).
* **%b:** Nombre abreviado del mes (por ejemplo, Ene).
* **%d:** Día del mes como número decimal (01 a 31).
* **%A:** Nombre completo del día de la semana (por ejemplo, Lunes).
* **%a:** Nombre abreviado del día de la semana (por ejemplo, Lun).
* **%H:** Hora (reloj de 24 horas) como número decimal (00 a 23).
* **%I:** Hora (reloj de 12 horas) como número decimal (01 a 12).
* **%p:** AM/PM.
* **%M:** Minuto como número decimal (00 a 59).
* **%S:** Segundo como número decimal (00 a 61).
* **%f:** Microsegundo como número decimal (000000 a 999999).
* **%z:** Desplazamiento UTC (por ejemplo, +0100).
* **%Z:** Nombre de la zona horaria (por ejemplo, CET).
* **%j:** Día del año como número decimal (001 a 366).
* **%U:** Número de la semana del año (domingo como primer día de la semana) como número decimal (00 a 53).
* **%W:** Número de la semana del año (lunes como primer día de la semana) como número decimal (00 a 53).
* **%c:** Representación de fecha y hora apropiada para la configuración regional.
* **%x:** Representación de fecha apropiada para la configuración regional.
* **%X:** Representación de hora apropiada para la configuración regional.


**Ejemplos:**

* `%Y-%m-%d`: "2024-07-28"
* `%d/%m/%Y %H:%M:%S`: "28/07/2024 19:01:49"
* `%A, %d de %B de %Y`: "Domingo, 28 de Julio de 2024"
* `%I:%M %p`: "07:01 PM"


In [7]:
sales_data['Date'] = pd.to_datetime(sales_data['Date'], format='%d-%m-%Y')
sales_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Store         6435 non-null   int64         
 1   Date          6435 non-null   datetime64[ns]
 2   Weekly_Sales  6435 non-null   float64       
 3   Holiday_Flag  6435 non-null   int64         
 4   Temperature   6435 non-null   float64       
 5   Fuel_Price    6435 non-null   float64       
 6   CPI           6435 non-null   float64       
 7   Unemployment  6435 non-null   float64       
dtypes: datetime64[ns](1), float64(5), int64(2)
memory usage: 402.3 KB


In [8]:
sales_data.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,2010-02-05,1643690.9,0,42.31,2.572,211.096358,8.106
1,1,2010-02-12,1641957.44,1,38.51,2.548,211.24217,8.106
2,1,2010-02-19,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,2010-03-05,1554806.68,0,46.5,2.625,211.350143,8.106


#### Filtrado de Fechas


In [10]:
sales_data.loc[sales_data['Date'] == '2010-02-26'].head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
146,2,2010-02-26,1865097.27,0,46.1,2.561,210.975957,8.324
289,3,2010-02-26,407204.86,0,52.05,2.561,214.647513,7.368
432,4,2010-02-26,1925728.84,0,41.36,2.59,126.552286,8.623
575,5,2010-02-26,270281.63,0,46.7,2.561,211.877147,6.566


In [11]:
sales_data[sales_data['Date'] == '2010-02-26'].head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
146,2,2010-02-26,1865097.27,0,46.1,2.561,210.975957,8.324
289,3,2010-02-26,407204.86,0,52.05,2.561,214.647513,7.368
432,4,2010-02-26,1925728.84,0,41.36,2.59,126.552286,8.623
575,5,2010-02-26,270281.63,0,46.7,2.561,211.877147,6.566


In [12]:
sales_data.query('Date == "2010-02-26"').head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
146,2,2010-02-26,1865097.27,0,46.1,2.561,210.975957,8.324
289,3,2010-02-26,407204.86,0,52.05,2.561,214.647513,7.368
432,4,2010-02-26,1925728.84,0,41.36,2.59,126.552286,8.623
575,5,2010-02-26,270281.63,0,46.7,2.561,211.877147,6.566


#### Obtener las ventas por mes y año

In [13]:
sales_data['Y-M'] = sales_data['Date'].dt.to_period('M')
sales_data.groupby('Y-M')['Weekly_Sales'].sum().reset_index().head()

Unnamed: 0,Y-M,Weekly_Sales
0,2010-02,190333000.0
1,2010-03,181919800.0
2,2010-04,231412400.0
3,2010-05,186710900.0
4,2010-06,192246200.0


In [14]:
pd.set_option('display.float_format', lambda x: f'{x:.0f}')

In [15]:
sales_data.groupby('Y-M')['Weekly_Sales'].sum().reset_index().head()

Unnamed: 0,Y-M,Weekly_Sales
0,2010-02,190332983
1,2010-03,181919802
2,2010-04,231412368
3,2010-05,186710934
4,2010-06,192246172


In [16]:
sales_data['Date'].dt.year.head()

0    2010
1    2010
2    2010
3    2010
4    2010
Name: Date, dtype: int32

In [17]:
sales_data['Date'].dt.month.head()

0    2
1    2
2    2
3    2
4    3
Name: Date, dtype: int32

¿Por qué .dt es tan útil?

- **Simplifica el acceso a componentes de fechas**: Evita tener que usar funciones más complejas de Python para extraer años, meses, días, etc.
- **Facilita cálculos y comparaciones**: Permite realizar operaciones aritméticas y comparaciones entre fechas de manera intuitiva.
- **Mejora la legibilidad del código**: Hace que tu código sea más claro y fácil de entender.

Funciones más comunes de .dt:

- `dt.dayofweek`: Extrae el día de la semana como número entero (0 para lunes, 6 para domingo).
- `dt.day_name`: Extrae el nombre del día de la semana ("Monday", "Tuesday", etc.).
- `dt.month_name`: Extrae el nombre del mes ("January", "February", etc.).

In [18]:
sales_data['Date'].dt.day_of_week.head()

0    4
1    4
2    4
3    4
4    4
Name: Date, dtype: int32

In [19]:
sales_data['Date'].dt.day_name().head()

0    Friday
1    Friday
2    Friday
3    Friday
4    Friday
Name: Date, dtype: object

In [20]:
sales_data['Date'].dt.month_name().head()

0    February
1    February
2    February
3    February
4       March
Name: Date, dtype: object

#### Como hacer calculos con fechas

Suma de dias, meses, años a una fecha

In [21]:
sales_data['Date']

0      2010-02-05
1      2010-02-12
2      2010-02-19
3      2010-02-26
4      2010-03-05
          ...    
6430   2012-09-28
6431   2012-10-05
6432   2012-10-12
6433   2012-10-19
6434   2012-10-26
Name: Date, Length: 6435, dtype: datetime64[ns]

In [22]:
sales_data['Date'] + pd.DateOffset(days=1)

0      2010-02-06
1      2010-02-13
2      2010-02-20
3      2010-02-27
4      2010-03-06
          ...    
6430   2012-09-29
6431   2012-10-06
6432   2012-10-13
6433   2012-10-20
6434   2012-10-27
Name: Date, Length: 6435, dtype: datetime64[ns]

In [23]:
sales_data['Date'] + pd.DateOffset(months=2)

0      2010-04-05
1      2010-04-12
2      2010-04-19
3      2010-04-26
4      2010-05-05
          ...    
6430   2012-11-28
6431   2012-12-05
6432   2012-12-12
6433   2012-12-19
6434   2012-12-26
Name: Date, Length: 6435, dtype: datetime64[ns]

In [24]:
sales_data['Date'] + pd.DateOffset(months=2, days=10)

0      2010-04-15
1      2010-04-22
2      2010-04-29
3      2010-05-06
4      2010-05-15
          ...    
6430   2012-12-08
6431   2012-12-15
6432   2012-12-22
6433   2012-12-29
6434   2013-01-05
Name: Date, Length: 6435, dtype: datetime64[ns]

In [25]:
sales_data['Date'] - pd.DateOffset(years=1, months=2, days=10)

0      2008-11-25
1      2008-12-02
2      2008-12-09
3      2008-12-16
4      2008-12-26
          ...    
6430   2011-07-18
6431   2011-07-26
6432   2011-08-02
6433   2011-08-09
6434   2011-08-16
Name: Date, Length: 6435, dtype: datetime64[ns]

In [41]:
pd.Timestamp.now() - sales_data['Date']

0      5344 days 20:23:16.945282
1      5337 days 20:23:16.945282
2      5330 days 20:23:16.945282
3      5323 days 20:23:16.945282
4      5316 days 20:23:16.945282
                  ...           
6430   4378 days 20:23:16.945282
6431   4371 days 20:23:16.945282
6432   4364 days 20:23:16.945282
6433   4357 days 20:23:16.945282
6434   4350 days 20:23:16.945282
Name: Date, Length: 6435, dtype: timedelta64[ns]

#### Como formatear y filtrar fechas

In [42]:
sales_data['Date'].dt.strftime('%Y-%m').head()

0    2010-02
1    2010-02
2    2010-02
3    2010-02
4    2010-03
Name: Date, dtype: object

In [43]:
sales_data[sales_data['Date'].dt.year == 2012]

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Y-M
100,1,2012-01-06,1550370,0,49,3,220,7,2012-01
101,1,2012-01-13,1459601,0,49,3,220,7,2012-01
102,1,2012-01-20,1394394,0,54,3,220,7,2012-01
103,1,2012-01-27,1319326,0,54,3,220,7,2012-01
104,1,2012-02-03,1636340,0,57,3,220,7,2012-02
...,...,...,...,...,...,...,...,...,...
6430,45,2012-09-28,713174,0,65,4,192,9,2012-09
6431,45,2012-10-05,733455,0,65,4,192,9,2012-10
6432,45,2012-10-12,734464,0,54,4,192,9,2012-10
6433,45,2012-10-19,718126,0,56,4,192,9,2012-10


In [47]:
sales_data[sales_data['Date'].dt.month == 3]

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Y-M
4,1,2010-03-05,1554807,0,46,3,211,8,2010-03
5,1,2010-03-12,1439542,0,58,3,211,8,2010-03
6,1,2010-03-19,1472516,0,55,3,211,8,2010-03
7,1,2010-03-26,1404430,0,51,3,211,8,2010-03
56,1,2011-03-04,1636263,0,60,3,214,8,2011-03
...,...,...,...,...,...,...,...,...,...
6400,45,2012-03-02,782796,0,42,4,190,8,2012-03
6401,45,2012-03-09,776969,0,46,4,190,8,2012-03
6402,45,2012-03-16,788340,0,51,4,190,8,2012-03
6403,45,2012-03-23,791835,0,59,4,191,8,2012-03


### Manejo de Strings

In [27]:
store = pd.read_csv(path_data + '/storedesc.csv')
store.head()

Unnamed: 0,store,city,country,address
0,1,Honolulu,United States,09 Florence Way
1,2,Tulsa,United States,97 Hollow Ridge Hill
2,3,Tacoma,United States,1741 Center Court
3,4,Madison,United States,3879 Valley Edge Way
4,5,Sacramento,United States,76 Ludington Way


#### Dividir una columna de texto en varias columnas

In [34]:
store['address'].str.split(' ').apply(lambda x: len(x)).head()

0    3
1    4
2    3
3    4
4    3
Name: address, dtype: int64

In [39]:
store['address'].str.split(' ', n=2).head()

0         [09, Florence, Way]
1    [97, Hollow, Ridge Hill]
2       [1741, Center, Court]
3    [3879, Valley, Edge Way]
4        [76, Ludington, Way]
Name: address, dtype: object

#### Quitar numeros de un string

In [43]:
import re

# quitar los números de la dirección
def remove_numbers(text):
    return re.sub(r'\d+', '', text)

store['address'].apply(remove_numbers).head()

0          Florence Way
1     Hollow Ridge Hill
2          Center Court
3       Valley Edge Way
4         Ludington Way
Name: address, dtype: object

**Introducción a la librería re de Python**

La librería re de Python proporciona un conjunto de funciones que te permiten trabajar con expresiones regulares. Las expresiones regulares son secuencias de caracteres que definen patrones de búsqueda. Son increíblemente útiles para tareas como la validación de datos, la búsqueda y extracción de información, y la manipulación de cadenas de texto.

In [44]:
"""
Compila un patrón de expresión regular en un objeto de expresión regular, 
que puede ser usado para búsquedas posteriores. 
Esto mejora el rendimiento si vas a usar la misma expresión 
regular varias veces.
"""

import re

pattern = re.compile(r'\d+')
result = pattern.sub('', '1234 Main Street')
result

' Main Street'

In [49]:
"""
Escanea una cadena de texto buscando la primera ubicación 
donde coincide la expresión regular y devuelve 
un objeto de coincidencia.
"""

texto = """
Esto es un texto de ejemplo que 
contiene un número 1234 en medio del texto y otro número 5678 al final.
"""

result = re.search(r'\d+', texto)
result.group()

'1234'

In [50]:
result2 = re.findall(r'\d+', texto)
result2

['1234', '5678']

In [51]:
"""
Encontrar un patrón en una cadena de texto y obtener los 
5 caracteres siguientes a la coincidencia.
"""
texto = """ El ticket de compra es TCKT-1234-5678-9012-3456 
por favor guarde este ticket para futuras referencias."""
result3 = re.search(r'TCKT-\d{4}', texto)
result3.group()

'TCKT-1234'

#### Guias de expresiones regulares
[Guias de expresiones regulares](./regex.md)

## Decoradores

In [97]:
import pandas as pd

# Funciones predefinidas de limpieza
def limpiar_datos_numericos(df, columna):
    """
    Limpia una columna numérica del DataFrame.

    Args:
        df: DataFrame de Pandas.
        columna: Nombre de la columna a limpiar.

    Returns:
        DataFrame con la columna limpia.
    """
    # Implementación para limpiar datos numéricos
    if df[columna].dtype == 'int' or df[columna].dtype == 'float':
        df[columna] = pd.to_numeric(df[columna], errors='coerce')
        df[columna] = df[columna].fillna(df[columna].median())
    return df

def limpiar_datos_texto(df, columna):
    """
    Limpia una columna de texto del DataFrame.

    Args:
        df: DataFrame de Pandas.
        columna: Nombre de la columna a limpiar.

    Returns:
        DataFrame con la columna limpia.
    """
    # Implementación para limpiar datos de texto
    if df[columna].dtype == 'object':
        df[columna] = df[columna].astype(str).str.lower()
        df[columna] = df[columna].astype(str).str.strip()
    return df

# Decorador para encadenar funciones
def encadenar_funciones(*funcs):
    """
    Encadena múltiples funciones de limpieza.

    Args:
        *funcs: Funciones de limpieza a encadenar.

    Returns:
        Función decoradora que aplica las funciones encadenadas.
    """
    def decorador(func):
        def wrapper(df, columna):
            for f in funcs:
                df = f(df, columna)
            return func(df, columna)
        return wrapper
    return decorador

# Ejemplo de uso
@encadenar_funciones(limpiar_datos_numericos, limpiar_datos_texto)
def procesar_columna(df, columna):
    """
    Procesa una columna aplicando las funciones de limpieza encadenadas.

    Args:
        df: DataFrame de Pandas.
        columna: Nombre de la columna a procesar.

    Returns:
        DataFrame con la columna procesada.
    """
    # Puedes añadir más procesamiento aquí si es necesario
    return df

if __name__ == '__main__':
    
    # Crear un DataFrame de ejemplo
    data = {'col1': [1, 2, '3', None], 'col2': ['  Abc ', ' DEF  ', 'GHI!', None]}
    df = pd.DataFrame(data)

    # Procesar la columna 'col1'
    df2 = procesar_columna(df.copy(), 'col1')
    print(df2)

    # Procesar la columna 'col2'
    df3 = procesar_columna(df.copy(), 'col2')
    print(df3)

   col1    col2
0     1    Abc 
1     2   DEF  
2     3    GHI!
3  none    None
   col1  col2
0     1   abc
1     2   def
2     3  ghi!
3  None  none


## Polars

In [60]:
sales_data_pl = pl.read_csv(os.path.join(path_data, 'sales.csv'))
sales_data_pl.head(2)

Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
i64,str,f64,i64,f64,f64,f64,f64
1,"""05-02-2010""",1643690.9,0,42.31,2.572,211.096358,8.106
1,"""12-02-2010""",1642000.0,1,38.51,2.548,211.24217,8.106


In [61]:
sales_data_pl.schema

Schema([('Store', Int64),
        ('Date', String),
        ('Weekly_Sales', Float64),
        ('Holiday_Flag', Int64),
        ('Temperature', Float64),
        ('Fuel_Price', Float64),
        ('CPI', Float64),
        ('Unemployment', Float64)])

In [64]:
# Cambiar el tipo de dato de la columna Date
sales_data_pl = pl.read_csv(os.path.join(path_data, 'sales.csv'),
                            schema=pl.Schema({
                                'Store': pl.Int32(),
                                'Date': pl.Date(),
                                'Weekly_Sales': pl.Float64(),
                                'Holiday_Flag': pl.Int32(),
                                'Temperature': pl.Float64(),
                                'Fuel_Price': pl.Float64(),
                                'CPI': pl.Float64(),
                                'Unemployment': pl.Float64(),
                            })
                            )
sales_data_pl.schema

Schema([('Store', Int32),
        ('Date', Date),
        ('Weekly_Sales', Float64),
        ('Holiday_Flag', Int32),
        ('Temperature', Float64),
        ('Fuel_Price', Float64),
        ('CPI', Float64),
        ('Unemployment', Float64)])

In [65]:
sales_data_pl.head(2)

Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
i32,date,f64,i32,f64,f64,f64,f64
1,2010-02-05,1643690.9,0,42.31,2.572,211.096358,8.106
1,2010-02-12,1642000.0,1,38.51,2.548,211.24217,8.106


#### Manejo de Fechas

In [68]:
sales_data_pl.filter(sales_data_pl['Date'] == '2010-02-26').head()

TypeError: cannot convert Python type 'str' to Date

In [69]:
from datetime import date
sales_data_pl.filter(sales_data_pl['Date'] == date(2010, 2, 26)).head()

Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
i32,date,f64,i32,f64,f64,f64,f64
1,2010-02-26,1409700.0,0,46.63,2.561,211.319643,8.106
2,2010-02-26,1865100.0,0,46.1,2.561,210.975957,8.324
3,2010-02-26,407204.86,0,52.05,2.561,214.647513,7.368
4,2010-02-26,1925700.0,0,41.36,2.59,126.552286,8.623
5,2010-02-26,270281.63,0,46.7,2.561,211.877147,6.566


In [76]:
# Agrupar por año y mes y sumar las ventas semanales

sales_data_pl = sales_data_pl.with_columns(
    pl.col('Date').dt.strftime('%Y-%m').alias('Y-M')
)
sales_data_pl.group_by('Y-M').agg(
    pl.sum('Weekly_Sales').alias('Total_Sales')
    ).head()

Y-M,Total_Sales
str,f64
"""2011-07""",229910000.0
"""2010-08""",187640000.0
"""2010-09""",177270000.0
"""2010-06""",192250000.0
"""2012-09""",180650000.0


In [78]:
pl.Config(set_fmt_float="full")
sales_data_pl.group_by('Y-M').agg(
    pl.sum('Weekly_Sales').round(2).alias('Total_Sales')
    ).head()

Y-M,Total_Sales
str,f64
"""2010-03""",181919802.5
"""2011-09""",220847738.42
"""2010-09""",177267896.37
"""2011-03""",179356448.29
"""2010-02""",190332983.04


In [86]:
from datetime import timedelta

sales_data_pl.with_columns(
    (pl.col('Date') + timedelta(days=1)).alias('Next_Day')
)

Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Y-M,Next_Day
i32,date,f64,i32,f64,f64,f64,f64,str,date
1,2010-02-05,1643690.9,0,42.31,2.572,211.0963582,8.106,"""2010-02""",2010-02-06
1,2010-02-12,1641957.44,1,38.51,2.548,211.2421698,8.106,"""2010-02""",2010-02-13
1,2010-02-19,1611968.17,0,39.93,2.514,211.2891429,8.106,"""2010-02""",2010-02-20
1,2010-02-26,1409727.59,0,46.63,2.561,211.3196429,8.106,"""2010-02""",2010-02-27
1,2010-03-05,1554806.68,0,46.5,2.625,211.3501429,8.106,"""2010-03""",2010-03-06
…,…,…,…,…,…,…,…,…,…
45,2012-09-28,713173.95,0,64.88,3.997,192.0135577,8.684,"""2012-09""",2012-09-29
45,2012-10-05,733455.07,0,64.89,3.985,192.1704115,8.667,"""2012-10""",2012-10-06
45,2012-10-12,734464.36,0,54.47,4,192.3272654,8.667,"""2012-10""",2012-10-13
45,2012-10-19,718125.53,0,56.47,3.969,192.3308542,8.667,"""2012-10""",2012-10-20


## Manejo de Strings

In [87]:
store_pl = pl.read_csv(os.path.join(path_data, 'storedesc.csv'))
store_pl.head(2)

store,city,country,address
i64,str,str,str
1,"""Honolulu""","""United States""","""09 Florence Way"""
2,"""Tulsa""","""United States""","""97 Hollow Ridge Hill"""


In [90]:
store_pl.select(
    pl.col('address').str.split(' ').alias('address_split')
    ).head()

address_split
list[str]
"[""09"", ""Florence"", ""Way""]"
"[""97"", ""Hollow"", … ""Hill""]"
"[""1741"", ""Center"", ""Court""]"
"[""3879"", ""Valley"", … ""Way""]"
"[""76"", ""Ludington"", ""Way""]"


In [91]:
store_pl.select(
    pl.col('address').str.replace(r'\d+', '').alias('address_no_numbers')
    ).head()

address_no_numbers
str
""" Florence Way"""
""" Hollow Ridge Hill"""
""" Center Court"""
""" Valley Edge Way"""
""" Ludington Way"""
