## Transformaciones

Usaremos el dataset del Inegi para esta sección. El dataset de Taxis de NY se usará tanto en los ejericicos así como opción para el proyecto final.

In [1]:
import polars as pl
pl.Config.set_tbl_rows(15) #Esta config controla la cantidad de filas en print y display en Jupyter
pl.Config.set_tbl_cols(50) #Cantidad de columnas a desplegar
pl.Config.set_fmt_str_lengths(100) #Longitud de las cadenas a desplegar

with open('../data/inegi.csv', 'r', encoding='latin1') as fh:
    polars_df = pl.read_csv(fh.read().encode('utf-8')) 
polars_df.head()



id,clee,nom_estab,raz_social,codigo_act,nombre_act,per_ocu,tipo_vial,nom_vial,tipo_v_e_1,nom_v_e_1,tipo_v_e_2,nom_v_e_2,tipo_v_e_3,nom_v_e_3,numero_ext,letra_ext,edificio,edificio_e,numero_int,letra_int,tipo_asent,nomb_asent,tipoCenCom,nom_CenCom,num_local,cod_postal,cve_ent,entidad,cve_mun,municipio,cve_loc,localidad,ageb,manzana,telefono,correoelec,www,tipoUniEco,latitud,longitud,fecha_alta
i64,str,str,str,i64,str,str,str,str,str,str,str,str,str,str,i64,str,str,str,i64,str,str,str,str,str,str,i64,i64,str,i64,str,i64,str,str,i64,i64,str,str,str,f64,f64,str
6174829,"""20169114119001001000000000U7""","""PESCA DE CRUSTÁCEOS, MOLUSCOS Y OTROS PECES SIN NOMBRE""",,114119,"""Pesca y captura de peces, crustáceos, moluscos y otras especies""","""0 a 5 personas""","""CALLE""","""NINGUNO""","""CALLE""","""NINGUNO""","""CALLE""","""NINGUNO""","""CALLE""","""NINGUNO""",0.0,,,,0.0,,"""LOCALIDAD""","""BUENOS AIRES""",,,,68407,20,"""Oaxaca""",169,"""San José Independencia""",2,"""Buenos Aires""","""0030""",5,,,,"""Fijo""",18.255652,-96.614697,"""2010-07"""
6174806,"""20406114119000391000000000U9""","""PESCA DE CRUSTÁCEOS, MOLUSCOS Y OTROS PECES SIN NOMBRE""",,114119,"""Pesca y captura de peces, crustáceos, moluscos y otras especies""","""0 a 5 personas""","""CALLE""","""NINGUNO""","""CALLE""","""NINGUNO""","""CALLE""","""NINGUNO""","""CALLE""","""NINGUNO""",,"""SN""",,,,,"""LOCALIDAD""","""LOMA ALTA""",,,,68511,20,"""Oaxaca""",406,"""Santa María Chilchotla""",74,"""Loma Alta""","""0022""",800,,,,"""Fijo""",18.313758,-96.647255,"""2010-07"""
6174723,"""20406114119000341000000000U4""","""PESCA DE CRUSTÁCEOS, MOLUSCOS Y OTROS PECES SIN NOMBRE""",,114119,"""Pesca y captura de peces, crustáceos, moluscos y otras especies""","""0 a 5 personas""","""CALLE""","""NINGUNO""","""CALLE""","""NINGUNO""","""CALLE""","""NINGUNO""","""CALLE""","""NINGUNO""",,"""SN""",,,,,"""LOCALIDAD""","""LOMA ALTA""",,,,68511,20,"""Oaxaca""",406,"""Santa María Chilchotla""",74,"""Loma Alta""","""0022""",800,,,,"""Fijo""",18.313758,-96.647255,"""2010-07"""
6174722,"""20309114119000781000000000U7""","""PESCA DE CRUSTÁCEOS, MOLUSCOS Y OTROS PECES SIN NOMBRE""",,114119,"""Pesca y captura de peces, crustáceos, moluscos y otras especies""","""0 a 5 personas""","""OTRO (ESPECIFIQUE)""","""NINGUNO""","""OTRO (ESPECIFIQUE)""","""NINGUNO""","""OTRO (ESPECIFIQUE)""","""NINGUNO""","""OTRO (ESPECIFIQUE)""","""NINGUNO""",0.0,,,,0.0,,"""COLONIA""","""BUENA VISTA""",,,,68450,20,"""Oaxaca""",309,"""San Pedro Ixcatlán""",16,"""Colonia Buena Vista""","""0014""",800,,,,"""Fijo""",18.136119,-96.520094,"""2010-07"""
6174801,"""20406114119000381000000000U0""","""PESCA DE CRUSTÁCEOS, MOLUSCOS Y OTROS PECES SIN NOMBRE""",,114119,"""Pesca y captura de peces, crustáceos, moluscos y otras especies""","""0 a 5 personas""","""CALLE""","""NINGUNO""","""CALLE""","""NINGUNO""","""CALLE""","""NINGUNO""","""CALLE""","""NINGUNO""",0.0,"""SN""",,,,,"""LOCALIDAD""","""LOMA ALTA""",,,,68511,20,"""Oaxaca""",406,"""Santa María Chilchotla""",74,"""Loma Alta""","""0022""",800,,,,"""Fijo""",18.313758,-96.647255,"""2010-07"""


## Transformaciones comunes

### `Cast` de Números a String (Utf8) y viceversa

In [2]:
polars_df.select(pl.col('cve_ent').cast(pl.Utf8)).head()

cve_ent
str
"""20"""
"""20"""
"""20"""
"""20"""
"""20"""


`Unique` nos entrega los valores únicos

In [3]:
polars_df.select(pl.col('cve_ent').unique())

cve_ent
i64
1
2
3
4
5
6
7
...
26
27


### Formatos de fecha y casts
Para identificar los formatos de fechas revisar:
https://docs.rs/chrono/latest/chrono/format/strftime/index.html

In [4]:
polars_df.select(
    my_date = pl.date(
        pl.col('fecha_alta').str.slice(0,4).alias('year_alta'),
        pl.col('fecha_alta').str.slice(5,2).alias('month_alta'),
        pl.lit(1)
    )
).head()

my_date
date
2010-07-01
2010-07-01
2010-07-01
2010-07-01
2010-07-01


In [5]:
polars_df.select(
    pl.date(
        pl.col('fecha_alta').str.slice(0,4).alias('year_alta'),
        pl.col('fecha_alta').str.slice(5,2).alias('month_alta'),
        pl.lit(1)
    ).alias('my_date')
).head()

my_date
date
2010-07-01
2010-07-01
2010-07-01
2010-07-01
2010-07-01


Observamos que el uso de `**named_expres` es idéntico al uso de `alias`:

In [6]:
polars_df.lazy().select(
    col1 = pl.col('fecha_alta'),
    col2 = pl.col('fecha_alta'),
).describe_optimized_plan()

'   SELECT [col("fecha_alta").alias("col1"), col("fecha_alta").alias("col2")] FROM\n    DF ["id", "clee", "nom_estab", "raz_social"]; PROJECT 1/42 COLUMNS; SELECTION: "None"\n'

Con Polars es posible aplicar múltiples intentos de extraer una fecha de un string a un formato mediante `strptime`

In [7]:
fechas = pl.DataFrame({
    'date':
    [
        '2021-04-22',
        '2022-01-04 00:00:00',
        '01/31/22',
        'Sun Jul  8 00:34:60 2001',
    ]},
)

fechas_formato = fechas.with_columns(
    pl.col('date')
    .str.strptime(pl.Date, '%F', strict=False)
    .fill_null(pl.col('date').str.strptime(pl.Date, '%F %T', strict=False))
    .fill_null(pl.col('date').str.strptime(pl.Date, '%D', strict=False))
    .fill_null(pl.col('date').str.strptime(pl.Date, '%c', strict=False))
)

fechas_formato

date
date
2021-04-22
2022-01-04
2022-01-31
2001-07-08


Para agregar/restar fechas 🗓 usamos el tipo de dato `duration`

In [8]:
fechas_formato.with_columns(
    add_weeks =  (pl.col('date') + pl.duration(weeks=1)),
    add_days= (pl.col('date') + pl.duration(days=1)),
    minus_Days = (pl.col('date') - pl.duration(days=1)),
    minus_minutes = (pl.col('date') + pl.duration(minutes=20)), #No cambia el tipo de dato a timestamp
    )

date,add_weeks,add_days,minus_Days,minus_minutes
date,date,date,date,date
2021-04-22,2021-04-29,2021-04-23,2021-04-21,2021-04-22
2022-01-04,2022-01-11,2022-01-05,2022-01-03,2022-01-04
2022-01-31,2022-02-07,2022-02-01,2022-01-30,2022-01-31
2001-07-08,2001-07-15,2001-07-09,2001-07-07,2001-07-08


Timestamps en formato Unix con `from_epoch`

In [41]:
timestamps = pl.DataFrame({'timestamp': [1666683077, 1666683099, 1678308705, 1678408705]})
timestamps = timestamps.select([
        pl.from_epoch(pl.col('timestamp'), unit='s'),
         ])
timestamps

timestamp
datetime[μs]
2022-10-25 07:31:17
2022-10-25 07:31:39
2023-03-08 20:51:45
2023-03-10 00:38:25


Extraer partes de la fecha (`date`) con Expressions de date `dt`

In [10]:
fechas_formato.select(
    date_day = pl.col('date').dt.day(),    
    date_epoch = pl.col('date').dt.epoch(),    
    date_iso_year = pl.col('date').dt.iso_year(),    
    date_month = pl.col('date').dt.month(),
    date_ordinal_day = pl.col('date').dt.ordinal_day(),
    date_quarter = pl.col('date').dt.quarter(),
    date_week = pl.col('date').dt.week(),
    date_weekday = pl.col('date').dt.weekday(),
    date_year = pl.col('date').dt.year(),
)

date_day,date_epoch,date_iso_year,date_month,date_ordinal_day,date_quarter,date_week,date_weekday,date_year
u32,i64,i32,u32,u32,u32,u32,u32,i32
22,1619049600000000,2021,4,112,2,16,4,2021
4,1641254400000000,2022,1,4,1,1,2,2022
31,1643587200000000,2022,1,31,1,5,1,2022
8,994550400000000,2001,7,189,3,27,7,2001


In [11]:
fechas_formato.select(
    pl.col('date').dt.day().alias('date_day'),    
    pl.col('date').dt.epoch().alias('date_epoch'),    
    pl.col('date').dt.iso_year().alias('date_iso_year'),    
    pl.col('date').dt.month().alias('date_month'),
    pl.col('date').dt.ordinal_day().alias('date_ordinal_day'),
    pl.col('date').dt.quarter().alias('date_quarter'),
    pl.col('date').dt.week().alias('date_week'),
    pl.col('date').dt.weekday().alias('date_weekday'),
    pl.col('date').dt.year().alias('date_year')
)

date_day,date_epoch,date_iso_year,date_month,date_ordinal_day,date_quarter,date_week,date_weekday,date_year
u32,i64,i32,u32,u32,u32,u32,u32,i32
22,1619049600000000,2021,4,112,2,16,4,2021
4,1641254400000000,2022,1,4,1,1,2,2022
31,1643587200000000,2022,1,31,1,5,1,2022
8,994550400000000,2001,7,189,3,27,7,2001


Extraer partes del `timestamp`

In [12]:
 
timestamps.with_columns([
    pl.col('timestamp').dt.day().alias('timestamp_day'),    
    pl.col('timestamp').dt.epoch().alias('timestamp_epoch'),    
    pl.col('timestamp').dt.iso_year().alias('timestamp_iso_year'),    
    pl.col('timestamp').dt.month().alias('timestamp_month'),
    pl.col('timestamp').dt.ordinal_day().alias('timestamp_ordinal_day'),
    pl.col('timestamp').dt.quarter().alias('timestamp_quarter'),
    pl.col('timestamp').dt.week().alias('timestamp_week'),
    pl.col('timestamp').dt.weekday().alias('timestamp_weekday'),
    pl.col('timestamp').dt.year().alias('timestamp_year'),
    pl.col('timestamp').dt.hour().alias('timestamp_hour'),
    pl.col('timestamp').dt.minute().alias('timestamp_minute'),
    pl.col('timestamp').dt.second().alias('timestamp_second'),
    pl.col('timestamp').dt.millisecond().alias('timestamp_ms'),
])

timestamp,timestamp_day,timestamp_epoch,timestamp_iso_year,timestamp_month,timestamp_ordinal_day,timestamp_quarter,timestamp_week,timestamp_weekday,timestamp_year,timestamp_hour,timestamp_minute,timestamp_second,timestamp_ms
datetime[ms],u32,i64,i32,u32,u32,u32,u32,u32,i32,u32,u32,u32,u32
1970-01-20 06:58:03.077,20,1666683077000,1970,1,20,1,4,2,1970,6,58,3,77
1970-01-20 06:58:03.099,20,1666683099000,1970,1,20,1,4,2,1970,6,58,3,99
1970-01-20 10:11:48.705,20,1678308705000,1970,1,20,1,4,2,1970,10,11,48,705
1970-01-20 10:13:28.705,20,1678408705000,1970,1,20,1,4,2,1970,10,13,28,705


Convertir `duration` a otras unidades de tiempo

In [13]:
timestamps.select(
    pl.col('timestamp'),
    pl.col('timestamp').diff().dt.days().alias('duration_days'),
    pl.col('timestamp').diff().dt.hours().alias('duration_hours'),
    pl.col('timestamp').diff().dt.microseconds().alias('duration_microseconds'),    
    pl.col('timestamp').diff().dt.milliseconds().alias('duration_milliseconds'),    
    pl.col('timestamp').diff().dt.minutes().alias('duration_minutes'),
)



timestamp,duration_days,duration_hours,duration_microseconds,duration_milliseconds,duration_minutes
datetime[ms],i64,i64,i64,i64,i64
1970-01-20 06:58:03.077,,,,,
1970-01-20 06:58:03.099,0.0,0.0,22000.0,22.0,0.0
1970-01-20 10:11:48.705,0.0,3.0,11625606000.0,11625606.0,193.0
1970-01-20 10:13:28.705,0.0,0.0,100000000.0,100000.0,1.0


In [14]:
polars_df.select(
    pl.format('Entidad: {}, Clave de la Entidad: {}', pl.col('entidad'), pl.col('cve_ent')).alias('formato')
).head()

formato
str
"""Entidad: Oaxaca, Clave de la Entidad: 20"""
"""Entidad: Oaxaca, Clave de la Entidad: 20"""
"""Entidad: Oaxaca, Clave de la Entidad: 20"""
"""Entidad: Oaxaca, Clave de la Entidad: 20"""
"""Entidad: Oaxaca, Clave de la Entidad: 20"""


## Análisis exploratorio y limpieza de datos
Primero haremos un análisis exploratorio básico para identificar problemas en la calidad de los datos:

In [15]:
polars_df.describe()

describe,id,clee,nom_estab,raz_social,codigo_act,nombre_act,per_ocu,tipo_vial,nom_vial,tipo_v_e_1,nom_v_e_1,tipo_v_e_2,nom_v_e_2,tipo_v_e_3,nom_v_e_3,numero_ext,letra_ext,edificio,edificio_e,numero_int,letra_int,tipo_asent,nomb_asent,tipoCenCom,nom_CenCom,num_local,cod_postal,cve_ent,entidad,cve_mun,municipio,cve_loc,localidad,ageb,manzana,telefono,correoelec,www,tipoUniEco,latitud,longitud,fecha_alta
str,f64,str,str,str,f64,str,str,str,str,str,str,str,str,str,str,f64,str,str,str,f64,str,str,str,str,str,str,f64,f64,str,f64,str,f64,str,str,f64,f64,str,str,str,f64,f64,str
"""count""",22010.0,"""22010""","""22010""","""22010""",22010.0,"""22010""","""22010""","""22010""","""22010""","""22010""","""22010""","""22010""","""22010""","""22010""","""22010""",22010.0,"""22010""","""22010""","""22010""",22010.0,"""22010""","""22010""","""22010""","""22010""","""22010""","""22010""",22010.0,22010.0,"""22010""",22010.0,"""22010""",22010.0,"""22010""","""22010""",22010.0,22010.0,"""22010""","""22010""","""22010""",22010.0,22010.0,"""22010"""
"""null_count""",0.0,"""0""","""0""","""16054""",0.0,"""0""","""0""","""25""","""72""","""45""","""276""","""45""","""291""","""45""","""323""",5342.0,"""10297""","""21572""","""21584""",10174.0,"""21196""","""11""","""1""","""21796""","""21799""","""21920""",354.0,0.0,"""0""",0.0,"""0""",0.0,"""0""","""0""",0.0,14752.0,"""19954""","""21885""","""0""",0.0,0.0,"""0"""
"""mean""",6881400.0,,,,113916.173012,,,,,,,,,,,121.448404,,,,8.891602,,,,,,,69524.866781,20.655429,,61.990005,,116.96388,,,246.827624,7837500000.0,,,,20.625223,-99.226756,
"""std""",1326900.0,,,,650.782648,,,,,,,,,,,1177.811788,,,,799.34644,,,,,,,23583.940225,8.593005,,101.899729,,364.837852,,,355.14428,20066000000.0,,,,3.619234,6.792572,
"""min""",70136.0,"""01001112512000032000000000U9""","""11 DE DICIEMBRE DE 1996 SPR DE RI""",""".PESQUERA BAJAMAR SC DE RL""",112511.0,"""Beneficio de productos agrícolas""","""0 a 5 personas""","""AMPLIACION""","""(TIANGUISTENCO-CHALMA)-CUERNAVACA""","""AMPLIACION""","""0""","""AMPLIACION""","""0""","""AMPLIACION""",""".""",0.0,"""0""","""1""","""ANDEN""",0.0,"""0""","""AMPLIACION""","""(CENTRO)""","""CENTRAL DE ABASTO""","""0""","""0""",0.0,1.0,"""Aguascalientes""",1.0,"""Abasolo""",1.0,"""10 de Abril""","""0010""",1.0,0.0,"""1CARMELO1VAZQUEZ@HOTMAIL.COM""","""6621420185""","""Fijo""",14.5406,-117.050987,"""2010-07"""
"""max""",9390800.0,"""32058114119000091000000000U3""","""ZUAREV SPR DE RL""","""ZUAREV SPR DE RL""",115310.0,"""Servicios relacionados con la cría y explotación de animales""","""6 a 10 personas""","""RETORNO""","""Ángel Flores""","""RETORNO""","""ángeles""","""RETORNO""","""ÚRSULO GALVAN""","""VIADUCTO""","""ÚRSULO GALVÁN""",99999.0,"""sn""","""SL""","""SOTANO 3""",86751.0,"""sn""","""ZONA NAVAL""","""ÁNGEL FLORES""","""ZONA INDUSTRIAL""","""ZONA INDUSTRIAL SECCION SAN SEBASTIAN XHALA""","""SN""",99998.0,32.0,"""Zacatecas""",570.0,"""Álvaro Obregón""",9010.0,"""Úrsulo Galván (Las Charcas)""","""9960""",800.0,982130000000.0,"""sanipollo@hotmail.com""","""www.maros.com.mx""","""Semifijo""",32.668645,-86.731957,"""2022-11"""
"""median""",6180787.0,,,,114119.0,,,,,,,,,,,0.0,,,,0.0,,,,,,,79840.0,24.0,,15.0,,25.0,,,25.0,6981100000.0,,,,19.396217,-97.846625,


`null_count` nos permite obtener la cantidad de valores nulos:

In [16]:
polars_df.select(
    pl.col('*').null_count()
)

id,clee,nom_estab,raz_social,codigo_act,nombre_act,per_ocu,tipo_vial,nom_vial,tipo_v_e_1,nom_v_e_1,tipo_v_e_2,nom_v_e_2,tipo_v_e_3,nom_v_e_3,numero_ext,letra_ext,edificio,edificio_e,numero_int,letra_int,tipo_asent,nomb_asent,tipoCenCom,nom_CenCom,num_local,cod_postal,cve_ent,entidad,cve_mun,municipio,cve_loc,localidad,ageb,manzana,telefono,correoelec,www,tipoUniEco,latitud,longitud,fecha_alta
u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32
0,0,0,16054,0,0,0,25,72,45,276,45,291,45,323,5342,10297,21572,21584,10174,21196,11,1,21796,21799,21920,354,0,0,0,0,0,0,0,0,14752,19954,21885,0,0,0,0


Esta sentencia es equivalente a la anterior:

In [17]:
polars_df.select(
    pl.all().null_count()
)

id,clee,nom_estab,raz_social,codigo_act,nombre_act,per_ocu,tipo_vial,nom_vial,tipo_v_e_1,nom_v_e_1,tipo_v_e_2,nom_v_e_2,tipo_v_e_3,nom_v_e_3,numero_ext,letra_ext,edificio,edificio_e,numero_int,letra_int,tipo_asent,nomb_asent,tipoCenCom,nom_CenCom,num_local,cod_postal,cve_ent,entidad,cve_mun,municipio,cve_loc,localidad,ageb,manzana,telefono,correoelec,www,tipoUniEco,latitud,longitud,fecha_alta
u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32
0,0,0,16054,0,0,0,25,72,45,276,45,291,45,323,5342,10297,21572,21584,10174,21196,11,1,21796,21799,21920,354,0,0,0,0,0,0,0,0,14752,19954,21885,0,0,0,0


También podemos obtener la cantidad de valores únicos con `n_unique`

In [18]:
polars_df.select(
    pl.all().n_unique()
)

id,clee,nom_estab,raz_social,codigo_act,nombre_act,per_ocu,tipo_vial,nom_vial,tipo_v_e_1,nom_v_e_1,tipo_v_e_2,nom_v_e_2,tipo_v_e_3,nom_v_e_3,numero_ext,letra_ext,edificio,edificio_e,numero_int,letra_int,tipo_asent,nomb_asent,tipoCenCom,nom_CenCom,num_local,cod_postal,cve_ent,entidad,cve_mun,municipio,cve_loc,localidad,ageb,manzana,telefono,correoelec,www,tipoUniEco,latitud,longitud,fecha_alta
u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32
22010,22010,9242,5710,12,12,7,24,4896,22,3577,22,3389,25,3388,952,146,68,15,57,26,43,6535,13,122,47,3493,32,32,241,1024,757,3956,1769,122,6925,1943,120,2,17287,17291,17


`coalesce` nos permite asignar valores a los nulos en el orden que ponemos en la Expression:

In [19]:
polars_df.select(
    pl.concat_str([
        pl.coalesce([pl.col('nom_vial'),pl.col('tipo_vial')]),
        pl.col('numero_ext'),
        pl.coalesce([pl.col('numero_int'), pl.col('letra_int')]),
        pl.col('cod_postal'),
        pl.col('entidad'),
        pl.col('municipio'),
        pl.col('localidad'),
    ], separator=' ')
    .alias('domicilio')
).tail(15)

domicilio
str
""
""
""
"""CHABIHAU-SAN CRISANTO 0 0 97420 Yucatán Yobaín Puerto de Abrigo"""
""
""
""
"""SIN REFERENCIA 0 0 97426 Yucatán Yobaín Puerto de Abrigo"""
"""TELCHAC PUERTO A DZILAM BRAVO 0 0 97420 Yucatán Sinanché San Crisanto"""
""


`When` / `then` / `otherwise` nos permite construir lógica condicional compleja. Polars es bastante eficiente con esta Expression:

In [20]:
polars_df.select(
    pl.when(
        pl.col('numero_int') == 0
        ).then(None)
        .otherwise(pl.col('numero_int'))
        .keep_name()
    ).filter(pl.col('numero_int') != None) \
.height

159

También podemos iterar por columnas aplicando Expressions para analizar valores frecuentes:

In [21]:
cols = ['tipo_v_e_1','tipo_v_e_2','tipo_v_e_3','tipo_vial','per_ocu']
for column in cols:
    print(polars_df.groupby(column).agg(pl.count()).select([column,'count']).sort('count').tail(15))

shape: (15, 2)
┌────────────────────┬───────┐
│ tipo_v_e_1         ┆ count │
│ ---                ┆ ---   │
│ str                ┆ u32   │
╞════════════════════╪═══════╡
│ PERIFERICO         ┆ 13    │
│ CALZADA            ┆ 22    │
│ PROLONGACION       ┆ 25    │
│ null               ┆ 45    │
│ CERRADA            ┆ 60    │
│ ANDADOR            ┆ 63    │
│ PEATONAL           ┆ 88    │
│ BOULEVARD          ┆ 89    │
│ PASAJE             ┆ 217   │
│ PRIVADA            ┆ 328   │
│ CALLEJON           ┆ 354   │
│ CARRETERA          ┆ 807   │
│ AVENIDA            ┆ 835   │
│ OTRO (ESPECIFIQUE) ┆ 5988  │
│ CALLE              ┆ 13054 │
└────────────────────┴───────┘
shape: (15, 2)
┌────────────────────┬───────┐
│ tipo_v_e_2         ┆ count │
│ ---                ┆ ---   │
│ str                ┆ u32   │
╞════════════════════╪═══════╡
│ CALZADA            ┆ 14    │
│ PERIFERICO         ┆ 16    │
│ PROLONGACION       ┆ 30    │
│ null               ┆ 45    │
│ PEATONAL           ┆ 54    │
│ ANDADOR

Ahora daremos formato a la fecha y validaremos la longitud con `concat_str` y `n_chars`:

In [22]:
analisis_fecha = polars_df.with_columns(
    pl.concat_str([pl.col('fecha_alta'),pl.lit('01')], separator ='-')
) \
.with_columns(
        pl.col('fecha_alta').str.n_chars().alias('length')) \
.select(pl.col('fecha_alta'),pl.col('length'))

analisis_fecha

fecha_alta,length
str,u32
"""2010-07-01""",10
"""2010-07-01""",10
"""2010-07-01""",10
"""2010-07-01""",10
"""2010-07-01""",10
"""2010-07-01""",10
"""2010-07-01""",10
...,...
"""2019-11-01""",10
"""2010-07-01""",10


Con `value_counts` podemos revisar los valores más frecuentes (tabla de frecuencia). Como regresa un `struct`, usamos `unnest` para tener dos columnas separadas en el resultado:

In [23]:
analisis_fecha.select(pl.col('fecha_alta')
            .value_counts(sort=True)
            .alias('count_fecha')) \
        .unnest('count_fecha')

fecha_alta,counts
str,u32
"""2010-07-01""",10041
"""2019-11-01""",5464
"""2014-12-01""",5070
"""2020-11-01""",636
"""2020-04-01""",466
"""2016-01-01""",147
"""2019-04-01""",46
...,...
"""2017-11-01""",13
"""2022-11-01""",11


Hacemos algo similar con la longitud de las fechas:

In [24]:
analisis_fecha.select(pl.col('length')
            .value_counts(sort=True)
            .alias('length_fecha_alta')) \
        .unnest('length_fecha_alta')            

length,counts
u32,u32
10,22010


Analizamos ahora los números exteriores más comunes:

In [25]:
polars_df.select(
    numero_ext_count = pl.col('numero_ext').value_counts(sort=True),
).unnest('numero_ext_count')

numero_ext,counts
i64,u32
0,11349
,5342
1,727
2,151
3,103
5,91
10,80
...,...
179,1
451,1


Gerneramos listas para poder reemplazar valores inadecuados por `null`

In [26]:
string_nulls = ['CALLE',
                 'NINGUNO',
                 'OTRO (ESPECIFIQUE)',
                  'SIN REFERENCIA',
                  'SIN NOMBRE',
                  '0',
                  'SN',
                  'NULL']

number_nulls = [0]

También nos podremos apoyar de `dicts` para limpiar datos

In [27]:
employee_size_values_map = {
    '0 a 5 personas' : 1,
    '6 a 10 personas' : 2,
    '11 a 30 personas' : 3,
    '31 a 50 personas' : 4,
    '51 a 100 personas' : 5,
    '101 a 250 personas' : 6,
    '251 y más personas' : 7
} 

A varias columnas les pondremos el `dtype` adecuado una vez que limpiemos los valores `null`

In [28]:
cast_int_columns = {'registered_employees_size', 
                    'address_street_number',
                    'address_interior_number',
                    'business_building_number', 
                      }

## Pipelines
Crearemos un `pipeline` de transformaciones de datos. Para eso crearemos varias funciones:

Primero usaremos `rename` para estandarizar el formato de los nombres de las columnas y que sea más descriptivo:

In [29]:
def rename_columns(dataframe: pl.DataFrame) -> pl.DataFrame:
    '''Takes a Polars dataframe and returns it with different column names (etl column name mapping)'''
    return dataframe.rename(
        {
            'id': 'row_number',
            'clee': 'government_business_code',
            'nom_estab': 'business_name',
            'raz_social': 'tax_business_name',
            'codigo_act': 'economic_activity_code',
            'nombre_act': 'economic_activity',
            'per_ocu': 'registered_employees_size',
            'tipo_vial': 'address_street_type',
            'nom_vial': 'address_street',
            'tipo_v_e_1': 'address_reference_type_1',
            'nom_v_e_1': 'address_reference_street_1',
            'tipo_v_e_2': 'address_reference_type_2',
            'nom_v_e_2': 'address_reference_street_2',
            'tipo_v_e_3': 'address_reference_type_3',
            'nom_v_e_3': 'address_reference_street_3',
            'numero_ext': 'address_street_number',
            'letra_ext': 'address_street_number_letter',
            'edificio': 'address_building_name',
            'edificio_e': 'address_building_floor',
            'numero_int': 'address_interior_number',
            'letra_int': 'address_interior_letter',
            'tipo_asent': 'district_type',
            'nomb_asent': 'district_name',
            'tipoCenCom': 'business_building_type',
            'nom_CenCom': 'business_building_name',
            'num_local': 'business_building_number',
            'cod_postal': 'zipcode',
            'cve_ent': 'state_code',
            'entidad': 'state',
            'cve_mun': 'municipality_code',
            'municipio': 'municipality',
            'cve_loc': 'locality_code',
            'localidad': 'locality',
            'ageb': 'address_ageb',
            'manzana': 'address_block',
            'telefono': 'telephone_number',
            'correoelec': 'email',
            'www': 'website',
            'tipoUniEco': 'economic_unit_type',
            'latitud': 'latitude',
            'longitud': 'longitude',
            'fecha_alta': 'creation_date'
        }
    )

Luego usaremos `map_dict` para cambiar todos los valores de una columna por los valores del `dict` que creamos previamente:

In [30]:
def classify_employee_size(dataframe: pl.DataFrame) -> pl.DataFrame:
    '''From a Polars dataframe we classify size of employees from a string to a int according to size'''
    dataframe = dataframe.with_columns([
        pl.col('registered_employees_size').map_dict(employee_size_values_map).keep_name(),
       
    ])
    return dataframe

Luego con `to_uppercase` y `replace_all` limpiaremos las tildes. Nos apoyamos de lógica `when` / `then` / `otherwise` así como de la posibilidad de acceder a todas las columnas de un `dtype`. Esta función combina muchas de las fortalezas de Polars 🤯💪🐻‍❄️

In [31]:
def remove_accents(dataframe: pl.DataFrame) -> pl.DataFrame:
    '''From a Polars dataframe we replace special characters in all string columns'''
    types = set(dataframe.dtypes)
    types.discard(pl.Utf8)
    dataframe = dataframe.with_columns([
        pl.when(pl.col(pl.Utf8).is_not_null())
            .then(pl.col(pl.Utf8)
             .str.to_uppercase()
             .str.replace_all('Á', 'A')
             .str.replace_all('É', 'E')
             .str.replace_all('Í', 'I')
             .str.replace_all('Ó', 'O')
             .str.replace_all('Ú', 'U')
             .str.replace_all('Ü', 'U'))
        .otherwise(pl.col(types))
        .keep_name()
        ])
    return dataframe

Aplicamos una lógica similar para reemplazar valores inadecuados por nulos. `is_in` nos permite buscar eficientemente valores en listas. Finalmente, recuerda que `None` es la manera correcta de asignar `null`:

In [32]:
def standardize_nulls(dataframe: pl.DataFrame) -> pl.DataFrame:
        '''From a Polars dataframe we replace specific values with nulls in all string and numeric columns'''
        dataframe = dataframe.with_columns([
            pl.when(pl.col(pl.Utf8).is_in(string_nulls))
                .then(None)
                .otherwise(pl.col(pl.Utf8))
                .keep_name(),
            pl.when(pl.col(pl.Int64).is_in(number_nulls))
                .then(None)
                .otherwise(pl.col(pl.Int64))
                .keep_name(),
        ])
        return dataframe

Concatenaremos algunas columnas para ejemplificar este tipo de transformación:

In [33]:
def concat_address_columns(dataframe: pl.DataFrame) -> pl.DataFrame:
    '''From a Polars dataframe we concat address columns and create new fields'''
    return dataframe.with_columns([
        pl.concat_str([pl.col('address_street_type'), pl.col(
            'address_street')], separator=' ').alias('address_line_1'),
        pl.concat_str([pl.col('address_reference_type_1'), pl.col(
            'address_reference_street_1')], separator=' ').alias('address_reference_1'),
        pl.concat_str([pl.col('address_reference_type_2'), pl.col(
            'address_reference_street_2')], separator=' ').alias('address_reference_2'),
        pl.concat_str([pl.col('address_reference_type_3'), pl.col(
            'address_reference_street_3')], separator=' ').alias('address_reference_3'),
    ])

Creamos adecudamante la fecha. Como falta el día una opción es apoyarnos de `slice`y `date` para crearla.

In [34]:
def cast_dates(dataframe: pl.DataFrame) -> pl.DataFrame:
    '''From a Polars dataframe we cast dates in YYYY-mm-dd format'''
    dataframe = dataframe.with_columns (
        pl.date(
            pl.col('creation_date').str.slice(0,4).alias('year_alta'),
            pl.col('creation_date').str.slice(5,2).alias('month_alta'),
            pl.lit(1)
        ).alias('creation_date')
    )   
    return dataframe

Hacemos `cast` a `Int64` a las columnas que realmente son numéricas

In [35]:
def cast_numbers(dataframe: pl.DataFrame) -> pl.DataFrame:
    '''From a Polars dataframe we cast string columns to int columns'''
    for column in cast_int_columns:
        dataframe = dataframe.with_columns(
            pl.col(column).cast(pl.Int64, strict=False).keep_name()
        )
    return dataframe

Validaremos el formato del email con una expresión regular y `contains`

In [36]:
def check_email_format(dataframe: pl.DataFrame) -> pl.DataFrame:
    '''From a Polars dataframe we validate email format and assign null to email column if value doesn't match email pattern'''
    dataframe = dataframe.with_columns(
        pl.when(
            pl.col('email').str.contains(r"^\S+@\S+\.\S+$"))
        .then(pl.col("email"))
        .otherwise(None)        
    )
    return dataframe

Finalmente, creamos una función que aplicará todas las transformaciones en un pipeline mediante `pipe` 🧰


In [37]:
def transform(raw_data: pl.DataFrame):
    clean_data = (raw_data
                  .pipe(rename_columns)
                  .pipe(classify_employee_size)
                  .pipe(remove_accents)
                  .pipe(standardize_nulls)
                  .pipe(concat_address_columns)
                  .pipe(cast_dates)
                  .pipe(cast_numbers)
                  .pipe(check_email_format)
                  )
    return clean_data

In [38]:
clean_data = transform(polars_df)
clean_data

row_number,government_business_code,business_name,tax_business_name,economic_activity_code,economic_activity,registered_employees_size,address_street_type,address_street,address_reference_type_1,address_reference_street_1,address_reference_type_2,address_reference_street_2,address_reference_type_3,address_reference_street_3,address_street_number,address_street_number_letter,address_building_name,address_building_floor,address_interior_number,address_interior_letter,district_type,district_name,business_building_type,business_building_name,business_building_number,zipcode,state_code,state,municipality_code,municipality,locality_code,locality,address_ageb,address_block,telephone_number,email,website,economic_unit_type,latitude,longitude,creation_date,address_line_1,address_reference_1,address_reference_2,address_reference_3
i64,str,str,str,i64,str,i64,str,str,str,str,str,str,str,str,i64,str,str,str,i64,str,str,str,str,str,i64,i64,i64,str,i64,str,i64,str,str,i64,i64,str,str,str,f64,f64,date,str,str,str,str
6174829,"""20169114119001001000000000U7""","""PESCA DE CRUSTACEOS, MOLUSCOS Y OTROS PECES SIN NOMBRE""",,114119,"""PESCA Y CAPTURA DE PECES, CRUSTACEOS, MOLUSCOS Y OTRAS ESPECIES""",1,,,,,,,,,,,,,,,"""LOCALIDAD""","""BUENOS AIRES""",,,,68407,20,"""OAXACA""",169,"""SAN JOSE INDEPENDENCIA""",2,"""BUENOS AIRES""","""0030""",5,,,,"""FIJO""",18.255652,-96.614697,2010-07-01,,,,
6174806,"""20406114119000391000000000U9""","""PESCA DE CRUSTACEOS, MOLUSCOS Y OTROS PECES SIN NOMBRE""",,114119,"""PESCA Y CAPTURA DE PECES, CRUSTACEOS, MOLUSCOS Y OTRAS ESPECIES""",1,,,,,,,,,,,,,,,"""LOCALIDAD""","""LOMA ALTA""",,,,68511,20,"""OAXACA""",406,"""SANTA MARIA CHILCHOTLA""",74,"""LOMA ALTA""","""0022""",800,,,,"""FIJO""",18.313758,-96.647255,2010-07-01,,,,
6174723,"""20406114119000341000000000U4""","""PESCA DE CRUSTACEOS, MOLUSCOS Y OTROS PECES SIN NOMBRE""",,114119,"""PESCA Y CAPTURA DE PECES, CRUSTACEOS, MOLUSCOS Y OTRAS ESPECIES""",1,,,,,,,,,,,,,,,"""LOCALIDAD""","""LOMA ALTA""",,,,68511,20,"""OAXACA""",406,"""SANTA MARIA CHILCHOTLA""",74,"""LOMA ALTA""","""0022""",800,,,,"""FIJO""",18.313758,-96.647255,2010-07-01,,,,
6174722,"""20309114119000781000000000U7""","""PESCA DE CRUSTACEOS, MOLUSCOS Y OTROS PECES SIN NOMBRE""",,114119,"""PESCA Y CAPTURA DE PECES, CRUSTACEOS, MOLUSCOS Y OTRAS ESPECIES""",1,,,,,,,,,,,,,,,"""COLONIA""","""BUENA VISTA""",,,,68450,20,"""OAXACA""",309,"""SAN PEDRO IXCATLAN""",16,"""COLONIA BUENA VISTA""","""0014""",800,,,,"""FIJO""",18.136119,-96.520094,2010-07-01,,,,
6174801,"""20406114119000381000000000U0""","""PESCA DE CRUSTACEOS, MOLUSCOS Y OTROS PECES SIN NOMBRE""",,114119,"""PESCA Y CAPTURA DE PECES, CRUSTACEOS, MOLUSCOS Y OTRAS ESPECIES""",1,,,,,,,,,,,,,,,"""LOCALIDAD""","""LOMA ALTA""",,,,68511,20,"""OAXACA""",406,"""SANTA MARIA CHILCHOTLA""",74,"""LOMA ALTA""","""0022""",800,,,,"""FIJO""",18.313758,-96.647255,2010-07-01,,,,
6176111,"""20169114119000821000000000U9""","""PESCA DE CRUSTACEOS, MOLUSCOS Y OTROS PECES SIN NOMBRE""",,114119,"""PESCA Y CAPTURA DE PECES, CRUSTACEOS, MOLUSCOS Y OTRAS ESPECIES""",1,,,,,,,,,,,,,,,"""LOCALIDAD""","""CERRO LAGUNA""",,,,68407,20,"""OAXACA""",169,"""SAN JOSE INDEPENDENCIA""",5,"""EL TEPEYAC""","""0030""",800,,,,"""FIJO""",18.229444,-96.623056,2010-07-01,,,,
6176109,"""20169114119000791000000000U4""","""PESCA DE CRUSTACEOS, MOLUSCOS Y OTROS PECES SIN NOMBRE""",,114119,"""PESCA Y CAPTURA DE PECES, CRUSTACEOS, MOLUSCOS Y OTRAS ESPECIES""",1,,,,,,,,,,,,,,,"""LOCALIDAD""","""RIO LODO""",,,,68407,20,"""OAXACA""",406,"""SANTA MARIA CHILCHOTLA""",60,"""RIO LODO""","""0022""",800,,,,"""FIJO""",18.302727,-96.678663,2010-07-01,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8836024,"""31068114119000363000000000U3""","""PESCA MILAGROSA DE SINANCHE S.C. DE P. DE R.L. DE C.V.""","""PESCA MILAGROSA DE SINANCHE SC DE RL DE CV""",114119,"""PESCA Y CAPTURA DE PECES, CRUSTACEOS, MOLUSCOS Y OTRAS ESPECIES""",2,,"""TELCHAC PUERTO A DZILAM BRAVO""",,"""20""",,"""22""",,"""23""",,,,,,,"""PUEBLO""","""PUEBLO SINANCHE""",,,,97420,31,"""YUCATAN""",68,"""SINANCHE""",3,"""SAN CRISANTO""","""0040""",4,9991978480,,,"""FIJO""",21.352303,-89.173354,2019-11-01,,,,
6185359,"""31011114113000032001000000U7""","""PESCA DE SARDINA Y ANCHOVETA""",,114113,"""PESCA DE SARDINA Y ANCHOVETA""",3,,"""4""",,"""25""",,,,,,,,,,,"""COLONIA""","""PUERTO DE ABRIGO""",,,,97367,31,"""YUCATAN""",11,"""CELESTUN""",1,"""CELESTUN""","""0086""",51,9991691350,,,"""FIJO""",20.853218,-90.398651,2010-07-01,,,,


In [39]:
clean_data.schema

{'row_number': Int64,
 'government_business_code': Utf8,
 'business_name': Utf8,
 'tax_business_name': Utf8,
 'economic_activity_code': Int64,
 'economic_activity': Utf8,
 'registered_employees_size': Int64,
 'address_street_type': Utf8,
 'address_street': Utf8,
 'address_reference_type_1': Utf8,
 'address_reference_street_1': Utf8,
 'address_reference_type_2': Utf8,
 'address_reference_street_2': Utf8,
 'address_reference_type_3': Utf8,
 'address_reference_street_3': Utf8,
 'address_street_number': Int64,
 'address_street_number_letter': Utf8,
 'address_building_name': Utf8,
 'address_building_floor': Utf8,
 'address_interior_number': Int64,
 'address_interior_letter': Utf8,
 'district_type': Utf8,
 'district_name': Utf8,
 'business_building_type': Utf8,
 'business_building_name': Utf8,
 'business_building_number': Int64,
 'zipcode': Int64,
 'state_code': Int64,
 'state': Utf8,
 'municipality_code': Int64,
 'municipality': Utf8,
 'locality_code': Int64,
 'locality': Utf8,
 'address_ag

In [40]:
clean_data.filter(pl.col("email") != None ).select(pl.col('email')).head(15)

email
str
"""JOAQUINMMDZ@LIVE.COM"""
"""SANTILLANABUELO@HOTMAIL.COM"""
"""ELIZABETH27IVOON@GMIAL.COM"""
"""ELIZABETH27IVOON@GMAIL.COM"""
"""SAMIR_ORTEGA_PEREZ@HOTMAIL.COM"""
"""ELIZABETH27IVOON@GMAIL.COM"""
"""SIMONREYES@HOTMAIL.COM"""
"""FRA_RAMI_ARAGON@HOTMAIL.COM"""
"""ELENA-VANE02@HOTMAIL.COM"""
"""SANCHEZTAPIA2010@HOTMAIL.COM"""


## Ejercicios

Crea un pipeline similar para limpiar el archivo parquet de Taxis de NY. Toma en cuenta que tendrás que hacer varios casts debido a que escribimos todas las columnas como `Utf8`. Tu pipeline debe incluir:

- Renombrar columnas
- Cast correcto de todos los tipos de dato
- Corrección de valores que deben ser `nulls`
- Corrección de fechas
- Cualquier transformación que consideres sea necesaria para analizar los datos