# Data Filtering & Selection

### Loading Libraries

In [1]:
# ZipFiles
import zipfile

# Numerical Computing
import numpy as np

# Data Manipulation
import pandas as pd
import polars as pl
import polars.selectors as cs

# Data Visualization
import seaborn as sns
import matplotlib.pyplot as plt

# XGBoost
import xgboost as xgb

## Loading Data

In [2]:
# Path
path = '/Users/isisromero/desktop/polars/datasets/vehicles.csv'

In [3]:
raw = pl.read_csv(path, null_values=['NA'])

In [4]:
def tweak_auto(df):
    cols = ['year', 'make', 'model', 'displ', 'cylinders', 'trany', 
            'drive', 'VClass', 'fuelType', 'barrels08', 'city08', 'highway08', 'createdOn']
    return (df
            .select(pl.col(cols))
            .with_columns(pl.col('year').cast(pl.Int16),
                          pl.col(['cylinders', 'highway08', 'city08']).cast(pl.UInt8),
                          pl.col(['displ', 'barrels08']).cast(pl.Float32),
                          pl.col(['make', 'model', 'VClass', 'drive', 'fuelType']).cast(pl.Categorical),
                          pl.col('createdOn').str.to_datetime('%a %b %d %H:%M:%S %Z %Y'),
                          is_automatic=pl.col('trany')                    
                          .str.contains('Automatic')
                          .fill_null('Automatic'),
                          num_gears=pl.col('trany')
                          .str.extract(r'(\d+)')
                          .cast(pl.UInt8)
                          .fill_null(6))
           )

In [5]:
autos = tweak_auto(raw)

In [6]:
print(autos)

shape: (48_231, 15)
┌──────┬────────────┬──────────────┬───────┬───┬───────────┬─────────────┬─────────────┬───────────┐
│ year ┆ make       ┆ model        ┆ displ ┆ … ┆ highway08 ┆ createdOn   ┆ is_automati ┆ num_gears │
│ ---  ┆ ---        ┆ ---          ┆ ---   ┆   ┆ ---       ┆ ---         ┆ c           ┆ ---       │
│ i16  ┆ cat        ┆ cat          ┆ f32   ┆   ┆ u8        ┆ datetime[μs ┆ ---         ┆ u8        │
│      ┆            ┆              ┆       ┆   ┆           ┆ ]           ┆ str         ┆           │
╞══════╪════════════╪══════════════╪═══════╪═══╪═══════════╪═════════════╪═════════════╪═══════════╡
│ 1985 ┆ Alfa Romeo ┆ Spider       ┆ 2.0   ┆ … ┆ 25        ┆ 2013-01-01  ┆ false       ┆ 5         │
│      ┆            ┆ Veloce 2000  ┆       ┆   ┆           ┆ 00:00:00    ┆             ┆           │
│ 1985 ┆ Ferrari    ┆ Testarossa   ┆ 4.9   ┆ … ┆ 14        ┆ 2013-01-01  ┆ false       ┆ 5         │
│      ┆            ┆              ┆       ┆   ┆           ┆ 00:00:00  

### Filtering with Expressions

In [7]:
print(autos
      .filter(pl.col('city08') > 40)
     )

shape: (1_325, 15)
┌──────┬────────┬───────────┬───────┬───┬───────────┬──────────────┬──────────────┬───────────┐
│ year ┆ make   ┆ model     ┆ displ ┆ … ┆ highway08 ┆ createdOn    ┆ is_automatic ┆ num_gears │
│ ---  ┆ ---    ┆ ---       ┆ ---   ┆   ┆ ---       ┆ ---          ┆ ---          ┆ ---       │
│ i16  ┆ cat    ┆ cat       ┆ f32   ┆   ┆ u8        ┆ datetime[μs] ┆ str          ┆ u8        │
╞══════╪════════╪═══════════╪═══════╪═══╪═══════════╪══════════════╪══════════════╪═══════════╡
│ 1994 ┆ Geo    ┆ Metro XFI ┆ 1.0   ┆ … ┆ 52        ┆ 2013-01-01   ┆ false        ┆ 5         │
│      ┆        ┆           ┆       ┆   ┆           ┆ 00:00:00     ┆              ┆           │
│ 2000 ┆ Honda  ┆ Insight   ┆ 1.0   ┆ … ┆ 61        ┆ 2013-01-01   ┆ false        ┆ 5         │
│      ┆        ┆           ┆       ┆   ┆           ┆ 00:00:00     ┆              ┆           │
│ 2000 ┆ Nissan ┆ Altra EV  ┆ null  ┆ … ┆ 91        ┆ 2013-01-01   ┆ Automatic    ┆ 6         │
│      ┆        ┆    

In [8]:
print(autos
      .filter(pl.col('city08') > 40)
      .filter(pl.col('make') == 'Toyota')
     )

shape: (155, 15)
┌──────┬────────┬───────────────┬───────┬───┬───────────┬───────────────┬──────────────┬───────────┐
│ year ┆ make   ┆ model         ┆ displ ┆ … ┆ highway08 ┆ createdOn     ┆ is_automatic ┆ num_gears │
│ ---  ┆ ---    ┆ ---           ┆ ---   ┆   ┆ ---       ┆ ---           ┆ ---          ┆ ---       │
│ i16  ┆ cat    ┆ cat           ┆ f32   ┆   ┆ u8        ┆ datetime[μs]  ┆ str          ┆ u8        │
╞══════╪════════╪═══════════════╪═══════╪═══╪═══════════╪═══════════════╪══════════════╪═══════════╡
│ 2000 ┆ Toyota ┆ RAV4 EV       ┆ null  ┆ … ┆ 64        ┆ 2013-01-01    ┆ Automatic    ┆ 6         │
│      ┆        ┆               ┆       ┆   ┆           ┆ 00:00:00      ┆              ┆           │
│ 2001 ┆ Toyota ┆ Prius         ┆ 1.5   ┆ … ┆ 41        ┆ 2013-01-01    ┆ true         ┆ 6         │
│      ┆        ┆               ┆       ┆   ┆           ┆ 00:00:00      ┆              ┆           │
│ 2001 ┆ Toyota ┆ RAV4 EV       ┆ null  ┆ … ┆ 64        ┆ 2013-01-01    ┆ 

In [10]:
# Placing Multiple Conditions within Filter
print(autos
      .filter(pl.col('city08') > 40, pl.col('make') == 'Toyota')
     )

shape: (155, 15)
┌──────┬────────┬───────────────┬───────┬───┬───────────┬───────────────┬──────────────┬───────────┐
│ year ┆ make   ┆ model         ┆ displ ┆ … ┆ highway08 ┆ createdOn     ┆ is_automatic ┆ num_gears │
│ ---  ┆ ---    ┆ ---           ┆ ---   ┆   ┆ ---       ┆ ---           ┆ ---          ┆ ---       │
│ i16  ┆ cat    ┆ cat           ┆ f32   ┆   ┆ u8        ┆ datetime[μs]  ┆ str          ┆ u8        │
╞══════╪════════╪═══════════════╪═══════╪═══╪═══════════╪═══════════════╪══════════════╪═══════════╡
│ 2000 ┆ Toyota ┆ RAV4 EV       ┆ null  ┆ … ┆ 64        ┆ 2013-01-01    ┆ Automatic    ┆ 6         │
│      ┆        ┆               ┆       ┆   ┆           ┆ 00:00:00      ┆              ┆           │
│ 2001 ┆ Toyota ┆ Prius         ┆ 1.5   ┆ … ┆ 41        ┆ 2013-01-01    ┆ true         ┆ 6         │
│      ┆        ┆               ┆       ┆   ┆           ┆ 00:00:00      ┆              ┆           │
│ 2001 ┆ Toyota ┆ RAV4 EV       ┆ null  ┆ … ┆ 64        ┆ 2013-01-01    ┆ 

In [11]:
# Using Boolean Operators
print(autos
      .filter((pl.col('make') == 'Toyota') & (pl.col('city08') > 40))
     )

shape: (155, 15)
┌──────┬────────┬───────────────┬───────┬───┬───────────┬───────────────┬──────────────┬───────────┐
│ year ┆ make   ┆ model         ┆ displ ┆ … ┆ highway08 ┆ createdOn     ┆ is_automatic ┆ num_gears │
│ ---  ┆ ---    ┆ ---           ┆ ---   ┆   ┆ ---       ┆ ---           ┆ ---          ┆ ---       │
│ i16  ┆ cat    ┆ cat           ┆ f32   ┆   ┆ u8        ┆ datetime[μs]  ┆ str          ┆ u8        │
╞══════╪════════╪═══════════════╪═══════╪═══╪═══════════╪═══════════════╪══════════════╪═══════════╡
│ 2000 ┆ Toyota ┆ RAV4 EV       ┆ null  ┆ … ┆ 64        ┆ 2013-01-01    ┆ Automatic    ┆ 6         │
│      ┆        ┆               ┆       ┆   ┆           ┆ 00:00:00      ┆              ┆           │
│ 2001 ┆ Toyota ┆ Prius         ┆ 1.5   ┆ … ┆ 41        ┆ 2013-01-01    ┆ true         ┆ 6         │
│      ┆        ┆               ┆       ┆   ┆           ┆ 00:00:00      ┆              ┆           │
│ 2001 ┆ Toyota ┆ RAV4 EV       ┆ null  ┆ … ┆ 64        ┆ 2013-01-01    ┆ 

### Filtering with Keywords