## Estrazione dei dati.

Data download dei dati: 10-12-2024

Data ultimo upgrade dei dati: 22-11-2024

Sito origine dei dati: data.wa.gov

Link origine dei dati: https://catalog.data.gov/dataset/electric-vehicle-population-data

In [17]:
import polars as pl
from pathlib import Path

data_dir = Path('DATA')
data_file = ".."/ data_dir / "Electric_Vehicle_Population_Data.csv"

data = pl.read_csv(data_file)

#Breve visualizzazione dei dati
data.head()
data.describe()

statistic,VIN (1-10),County,City,State,Postal Code,Model Year,Make,Model,Electric Vehicle Type,Clean Alternative Fuel Vehicle (CAFV) Eligibility,Electric Range,Base MSRP,Legislative District,DOL Vehicle ID,Vehicle Location,Electric Utility,2020 Census Tract
str,str,str,str,str,f64,f64,str,str,str,str,f64,f64,f64,f64,str,str,f64
"""count""","""216772""","""216767""","""216767""","""216772""",216767.0,216772.0,"""216772""","""216772""","""216772""","""216772""",216753.0,216753.0,216321.0,216772.0,"""216761""","""216767""",216767.0
"""null_count""","""0""","""5""","""5""","""0""",5.0,0.0,"""0""","""0""","""0""","""0""",19.0,19.0,451.0,0.0,"""11""","""5""",5.0
"""mean""",,,,,98179.750714,2021.129039,,,,,49.428386,870.987045,28.920114,230450000.0,,,52982000000.0
"""std""",,,,,2458.320323,2.983918,,,,,86.224511,7544.671592,14.907934,70450000.0,,,1514700000.0
"""min""","""1C4JJXN60P""","""Ada""","""Aberdeen""","""AE""",1731.0,1999.0,"""ACURA""","""330E""","""Battery Electric Vehicle (BEV)""","""Clean Alternative Fuel Vehicle…",0.0,0.0,1.0,4385.0,"""POINT (-100.50078 31.4168)""","""AVISTA CORP""",1001000000.0
"""25%""",,,,,98052.0,2020.0,,,,,0.0,0.0,17.0,196232816.0,,,53033000000.0
"""50%""",,,,,98125.0,2022.0,,,,,0.0,0.0,32.0,244032309.0,,,53033000000.0
"""75%""",,,,,98374.0,2023.0,,,,,42.0,0.0,42.0,264906967.0,,,53053000000.0
"""max""","""ZHWUC1ZM1R""","""Yuba""","""Zillah""","""WY""",99577.0,2025.0,"""WHEEGO ELECTRIC CARS""","""ZDX""","""Plug-in Hybrid Electric Vehicl…","""Not eligible due to low batter…",337.0,845000.0,49.0,479254772.0,"""POINT (-98.72277 29.44539)""","""PUGET SOUND ENERGY INC||PUD NO…",56021000000.0


## Manipolazione dei dati

A seguito di un'analisi preliminare si nota che alcune colonne non risultano utili per l'analisi.

# Lista colonne da eliminare

-VIN (1-10)
-Postal Code
-Base MSRP
-Legislative District
-DOL Vehicle ID
-Electric Utility
-2020 Census Tract
-Clean Alternative Fuel Vehicle (CAFV) Eligibility

# Lista colonne che verranno utilizzate con la relativa descrizione

*La descrizione è in lingua inglese perchè è la descrizione data dal sito: data.gov*

- **Country**: This is the geographic region of a state that a vehicle's owner is listed to reside within. Vehicles registered in Washington state may be located in other states.
-  **City**: The city in which the registered owner resides.
- **State**: This is the geographic region of the country associated with the record. These addresses may be located in other states.
- **Model Year**: The model year of the vehicle.
- **Make**: The manufacturer of the vehicle.
- **Model**: The model of the vehicle.
- **Electric Vehicle Type**: This distinguishes the vehicle as all electric or a plug-in hybrid.
- **Electric Range**: Describes how far a vehicle can travel purely on its electric charge.
- **Vehicle Location**: The center of the ZIP Code for the registered vehicle.
- **Base MSRP**: This is the lowest Manufacturer's Suggested Retail Price (MSRP) for any trim level of the model in question.

**Nota Bene**
I dato arrivano al 2025 a causa di alcuni preordini.

In [18]:
data = data.select(pl.exclude(['VIN (1-10)','Postal Code','Legislative District','DOL Vehicle ID','Electric Utility','2020 Census Tract','Clean Alternative Fuel Vehicle (CAFV) Eligibility']))
data.describe()



statistic,County,City,State,Model Year,Make,Model,Electric Vehicle Type,Electric Range,Base MSRP,Vehicle Location
str,str,str,str,f64,str,str,str,f64,f64,str
"""count""","""216767""","""216767""","""216772""",216772.0,"""216772""","""216772""","""216772""",216753.0,216753.0,"""216761"""
"""null_count""","""5""","""5""","""0""",0.0,"""0""","""0""","""0""",19.0,19.0,"""11"""
"""mean""",,,,2021.129039,,,,49.428386,870.987045,
"""std""",,,,2.983918,,,,86.224511,7544.671592,
"""min""","""Ada""","""Aberdeen""","""AE""",1999.0,"""ACURA""","""330E""","""Battery Electric Vehicle (BEV)""",0.0,0.0,"""POINT (-100.50078 31.4168)"""
"""25%""",,,,2020.0,,,,0.0,0.0,
"""50%""",,,,2022.0,,,,0.0,0.0,
"""75%""",,,,2023.0,,,,42.0,0.0,
"""max""","""Yuba""","""Zillah""","""WY""",2025.0,"""WHEEGO ELECTRIC CARS""","""ZDX""","""Plug-in Hybrid Electric Vehicl…",337.0,845000.0,"""POINT (-98.72277 29.44539)"""


In [19]:
data = data.drop_nulls()

## Obiettivi dell'analisi

Gli obiettivi sono quelli di eseguire un'analisi completa sul dataset cercando di mostrare graficamente le informazioni che riguardano la vendita di auto elettriche, in base a determinate categorie. 

Per semplicità quando si analizzano entrambe le tipologie di vetture verrà usato il termine 'auto', invece se si fa riferimento solo ad una categoria delle due verranno usati i termini 'BEV' o 'PHEV'.

# Vendita annuale di auto BEV/PHEV

In [20]:

(
    data
    .group_by('Model Year')
    .agg(
        tot_per_year = pl.col('Model Year').count()
    )
    .sort(pl.col('Model Year'))
)

Model Year,tot_per_year
i64,u32
1999,2
2000,7
2002,2
2003,1
2008,23
…,…
2021,20074
2022,28592
2023,60292
2024,40102


Si nota come nei primi anni il numero di auto vendute è molto basso, quindi per semplicità si prenderanno i dati a partire dal 2011.

In [21]:
data = (
    data
    .filter(pl.col('Model Year')>2010)
)
# salvataggio dei dati nel file data.csv 
data.write_csv( ".."/ data_dir / "data.csv")

## Vendita di auto per marca

In [22]:
(
    data
    .group_by('Make')
    .agg(
        Vendita_per_marca = pl.col('Make').count()
    )
    .sort('Vendita_per_marca', descending = True)
)

Make,Vendita_per_marca
str,u32
"""TESLA""",93883
"""CHEVROLET""",15862
"""NISSAN""",15011
"""FORD""",11477
"""KIA""",10089
…,…
"""TH!NK""",5
"""AZURE DYNAMICS""",4
"""ROLLS-ROYCE""",3
"""RAM""",2


Si nota che alcuni marchi hanno un numero di vendite quasi pari a 0, quindi guardo la percentuale totale di auto vendute per ogni produttore. 

Per semplicità di analisi grafica, si vedranno solo le auto che hanno una percentuale di auto vendute nel dataset inferiore al 0.5%.

In [23]:
import altair as alt

data_test = (
        data
        .group_by('Make')
        .agg(
            Vendita_per_marca = (pl.col('Make').count() / len(data)*100).round(3)
        )
        .filter(pl.col('Vendita_per_marca') < .5)
    )
    
base = (
    alt.Chart(data_test)
    .encode(
        x='Vendita_per_marca:Q',
        y=alt.Y('Make:N', sort='-x'),
        color=alt.Color('Vendita_per_marca:Q', scale=alt.Scale(scheme='oranges'))
    )
)

base.mark_bar()

Dal grafico notiamo come ci sia una differenza signficativa tra un gruppo di auto e un altro. Quindi scelgo come soglia di esclusione dall'analisi per marca il numero 0.25%. 

In [24]:
(
    data
    .group_by('Make')
    .agg(
        Vendita_per_marca = (pl.col('Make').count() / len(data)*100).round(3)
    )
    .filter(pl.col('Vendita_per_marca') < .25)
    .sort('Vendita_per_marca', descending = True)
)

Make,Vendita_per_marca
str,f64
"""LINCOLN""",0.148
"""LUCID""",0.146
"""GENESIS""",0.137
"""SMART""",0.113
"""JAGUAR""",0.109
…,…
"""TH!NK""",0.002
"""AZURE DYNAMICS""",0.002
"""RAM""",0.001
"""ROLLS-ROYCE""",0.001


## Vendita di auto per contea

In [25]:
Total_County = (
    data
    .group_by('County')
    .agg(
        Total = pl.col('County').count()
    )
    .sort('Total', descending= True)
)

Total_County

County,Total
str,u32
"""King""",110122
"""Snohomish""",26195
"""Pierce""",17392
"""Clark""",12937
"""Thurston""",7936
…,…
"""Wasco""",1
"""Clackamas""",1
"""Spotsylvania""",1
"""Palm Beach""",1


Risulta utile verificare la percentuale di auto immatricolate in base alla contea, così da avere un'idea più chiara di come si distribuiscono le auto rispetto al territorio.

In [26]:
num_car = len(data)

perc_county = (
    data
    .group_by('County')
    .agg(
        Total = (pl.col('County').count()/num_car*100).round(3)
    )
    .sort('Total', descending= True)
)

perc_county

County,Total
str,f64
"""King""",50.822
"""Snohomish""",12.089
"""Pierce""",8.026
"""Clark""",5.97
"""Thurston""",3.662
…,…
"""Lane""",0.0
"""Atlantic""",0.0
"""Houston""",0.0
"""Tooele""",0.0


Analizzando la combinazione tra contea e numero di auto vendute per contea, si nota come ci siano enormi differenze tra le contee. Si nota come le contee vicine a Seattle e Portland(si intendono le contee confinanti con lo stato dell'Oregon) abbiano un numero di auto vendute significativo rispetto alle altre contee. 

A causa di questo, in seguito si andrà ad analizzare questo dato in base alla localizzazione geografica e non alla contea.

## Vendita di auto in base alla localizzazione

Per eseguire questa analisi, verifichiamo i dati che sono presenti nella colonna *Vehicle Location*. 

Questi dati poi verranno usati per creare una mappa 3d in cui si vede dove sono state immatricolate le auto nello stato di Washington.

In [27]:
import re
import pandas as pd

data_point = (
    data
    .select(pl.col('Vehicle Location'))
)

#Si nota che è di tipo str
print(f'Tipologia del dato :{data_point[0]}')

#Creiamo una lista contenente tuple  ('longitue','latitude'): (float, float)
coord_list = []
for row in data_point.rows():
    if row[0] is not None:
        numb = re.findall(r'-?\d+\.\d+|-?\d+', row[0])
        coord = (float(numb[0]), float(numb[1]))
        coord_list.append(coord)

#verifichiamo la lunghezza della lista
print(f'Lunghezza della lista coord_list: {len(coord_list)}')

#verifichiamo i primi 5 elementi di coord_list

print('Tipologia e dato di coord_list')
for i in range(5):
    print(f'Tipo: {type(coord_list[i])} Dato:{coord_list[i]}')

Tipologia del dato :shape: (1, 1)
┌─────────────────────────────┐
│ Vehicle Location            │
│ ---                         │
│ str                         │
╞═════════════════════════════╡
│ POINT (-122.36498 47.72238) │
└─────────────────────────────┘
Lunghezza della lista coord_list: 216683
Tipologia e dato di coord_list
Tipo: <class 'tuple'> Dato:(-122.36498, 47.72238)
Tipo: <class 'tuple'> Dato:(-122.30207, 47.64085)
Tipo: <class 'tuple'> Dato:(-122.54729, 47.42602)
Tipo: <class 'tuple'> Dato:(-122.89166, 47.03956)
Tipo: <class 'tuple'> Dato:(-122.87741, 47.05997)


## Vendita di auto in base a produttore e anno

In [28]:
(
    data
    .group_by('Make', 'Model Year')
    .agg(
        Vendita_per_marca = pl.col('Make').count()
    )
)

Make,Model Year,Vendita_per_marca
str,i64,u32
"""TOYOTA""",2018,677
"""TOYOTA""",2014,227
"""KIA""",2023,2566
"""RIVIAN""",2022,1298
"""NISSAN""",2019,1366
…,…,…
"""KIA""",2025,109
"""TESLA""",2019,4562
"""MINI""",2024,247
"""FIAT""",2016,137


## Vendita di auto in base a tipologia di motore e produttore

In [29]:
(
    data
    .group_by('Make', 'Electric Vehicle Type')
    .agg(
        Engine = pl.col('Electric Vehicle Type').count()
    )
)

Make,Electric Vehicle Type,Engine
str,str,u32
"""HONDA""","""Plug-in Hybrid Electric Vehicl…",870
"""CADILLAC""","""Plug-in Hybrid Electric Vehicl…",95
"""BMW""","""Battery Electric Vehicle (BEV)""",3387
"""PORSCHE""","""Battery Electric Vehicle (BEV)""",744
"""HYUNDAI""","""Battery Electric Vehicle (BEV)""",5385
…,…,…
"""FIAT""","""Battery Electric Vehicle (BEV)""",813
"""CHEVROLET""","""Plug-in Hybrid Electric Vehicl…",4809
"""FORD""","""Plug-in Hybrid Electric Vehicl…",3708
"""TOYOTA""","""Battery Electric Vehicle (BEV)""",1115


## Ventita annuale di auto in base al modello e marca

Per semplificare il layout del grafico a seguito di un'analisi è stato deciso di eliminare i modelli dei produttori che hanno venduto meno di 15 auto all'anno.

In [30]:
(
    data
    .group_by('Make', 'Model', 'Model Year')
    .agg(
        Total = pl.col('Model').count()
    )
    .filter(pl.col('Total') >= 15)
    .sort([pl.col('Model Year'),pl.col('Total')], descending=False)
)

Make,Model,Model Year,Total
str,str,i64,u32
"""CHEVROLET""","""VOLT""",2011,73
"""NISSAN""","""LEAF""",2011,610
"""MITSUBISHI""","""I-MIEV""",2012,40
"""TESLA""","""MODEL S""",2012,128
"""TOYOTA""","""PRIUS PLUG-IN""",2012,368
…,…,…,…
"""VOLVO""","""XC60""",2025,95
"""BMW""","""IX""",2025,112
"""NISSAN""","""LEAF""",2025,139
"""BMW""","""X5""",2025,189


## Analisi su prestazioni e costi delle auto 
Analisi esplorativa su prestazioni e costi. 

Si vede inizialmente se tutti i dati del dataset dispongono delle informazioni su prestazioni e costi

In [31]:
data.describe()

statistic,County,City,State,Model Year,Make,Model,Electric Vehicle Type,Electric Range,Base MSRP,Vehicle Location
str,str,str,str,f64,str,str,str,f64,f64,str
"""count""","""216683""","""216683""","""216683""",216683.0,"""216683""","""216683""","""216683""",216683.0,216683.0,"""216683"""
"""null_count""","""0""","""0""","""0""",0.0,"""0""","""0""","""0""",0.0,0.0,"""0"""
"""mean""",,,,2021.132636,,,,49.391009,849.617044,
"""std""",,,,2.974965,,,,86.198317,7399.818083,
"""min""","""Ada""","""Aberdeen""","""AK""",2011.0,"""ACURA""","""330E""","""Battery Electric Vehicle (BEV)""",0.0,0.0,"""POINT (-100.50078 31.4168)"""
"""25%""",,,,2020.0,,,,0.0,0.0,
"""50%""",,,,2022.0,,,,0.0,0.0,
"""75%""",,,,2023.0,,,,42.0,0.0,
"""max""","""Yuba""","""Zillah""","""WY""",2025.0,"""VOLVO""","""ZDX""","""Plug-in Hybrid Electric Vehicl…",337.0,845000.0,"""POINT (-98.72277 29.44539)"""


Le colonne interessanti da analizzare sono: 
- Electric Vehicle Type
- Electric Range
- Base MSRP

# Analisi Electric Vehicle Type

In [55]:
data_ER = (
    data
    .filter(pl.col('Electric Range') > 0)
)

data_ER.describe()

statistic,County,City,State,Model Year,Make,Model,Electric Vehicle Type,Electric Range,Base MSRP,Vehicle Location
str,str,str,str,f64,str,str,str,f64,f64,str
"""count""","""92587""","""92587""","""92587""",92587.0,"""92587""","""92587""","""92587""",92587.0,92587.0,"""92587"""
"""null_count""","""0""","""0""","""0""",0.0,"""0""","""0""","""0""",0.0,0.0,"""0"""
"""mean""",,,,2018.869453,,,,115.590655,1988.373854,
"""std""",,,,3.240357,,,,98.67561,11219.89275,
"""min""","""Adams""","""Aberdeen""","""AL""",2011.0,"""ALFA ROMEO""","""330E""","""Battery Electric Vehicle (BEV)""",6.0,0.0,"""POINT (-100.50078 31.4168)"""
"""25%""",,,,2017.0,,,,30.0,0.0,
"""50%""",,,,2019.0,,,,73.0,0.0,
"""75%""",,,,2021.0,,,,215.0,0.0,
"""max""","""Yakima""","""Zillah""","""WI""",2025.0,"""VOLVO""","""XM""","""Plug-in Hybrid Electric Vehicl…",337.0,845000.0,"""POINT (-98.52212 29.61445)"""


Si nota che solo **92587** solo le righe che hanno il dato Electric Range maggiore di 0. Per eseguire l'analisi si consideranno solo i record che hanno dati positivi. 

# Distribuzione Electric Range per tipologia di motore

In [137]:
data_ER_EN = (
    data
    .select('Electric Vehicle Type', 'Electric Range')
    .filter(pl.col('Electric Range') > 0)
)

data_ER_EN = (
    data_ER_EN
    .group_by('Electric Vehicle Type', 'Electric Range')
    .agg(
        Count = pl.col('Electric Range').count()
    )
    .sort(pl.col('Electric Range'))
)

data_ER_EN = data_ER_EN.with_columns(
        pl.col('Electric Vehicle Type').replace({
            'Plug-in Hybrid Electric Vehicle (PHEV)': 'PHEV',
            'Battery Electric Vehicle (BEV)': 'BEV'
        })
    )

In [138]:
base = (
    alt.Chart(data_ER_EN)
    .encode(
        x = ('Electric Range:Q'),
        y = alt.Y('Count:Q'),
        color= alt.Color('Electric Vehicle Type:N', scale=alt.Scale(scheme='oranges'))
    )
)

base.mark_bar(cornerRadiusTopLeft=3, cornerRadiusTopRight=3)

Come facilmente ipotizzabile, le auto di tipologia PHEV hanno un'autonomia in solo elettrico minore rispetto alle auto BEV. 

# Autonomia in elettrico rispetto al produttore

In [139]:
data_range_prod = (
    data
    .select('Make', 'Electric Range', 'Electric Vehicle Type')
    .filter(pl.col('Electric Range') > 0 )
)
data_range_prod = data_range_prod.with_columns(
        pl.col('Electric Vehicle Type').replace({
            'Plug-in Hybrid Electric Vehicle (PHEV)': 'PHEV',
            'Battery Electric Vehicle (BEV)': 'BEV'
        })
    )
print(data_range_prod)

shape: (92_587, 3)
┌───────────┬────────────────┬───────────────────────┐
│ Make      ┆ Electric Range ┆ Electric Vehicle Type │
│ ---       ┆ ---            ┆ ---                   │
│ str       ┆ i64            ┆ str                   │
╞═══════════╪════════════════╪═══════════════════════╡
│ NISSAN    ┆ 75             ┆ BEV                   │
│ TESLA     ┆ 270            ┆ BEV                   │
│ TOYOTA    ┆ 25             ┆ PHEV                  │
│ FORD      ┆ 19             ┆ PHEV                  │
│ TESLA     ┆ 266            ┆ BEV                   │
│ …         ┆ …              ┆ …                     │
│ CHRYSLER  ┆ 32             ┆ PHEV                  │
│ CHEVROLET ┆ 259            ┆ BEV                   │
│ CHEVROLET ┆ 38             ┆ PHEV                  │
│ KIA       ┆ 33             ┆ PHEV                  │
│ CHEVROLET ┆ 38             ┆ PHEV                  │
└───────────┴────────────────┴───────────────────────┘


In [140]:
data_violin_graph=(
    data_range_prod
    .group_by('Make','Electric Range', )
    .agg(
        Count = pl.col('Electric Range').count()
    )
    .sort('Make')
)

print(data_violin_graph)

shape: (178, 3)
┌────────────┬────────────────┬───────┐
│ Make       ┆ Electric Range ┆ Count │
│ ---        ┆ ---            ┆ ---   │
│ str        ┆ i64            ┆ u32   │
╞════════════╪════════════════╪═══════╡
│ ALFA ROMEO ┆ 33             ┆ 90    │
│ AUDI       ┆ 20             ┆ 226   │
│ AUDI       ┆ 218            ┆ 73    │
│ AUDI       ┆ 204            ┆ 512   │
│ AUDI       ┆ 19             ┆ 11    │
│ …          ┆ …              ┆ …     │
│ VOLVO      ┆ 21             ┆ 30    │
│ VOLVO      ┆ 32             ┆ 608   │
│ VOLVO      ┆ 13             ┆ 111   │
│ VOLVO      ┆ 41             ┆ 162   │
│ VOLVO      ┆ 38             ┆ 8     │
└────────────┴────────────────┴───────┘


Per creare dei grafici con una buona quantità di dati eseguaiamo un controllo sul numero di dati disponibili

In [141]:
data_test_violin = (
    data_range_prod
    .group_by('Make')
    .agg(
        Count = pl.col('Make').count()/data_range_prod.height*100
    )
    .filter(pl.col('Count') < 5)
    .sort(pl.col('Count'))
)

base = (
    alt.Chart(data_test_violin)
    .encode(
        x='Count:Q',
        y=alt.Y('Make:N', sort='-x'),
        color=alt.Color('Count:Q', scale=alt.Scale(scheme='oranges'))
    )
)

base.mark_bar()

#print(data_test_violin)

Scegliamo di eliminare i produttori che hanno venduto meno di MERCEDES-BENZ.

In [142]:
data_range_prod

Make,Electric Range,Electric Vehicle Type
str,i64,str
"""NISSAN""",75,"""BEV"""
"""TESLA""",270,"""BEV"""
"""TOYOTA""",25,"""PHEV"""
"""FORD""",19,"""PHEV"""
"""TESLA""",266,"""BEV"""
…,…,…
"""CHRYSLER""",32,"""PHEV"""
"""CHEVROLET""",259,"""BEV"""
"""CHEVROLET""",38,"""PHEV"""
"""KIA""",33,"""PHEV"""


In [143]:
make_list = (
    data_range_prod
    .group_by('Make')
    .agg(
        Count = pl.col('Make').count()/data_range_prod.height*100
    )
    .filter(pl.col('Count') > 0.5)
)


make_list = make_list['Make'].unique().sort().to_list()

make_list


['AUDI',
 'BMW',
 'CHEVROLET',
 'CHRYSLER',
 'DODGE',
 'FIAT',
 'FORD',
 'HONDA',
 'HYUNDAI',
 'JEEP',
 'KIA',
 'MAZDA',
 'MERCEDES-BENZ',
 'MITSUBISHI',
 'NISSAN',
 'PORSCHE',
 'TESLA',
 'TOYOTA',
 'VOLKSWAGEN',
 'VOLVO']

In [None]:
data_violin_graph = (
    data_violin_graph
    .filter(pl.col('Make').is_in())
)

data_violin_graph.describe()

statistic,Make,Electric Range,Count
str,str,f64,f64
"""count""","""148""",148.0,148.0
"""null_count""","""0""",0.0,0.0
"""mean""",,82.925676,611.682432
"""std""",,89.470026,940.312873
"""min""","""AUDI""",6.0,1.0
"""25%""",,21.0,71.0
"""50%""",,37.0,234.0
"""75%""",,111.0,697.0
"""max""","""VOLVO""",337.0,6097.0


In [145]:


alt.data_transformers.disable_max_rows()

base = (
    alt.Chart(data_violin_graph)
    .encode(
        alt.X('Count:Q')
            .stack('center')
            .impute(None)
            .title(None)
            .axis(labels = False, values = [0], grid = False, ticks = True),
        alt.Y('Electric Range:Q'),    
        alt.Color('Make:N'),
        alt.Column('Make:N')
            .spacing(0)
            .header(titleOrient='bottom', labelOrient='bottom', labelPadding=0)
    )
    .configure_view(
        stroke = None
    )
)

base.mark_area(orient='horizontal')

Con questa visualizzazione non si ha una visuale chiara dei dati. 
Proviamo con un tipo diverso di grafico

In [179]:
bar = (
    alt.Chart(data_violin_graph)
    .mark_bar(cornerRadius=10, height=10)
    .encode(
        x = alt.X('min(Electric Range):Q').scale(domain=[-15, 350]).title('Electric Range'),
        x2 = 'max(Electric Range):Q',
        y = alt.Y('Make:N', sort = '-x').title(None),
    )
)

text_min = (
    alt.Chart(data_violin_graph)
    .mark_text(align='right', dx = -5)
    .encode(
        x = 'min(Electric Range):Q',
        y = alt.Y('Make:N'),
        text = 'min(Electric Range):Q'
    )
)

text_max = (
    alt.Chart(data_violin_graph)
    .mark_text(align='left', dx = 5)
    .encode(
        x = 'max(Electric Range):Q',
        y = alt.Y('Make:N'),
        text = 'max(Electric Range):Q'
    )
)

(bar + text_min + text_max).properties(
    title = alt.Title(text = 'Electric Range')
)

In [178]:
filtered_data = (
    data_violin_graph
    .group_by("Make")
    .agg([
        pl.col("Electric Range").max().alias("max_Electric_Range"),
        pl.col("Electric Range").min().alias("min_Electric_Range"),
    ])
    .filter((pl.col("max_Electric_Range") - pl.col("min_Electric_Range")) < 5)
)

filter_list = filtered_data['Make'].unique().sort().to_list()

filter_list

data_violin_graph = (
    data_violin_graph
    .filter(pl.col('Make').is_in(list(set(make_list) - set(filter_list))))
)