In [1]:
# explore the creeping up of vehicle sizes, per models
import pandas as pd
import seaborn as sns
from vehicles import *
from dicts import *


In [2]:
# read detailed tech specs on each model
# source: https://data.gov.il/dataset/degem-rechev-wltp
models = read_file_helper(datadir + 'models.csv', enc='utf-8', low_memory=False)
stringify_cols(models)
add_model(models)
convert_make(models)

In [6]:
models['make_eng'] = models['make'].map(lambda x: make_heb_to_eng.get(x, x))
models['fuel'] = models['delek_nm'].map(lambda x: fuel_heb_to_eng.get(x, x))
models['tech'] = models['technologiat_hanaa_nm'].map(lambda x: technology_heb_to_eng.get(x, x))

models['tech'].unique().tolist()

['ICE', 'PHEV', 'lectric', 'Hybrid']

In [7]:
models['body_style'] = models['merkav'].map(body_style_heb_to_eng)

In [8]:
# read quantities of each model on the road
# source: https://data.gov.il/dataset/degem-rechev-wltp
qtys = read_file_helper(datadir + 'kamuyot.csv')
stringify_cols(qtys)
add_model(qtys)

In [9]:
df = models.merge(qtys, how='left', left_on='model', right_on='model', suffixes=('', '_y'))

In [10]:
df.columns

Index(['sug_degem', 'tozeret_cd', 'tozeret_nm', 'tozeret_eretz_nm', 'tozar',
       'degem_cd', 'degem_nm', 'shnat_yitzur', 'kvuzat_agra_cd', 'nefah_manoa',
       ...
       'tozeret_cd_y', 'tozeret_nm_y', 'tozeret_eretz_nm_y', 'tozar_y',
       'degem_cd_y', 'degem_nm_y', 'shnat_yitzur_y', 'mispar_rechavim_pailim',
       'mispar_rechavim_le_pailim', 'kinuy_mishari_y'],
      dtype='object', length=110)

In [11]:
df.sort_values(by='mispar_rechavim_pailim', ascending=False)

Unnamed: 0,sug_degem,tozeret_cd,tozeret_nm,tozeret_eretz_nm,tozar,degem_cd,degem_nm,shnat_yitzur,kvuzat_agra_cd,nefah_manoa,...,tozeret_cd_y,tozeret_nm_y,tozeret_eretz_nm_y,tozar_y,degem_cd_y,degem_nm_y,shnat_yitzur_y,mispar_rechavim_pailim,mispar_rechavim_le_pailim,kinuy_mishari_y
38466,P,588,מזדה יפן,יפן,מזדה,292,BK12Z,2008,2,1598,...,588,מזדה יפן,יפן,מזדה,292,BK12Z,2008,16720,9439,MAZDA 3
81156,P,1014,בי ווי די,סין,בי ווי די,4,SC2E-SC2E,2023,4,0,...,1014,בי ווי די,סין,בי ווי די,4,SC2E-SC2E,2023,10492,35,ATTO 3
34704,P,481,יונדאי קוריאה,קוריאה הדרומית,יונדאי,246,C751C,2021,3,1580,...,481,יונדאי קוריאה,קוריאה הדרומית,יונדאי,246,C751C,2021,10421,291,IONIQ HYBRID
38729,P,588,מזדה יפן,יפן,מזדה,431,BL12Z,2010,3,1598,...,588,מזדה יפן,יפן,מזדה,431,BL12Z,2010,10108,2555,MAZDA 3
31799,P,413,טויוטה יפן,יפן,טויוטה,641,ZRE151L-AEGDKW,2008,2,1598,...,413,טויוטה יפן,יפן,טויוטה,641,ZRE151L-AEGDKW,2008,9055,4547,COROLLA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
40171,P,593,מרצדס בנץ גרמנ,גרמניה,מרצדס,212,212.034,2015,7,1991,...,593,מרצדס בנץ גרמנ,גרמניה,מרצדס,212,212.034,2015,0,0,E200
40172,P,593,מרצדס בנץ גרמנ,גרמניה,מרצדס,213,212.036,2013,7,1991,...,593,מרצדס בנץ גרמנ,גרמניה,מרצדס,213,212.036,2013,0,0,E250
40183,P,593,מרצדס בנץ גרמנ,גרמניה,מרצדס,216,212.055,2013,7,3498,...,593,מרצדס בנץ גרמנ,גרמניה,מרצדס,216,212.055,2013,0,0,E300
40186,P,593,מרצדס בנץ גרמנ,גרמניה,מרצדס,217,212.055,2013,7,3498,...,593,מרצדס בנץ גרמנ,גרמניה,מרצדס,217,212.055,2013,0,0,E300


In [9]:
df.columns.to_list()

['sug_degem',
 'tozeret_cd',
 'tozeret_nm',
 'tozeret_eretz_nm',
 'tozar',
 'degem_cd',
 'degem_nm',
 'shnat_yitzur',
 'kvuzat_agra_cd',
 'nefah_manoa',
 'mishkal_kolel',
 'gova',
 'hanaa_cd',
 'hanaa_nm',
 'mazgan_ind',
 'abs_ind',
 'kariot_avir_source',
 'mispar_kariot_avir',
 'hege_koah_ind',
 'automatic_ind',
 'halonot_hashmal_source',
 'mispar_halonot_hashmal',
 'halon_bagg_ind',
 'galgaley_sagsoget_kala_ind',
 'argaz_ind',
 'merkav',
 'ramat_gimur',
 'delek_cd',
 'delek_nm',
 'mispar_dlatot',
 'koah_sus',
 'mispar_moshavim',
 'bakarat_yatzivut_ind',
 'kosher_grira_im_blamim',
 'kosher_grira_bli_blamim',
 'sug_tkina_cd',
 'sug_tkina_nm',
 'sug_mamir_cd',
 'sug_mamir_nm',
 'technologiat_hanaa_cd',
 'technologiat_hanaa_nm',
 'kamut_CO2',
 'kamut_NOX',
 'kamut_PM10',
 'kamut_HC',
 'kamut_HC_NOX',
 'kamut_CO',
 'kamut_CO2_city',
 'kamut_NOX_city',
 'kamut_PM10_city',
 'kamut_HC_city',
 'kamut_CO_city',
 'kamut_CO2_hway',
 'kamut_NOX_hway',
 'kamut_PM10_hway',
 'kamut_HC_hway',
 'kamut

In [12]:
cols =['make_eng', 'kinuy_mishari', 'shnat_yitzur', 'body_style', 'nefah_manoa', 'mishkal_kolel', 'gova',  'mispar_dlatot', 'koah_sus', 'mispar_moshavim', 'sug_degem', 'tozeret_nm', 'degem_nm', 'kvuzat_agra_cd', 'hanaa_nm', 'tech', 'kvutzat_zihum', 'mispar_rechavim_pailim', 'fuel']

In [13]:
df.sort_values(by='mispar_rechavim_pailim', ascending=False)[cols].head(100).to_csv(datadir +'dgamim.csv', index=False, encoding='utf-8')

In [57]:
x = df.sort_values(by='mispar_rechavim_pailim', ascending=False)[cols]
x.iloc[10].to_dict

<bound method Series.to_dict of kinuy_mishari                MAZDA 3
shnat_yitzur                    2011
merkav                          סדאן
nefah_manoa                     1598
mishkal_kolel                   1277
gova                             NaN
mispar_dlatot                      4
koah_sus                         105
mispar_moshavim                    5
sug_degem                          P
tozeret_nm                  מזדה יפן
degem_nm                       BLA2Z
kvuzat_agra_cd                     3
hanaa_nm                         4X2
technologiat_hanaa_nm     הנעה רגילה
kvutzat_zihum                   15.0
mispar_rechavim_pailim          7322
Name: 38772, dtype: object>

In [94]:
# group df by kinuy_mishari, and compute the mean and variance of mishkal_kolel for each group
grouped = df.query("mispar_rechavim_pailim > 2500").groupby(["kinuy_mishari", 'merkav'])
result = grouped["mishkal_kolel"].agg(['mean', 'var', 'count'])
result = result.rename(columns={"mean": "mean_mishkal_kolel", "var": "variance_mishkal_kolel", "count": "count_mishkal_kolel"}).reset_index()
result = result.query("count_mishkal_kolel > 1")
result['norm_var'] = result['variance_mishkal_kolel'] / result['mean_mishkal_kolel']
high_var_models = result.sort_values(by='norm_var', ascending=False).head(6)[['kinuy_mishari', 'merkav', 'norm_var']]

In [95]:
high_var_models

Unnamed: 0,kinuy_mishari,merkav,norm_var
31,MAZDA 2,הצ'בק,51.830467
32,MAZDA 3,סדאן,35.782818
51,SPORTAGE,פנאי-שטח,1.256158
23,I20,הצ'בק,1.082397
8,COROLLA,סדאן,0.98924
39,OCTAVIA,סדאן,0.438356


In [98]:
df.merge(how='inner', right=high_var_models, on=['kinuy_mishari', 'merkav']).query('mispar_rechavim_pailim > 1500').sort_values(by=['kinuy_mishari', 'merkav', 'shnat_yitzur'])[cols]

Unnamed: 0,kinuy_mishari,shnat_yitzur,merkav,nefah_manoa,mishkal_kolel,gova,mispar_dlatot,koah_sus,mispar_moshavim,sug_degem,tozeret_nm,degem_nm,kvuzat_agra_cd,hanaa_nm,technologiat_hanaa_nm,kvutzat_zihum,mispar_rechavim_pailim
412,COROLLA,2001,סדאן,1598,1170,,4,110,5,P,טויוטה יפן,ZZE112L-AEPNKW,3,4X2,הנעה רגילה,,1542
503,COROLLA,2003,סדאן,1598,1670,,4,110,5,P,טויוטה טורקיה,ZZE121L-DEPNKW,3,4X2,הנעה רגילה,,2654
504,COROLLA,2004,סדאן,1598,1670,,4,110,5,P,טויוטה טורקיה,ZZE121L-DEPNKW,3,4X2,הנעה רגילה,,2681
517,COROLLA,2004,סדאן,1598,1670,,4,110,5,P,טויוטה טורקיה,ZZE121L-DEPDKW,2,4X2,הנעה רגילה,,1735
423,COROLLA,2005,סדאן,1598,1670,,4,110,5,P,טויוטה יפן,ZZE121L-AEPNKW,3,4X2,הנעה רגילה,,2343
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
143,SPORTAGE,2019,פנאי-שטח,1598,2145,,5,136,5,P,קיה סלובקיה,PG812G,4,4X2,הנעה רגילה,14.0,2424
144,SPORTAGE,2020,פנאי-שטח,1598,2145,,5,136,5,P,קיה סלובקיה,PG812G,4,4X2,הנעה רגילה,14.0,1505
174,SPORTAGE,2021,פנאי-שטח,1598,2145,,5,136,5,P,קיה סלובקיה,PG812G,4,4X2,הנעה רגילה,14.0,2387
204,SPORTAGE,2022,פנאי-שטח,1999,2030,,5,156,5,P,קיה סלובקיה,PU81DB,4,4X2,הנעה רגילה,15.0,1544


In [78]:
kinuy = 'MAZDA 3'
merkav = 'סדאן'
kinuy = 'SPORTAGE'
merkav = 'פנאי-שטח'
kinuy = 'COROLLA'
kinuy = 'TUCSON'
df.query("kinuy_mishari == @kinuy and merkav == @merkav and mispar_rechavim_pailim > 2000")[cols]

Unnamed: 0,kinuy_mishari,shnat_yitzur,merkav,nefah_manoa,mishkal_kolel,gova,mispar_dlatot,koah_sus,mispar_moshavim,sug_degem,tozeret_nm,degem_nm,kvuzat_agra_cd,hanaa_nm,technologiat_hanaa_nm,kvutzat_zihum,mispar_rechavim_pailim
24565,TUCSON,2016,פנאי-שטח,1999,2060,,5,155,5,P,יונדאי צ'כיה,J3813,5,4X2,הנעה רגילה,15.0,2114
24566,TUCSON,2017,פנאי-שטח,1999,2060,,5,155,5,P,יונדאי צ'כיה,J3813,5,4X2,הנעה רגילה,15.0,3408
24568,TUCSON,2016,פנאי-שטח,1999,2060,,5,155,5,P,יונדאי צ'כיה,J3813,4,4X2,הנעה רגילה,15.0,2008
24569,TUCSON,2017,פנאי-שטח,1999,2060,,5,155,5,P,יונדאי צ'כיה,J3813,4,4X2,הנעה רגילה,15.0,2487
24588,TUCSON,2018,פנאי-שטח,1999,2060,,5,155,5,P,יונדאי צ'כיה,J3813,4,4X2,הנעה רגילה,15.0,2662
24621,TUCSON,2019,פנאי-שטח,1999,2080,,5,155,5,P,יונדאי צ'כיה,J3813,4,4X2,הנעה רגילה,15.0,2621
24658,TUCSON,2022,פנאי-שטח,1598,2100,,5,180,5,P,יונדאי צ'כיה,JB81B,5,4X2,הנעה רגילה,14.0,2028
