# Prediction model PT - testing with air conditioning 

## Prediction model

We'll start experimenting with a ML model for predicting if the car has e.g. air conditioning

In [164]:
from sklearn.model_selection import train_test_split

In [162]:
print(df_new.columns)
print(df_new.shape)

Index(['id', 'description', 'params', 'damaged', 'is_imported_car',
       'upholstery', 'air_conditioning', 'airbag_type',
       'security_performance_features', 'comfort_multimedia_features',
       'damaged_field', 'is_imported_car_field', 'upholstery_field',
       'air_conditioning_field', 'airbag_type_field', 'parking_sensors_field',
       'abs_field', 'gps_field', 'cruise_control_field', 'description_clean',
       'n_char', 'n_char_cum', 'damaged_descr', 'is_imported_car_descr',
       'gps_descr', 'upholstery_descr', 'parking_sensors_descr',
       'cruise_control_descr', 'airbag_type_descr', 'abs_descr',
       'air_conditioning_descr'],
      dtype='object')
(10000, 31)


For now, as response variable we use the variable we created earlier searching for a regex pattern based on our dictionary. Otherwise (safer approach), we should manually read/tag annotate all descriptions.

In [317]:
df_ml = df_new[['air_conditioning', 'description', 'description_clean', 'air_conditioning_descr']]
df_ml.shape

(10000, 4)

Separate predictors and labels

In [191]:
X = df_new['description'].to_frame()
y = df_new.air_conditioning_descr

print(type(X))
print(type(y))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [197]:
print("Proportion of response labels: \n", y.value_counts() / len(y))

Proportion of response labels: 
 False    0.8649
True     0.1351
Name: air_conditioning_descr, dtype: float64


#### Split training and test data

In [194]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state =40)
print("Train set:", X_train.shape)
print("Test set:", X_test.shape)

Train set: (8000, 1)
Test set: (2000, 1)


In [196]:
print("Proportion in train set\n ", y_train.value_counts() / len(y_train))
print("")
print("Proportion in test set\n ", y_test.value_counts() / len(y_test))

Proportion in train set
  False    0.8625
True     0.1375
Name: air_conditioning_descr, dtype: float64

Proportion in test set
  False    0.8745
True     0.1255
Name: air_conditioning_descr, dtype: float64


#### Extract features

##### Build frequency of words

- We need to transform text tescriptions into a vector that can be used by a ML algorithm.
- We'll start extracting words frequenc, using tf-idf (“term frequency-inverse document frequency”). Sklearn offers TfidfVectorizer method for that.
- However we will replace TfidfVectorizer default pre-processing step with the one we build earlier - see process_description() function - which is more complete and should reduce further the size of the vector. To do that we initialize the TfidfVectorizer object with a dummy tokenizer and and preprocessor that simply return what they receive. And, instead we will input our own processed descriptions which will be already tokenized and cleaned.

In [220]:
from sklearn.feature_extraction.text import TfidfVectorizer

def dummy_fun(doc):
    return doc

tfidf = TfidfVectorizer(
    analyzer='word',
    tokenizer=dummy_fun,
    preprocessor=dummy_fun,
    token_pattern=None)  

In [265]:
print(X_train['description'][0])

As viaturas CAROUT Caldas da Rainha têm incluído garantia, documentação, preparação, check-up e revisão efetuada de acordo com o programa da marca, antes da entrega ao nosso cliente. Este anúncio foi publicado por rotina informática, todos os dados carecem de confirmação junto do vendedor.


In [266]:
X_train_proc = X_train['description'].apply(process_description).to_list()

In [267]:
type(X_train_proc)

list

In [268]:
print(X_train_proc[0:2])

[['viatur', 'nacional', 'viatur', '24', 'mes', 'garant', 'ncar', 'anúnci', 'coloc', 'rotin', 'informát', 'tod', 'dad', 'carec', 'valid', 'junt', 'consultor', 'comercial'], ['autofix', 'usad', 'certific', 'autofix', 'concretiz', 'sonh', 'desd', '1982', 'intermedi', 'crédit', 'regist', 'banc', 'portugal', 'n', 'º', '000984', 'proteg', 'contr', 'algum', 'imprevist', 'automóv', 'têm', 'garant', 'total', '48', 'mes', 'cobr', 'cust', 'eventu', 'avar', '▶', 'oferec', '4', 'anos', 'garant', 'total', '▶', 'assistent', 'viag', '24h', '24h', '▶', 'linh', 'assistent', 'automóvel', '▶', 'veícul', 'substituiçã', '5', 'dias', '▶', 'garant', '4', 'anos', 'limit', 'quilómetr', 'oficin', 'recomend', 'próxim', 'resident', 'assistent', 'nível', 'nacional', 'país', 'uniã', 'europ', 'autofix', '®', '–', 'automóv', 'qualidad', 'dispõ', 'sistem', 'gestã', 'qualidad', 'certific', 'acord', 'norm', 'np', 'en', 'iso', '9001', 'apcer', 'comercializ', 'viatur', 'nacion', 'semi-nov', 'qualidad', '4', 'anos', 'garant

Transform into a vector

In [269]:
X_train_vec = tfidf.fit_transform(X_train_proc)
print(X_train_vec.shape)

(8000, 11999)


In [272]:
print("Pretty large: we have a total of", X_train_vec.shape[1], "words in our corpus")

Pretty large: we have a total of 11999 words in our corpus


In [295]:
#We can transform it into a 2D array and show it as a dataframe. 
#Lets inspect the first two descriptions and show only the first 20 words
vocabulary = tfidf.get_feature_names()
pd.DataFrame(data=X_train_vec.toarray(), columns=vocabulary).iloc[0:2,1:20]

Unnamed: 0,###entreg,##consult,##intermediári,##visit,#525,#abarth,#alfarom,#aud,#automov,#autostatus,#banix,#bmw,#carr,#cars,#chevrolet,#citroen,#comercioaut,#concessionari,#dac
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [296]:
#Lets see the first 100 words
vocabulary[0:100]

['###atençã',
 '###entreg',
 '##consult',
 '##intermediári',
 '##visit',
 '#525',
 '#abarth',
 '#alfarom',
 '#aud',
 '#automov',
 '#autostatus',
 '#banix',
 '#bmw',
 '#carr',
 '#cars',
 '#chevrolet',
 '#citroen',
 '#comercioaut',
 '#concessionari',
 '#dac',
 '#eucomproemcas',
 '#europcar2ndmovept',
 '#europcarpt',
 '#fiat',
 '#ford',
 '#hyunda',
 '#iv',
 '#jeep',
 '#ki',
 '#lexus',
 '#ma',
 '#mazd',
 '#mercedesbenz',
 '#min',
 '#minicoop',
 '#mitsubish',
 '#nacional',
 '#nicec',
 '#nissan',
 '#opel',
 '#packm',
 '#peugeot',
 '#port',
 '#renault',
 '#rotacaospot',
 '#seat',
 '#seminov',
 '#skod',
 '#smart',
 '#subaru',
 '#toyot',
 '#us',
 '#volkswagen',
 '#volv',
 '#vw',
 '(8',
 '):',
 ');',
 ')=',
 '+4.675',
 '+90.000',
 '--->',
 '-->',
 '-12.500',
 '-12:30',
 '-150,000',
 '-19:00',
 '-19:30',
 '-2013-2',
 '-250,00',
 '-70-32',
 '-8.865760',
 '-9,20183',
 '-9.193530',
 '-92-80',
 '->',
 '.   .',
 '.   ..',
 '.   \u2028.',
 '.  .',
 '. .',
 '. . .',
 '. ..',
 '. ...',
 '. \u2028  .',
 '

All right...we might want to perform further cleaning inside our pre-processing step i.e. remove hashtags and numbers. This should reduce significantly the size of our vocabulary and so the word vector.

In [297]:
#Suppose we have this corpus of tokens: calculate td-idf vector given our vocabulary built earlier
test = [
    ['###atençã', '###entreg', 'hola', '#bmw', 'carro'],
    ['###atençã', '#alfarom', 'ciao']
]
test_vec = tfidf.transform(test)
pd.DataFrame(data=test_vec.toarray(), columns=vocabulary).iloc[:, 0:10]

Unnamed: 0,###atençã,###entreg,##consult,##intermediári,##visit,#525,#abarth,#alfarom,#aud,#automov
0,0.59628,0.59628,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.733945,0.0,0.0,0.0,0.0,0.0,0.0,0.679209,0.0,0.0


In [148]:
def extract_features():
    print('--')

extract_features()

--


#### Train Naive Bayes classifier

In [299]:
type(y_train)

pandas.core.series.Series

In [300]:
# Create model(naive bayes) and training. 
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()

clf.fit(X_train_vec, y_train)

MultinomialNB()

In [382]:
print(clf.predict(X_train_vec[80:100]))

[False False False False False False False False False  True False  True
 False False False False  True False False False]


In [381]:
#print(X_train['description'][3:5])
print(y_train[80:100])

5140    False
7149    False
9758    False
1061    False
2594    False
7847     True
6538    False
2093     True
2743    False
6373    False
2589    False
3633     True
8898    False
3053    False
455     False
6428    False
8721     True
7772     True
6817    False
1257    False
Name: air_conditioning_descr, dtype: bool


In [386]:
df_ml[7772:7775]

Unnamed: 0,air_conditioning,description,description_clean,air_conditioning_descr
7772,,"PEUGEOT 1007 1.4 HDIA NACIONAL - Viatura proveniente de retoma, vendida no estado de uso que se encontra. Uma viatura espaçosa e com a fiabilidade da marca. Versátil devido á sua configuração interior e espaço a bordo. Equipado com o motor 1.4 HDI, um dos motores mais fiáveis do mercado, super econômico e robusto.\r\n<br>Equipado com extras como JLL, AR CONDICIONADO DIGITAL, RADIO CD, DIREÇÃO ASSITIDA, VIDROS ELETRICOS , VOLANTE DESPORTIVO EM COM COMANDOS DE RADIO VOLANTE, etc.\r\n<br>Viatura com a garantia da agradabilidade de condução. Com possibilidade de troca e financiamento a 100 por cento. Visite-nos e comprove o excelente estado de todas as nossas viaturas sem qualquer tipo de compromisso. Aguardamos por si de segunda a domingo. Garantia e revisão geral por mútuo acordo.Este anúncio foi publicado por rotina informática, todos os dados carecem de confirmação junto do vendedor.**PREÇO FIXO**.","PEUGEOT 1007 1.4 HDIA NACIONAL - Viatura proveniente de retoma, vendida no estado de uso que se encontra. Uma viatura espaçosa e com a fiabilidade da marca. Versátil devido á sua configuração interior e espaço a bordo. Equipado com o motor 1.4 HDI, um dos motores mais fiáveis do mercado, super econômico e robusto. Equipado com extras como JLL, AR CONDICIONADO DIGITAL, RADIO CD, DIREÇÃO ASSITIDA, VIDROS ELETRICOS , VOLANTE DESPORTIVO EM COM COMANDOS DE RADIO VOLANTE, etc. Viatura com a garantia da agradabilidade de condução. Com possibilidade de troca e financiamento a 100 por cento. Visite-nos e comprove o excelente estado de todas as nossas viaturas sem qualquer tipo de compromisso. Aguardamos por si de segunda a domingo. Garantia e revisão geral por mútuo acordo.Este anúncio foi publicado por rotina informática, todos os dados carecem de confirmação junto do vendedor.**PREÇO FIXO**.",True
7773,independente,"VIATURA, em Excelente Estado.\r\n\r\nPintura em Excelente estado sem mossas, Interior como novo!!!!\r\n\r\nAlguns dos Extras: PACK AMG, Caixa Automática com Patilhas no Volante, Jantes Especiais, Acabamentos em alumínio, Faróis Led, Faróis Reguláveis em altura, Retrovisores com Regulação Elétrica e Rebatíveis, Retrovisores com Anti Encadeamento, Vidros Elétricos dianteiro e traseiro, Vidros Atérmicos, Apoio de Braço, Encostos de Cabeça Traseiros, Bancos em Pele e Tecido Desportivos, Volante em Pele Multifunções Regulável em profundidade e Altura, Sensores de Estacionamento frente e Trás, Direção assistida, Fecho automático das Portas em andamento, Fecho Central com Comando, Sensores de Chuva, Computador de Bordo, Bluetooth, Cruise Control, Radio com CD.\r\n\r\nDisponibilizamos as nossas viaturas para check-up na marca.\r\nGarantia Negociável de 12 meses (Por mutuo acordo)\r\n\r\nEstou ao dispor para qualquer esclarecimento.\r\nContacto Preferencialmente por Telemóvel.\r\n\r\n***Possibilidade de fazer uma videochamada através do Whatsapp\r\n\r\nRETOMA:\r\nAceitamos a sua viatura como retoma (favor enviar por email fotos e características para uma avaliação mais correta)\r\n\r\n****Possibilidade de financiamento até 120 meses com ou sem entrada inicial.\r\n\r\n****Se está a ver este anúncio no OLX, clique no link do STANDVIRTUAL para ver mais fotografias desta viatura\r\n\r\nTodos os anúncios são colocados por rotina informática, todos os dados carecem de confirmação junto do vendedor.","VIATURA, em Excelente Estado. Pintura em Excelente estado sem mossas, Interior como novo!!!! Alguns dos Extras: PACK AMG, Caixa Automática com Patilhas no Volante, Jantes Especiais, Acabamentos em alumínio, Faróis Led, Faróis Reguláveis em altura, Retrovisores com Regulação Elétrica e Rebatíveis, Retrovisores com Anti Encadeamento, Vidros Elétricos dianteiro e traseiro, Vidros Atérmicos, Apoio de Braço, Encostos de Cabeça Traseiros, Bancos em Pele e Tecido Desportivos, Volante em Pele Multifunções Regulável em profundidade e Altura, Sensores de Estacionamento frente e Trás, Direção assistida, Fecho automático das Portas em andamento, Fecho Central com Comando, Sensores de Chuva, Computador de Bordo, Bluetooth, Cruise Control, Radio com CD. Disponibilizamos as nossas viaturas para check-up na marca. Garantia Negociável de 12 meses (Por mutuo acordo) Estou ao dispor para qualquer esclarecimento. Contacto Preferencialmente por Telemóvel. ***Possibilidade de fazer uma videochamada através do Whatsapp RETOMA: Aceitamos a sua viatura como retoma (favor enviar por email fotos e características para uma avaliação mais correta) ****Possibilidade de financiamento até 120 meses com ou sem entrada inicial. ****Se está a ver este anúncio no OLX, clique no link do STANDVIRTUAL para ver mais fotografias desta viatura Todos os anúncios são colocados por rotina informática, todos os dados carecem de confirmação junto do vendedor.",False
7774,automatico,"As viaturas Auto LEANDRO SANTOS Comércio de Automóveis Lda têm incluído garantia, documentação, preparação, check-up e revisão efetuada de acordo com o programa da marca, antes da entrega. Este anúncio foi publicado por rotina informática, todos os dados carecem de confirmação junto do vendedor.","As viaturas Auto LEANDRO SANTOS Comércio de Automóveis Lda têm incluído garantia, documentação, preparação, check-up e revisão efetuada de acordo com o programa da marca, antes da entrega. Este anúncio foi publicado por rotina informática, todos os dados carecem de confirmação junto do vendedor.",False


In [374]:
#riga 194: il modello identifica correttamente ma il mio label diceva che non c'era!!!
#reason: the user misspelled "ar condicionado" to "ar condiconado" >> detrction model did not find it, but ML which user stemming probably was able to catch it!

In [362]:
df_ml[193:195]

Unnamed: 0,air_conditioning,description,description_clean,air_conditioning_descr
193,,Viatura Impecavel de mecanica. Tem direcçao assistida. IP0 até 2022. Pneus novos.,Viatura Impecavel de mecanica. Tem direcçao assistida. IP0 até 2022. Pneus novos.,False
194,automatico,"Renault Scenic 1.5 DCi Confort Dynamique\r\n<br>Primeira Matrícula: 2004-05\r\n<br>Combustível: Gasóleo\r\n<br>Portas: 5. Lugares: 5.\r\n<br>Cilindrada: 1461cm3 Potência: 80cv.\r\n<br>Quilometragem: 182.000km\r\n<br>\r\n<br>Extras/vantagens:\r\n<br>Veiculo nacional impecável de tudo.\r\n<br>Fecho central com comando à distância.\r\n<br>Faróis reguláveis em altura.\r\n<br>Faróis de nevoerio.\r\n<br>Vidros elétricos: 4.\r\n<br>Retrovisores com regulação eléctrica.\r\n<br>Sensores de luzes automático.\r\n<br>Sensores de chuva automático.\r\n<br>Sensores de estacionamento de origem.\r\n<br>Travão de portas para crianças.\r\n<br>Airbags: 6.\r\n<br>Auto-rádio de origem com cd.\r\n<br>Volante em pele.\r\n<br>Computador de bordo.\r\n<br>Botão start&stop.\r\n<br>ESP. ABS.\r\n<br>Isofix.\r\n<br>Ar condiconado automático.\r\n<br>Cortinas de sol nas portas traseiras.\r\n<br>Jantes de liga leve 16”.\r\n<br>Documentação em dia. Inspeção até Maio de 2022.\r\n<br>\r\n<br><h2><span style=""color: #ff0000;""><strong>Quais as vantagens em comprar connosco durante este mês?</strong></span></h2>\r\n<br><p><br /><strong>- Acompanhamento personalizado do veículo que tem interesse: fornecemos toda informação necessária e condições de venda, enviamos fotografias e vídeos via whatsapp/e-mail durante o processo de compra e preparação do mesmo.</strong><br /><strong>\r\n<br>\r\n<br>- Oferta de kit sensores de estacionamento com distância em metros. </strong><br /><strong>\r\n<br>\r\n<br>- Oferta revisão de óleo e filtros para 10.000 km’s nos carros a gasolina e 20.000 km’s nos diesel. </strong><br /><strong>\r\n<br>\r\n<br>- Qualquer veículo do grupo Rocha Automóveis passa por um controlo de qualidade com mais de 30 itens que são vistos numa das nossas oficinas antes da entrega, além da revisão de óleo e filtros, travões e pneus que já fazemos habitualmente. Este serviço serve para garantir a satisfação dos nossos clientes e a segurança dos nossos veículos. O nosso grande êxito no mercado deve-se a esta forma","Renault Scenic 1.5 DCi Confort Dynamique Primeira Matrícula: 2004-05 Combustível: Gasóleo Portas: 5. Lugares: 5. Cilindrada: 1461cm3 Potência: 80cv. Quilometragem: 182.000km Extras/vantagens: Veiculo nacional impecável de tudo. Fecho central com comando à distância. Faróis reguláveis em altura. Faróis de nevoerio. Vidros elétricos: 4. Retrovisores com regulação eléctrica. Sensores de luzes automático. Sensores de chuva automático. Sensores de estacionamento de origem. Travão de portas para crianças. Airbags: 6. Auto-rádio de origem com cd. Volante em pele. Computador de bordo. Botão start&stop. ESP. ABS. Isofix. Ar condiconado automático. Cortinas de sol nas portas traseiras. Jantes de liga leve 16”. Documentação em dia. Inspeção até Maio de 2022. Quais as vantagens em comprar connosco durante este mês? - Acompanhamento personalizado do veículo que tem interesse: fornecemos toda informação necessária e condições de venda, enviamos fotografias e vídeos via whatsapp/e-mail durante o processo de compra e preparação do mesmo. - Oferta de kit sensores de estacionamento com distância em metros. - Oferta revisão de óleo e filtros para 10.000 km’s nos carros a gasolina e 20.000 km’s nos diesel. - Qualquer veículo do grupo Rocha Automóveis passa por um controlo de qualidade com mais de 30 itens que são vistos numa das nossas oficinas antes da entrega, além da revisão de óleo e filtros, travões e pneus que já fazemos habitualmente. Este serviço serve para garantir a satisfação dos nossos clientes e a segurança dos nossos veículos. O nosso grande êxito no mercado deve-se a esta forma",False


In [367]:
lexicon_pt = {"damaged": ["danificado", "estragado", "avariado", "acidentado"],
              "is_imported_car": ["importado"],
              "gps": ["gps", "navegação"],
              "upholstery": ["estofos"],
              "parking_sensors": ["sensores de estacionamento", "park assist", "sensores de parqueamento", "sensor de estacionamento", "sensores traseiros", "sensores frontais"],
              "cruise_control": ["cruise"],
              "airbag_type": ["airbag", "airbags"],
              "abs": ["abs"],
              "air_conditioning": ["a/c", "ac",  "ar condicionado", "condicionado"]
            }

In [368]:
#detect_param_description(df_ml[193:195], 'air_conditioning', lexicon_pt, text_col='description')
param_to_detect = 'air_conditioning'
search_list = lexicon_pt[param_to_detect]
print(search_list)
    
#build regex pattern to search; use \b \b to match only whole words; ingore case
p = re.compile(r'\b(?:{})\b'.format( '|'.join(map(re.escape, search_list))),re.IGNORECASE)
#p
#type(p)

description_series = df_ml['description_clean'][193:195].str.lower()

response = description_series.str.contains(p)
response

#text = 'serve para garantir a satisfação dos nosso'
#type(text)
#response = text.find(p)

#response = p.match(text)
#response

['a/c', 'ac', 'ar condicionado', 'condicionado']


193    False
194    False
Name: description_clean, dtype: bool

In [356]:
desscription_series = df_ml['description_clean'][193:195].str.lower()
desscription_series

193                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     