REGRESSIONE LOGISTICA ORDINALE

TEORIA

 - https://analyticsindiamag.com/a-complete-tutorial-on-ordinal-regression-in-python/

Nelle statistiche e nell'apprendimento automatico, la regressione ordinale è una variante dei modelli di regressione che normalmente viene utilizzata quando i dati hanno una variabile ordinale. Per variabile ordinale si intende un tipo di variabile in cui i valori all'interno della variabile sono categorici ma in ordine.

I modelli di classificazione e regressione sono molto utili per completare quasi ogni aspetto della scienza dei dati ed entrambi sono molto diversi l'uno dall'altro. Anche il tipo di dati utilizzati da questi metodi è molto diverso. La difficoltà si verifica quando i dati che otteniamo non sono né puramente categorici né puramente regressivi. In una situazione del genere, la regressione ordinale è un metodo di modellazione che entra in gioco per salvarci. La regressione ordinale può essere considerata come un processo intermedio di regressione e classificazione. 

In [None]:
# carichiamo un dataset di esempio
import pandas as pd
data_diam = pd.read_csv('diamonds.csv')

In [None]:
# visualizziamo le prime 10 righe
data_diam.head(10)

In [None]:
# visualizziamo le informazioni sul dataset
data_diam.info()



Qui possiamo vedere che abbiamo tre variabili nella forma oggetto e in questo articolo abbiamo a che fare con la variabile cut. Per lavorare con i modelli ordinali di statsmodel, è necessario convertire questa variabile target in una forma ordinata categorica che può essere eseguita utilizzando le seguenti righe di codice

In [None]:
# importiamo le librerie necessarie per la conversione della variabile target in una variabile ordinale
# CatgoicalDtype permette di convertire una variabile categorica in una variabile ordinale
from pandas.api.types import CategoricalDtype

# convertiamo la variabile target in una variabile ordinale
categories = data_diam["cut"].unique()
cat_type = CategoricalDtype(categories=categories, ordered=True)
data_diam["cut"] = data_diam["cut"].astype(cat_type)


In [None]:
data_diam['cut'].dtype

In [None]:
# cacoliamo il volume del diamante e salviamo il risultato in una nuova colonna
data_diam['volume'] = data_diam['x']*data_diam['y']*data_diam['z']
data_diam.drop(['x','y','z'],axis=1,inplace=True)

Dopo questa preelaborazione dei dati e il controllo dei dati, siamo pronti per modellare i dati utilizzando i modelli forniti da statsmodels. Nella parte precedente dell'articolo, abbiamo discusso che esistono due tipi di modelli di regressione ordinale, uno è il modello probit ordinato e un altro è il modello logit ordinato. Questa sezione mostrerà come possiamo adattare i nostri dati in entrambi i tipi di modelli di regressione ordinale.

In [15]:
# importiamo le librerie necessarie per la regressione logistica ordinale 
# OrderedModel permette di applicare la regressione logistica ordinale
# impostiamo la variabile distr='probit'
from statsmodels.miscmodels.ordinal_model import OrderedModel
import numpy as np

Ordered probit model

In [10]:
# applichiamo la regressione logistica ordinale 
mod_prob = OrderedModel(data_diam['cut'],                           # variabile target
                        data_diam[['volume', 'price', 'carat']],    # variabili predittive
                        distr='probit')                             # tipo di regressione logistica ordinale

# visualizziamo il risultato
res_prob = mod_prob.fit(method='bfgs')
res_prob.summary()

Optimization terminated successfully.
         Current function value: 1.342384
         Iterations: 38
         Function evaluations: 44
         Gradient evaluations: 44


0,1,2,3
Dep. Variable:,cut,Log-Likelihood:,-72408.0
Model:,OrderedModel,AIC:,144800.0
Method:,Maximum Likelihood,BIC:,144900.0
Date:,"Fri, 09 Jun 2023",,
Time:,13:52:26,,
No. Observations:,53940,,
Df Residuals:,53933,,
Df Model:,3,,

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
volume,-0.0484,0.002,-31.443,0.000,-0.051,-0.045
price,-9.791e-05,3.13e-06,-31.280,0.000,-0.000,-9.18e-05
carat,8.8768,0.246,36.051,0.000,8.394,9.359
Ideal/Premium,0.1476,0.012,12.021,0.000,0.124,0.172
Premium/Good,-0.3765,0.008,-49.400,0.000,-0.391,-0.362
Good/Very Good,-1.3115,0.014,-96.364,0.000,-1.338,-1.285
Very Good/Fair,0.2534,0.009,28.597,0.000,0.236,0.271


In [19]:
predicted = res_prob.model.predict(res_prob.params, exog=data_diam[['volume', 'price', 'carat']])
predicted

[(array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0]),), (array([0

Ordered logit regression 

In [20]:
# applichiamo la regressione logistica ordinale 
mod_prob = OrderedModel(data_diam['cut'],                           # variabile target
                        data_diam[['volume', 'price', 'carat']],    # variabili predittive
                        distr='logit')                              # tipo di regressione logistica ordinale

# visualizziamo il risultato
res_prob = mod_prob.fit(method='bfgs')
res_prob.summary()

Optimization terminated successfully.
         Current function value: 1.333049
         Iterations: 36
         Function evaluations: 41
         Gradient evaluations: 41


0,1,2,3
Dep. Variable:,cut,Log-Likelihood:,-71905.0
Model:,OrderedModel,AIC:,143800.0
Method:,Maximum Likelihood,BIC:,143900.0
Date:,"Fri, 09 Jun 2023",,
Time:,14:01:31,,
No. Observations:,53940,,
Df Residuals:,53933,,
Df Model:,3,,

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
volume,-0.1468,0.003,-47.615,0.000,-0.153,-0.141
price,-0.0001,5.4e-06,-26.668,0.000,-0.000,-0.000
carat,25.3288,0.495,51.172,0.000,24.359,26.299
Ideal/Premium,0.1460,0.021,7.024,0.000,0.105,0.187
Premium/Good,0.1272,0.008,16.447,0.000,0.112,0.142
Good/Very Good,-0.7844,0.014,-57.139,0.000,-0.811,-0.757
Very Good/Fair,0.9213,0.010,91.982,0.000,0.902,0.941


In [21]:
predicted = res_prob.model.predict(res_prob.params, exog=data_diam[['volume', 'price', 'carat']])
predicted

array([[0.49410644, 0.25840877, 0.07505209, 0.15582469, 0.01660802],
       [0.48507894, 0.26064699, 0.07662495, 0.16044066, 0.01720846],
       [0.48955   , 0.25955438, 0.07584584, 0.15814138, 0.0169084 ],
       ...,
       [0.40549975, 0.27434241, 0.09036085, 0.2061848 , 0.02361219],
       [0.36095531, 0.27652097, 0.09765961, 0.23648955, 0.02837456],
       [0.45925858, 0.26632303, 0.0811219 , 0.17424491, 0.01905158]])