## Classifying with  _sklearn.linear_model.LinearRegression_

Using linear regression to predict most prone ages to sofer violence from line 144 data source

### Imports

In [28]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score, balanced_accuracy_score, top_k_accuracy_score

### Load from datasource

**Please, execute 01_pre_process.ipynb before**

In [14]:
data = pd.read_parquet('./data/linea_144_processed.parquet')

assert data.shape == (84861, 19)
assert data.fecha.dtype == 'datetime64[ns]', "'fecha' must be a datetime64 type"

### Labeled data

In [15]:
fields_to_encode = data.columns.drop(['fecha', 'edad_persona_en_situacion_de_violencia'])

for field in fields_to_encode:
    le = LabelEncoder()
    le.fit(data[field])
    data[field] = le.transform(data[field])

### Classifying ...

In [40]:
def linear_regression(_target):
    y = data[_target]
    X = data.drop(['fecha', 'edad_persona_en_situacion_de_violencia', _target], axis=1)

    display(X.info())
    
# 'fecha', 'prov_residencia_persona_en_situacion_violencia',
# 'genero_persona_en_situacion_de_violencia',
# 'edad_persona_en_situacion_de_violencia',
# 'pais_nacimiento_persona_en_situacion_de_violencia',
# 'tipo_de_violencia_fisica', 'tipo_de_violencia_psicologica',
# 'tipo_de_violencia_sexual', 'tipo_de_violencia_economica_y_patrimonial',
# 'tipo_de_violencia_simbolica', 'tipo_de_violencia_domestica',
# 'modalidad_de_violencia_institucional',
# 'modalidad_de_violencia_laboral',
# 'modalidad_violencia_contra_libertad_reproductiva',
# 'modalidad_de_violencia_obstetrica', 'modalidad_de_violencia_mediatica',
# 'modalidad_de_violencia_otras', 'vinculo_con_la_persona_agresora',
# 'genero_de_la_persona_agresora']

# Target: age
y = data['edad_persona_en_situacion_de_violencia'].values

# feature: type of violence
X = np.array(data['tipo_de_violencia_domestica'].values).reshape(-1,1)

# Test
assert len(y) == len(X), "fatures and target must be equals"

X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8, random_state=1)

# Running model
linear_regression = LinearRegression()
linear_regression.fit(X_train, y_train)

# Get predictions
predicted = linear_regression.predict(X_test)

# running accuracy_score: Classification metrics can't handle a mix of continuous and multiclass targets
# https://scikit-learn.org/stable/modules/model_evaluation.html
# accuracy = accuracy_score(predicted, y_test)
# accuracy = balanced_accuracy_score(y_test, predicted), same problem
# accuracy = top_k_accuracy_score(y_train, predicted) 

y_test = np.array(y_test).astype(int)
display(y_test[:10], len(y_test))

predicted = np.array(predicted).astype(int) 
display(predicted[:10], len(predicted))

accuracy = accuracy_score(y_test, predicted)

print("Accuracy from {} is {}".format(y, accuracy))


array([46, 25, 34, 26, 34, 37, 31, 47, 32, 70])

16973

array([35, 35, 35, 35, 35, 35, 35, 35, 35, 35])

16973

Accuracy from [34. 39. 22. ... 34. 28. 34.] is 0.04960820126082602


In [14]:
fields = data.columns.drop("fecha", 'edad_persona_en_situacion_de_violencia')
for target in fields:
    linear_regression(target)
    break

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 84861 entries, 0 to 84860
Data columns (total 16 columns):
 #   Column                                             Non-Null Count  Dtype
---  ------                                             --------------  -----
 0   genero_persona_en_situacion_de_violencia           84861 non-null  int32
 1   pais_nacimiento_persona_en_situacion_de_violencia  84861 non-null  int32
 2   tipo_de_violencia_fisica                           84861 non-null  int64
 3   tipo_de_violencia_psicologica                      84861 non-null  int64
 4   tipo_de_violencia_sexual                           84861 non-null  int64
 5   tipo_de_violencia_economica_y_patrimonial          84861 non-null  int64
 6   tipo_de_violencia_simbolica                        84861 non-null  int64
 7   tipo_de_violencia_domestica                        84861 non-null  int64
 8   modalidad_de_violencia_institucional               84861 non-null  int64
 9   modalidad_de_violencia_labor

In [15]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 84861 entries, 0 to 84860
Data columns (total 19 columns):
 #   Column                                             Non-Null Count  Dtype         
---  ------                                             --------------  -----         
 0   fecha                                              84861 non-null  datetime64[ns]
 1   prov_residencia_persona_en_situacion_violencia     84861 non-null  int32         
 2   genero_persona_en_situacion_de_violencia           84861 non-null  int32         
 3   edad_persona_en_situacion_de_violencia             84861 non-null  float64       
 4   pais_nacimiento_persona_en_situacion_de_violencia  84861 non-null  int32         
 5   tipo_de_violencia_fisica                           84861 non-null  int64         
 6   tipo_de_violencia_psicologica                      84861 non-null  int64         
 7   tipo_de_violencia_sexual                           84861 non-null  int64         
 8   tipo_de_violenci