In [93]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
from scipy import stats
import plotly.express as px

from sklearn.linear_model import LinearRegression
from sklearn import svm
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import DotProduct, WhiteKernel

from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
import joblib 

from sklearn.metrics import accuracy_score
from sklearn.metrics import r2_score
from sklearn import metrics as ms
from sklearn.metrics import max_error
from sklearn.metrics import mean_absolute_error

In [94]:
dtypes={'DEPARTAMENTO': 'str', 'MUNICIPIO': 'str', 'CODIGO DANE': 'str', 'ARMAS MEDIOS': 'str',
                        'FECHA HECHO': 'str', 'GENERO': 'str', 'GRUPO ETARIO': 'str', 'CANTIDAD': 'int'}

df = pd.read_csv('Violencia_Intrafamiliar_Colombia.csv', dtype=dtypes)
df.head()

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,CANTIDAD
0,ATLÁNTICO,BARRANQUILLA (CT),8001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,MASCULINO,ADULTOS,1
1,BOYACÁ,DUITAMA,15238000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,1
2,CAQUETÁ,PUERTO RICO,18592000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,MASCULINO,ADULTOS,1
3,CASANARE,MANÍ,85139000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,1
4,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,1


In [95]:
#Forma original
df.shape

(476970, 8)

In [96]:
df.info

<bound method DataFrame.info of         DEPARTAMENTO          MUNICIPIO CODIGO DANE  \
0          ATLÁNTICO  BARRANQUILLA (CT)     8001000   
1             BOYACÁ            DUITAMA    15238000   
2            CAQUETÁ        PUERTO RICO    18592000   
3           CASANARE               MANÍ    85139000   
4       CUNDINAMARCA   BOGOTÁ D.C. (CT)    11001000   
...              ...                ...         ...   
476965       VICHADA      SANTA ROSALÍA    99624000   
476966       VICHADA      SANTA ROSALÍA    99624000   
476967       VICHADA      SANTA ROSALÍA    99624000   
476968  CUNDINAMARCA              TAUSA    25793000   
476969  CUNDINAMARCA          ZIPAQUIRÁ    25899000   

                       ARMAS MEDIOS FECHA HECHO     GENERO GRUPO ETARIO  \
0       ARMA BLANCA / CORTOPUNZANTE   1/01/2010  MASCULINO      ADULTOS   
1       ARMA BLANCA / CORTOPUNZANTE   1/01/2010   FEMENINO      ADULTOS   
2       ARMA BLANCA / CORTOPUNZANTE   1/01/2010  MASCULINO      ADULTOS   
3      

In [97]:
df.describe()

Unnamed: 0,CANTIDAD
count,476970.0
mean,1.707764
std,3.338647
min,1.0
25%,1.0
50%,1.0
75%,1.0
max,130.0


In [98]:
df.isna().sum()

DEPARTAMENTO       0
MUNICIPIO          0
CODIGO DANE        0
ARMAS MEDIOS       2
FECHA HECHO        0
GENERO             3
GRUPO ETARIO    1615
CANTIDAD           0
dtype: int64

In [99]:
df

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,CANTIDAD
0,ATLÁNTICO,BARRANQUILLA (CT),8001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,MASCULINO,ADULTOS,1
1,BOYACÁ,DUITAMA,15238000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,1
2,CAQUETÁ,PUERTO RICO,18592000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,MASCULINO,ADULTOS,1
3,CASANARE,MANÍ,85139000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,1
4,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,1
...,...,...,...,...,...,...,...,...
476965,VICHADA,SANTA ROSALÍA,99624000,SIN EMPLEO DE ARMAS,44250,FEMENINO,MENORES,1
476966,VICHADA,SANTA ROSALÍA,99624000,SIN EMPLEO DE ARMAS,44262,FEMENINO,ADULTOS,1
476967,VICHADA,SANTA ROSALÍA,99624000,SIN EMPLEO DE ARMAS,44300,FEMENINO,ADULTOS,1
476968,CUNDINAMARCA,TAUSA,25793000,,44294,FEMENINO,ADULTOS,1


In [100]:
##outlayers
z = np.abs(stats.zscore(df['CANTIDAD']))
umbral = 3
index_del = np.where(z > umbral)[0]
index_del

array([    39,     94,    793, ..., 476456, 476517, 476526])

In [101]:
df.drop(index=index_del, inplace=True)
df

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,CANTIDAD
0,ATLÁNTICO,BARRANQUILLA (CT),8001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,MASCULINO,ADULTOS,1
1,BOYACÁ,DUITAMA,15238000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,1
2,CAQUETÁ,PUERTO RICO,18592000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,MASCULINO,ADULTOS,1
3,CASANARE,MANÍ,85139000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,1
4,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,1
...,...,...,...,...,...,...,...,...
476965,VICHADA,SANTA ROSALÍA,99624000,SIN EMPLEO DE ARMAS,44250,FEMENINO,MENORES,1
476966,VICHADA,SANTA ROSALÍA,99624000,SIN EMPLEO DE ARMAS,44262,FEMENINO,ADULTOS,1
476967,VICHADA,SANTA ROSALÍA,99624000,SIN EMPLEO DE ARMAS,44300,FEMENINO,ADULTOS,1
476968,CUNDINAMARCA,TAUSA,25793000,,44294,FEMENINO,ADULTOS,1


In [102]:
df.isna().sum()

DEPARTAMENTO       0
MUNICIPIO          0
CODIGO DANE        0
ARMAS MEDIOS       2
FECHA HECHO        0
GENERO             3
GRUPO ETARIO    1593
CANTIDAD           0
dtype: int64

In [103]:
df.dropna(inplace=True)
df.reset_index()
df

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,CANTIDAD
0,ATLÁNTICO,BARRANQUILLA (CT),8001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,MASCULINO,ADULTOS,1
1,BOYACÁ,DUITAMA,15238000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,1
2,CAQUETÁ,PUERTO RICO,18592000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,MASCULINO,ADULTOS,1
3,CASANARE,MANÍ,85139000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,1
4,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,1
...,...,...,...,...,...,...,...,...
476963,VICHADA,PUERTO CARREÑO (CT),99001000,SIN EMPLEO DE ARMAS,44335,MASCULINO,ADULTOS,1
476964,VICHADA,SANTA ROSALÍA,99624000,SIN EMPLEO DE ARMAS,44199,FEMENINO,ADULTOS,1
476965,VICHADA,SANTA ROSALÍA,99624000,SIN EMPLEO DE ARMAS,44250,FEMENINO,MENORES,1
476966,VICHADA,SANTA ROSALÍA,99624000,SIN EMPLEO DE ARMAS,44262,FEMENINO,ADULTOS,1


In [104]:
df.isna().sum()

DEPARTAMENTO    0
MUNICIPIO       0
CODIGO DANE     0
ARMAS MEDIOS    0
FECHA HECHO     0
GENERO          0
GRUPO ETARIO    0
CANTIDAD        0
dtype: int64

In [105]:
df[~df['FECHA HECHO'].str.contains('/')]

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,CANTIDAD
476962,VICHADA,PUERTO CARREÑO (CT),99001000,SIN EMPLEO DE ARMAS,44335,FEMENINO,ADULTOS,3
476963,VICHADA,PUERTO CARREÑO (CT),99001000,SIN EMPLEO DE ARMAS,44335,MASCULINO,ADULTOS,1
476964,VICHADA,SANTA ROSALÍA,99624000,SIN EMPLEO DE ARMAS,44199,FEMENINO,ADULTOS,1
476965,VICHADA,SANTA ROSALÍA,99624000,SIN EMPLEO DE ARMAS,44250,FEMENINO,MENORES,1
476966,VICHADA,SANTA ROSALÍA,99624000,SIN EMPLEO DE ARMAS,44262,FEMENINO,ADULTOS,1
476967,VICHADA,SANTA ROSALÍA,99624000,SIN EMPLEO DE ARMAS,44300,FEMENINO,ADULTOS,1


In [106]:
df.drop(df[~df['FECHA HECHO'].str.contains('/')].index, inplace=True)

In [107]:
df.isna().sum()

DEPARTAMENTO    0
MUNICIPIO       0
CODIGO DANE     0
ARMAS MEDIOS    0
FECHA HECHO     0
GENERO          0
GRUPO ETARIO    0
CANTIDAD        0
dtype: int64

In [108]:
df.shape

(469747, 8)

In [109]:
df.drop(df[df['GENERO'].str.contains("-")].index, inplace=True)
df.drop(df[df['ARMAS MEDIOS'].str.contains("-")].index, inplace=True)

In [110]:
df['FECHA HECHO'] = pd.to_datetime(df['FECHA HECHO'], infer_datetime_format=True,  dayfirst=True)

In [111]:
df['Año'] = df['FECHA HECHO'].dt.year
df['Mes'] = df['FECHA HECHO'].dt.month
df['Dia'] = df['FECHA HECHO'].dt.day
df['Dia de la semana'] = df['FECHA HECHO'].dt.day_name()
df

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,CANTIDAD,Año,Mes,Dia,Dia de la semana
0,ATLÁNTICO,BARRANQUILLA (CT),8001000,ARMA BLANCA / CORTOPUNZANTE,2010-01-01,MASCULINO,ADULTOS,1,2010,1,1,Friday
1,BOYACÁ,DUITAMA,15238000,ARMA BLANCA / CORTOPUNZANTE,2010-01-01,FEMENINO,ADULTOS,1,2010,1,1,Friday
2,CAQUETÁ,PUERTO RICO,18592000,ARMA BLANCA / CORTOPUNZANTE,2010-01-01,MASCULINO,ADULTOS,1,2010,1,1,Friday
3,CASANARE,MANÍ,85139000,ARMA BLANCA / CORTOPUNZANTE,2010-01-01,FEMENINO,ADULTOS,1,2010,1,1,Friday
4,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,ARMA BLANCA / CORTOPUNZANTE,2010-01-01,FEMENINO,ADULTOS,1,2010,1,1,Friday
...,...,...,...,...,...,...,...,...,...,...,...,...
476957,VICHADA,PUERTO CARREÑO (CT),99001000,SIN EMPLEO DE ARMAS,2021-01-05,FEMENINO,ADULTOS,1,2021,1,5,Tuesday
476958,VICHADA,PUERTO CARREÑO (CT),99001000,SIN EMPLEO DE ARMAS,2021-01-14,FEMENINO,ADULTOS,1,2021,1,14,Thursday
476959,VICHADA,PUERTO CARREÑO (CT),99001000,SIN EMPLEO DE ARMAS,2021-03-26,FEMENINO,ADULTOS,1,2021,3,26,Friday
476960,VICHADA,PUERTO CARREÑO (CT),99001000,SIN EMPLEO DE ARMAS,2021-03-27,FEMENINO,ADULTOS,1,2021,3,27,Saturday


In [112]:
df['ARMAS MEDIOS'] = df['ARMAS MEDIOS'].apply(lambda x : 'ARMA BLANCA / CORTOPUNZANTE' if x == 'CORTOPUNZANTES' else x)
df['ARMAS MEDIOS'] = df['ARMAS MEDIOS'].apply(lambda x : 'NO REPORTA' if x == 'NO REPORTADO' else x)
df['ARMAS MEDIOS'] = df['ARMAS MEDIOS'].apply(lambda x : 'ARMA BLANCA / CORTOPUNZANTE' if x == 'PUNZANTES' else x)
df['ARMAS MEDIOS'] = df['ARMAS MEDIOS'].apply(lambda x : 'ARMA BLANCA / CORTOPUNZANTE' if x == 'CORTANTES' else x)
(df['ARMAS MEDIOS']=="CORTOPUNZANTES").sum().any()

False

In [113]:
df.drop(df[df['DEPARTAMENTO'].str.contains("NO REPORTA")].index, inplace=True)
df.drop(df[df['GRUPO ETARIO'].str.contains("NO REPORTA")].index, inplace=True)

In [114]:
df.to_csv("Violenci_Intrafamiliar_Colombia_final.cvs")

In [115]:
## GRAFICAMOS TODO LO RELACIONADO CON EL ANALISIS DEL DATAFRAME
df_grp = df.groupby(['Año'])['CANTIDAD'].sum().reset_index()
fig = px.line(df_grp, x='Año', y="CANTIDAD", height =650, title='CANTIDAD DE CASOS DE VIOLENCIA INTRAFAMILIAR POR AÑO')
fig.show()

In [116]:
df_grp1 = df.groupby(['DEPARTAMENTO'])['CANTIDAD'].sum().reset_index()
fig = px.bar(df_grp1.sort_values(by='CANTIDAD', ascending=False), x='DEPARTAMENTO', y='CANTIDAD', title='CANTIDAD DE CASOS DE VIOLENCIA INTRAFAMILIAR POR DEPARTAMENTO', height =700)
fig.update_xaxes(tickangle=-90)
fig.show()


In [117]:
df_grp2 = df.groupby(['DEPARTAMENTO','GENERO'])['CANTIDAD'].sum().reset_index()
fig = px.bar(df_grp2.sort_values(by='CANTIDAD', ascending=False), x="DEPARTAMENTO", y="CANTIDAD",color="GENERO", title="NUMERO DE CASOS POR GENERO",height =920, width =1400)
fig.update_xaxes(tickangle=-90)
fig.show()

In [118]:
df_grp3 = df.groupby(['GENERO', 'Dia de la semana'])['CANTIDAD'].sum().reset_index()
fig = px.bar(df_grp3.sort_values(by='CANTIDAD', ascending=False), x="Dia de la semana", y='CANTIDAD',color="GENERO", title="NUMERO DE CASOS POR DÍA",height =800, width =1400)
fig.show()

In [119]:
df_grp5 = df.groupby(['DEPARTAMENTO', 'Dia de la semana'])['CANTIDAD'].sum().reset_index()
df_grp5= df_grp5[(df_grp5['DEPARTAMENTO']=='CUNDINAMARCA') | (df_grp5['DEPARTAMENTO']=='ANTIOQUIA') | (df_grp5['DEPARTAMENTO']=='VALLE') | (df_grp5['DEPARTAMENTO']=='SANTANDER')| (df_grp5['DEPARTAMENTO']=='BOYACÁ')]
fig = px.bar(df_grp5.sort_values(by='CANTIDAD', ascending=False), x="Dia de la semana", y='CANTIDAD',color="DEPARTAMENTO", title="NUMERO DE CASOS POR DÍA EN LOS 5 DEPARTAMENTOS CON MÁS VIOLENCIA INTRAFAMILIAR",height =800, width =1400, barmode = 'group')
fig.show()

In [120]:
df_grp7 = df.groupby(['DEPARTAMENTO','ARMAS MEDIOS'])['CANTIDAD'].sum().reset_index()
df_grp7= df_grp7[(df_grp7['DEPARTAMENTO']=='CUNDINAMARCA') | (df_grp7['DEPARTAMENTO']=='ANTIOQUIA') | (df_grp7['DEPARTAMENTO']=='VALLE') | (df_grp7['DEPARTAMENTO']=='SANTANDER')| (df_grp7['DEPARTAMENTO']=='BOYACÁ')]
df_grp7 = df_grp7.sort_values(['DEPARTAMENTO','CANTIDAD'],ascending=False).groupby(['DEPARTAMENTO', 'ARMAS MEDIOS']).head(5)
fig = px.bar(df_grp7.sort_values(by='CANTIDAD', ascending=False), x="DEPARTAMENTO", y='CANTIDAD',color="ARMAS MEDIOS", 
             title="NUMERO DE CASOS POR DÍA EN LOS 5 DEPARTAMENTOS CON MÁS VIOLENCIA INTRAFAMILIAR",
             height =600,width =1400, barmode = 'group',
            color_discrete_map={"NO REPORTADO": "#839192", 
                                "SIN EMPLEO DE ARMAS": "#273746", 
                                "CONTUNDENTES": "#28B463",
                                "ARMA BLANCA / CORTOPUNZANTE": "#F1C40F", 
                                "ESCOPOLAMINA": "#138D75", 
                                "NO REPORTA": "#3498DB", 
                                "ARMA DE FUEGO": "red", 
                                "CORTANTES": "yellow", 
                                "CORTOPUNZANTES": "#2E86C1", 
                                "PUNZANTES": "#8E44AD", 
                               })
fig.show()

In [121]:
df_grp8 = df.groupby(['DEPARTAMENTO','ARMAS MEDIOS','GENERO'])['CANTIDAD'].sum().reset_index()
df_grp8= df_grp8[(df_grp8['ARMAS MEDIOS']=='ARMA DE FUEGO')]
fig = px.bar(df_grp8.sort_values(by='CANTIDAD', ascending=False), x="DEPARTAMENTO", y="CANTIDAD",color="GENERO", title="DEPARTAMENTOS CON MAYOR USO DE ARMAS DE FUEGO POR GENERO",
             height =720, width =1024,
            color_discrete_map={"FEMENINO": "fuchsia", 
                                "MASCULINO": "blue", 
                               })
fig.update_xaxes(tickangle=-90)
fig.show()

In [122]:
df_grp9 = df.groupby(['DEPARTAMENTO', 'GRUPO ETARIO'])['CANTIDAD'].sum().reset_index()
df_grp9= df_grp9[(df_grp9['DEPARTAMENTO']=='CUNDINAMARCA') | (df_grp9['DEPARTAMENTO']=='ANTIOQUIA') | (df_grp9['DEPARTAMENTO']=='VALLE') | (df_grp9['DEPARTAMENTO']=='SANTANDER')| (df_grp9['DEPARTAMENTO']=='BOYACÁ')]


fig = px.bar(df_grp9.sort_values(by='CANTIDAD', ascending=False), x="GRUPO ETARIO", y='CANTIDAD',color="DEPARTAMENTO", title="CASOS POR GRUPO ETARIO - TOP 5 DEPARTAMENTOS MÁS VIOLENTOS",height =800, width =1400, barmode = 'group')
fig.show()

In [123]:

df_grp9 = df.groupby(['DEPARTAMENTO', 'GRUPO ETARIO'])['CANTIDAD'].sum().reset_index()
fig = px.bar(df_grp9.sort_values(by='CANTIDAD', ascending=False), x="GRUPO ETARIO", y='CANTIDAD',color="DEPARTAMENTO", title="CASOS POR GRUPO ETARIO EN C/U DE LOS DEPARTAMENTOS (GENERAL)",height =800, width =1400, barmode = 'group')
fig.show()

# **MODELOS**

In [124]:
## PUNTO 2 -> Como ya cargamos el dataset limpio y  ya pre-procesado no es necesario hacer el respectivo pre-procesamiento de los datos
## Aqui solo procederemos a hacer la particion de nuestros datos con el train_test_split 
"""Cabe aclarar que se le compartiran 2 notebook, uno en el cual estara todo el proceso
   que hemos realizado hasta ahora y el otro ya mas enfocado al taller final del modulo 5
"""

# train_test_split

# REGRESION LINEAL
dfm = df.groupby(["DEPARTAMENTO", "GENERO","GRUPO ETARIO","ARMAS MEDIOS", "Año","Mes","Dia de la semana"]).sum()["CANTIDAD"].reset_index()

## con el metodo pd.get_dummies(), lo  que hace es cambiar las variables categoricas a 0 y 1 

X1= pd.get_dummies(dfm[['DEPARTAMENTO',"GENERO", "GRUPO ETARIO", "ARMAS MEDIOS",'Año','Mes', 'Dia de la semana']].copy())
Y1 = dfm["CANTIDAD"]

In [125]:
X1.columns.values

array(['Año', 'Mes', 'DEPARTAMENTO_AMAZONAS', 'DEPARTAMENTO_ANTIOQUIA',
       'DEPARTAMENTO_ARAUCA', 'DEPARTAMENTO_ATLÁNTICO',
       'DEPARTAMENTO_BOLÍVAR', 'DEPARTAMENTO_BOYACÁ',
       'DEPARTAMENTO_CALDAS', 'DEPARTAMENTO_CAQUETÁ',
       'DEPARTAMENTO_CASANARE', 'DEPARTAMENTO_CAUCA',
       'DEPARTAMENTO_CESAR', 'DEPARTAMENTO_CHOCÓ',
       'DEPARTAMENTO_CUNDINAMARCA', 'DEPARTAMENTO_CÓRDOBA',
       'DEPARTAMENTO_GUAINÍA', 'DEPARTAMENTO_GUAJIRA',
       'DEPARTAMENTO_GUAVIARE', 'DEPARTAMENTO_HUILA',
       'DEPARTAMENTO_MAGDALENA', 'DEPARTAMENTO_META',
       'DEPARTAMENTO_NARIÑO', 'DEPARTAMENTO_NORTE DE SANTANDER',
       'DEPARTAMENTO_PUTUMAYO', 'DEPARTAMENTO_QUINDÍO',
       'DEPARTAMENTO_RISARALDA', 'DEPARTAMENTO_SAN ANDRÉS',
       'DEPARTAMENTO_SANTANDER', 'DEPARTAMENTO_SUCRE',
       'DEPARTAMENTO_TOLIMA', 'DEPARTAMENTO_VALLE', 'DEPARTAMENTO_VAUPÉS',
       'DEPARTAMENTO_VICHADA', 'GENERO_FEMENINO', 'GENERO_MASCULINO',
       'GENERO_NO REPORTA', 'GRUPO ETARIO_ADOLESCENTES'

(130072, 55)

In [43]:
x_train,x_test,y_train,y_test = train_test_split(X1,Y1, test_size=0.2, random_state=42 )

In [44]:
# PUNTO 3 -> Implementación de modelos

#LinearRegression
 
clf = LinearRegression(fit_intercept = True)

In [45]:
# Entrenamos
clf.fit(x_train,y_train)

LinearRegression()

In [46]:
#Predecimos
y_pred = clf.predict(x_test)

metricas de evaluacion del modelo

In [47]:
mean_absolute_error(y_test, y_pred)

4.656742612708841

In [48]:
max_error(y_test,y_pred)

446.0815909094184

In [49]:
r2_score(y_test, y_pred)

0.2143121104618626

In [50]:
# creamos una malla para el LinearRegression

parameters = {"fit_intercept":["True","False"],
              "n_jobs":[1,2,4],
              "positive":["True","False"]
              }

In [51]:
# Creamos una nueva instancia de nuestro modelo y la pasamos la malla que hemos construido
clf_LR = GridSearchCV(clf,parameters, cv=5, n_jobs=-1, verbose=1)


In [52]:
# Entrenamos nuestro modelo
clf_LR.fit(x_train,y_train)

Fitting 5 folds for each of 12 candidates, totalling 60 fits


GridSearchCV(cv=5, estimator=LinearRegression(), n_jobs=-1,
             param_grid={'fit_intercept': ['True', 'False'],
                         'n_jobs': [1, 2, 4], 'positive': ['True', 'False']},
             verbose=1)

In [53]:
# Observamos cuales son los mejes hiperparametros para el modelo
clf_LR.best_params_

{'fit_intercept': 'True', 'n_jobs': 1, 'positive': 'True'}

In [54]:
# Predecimos
y_LR_pred2 =  clf_LR.predict(x_test)

metricas de evaluacion de modelo

In [55]:
r2_score(y_test, y_LR_pred2)

0.21409644259901106

In [56]:
mean_absolute_error(y_test, y_LR_pred2)

4.656087946557275

In [57]:
max_error(y_test,y_LR_pred2)

446.3583984375

**Conclusiones**

En este caso  no se puede notar una mejora considerable  entre el modelo  implementado sin la busqueda de hiperparametros y el resultado que arojo el modelo despues de pasarla malla. 

In [None]:
## SUPPORT VECTOR MACHINE (SVM)
clf_svm = svm.SVR(kernel="rbf", C=100, gamma=0.1, epsilon=0.1)


clf_svm.fit(x_train,y_train)


In [None]:
y_svm_pred =  clf_svm.predict(x_test)

In [None]:
mean_absolute_error(y_test, y_svm_pred)

In [None]:
r2_score(y_test, y_svm_pred)

En este caso se pueden observar unos mejores resultados con respecto a la regresion lineal 

In [None]:
## Malla

parametros = {"kernel":["linear","rbf"],
              "gamma":["auto"],
              "C":[150],
              "epsilon":[0.1]}

clf_svm2 = GridSearchCV(clf_svm,parametros, cv=5, 
                   n_jobs=-1, verbose=1)



In [None]:
clf_svm2.fit(x_train,y_train)

In [None]:
# Aqui vemos los mejores hiperparametros del modelo
clf_svm2.best_params_

In [None]:
# predecimos
y_svm_pred2 =  clf_svm2.predict(x_test)

In [None]:
r2_score(y_test, y_svm_pred2)

In [None]:
mean_absolute_error(y_test, y_svm_pred2)

En este caso se le paso al modelo  una respectiva malla y luego se procedio a entrenar y los resultados cambiaron un poco, se puede decir qeu en la primera ronda los resultados estuvieron un poco por encima de los resultados del modelo aplicando la malla

Entrenamiento del modelo con todo el dataset

En este caso se escogio el LinearRegression, principalmente por el tiempo de entrenamiento, ya que el support vector machine tiene un mejor resultado  pero su entrenamiento se demora mas.

In [None]:
## Instanciamos en modelo 

clf_all = LinearRegression(fit_intercept = True)

In [None]:
# ENTRENAMOS 
clf_all.fit(X1,Y1)

In [None]:
#Predecimos
Y_pred = clf.predict(X1)

METRICAS DEL MODELO

In [None]:
mean_absolute_error(Y1, Y_pred)

In [None]:
max_error(Y1,Y_pred)

In [None]:
r2_score(Y1, Y_pred)

Guardamos el modelo

In [None]:
joblib.dump(clf_all, 'Modelo_entrenado_LR.pkl')

Modelo  de SupportVectorMachine

In [None]:
## SupportVectorMachine  con todo el dataset

clf_svm_all = svm.SVR(kernel="rbf", C=100, gamma=0.1, epsilon=0.1)

clf_svm_all.fit(X1,Y1)


In [None]:
yall_svm_pred = clf_svm_all(X1)

In [None]:
mean_absolute_error(Y1, yall_svm_pred)

In [None]:
max_error(Y1,yall_svm_pred)

In [None]:
r2_score(Y1, yall_svm_pred)

In [None]:
joblib.dump(clf_all, 'Modelo_entrenado_SVM.pkl')

# INTEGRANTES GRUPO 3:

## CARLOS ANDRES GALVIS PADILLA
## EMER ELIAS ARTEAGA CAMARGO
## CARLOS ALBERTO DEL CASTILLO MAUSSA
## ANDRES FELIPE OTERO LOBO
## ANDRES CAMILO ORTIZ COGOLLO