# Regresión lineal múltiple con el método curve_fit() de Scipy

In [1]:
import numpy as np
import pandas as pd
from scipy.optimize import curve_fit
import time
import sys

Al igual que en los casos anteriores, cargamos el data set y transformamos las variables categóricas en numéricas

In [2]:
datos = pd.read_csv("./insurance.csv")
datos.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [3]:
datos['sex'].replace({'female' : 0, 'male' : 1}, inplace= True)
datos['smoker'].replace({'no': 0, 'yes': 1}, inplace= True)
datos = pd.get_dummies(datos)

In [4]:
#Variables independientes
X = datos.drop(['charges','region_northeast'], axis=1)
X = pd.get_dummies(X)
X.head()

Unnamed: 0,age,sex,bmi,children,smoker,region_northwest,region_southeast,region_southwest
0,19,0,27.9,0,1,0,0,1
1,18,1,33.77,1,0,0,1,0
2,28,1,33.0,3,0,0,1,0
3,33,1,22.705,0,0,1,0,0
4,32,1,28.88,0,0,1,0,0


In [5]:
#Variables dependientes
Y = datos['charges']
Y.head()

0    16884.92400
1     1725.55230
2     4449.46200
3    21984.47061
4     3866.85520
Name: charges, dtype: float64

Puesto que queremos hacer un análisis de regresión multiple, es decir, con varias variables independientes, tenemos que pasarle como parámetro a la función curve_fit una función en la cual se establece la relación entre las variables independientes

In [6]:
t1= time.time()

In [7]:
def func(X,a0,a1,a2,a3,a4,a5,a6,a7,a8):
    x1 = X.loc[:,'age']
    x2 = X.loc[:,'sex']
    x3 = X.loc[:,'bmi']
    x4 = X.loc[:,'children']
    x5 = X.loc[:,'smoker']
    x6 = X.loc[:,'region_northwest']
    x7 = X.loc[:,'region_southeast']
    x8 =  X.loc[:,'region_southwest']
    return a0+x1*a1+x2*a2+x3*a3+x4*a4+x5*a5+x6*a6+x7*a7+x8*a8

Ahora ya tenemos todo lo necesario para realizar la llamada al método

In [8]:
resultado= curve_fit(f= func, xdata = X,ydata= Y)

In [9]:
t2=time.time()
tiempo = float(t2-t1)

print('Regresion lineal utilizando optimize.curve.fit()')
print("Tiempo de ejecucion: {} segundos".format(tiempo))

Regresion lineal utilizando optimize.curve.fit()
Tiempo de ejecucion: 0.14246296882629395 segundos


In [10]:
# Medimos el tamaño en bytes del objeto
print(sys.getsizeof(resultado), 'bytes')

64 bytes


Los coeficientes son :

In [11]:
resultado[0]

array([-11938.5387315 ,    256.85635299,   -131.31445742,    339.19345129,
          475.50054558,  23848.5345485 ,   -352.96346811,  -1035.02166974,
         -960.05079222])

Además este método también nos devuelve la covarianza de los coeficientes

In [12]:
pcov =resultado[1] #covarianza de los coeficientes
pcov 

array([[ 9.75786719e+05, -4.40174930e+03, -4.36704287e+04,
        -2.20606833e+04, -1.52391333e+04, -3.87416652e+04,
        -1.13047077e+05, -2.01754577e+04, -8.09194070e+04],
       [-4.40174930e+03,  1.41582610e+02,  9.89630535e+01,
        -3.97295328e+01, -6.72273881e+01,  1.04514855e+02,
         2.17199473e+01,  2.06841018e+02,  3.95991646e+01],
       [-4.36704287e+04,  9.89630535e+01,  1.10852636e+05,
        -4.46414416e+02, -7.88523530e+02, -1.03277039e+04,
         6.59968757e+02,  5.58779733e+02,  5.70936004e+02],
       [-2.20606833e+04, -3.97295328e+01, -4.46414416e+02,
         8.17929711e+02, -5.05490898e+01,  1.76036733e+02,
        -1.76669173e+01, -3.43428888e+03, -1.14747159e+03],
       [-1.52391333e+04, -6.72273881e+01, -7.88523530e+02,
        -5.05490898e+01,  1.89899681e+04, -5.73963373e+02,
        -1.95132499e+03,  1.66937686e+02, -1.74162633e+03],
       [-3.87416652e+04,  1.04514855e+02, -1.03277039e+04,
         1.76036733e+02, -5.73963373e+02,  1.706956