In [6]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import scipy.stats
from sklearn import linear_model
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
import statsmodels.api as sm #Para ver el efecto de las variables

Se lee el dataset y se realizan los diferentes ajustes para obtener aquelos datos que nos son relevantes. Es decir, la temperatura, humedad, viento, lluvia y el area afectada por los incendios. También se eliminan datos duplicados y aquellos que sean del tipo NAN.

In [7]:
df = pd.read_csv("incendios.csv")
df = df.drop_duplicates()
df = df.dropna()
df = df.drop(columns= ['X', 'Y', 'month', 'day', 'FFMC', 'DMC', 'DC', 'ISI'])

Queremos ver cuales de las variables dependientes son las mejores para la predicción mediante modelos de regresión. Se utiliza el metodo de minimos cuadrados OSL que se encuentra en la libreria statsmodel.api

In [8]:
target = pd.DataFrame(df['area']) # Variable dependiente, aquella que vamos a predecir
datos = df.drop(columns = ['area']) # Variables independientes
model = sm.OLS(target, datos).fit()
predictions = model.predict(datos)
model.summary()

0,1,2,3
Dep. Variable:,area,R-squared (uncentered):,0.05
Model:,OLS,Adj. R-squared (uncentered):,0.043
Method:,Least Squares,F-statistic:,6.739
Date:,"Tue, 03 Dec 2019",Prob (F-statistic):,2.73e-05
Time:,19:36:39,Log-Likelihood:,-2857.1
No. Observations:,513,AIC:,5722.0
Df Residuals:,509,BIC:,5739.0
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
temp,0.8476,0.292,2.899,0.004,0.273,1.422
RH,-0.1606,0.131,-1.225,0.221,-0.418,0.097
wind,1.0439,1.418,0.736,0.462,-1.742,3.830
rain,-2.2904,9.502,-0.241,0.810,-20.958,16.378

0,1,2,3
Omnibus:,969.84,Durbin-Watson:,1.642
Prob(Omnibus):,0.0,Jarque-Bera (JB):,773133.538
Skew:,12.625,Prob(JB):,0.0
Kurtosis:,191.501,Cond. No.,170.0


Nos fijamos en la columa "coef" y podemos ver que  el viento y la temperatura son las dos variables que mas afectan positivamente. Sien embargo, la lluvia es la que afecta en mayor medida de todas, aunque lo hace de manera negativa.

### Modelo 1 de 2 variables

Como primer modelo, se va a realizar teniendo en cuenta las variables viento y temperatura. Por lo que se debe modificar los datos de manera que se tengan solamente esas dos columnas. El target será el mismo para todos los modelos.

In [9]:
datos1 = datos.drop(columns= ['RH', 'rain']) #Eliminamos las columnas que no utilizaremos.

In [10]:
#Creamos los conjuntos de entrenamiento y test
x_train, x_test, y_train, y_test = train_test_split(datos1, target, test_size=0.2)

In [11]:
modelo = linear_model.LinearRegression()
regres = modelo.fit(datos1,target)

In [12]:
print('Coeficiente de determinación: ', modelo.score(datos1,target))
print('Interccepto: ', modelo.intercept_)
print('Coeficientes: ', modelo.coef_)

Coeficiente de determinación:  0.010943583064457196
Interccepto:  [-14.46180417]
Coeficientes:  [[1.16904091 1.31481843]]


Como se puede observar, este modelo posee un valor testimonial de coeficiente de determinación: 1.094%. Esto quiere decir que el ajuste es muy pequeño.
Ambas variables independientes poseen un valor alto de coeficiente, es decir, que ambas influyen en gran media sobre el valor de la variable dependiente, existiendo una relación lienea positiva entre ellas.

### Modelo 2 de 2 variables


En el caso de este modelo, se han cogido como variables la temperatura y la humedad.

In [13]:
datos2 = datos.drop(columns= ['wind', 'rain']) #Se eliminan las columans que no se utilicen

In [14]:
#Creamos los conjuntos de entrenamiento y test
x_train, x_test, y_train, y_test = train_test_split(datos2, target, test_size=0.2)
modelo2 = linear_model.LinearRegression()
regres2 = modelo2.fit(datos2,target)
print('Coeficiente de determinación: ', modelo2.score(datos2,target))
print('Intercepto: ', modelo2.intercept_)
print('Coeficientes: ', modelo2.coef_)

Coeficiente de determinación:  0.01041609847886349
Intercepto:  [1.78648734]
Coeficientes:  [[ 0.88748945 -0.12756492]]


Como se puede observar, este modelo posee un valor testimonial de coeficiente de determinación: 1.04%. Esto quiere decir que el ajuste es muy pequeño Más pequeño que en el acso anterior.
Por último, tal y como era de esperar, la temperatura influye más que la humedad relativa, la cual tiene un valor mu pequeño y podría decirse que no influye sobre la variable dependiente.

### Modelo 1 de 3 variables

En este primer modelo de 3 variables se van a proceder a utilizar las variables que se ha visto anteriormente que infuian más positivamente. es decir, en primer lugar desperdiciaremos los datos de la lluvia.

In [15]:
datos1_3 = datos.drop(columns= ['rain']) # Se eliminan las columans que no se utilicen

In [16]:
#Creamos los conjuntos de entrenamiento y test
x_train, x_test, y_train, y_test = train_test_split(datos1_3, target, test_size=0.25)
modelo1_3 = linear_model.LinearRegression()
regres1_3 = modelo1_3.fit(datos1_3,target)
print('Coeficiente de determinación: ', modelo1_3.score(datos1_3,target))
print('Intercepto: ', modelo1_3.intercept_)
print('Coeficientes: ', modelo1_3.coef_)

Coeficiente de determinación:  0.011600923811958319
Intercepto:  [-5.612408]
Coeficientes:  [[ 0.98978167 -0.1181779   1.25932209]]


Como se puede observar, este modelo posee un valor muy pequeño de coeficiente de determinación lo que quiere decir que el ajuste existente es pequeño. Cuanto más cerca de 1 mejor resultaos de predicción dará el modelo.
Podemos observar que la variable que más afecta es el viento seguido de la temperatura, teniendo a la hudad con un valor que casi podría decirse que no afecta a la variable dependiente.

### Modelo 2 de 3 variables

En este segundo  modelo se utilizarán las variables de temperatura, lluvia y viento, dejando de lado la humedad.

In [17]:
datos2_3 = datos.drop(columns= ['RH']) #Se eliminan las columans que no se utilicen

In [18]:
x_train, x_test, y_train, y_test = train_test_split(datos2_3, target, test_size=0.25)
modelo2_3 = linear_model.LinearRegression()
regres2_3 = modelo2_3.fit(datos2_3,target)
print('Coeficiente de determinación: ', modelo2_3.score(datos2_3,target))
print('Interccepto: ', modelo2_3.intercept_)
print('Coeficientes: ', modelo2_3.coef_)

Coeficiente de determinación:  0.011239470271066976
Interccepto:  [-14.89722176]
Coeficientes:  [[ 1.18574457  1.36497177 -3.71991364]]


Tal y como pasaba en el modelo anterior, este modelo posee un valor muy pequeño de coeficiente de determinación lo que quiere decir que el ajuste existente es pequeño. Cuanto más cerca de 1 mejor resultaos de predicción dará el modelo.
Podemos observar que la variable que más afecta en este caso es la lluvia y de manera negativa (existe una relación lineal negativa entre las dos variables) con un valor realmente alto en comparación con el modelo anterior.Destaca como principal diferencia del caso anterior que todas las variables influyen en gran medida sobre la variable dependiente.

Se cogerá como mejor modelo aque que tenga un mayor valor de coeficiente de determinación, lo que implica que ese modelo está mejor ajustado. En este caso el valor es muy parecido, y el mayoe es el primer modelo con un valor del 1.16%

Al tratarse de un modelo de 3 variables independientes, no puede dibujarse, porque eso implica 4 dimensiones, ya que tambien hay que tener en cuenta la variable dependiente

### Análisis de residuos

Se procede a realizar el calculo de los diferente valores del análisis de residuos. Es decir, el Residuo ordinario, SCT, SCR, y SCE.
Para ello se crea una lista donde se irán realizando las operaciones de cada una de ellas valor a valor, almacenandose en listas. Posteriormente se realiza el sumatorio de esos valores y se eleva al cuadrado para obtener el valor deseado.

In [215]:
res=list()
pred= modelo1_3.predict(datos1_3)
sct= list ()
media = target.mean()[0] # La media de las Y
sce = list ()
scr = list ()

# Bucle para calcular los valores necesarios en las formulas del Análisis de residuos.
for i in range(0,len(datos1_3)):
    res.append((target.iloc[i] - pred[i]))# Y - Y predicha
    sct.append((target.iloc[i] - media))# Y - Media(Y)
    sce.append((target.iloc[i] - pred[i]))# Y - Y predicha
    scr.append((pred[i] - media))# Y predicha - Media(Y)

# Para cada uno de ellos se realiza su sumatorio y se eleva al cuadrado para completar la fórmula que loas calcula
res=sum(res)[0]**2
sct=sum(sct)[0]**2
sce=sum(sce)[0]**2
scr=sum(scr)[0]**2
print ('El residuo total es: ', res)
print ('El sct es: ', sct)
print ('El sce es: ', sce)
print ('El scr es: ', scr)

El residuo total es:  1.979296187410211e-24
El sct es:  6.097836737195797e-23
El sce es:  1.979296187410211e-24
El scr es:  1.4249478520933016e-24


El valor de SCT indica la variabilidad total de una variable que estamos intentando explicar o estimar,es decir, que con un malor tan pequeño, indica que los valores de la variable Y (target) no son muy variables, no están muy dispersos.
El valor del SCR indica la variabilidad de los valores de la variables a predecir Y respecto al modelo, es decir respecto a la regresión. Al ser un valor pequeño, indica que no hay mucha dispersión entre los valores.
El valor SCE indica la variabilidad de la variable dependiente Y respecto de las variables independientes (datos). Al ser un valor tan pequeño podemos decir que esa variación es muy pequeña.

### Intervalos de confianza

In [4]:
#mirar scipy.stats.t