# Practica APA - predicció superfície cremada d'un incendi
Sergi Curto Panisello,
Joan Melchor Lladó

## Imports

In [1]:
import pandas as pd
import numpy as np

everything = False

## Obtenim les dades
Procedim a agafar les dades en format csv descarregades de https://datos.civio.es/dataset/todos-los-incendios-forestales/

In [2]:
df = pd.read_csv('fires-all.csv', index_col='id')
print(df.describe())

         superficie           lat           lng  latlng_explicit  \
count  82640.000000  82616.000000  82616.000000     82640.000000   
mean      19.888085     41.763721     -5.664360         0.741626   
std      223.787536      2.019672      4.394031         0.437743   
min        1.000000      0.490720  -1000.000000         0.000000   
25%        1.500000     40.876544     -7.257298         0.000000   
50%        3.000000     42.371123     -6.019478         1.000000   
75%        7.150000     43.143145     -4.303078         1.000000   
max    28879.100000     87.824157    242.755603         1.000000   

        idcomunidad   idprovincia   idmunicipio         causa  causa_supuesta  \
count  82640.000000  82640.000000  82640.000000  82640.000000         46465.0   
mean       7.850278     28.411375     77.795946      3.695051             1.0   
std        5.419922     11.727155     98.867769      1.032923             0.0   
min        1.000000      1.000000      1.000000      1.000000  

## Preprocessing

### Tractament de missing values

In [3]:
# Columnes amb missing values, també es pot veure al describe del
# dataset a les variables que no tinguin un count de 82640
print(df.columns[df.isnull().any()].tolist())

['lat', 'lng', 'causa_supuesta', 'muertos', 'heridos', 'gastos', 'perdidas']


#### Arreglar lat i long

Per arreglar lat i long ho fem en un altre document "corregirCoordenades.py", ja que és un procés més lent.
Es dedica a comprovar les coordenades de cada instància per veure si es corresponen a un diccionari generat
anteriorment amb el fitxer "obtenirCoordenades.py". Hi ha una explicació més extensa a la documentació.

In [4]:
df = pd.read_csv('coordsCorregides.csv', index_col='id')
# Comprovem que ja no queden nulls a coordenades
print(df.columns[df.isnull().any()].tolist())

['causa_supuesta', 'muertos', 'heridos', 'gastos', 'perdidas']


#### Arreglar muertos, heridos y causa_supuesta

In [5]:
# Comencem per emplenar els missing values de muertos i heridos ja que
# si no hi han dades suposarem que són 0.
df['muertos'].fillna(0, inplace=True)
df['heridos'].fillna(0, inplace=True)
# Sobre la "causa supuesta" és normal que hi hagin instàncies sense valor ja que és o 1 o nan per tant els posem a 0
df['causa_supuesta'].fillna(0, inplace=True)


#### Comprovar provincies i comunitats

In [6]:
import pandasql as ps

q1 = "SELECT municipio  FROM df GROUP BY municipio HAVING COUNT(DISTINCT idprovincia) > 1;"
q2 = "SELECT idprovincia FROM df GROUP BY idprovincia HAVING COUNT(DISTINCT idcomunidad) > 1;"

print("Municipio a la mateixa provincia", ps.sqldf(q1))
print("Provincia a la mateixa comunitat", ps.sqldf(q2))

Municipio a la mateixa provincia Empty DataFrame
Columns: [municipio]
Index: []
Provincia a la mateixa comunitat Empty DataFrame
Columns: [idprovincia]
Index: []


#### Arreglar gastos y perdidas

Per a fer aquesta part hem de netejar una mica més el dataset, la columna de "idmunicipio" és incorrecte, ja que
diferents municipis comparteixen el mateix id tot i està a cada punta del territori. També eliminem la columna municipio
ja que amb la latitud i longitud ja sabem on està localitzat l'incendi.

Primer separem target del dataset, volem predir la superfície cremada donat un incendi per
tant separem aquesta variable de la resta.

https://medium.com/@kyawsawhtoon/a-guide-to-knn-imputation-95e2dc496e

In [7]:
# Arreglar valors massa petits posant-lo a NaN
df.at[df.loc[((df["gastos"] < 25) & (df["gastos"] != 0))].index, 'gastos'] = np.NaN
df.at[df.loc[((df["perdidas"] < 25) & (df["perdidas"] != 0))].index, 'perdidas'] = np.NaN
# Valors massa extranys
df.at[df.loc[(df["perdidas"] == 999999)].index, 'perdidas'] = np.NaN
df.at[df.loc[(df["gastos"] == 999999)].index, 'gastos'] = np.NaN

# Convertir fecha en un numero en comptes de string
df["fecha"] = df["fecha"].apply(lambda f: f.replace('-', ''))
# Esborrem columnes innecessàries
df.drop(['idmunicipio', 'municipio', 'idcomunidad'], axis=1, inplace=True)

In [8]:
# Corregir valors de time ext i time control ja que no podem tenir que s'ha tardat més en controlar
# que en extendre. També treiem els que tenen valor de 0 ja que sino, no podrem aplicar la següent formula
df.at[df.loc[(df["time_ctrl"] > df["time_ext"])].index, ['time_ctrl', 'time_ext']] = np.NaN
df.at[df.loc[(df["time_ctrl"] == 0) | (df["time_ext"] == 0)].index, ['time_ctrl', 'time_ext']] = np.NaN
# Comprovem que el temps de control i d'extensió és adequat per les hectàrees de l'incendi
df.at[df.loc[(df["time_ctrl"] / df["superficie"] < 20)].index, ['time_ctrl', 'time_ext']] = np.NaN

df = pd.get_dummies(data=df, columns=["causa", "causa_desc", "idprovincia"])


In [9]:
import time
start = time.time()
print(df.columns[df.isnull().any()].tolist())

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)


if everything:
    # # # Apliquem KNN per tal d'emplenar els missing values
    from sklearn.impute import KNNImputer
    imputer = KNNImputer(n_neighbors=1, copy=False)
    pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

    print("--- %s seconds ---" % (time.time() - start))

    df.describe()
    print(df.columns[df.isnull().any()].tolist())

    df.to_csv("noNaNDataFrame.csv")
    print(df.head())
    print(df.describe())

df = pd.read_csv('noNaNDataFrame.csv', index_col=0)
df = pd.DataFrame(scaler.inverse_transform(df), columns=df.columns)

['time_ctrl', 'time_ext', 'gastos', 'perdidas']


## Feature Extraction

In [10]:
df['PeoplePerHour'] = df.personal/(df.time_ctrl/60)
df['MediosPerHour'] = df.medios/(df.time_ctrl/60)
print(df['PeoplePerHour'])
print(df['MediosPerHour'])

0         4.000000
1         0.872727
2         1.777778
3         1.074627
4        14.666667
           ...    
82522    24.761905
82523     9.363057
82524    13.043478
82525    22.352941
82526    11.473684
Name: PeoplePerHour, Length: 82527, dtype: float64
0        0.800000
1        0.218182
2        0.444444
3        0.179104
4        2.666667
           ...   
82522    2.857143
82523    0.955414
82524    1.739130
82525    4.705882
82526    1.017544
Name: MediosPerHour, Length: 82527, dtype: float64


## Linear Regression

In [11]:
from sklearn.model_selection import train_test_split
X = df.drop("superficie", axis=1)
y = df["superficie"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.33, random_state=42)

print(X_train['fecha'])

from sklearn.linear_model import LinearRegression
lr = LinearRegression(normalize=False, n_jobs=-1)

lr.fit(X_train, y_train)

y_val_predicted = lr.predict(X_val)
r2_score_lr = lr.score(X_val, y_val)

print('Linear regression' ,r2_score_lr)

35304    20050726.0
35081    20050429.0
16815    20030320.0
34620    20050318.0
9547     20020322.0
            ...    
72459    20130726.0
55180    20090423.0
80991    20151219.0
57319    20100812.0
74533    20130910.0
Name: fecha, Length: 37046, dtype: float64
0.3255452480165425


In [12]:
noOneHotXTrain = X_train.drop(X_train.filter(regex='^idprovincia').columns, axis=1)
noOneHotXVal = X_val.drop(X_val.filter(regex='^idprovincia').columns, axis=1)
noOneHotXTrain = noOneHotXTrain.drop(noOneHotXTrain.filter(regex='^causa_desc').columns, axis=1)
noOneHotXVal = noOneHotXVal.drop(noOneHotXVal.filter(regex='^causa_desc').columns, axis=1)

lr = LinearRegression(normalize=False, n_jobs=-1)

lr.fit(noOneHotXTrain, y_train)

y_val_predicted = lr.predict(noOneHotXVal)
r2_score_lr = lr.score(noOneHotXVal, y_val)

print('Linear regression without one hot encoding', r2_score_lr)

# 0.3246299878844209

0.3242303459254017


## KNN
