# Practica APA - predicció superfície cremada d'un incendi
Sergi Curto Panisello,
Joan Melchor Lladó

## Imports

In [1]:
import pandas as pd
import numpy as np
import tabulate
from geopy.geocoders import Nominatim

## Obtenim les dades
Procedim a agafar les dades en format csv descarregades de https://datos.civio.es/dataset/todos-los-incendios-forestales/

In [5]:
df = pd.read_csv('fires-all.csv').set_index('id')
print(df.describe())

         superficie           lat           lng  latlng_explicit  \
count  82640.000000  82616.000000  82616.000000     82640.000000   
mean      19.888085     41.763721     -5.664360         0.741626   
std      223.787536      2.019672      4.394031         0.437743   
min        1.000000      0.490720  -1000.000000         0.000000   
25%        1.500000     40.876544     -7.257298         0.000000   
50%        3.000000     42.371123     -6.019478         1.000000   
75%        7.150000     43.143145     -4.303078         1.000000   
max    28879.100000     87.824157    242.755603         1.000000   

        idcomunidad   idprovincia   idmunicipio         causa  causa_supuesta  \
count  82640.000000  82640.000000  82640.000000  82640.000000         46465.0   
mean       7.850278     28.411375     77.795946      3.695051             1.0   
std        5.419922     11.727155     98.867769      1.032923             0.0   
min        1.000000      1.000000      1.000000      1.000000  

In [6]:
dfCorregit = pd.read_csv("coordsCorregides.csv")
print(dfCorregit.describe())

                 id    superficie           lat           lng  \
count  8.264000e+04  82640.000000  82546.000000  82546.000000   
mean   2.007259e+09     19.888085     41.719155     -5.558112   
std    4.247106e+06    223.787536      1.926568      2.443179   
min    2.001010e+09      1.000000     27.707180    -17.980518   
25%    2.003390e+09      1.500000     40.776836     -7.250142   
50%    2.006330e+09      3.000000     42.341650     -5.959559   
75%    2.011150e+09      7.150000     43.127503     -4.217251   
max    2.015510e+09  28879.100000     43.761264      4.158954   

       latlng_explicit   idcomunidad   idprovincia   idmunicipio  \
count     82640.000000  82640.000000  82640.000000  82640.000000   
mean          0.639920      7.850278     28.411375     77.795946   
std           0.480026      5.419922     11.727155     98.867769   
min           0.000000      1.000000      1.000000      1.000000   
25%           0.000000      3.000000     21.000000     27.000000   
50%   

In [3]:
geolocator = Nominatim(user_agent="apaProject")
location = geolocator.geocode('mont-ras')
print(location.address)
print((location.latitude, location.longitude))

Mont-ras, Baix Empordà, Girona, Catalunya, España
(41.9080196, 3.144796)


In [4]:
# Si separem solament Catalunya
cat = df.loc[df['idcomunidad'] == 2]
print(cat.head)
print('Shape')
print(cat.shape)

print("ID especial")
print(pd.concat([df.loc[df['id'] == 2001320802], df.loc[df['id'] == 2002151000]]).to_markdown())
# print(df.loc[df['id'] == 2002151000])

print("ID cremat molt")
print(df.loc[df['superficie'] == 28879.10])

<bound method NDFrame.head of             superficie       fecha        lat       lng  latlng_explicit  \
id                                                                         
2001080017        1.00  2001-02-22  41.667672  2.066639                1   
2001080032        6.00  2001-03-29  41.300741  1.666971                1   
2001080039        1.00  2001-04-07  41.474125  1.973610                1   
2001080041        1.33  2001-04-08  41.483501  1.584177                1   
2001080043        2.00  2001-04-08  41.511833  2.321732                1   
...                ...         ...        ...       ...              ...   
2015430102        1.63  2015-11-25  41.266186  1.154032                1   
2015430116       23.23  2015-06-09  41.175501  0.813588                1   
2015430117       45.03  2015-08-24  40.940658  0.826569                1   
2015430118       29.00  2015-08-29  41.268525  0.883916                1   
2015430119        6.76  2015-10-22  41.004475  0.491856   

KeyError: 'id'

## Preprocessing

### Tractament de missing values

In [None]:
print(df.duplicated(subset='id', keep="first"))

In [None]:
# Columnes amb missing values, també es pot veure al describe del
# dataset a les variables que no tinguin un count de 82640
print(df.columns[df.isnull().any()].tolist())

# Sobre la "causa supuesta" és normal que hi hagin instàncies sense valor ja que 
# idmunicipio 999, i 998 ens carreguem els que no tinguin lat i long ja que són incendis originats fora d'Espanya
df.dropna(subset=['lat', 'lng'], inplace=True)

# Comencem per emplenar els missing values de muertos i heridos ja que
# si no hi han dades suposarem que són 0.
df['muertos'].fillna(0, inplace=True)
df['heridos'].fillna(0, inplace=True)

# Causa supuesta la posem a 0
df['causa_supuesta'].fillna(0, inplace=True)

# Posem a 0 gastos i perdidas
df['gastos'].fillna(0, inplace=True)
df['perdidas'].fillna(0, inplace=True)

# df.describe()

print(df.columns[df.isnull().any()].tolist())

In [None]:
aux = df.loc[df['idmunicipio'] == 999]
latMissing = df.loc[np.isnan(df['lat'])]
print(aux.shape)
print(latMissing.shape)
print(latMissing)

## Separem target del dataset
Volem predir la superfície cremada donat un incendi per tant separem aquesta variable de la resta.

In [None]:
X = df.drop('superficie', axis=1)
y = df['superficie']

# Comprovem que al target no hi hagin nulls
print(y.isnull().values.any())
