#  Importar DataSet

In [3]:
import pandas as pd

In [4]:
data = pd.read_csv('fires-all.csv')

In [5]:
data.head()

Unnamed: 0,id,superficie,fecha,lat,lng,latlng_explicit,idcomunidad,idprovincia,idmunicipio,municipio,...,causa_supuesta,causa_desc,muertos,heridos,time_ctrl,time_ext,personal,medios,gastos,perdidas
0,2001010001,3.7,2001-03-18,42.954656,-2.325719,1,1,1,13,BARRUNDIA,...,,2,,,150,180,10,2,661.0,553.0
1,2001010004,1.5,2001-03-24,42.552183,-2.640673,1,1,1,41,NAVARIDAS,...,1.0,10,,,275,290,4,1,661.0,451.0
2,2001010005,1.5,2001-04-16,48.302507,-3.397798,1,1,1,33,LAPUEBLA DE LABARCA,...,,10,,,135,165,4,1,312.0,902.0
3,2001010008,7.5,2001-05-25,42.946479,-2.485163,1,1,1,13,BARRUNDIA,...,,2,,,335,410,6,1,1082.0,15338.0
4,2001010017,1.04,2001-07-20,43.091715,-3.024574,1,1,1,10,AIARA/AYALA,...,,0,,,45,75,11,2,270.0,2866.0


In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 82640 entries, 0 to 82639
Data columns (total 21 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id               82640 non-null  int64  
 1   superficie       82640 non-null  float64
 2   fecha            82640 non-null  object 
 3   lat              82616 non-null  float64
 4   lng              82616 non-null  float64
 5   latlng_explicit  82640 non-null  int64  
 6   idcomunidad      82640 non-null  int64  
 7   idprovincia      82640 non-null  int64  
 8   idmunicipio      82640 non-null  int64  
 9   municipio        82640 non-null  object 
 10  causa            82640 non-null  int64  
 11  causa_supuesta   46465 non-null  float64
 12  causa_desc       82640 non-null  int64  
 13  muertos          2724 non-null   float64
 14  heridos          3071 non-null   float64
 15  time_ctrl        82640 non-null  int64  
 16  time_ext         82640 non-null  int64  
 17  personal    

In [7]:
# Null Values
data.isnull().sum()

id                     0
superficie             0
fecha                  0
lat                   24
lng                   24
latlng_explicit        0
idcomunidad            0
idprovincia            0
idmunicipio            0
municipio              0
causa                  0
causa_supuesta     36175
causa_desc             0
muertos            79916
heridos            79569
time_ctrl              0
time_ext               0
personal               0
medios                 0
gastos             71016
perdidas           48291
dtype: int64

#  Data Cleaning and Wrangling

In [6]:
#1 Eliminar las columnas que no nos interesan
data.drop(columns=['gastos','perdidas','muertos','heridos','causa_supuesta','causa_desc'], inplace=True)

In [7]:
# Rename Columns
data.rename(columns={'superficie':'hectareas',
                    'time_ctrl':'mins_ctrl',
                    'time_ext':'mins_ext'}, inplace=True)

In [8]:
data.dropna(inplace=True)

In [11]:
data.head()

Unnamed: 0,id,hectareas,fecha,lat,lng,latlng_explicit,idcomunidad,idprovincia,idmunicipio,municipio,causa,mins_ctrl,mins_ext,personal,medios
0,2001010001,3.7,2001-03-18,42.954656,-2.325719,1,1,1,13,BARRUNDIA,4,150,180,10,2
1,2001010004,1.5,2001-03-24,42.552183,-2.640673,1,1,1,41,NAVARIDAS,2,275,290,4,1
2,2001010005,1.5,2001-04-16,48.302507,-3.397798,1,1,1,33,LAPUEBLA DE LABARCA,2,135,165,4,1
3,2001010008,7.5,2001-05-25,42.946479,-2.485163,1,1,1,13,BARRUNDIA,4,335,410,6,1
4,2001010017,1.04,2001-07-20,43.091715,-3.024574,1,1,1,10,AIARA/AYALA,5,45,75,11,2


## Data Cleaning Causes

In [9]:
# Hacemos lo mismo con los otros data frames que usaremos
pd.read_excel('eell-extra-codes.xlsx')
df1 = pd.read_excel('eell-extra-codes.xlsx', 'regions')
df2 = pd.read_excel('eell-extra-codes.xlsx', 'causes')

In [13]:
df1.head()

Unnamed: 0,CODAUTO,Comunidad Autónoma,CPRO,Provincia,Fuente: https://www.ine.es/daco/daco42/codmun/cod_ccaa_provincia.htm
0,1,Andalucía,4,Almería,
1,1,Andalucía,11,Cádiz,
2,1,Andalucía,14,Córdoba,
3,1,Andalucía,18,Granada,
4,1,Andalucía,21,Huelva,


In [14]:
df2.head()

Unnamed: 0,id,es,en
0,1,Fuego por rayo,Fire caused by lightning
1,2,Fuego por accidente o negligencia,Fire caused by accident or negligence
2,3,Fuego por accidente o negligencia,Fire caused by accident or negligence
3,4,Fuego intencionado,Intentional fire
4,5,Fuego por causa desconocida,Fire caused by unknown reasons


In [15]:
# Primero limpiamos el df2 Causas

In [16]:
# Eliminar causa repetida
df2 = df2.drop([2]).reset_index()

In [17]:
df2

Unnamed: 0,index,id,es,en
0,0,1,Fuego por rayo,Fire caused by lightning
1,1,2,Fuego por accidente o negligencia,Fire caused by accident or negligence
2,3,4,Fuego intencionado,Intentional fire
3,4,5,Fuego por causa desconocida,Fire caused by unknown reasons
4,5,6,Incendio reproducido,Reproduced fire


In [18]:
# Corregimos el id
df2['id'] = [x for x in range(1,6)]
df2

Unnamed: 0,index,id,es,en
0,0,1,Fuego por rayo,Fire caused by lightning
1,1,2,Fuego por accidente o negligencia,Fire caused by accident or negligence
2,3,3,Fuego intencionado,Intentional fire
3,4,4,Fuego por causa desconocida,Fire caused by unknown reasons
4,5,5,Incendio reproducido,Reproduced fire


In [19]:
# Sustituimos los valores corregidos en el df de data 
data['causa'].replace({3:2}, inplace=True)

In [20]:
data['causa'] = data['causa'].map({4:3,
                  5:4,
                  6:5,
                  1:1,
                  2:2})

In [21]:
# Comprobacion
data['causa'].unique()

array([3, 2, 4, 1, 5], dtype=int64)

In [22]:
data.head()

Unnamed: 0,id,hectareas,fecha,lat,lng,latlng_explicit,idcomunidad,idprovincia,idmunicipio,municipio,causa,mins_ctrl,mins_ext,personal,medios
0,2001010001,3.7,2001-03-18,42.954656,-2.325719,1,1,1,13,BARRUNDIA,3,150,180,10,2
1,2001010004,1.5,2001-03-24,42.552183,-2.640673,1,1,1,41,NAVARIDAS,2,275,290,4,1
2,2001010005,1.5,2001-04-16,48.302507,-3.397798,1,1,1,33,LAPUEBLA DE LABARCA,2,135,165,4,1
3,2001010008,7.5,2001-05-25,42.946479,-2.485163,1,1,1,13,BARRUNDIA,3,335,410,6,1
4,2001010017,1.04,2001-07-20,43.091715,-3.024574,1,1,1,10,AIARA/AYALA,4,45,75,11,2


In [23]:
# Renombro el df2 a df_causas
df_causas = df2

In [24]:
# Renombro la columna para que sea más significativa
df2.rename(columns={'es':'motivo'}, inplace=True)

In [25]:
# Elimino la columna en
df2.drop(columns='en', inplace=True)

## Data Cleaning Comunidades y Provincias

In [26]:
df1.drop('Fuente: https://www.ine.es/daco/daco42/codmun/cod_ccaa_provincia.htm', axis=1, inplace=True)

In [27]:
# Extraemos el subset para comunidades
df_comunidad = df1[['CODAUTO', 'Comunidad Autónoma']]

In [28]:
# Elmininamos los valores duplicados
df_comunidad = df_comunidad.drop_duplicates()

In [29]:
# Como la columna de Comunidad Autonoma tiene los valores distintos a el df data principal 
#procedemos a eliminarla y sustituirla poer los valores correctos
df_comunidad = pd.DataFrame(data['idcomunidad'])

In [30]:
# Nos Quedamos con los valores unicos y los ordenamos
df_comunidad = df_comunidad.drop_duplicates().sort_values(by='idcomunidad').reset_index(drop=True)

In [31]:
# Creamos una nueva columna para llenarla con el orden correctos de las comunidades
df_comunidad['comunidad'] = df_comunidad['idcomunidad']
df_comunidad.head()

Unnamed: 0,idcomunidad,comunidad
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5


In [32]:
df_comunidad['comunidad'] = df_comunidad['comunidad'].map({1:'Pais Vasco',
                                   2:'Cataluña',
                                   3:'Galicia',
                                   4:'Andalucia',
                                   5:'Asturias',
                                   6:'Cantabria',
                                   7:'La Rioja',
                                   8:'Murcia',
                                   9:'Valencia',
                                   10:'Aragon',
                                   11:'Castilla la Mancha',
                                   12:'Canarias',
                                   13:'Navarra',
                                   14:'Extremadura',
                                   15:'Baleares',
                                   16:'Madrid',
                                   17:'Castilla y Leon',
                                   18:'Ceuta'})

In [33]:
df_comunidad.head()

Unnamed: 0,idcomunidad,comunidad
0,1,Pais Vasco
1,2,Cataluña
2,3,Galicia
3,4,Andalucia
4,5,Asturias


## Provincias df

In [34]:
# Creamos el df a partir de un subset de df1
df_provincias = df1[['CPRO', 'Provincia']]

In [35]:
# Ordenamos el df_provincias por su id
df_provincias = df_provincias.sort_values(by='CPRO').reset_index(drop=True)

In [36]:
df_provincias = df_provincias.rename(columns={'CPRO':'idprovincia','Provincia':'provincia'})

In [37]:
df_provincias.head()

Unnamed: 0,idprovincia,provincia
0,1,Araba/Álava
1,2,Albacete
2,3,Alicante/Alacant
3,4,Almería
4,5,Ávila


In [105]:
# Cambiamos los nombres que están escritos de manera extraña
 df_provincias['provincia'] = df_provincias['provincia'].replace({'Alicante/Alacant':'alicante',
                                   'Coruña, A':'a coruña',
                                   'Balears, Illes':'illes balears',
                                   'Palmas, Las':'las palmas',
                                   'Rioja, La':'la rioja',
                                   'Santa Cruz de Tenerife':'tenerife',
                                   'Valencia/València':'valencia'})

IndentationError: unexpected indent (<ipython-input-105-d62e68671a93>, line 2)

In [103]:
 df_provincias['provincia'].replace({'Castellón/Castelló':'castellon'}, inplace=True)

## Df Temperaturas

In [153]:
# Abrimos el DataSet 
temps = pd.read_csv('BBDD_Tiempo_Provincias .csv', engine='python', sep=None)

In [155]:
temps.head()

Unnamed: 0,Años,FECHA,Provincia,Idprovincia,Promedio de TMEDIA,Promedio de TMIN,Promedio de TMAX
0,2000,ene,a coruña,15,96,66,126
1,2000,feb,a coruña,15,122,97,147
2,2000,mar,a coruña,15,126,89,162
3,2000,abr,a coruña,15,12,92,148
4,2000,may,a coruña,15,158,13,186


In [156]:
# Quitamos los espacios en blanco de los nombres de las columnas
temps.columns = temps.columns.str.strip()

In [157]:
# Cambiar nombres columnas
temps.rename(columns={'Años':'años', 'Fecha':'fecha',
                   'Provincia':'provincia',
                   'Promedio de TMEDIA':'tmedia',
                   'Promedio de TMIN':'tmin',
                   'Promedio de TMAX':'tmax'}, inplace=True)

In [159]:
# Reamplaar comas por puntos en tmedia, tmin,tmax
temps[['tmedia','tmin','tmax']] = temps[['tmedia','tmin','tmax']].apply(lambda _: _.str.replace(',','.'))

In [160]:
# Cambiamos el tipo de datos de por float
tem.dtypes

años           int64
fecha         object
provincia     object
tmedia       float64
tmin         float64
tmax         float64
dtype: object

In [161]:
tem[['tmedia','tmin','tmax']] = tem[['tmedia','tmin','tmax']].apply(pd.to_numeric)

In [162]:
tem.dtypes

años           int64
fecha         object
provincia     object
tmedia       float64
tmin         float64
tmax         float64
dtype: object

In [163]:
tem.shape

(1536, 6)

In [117]:
df_provincias.head()

Unnamed: 0,idprovincia,provincia
0,1,Araba/Álava
1,2,Albacete
2,3,alicante
3,4,Almería
4,5,Ávila


In [119]:
tem.merge(df_provincias, how='left')

Unnamed: 0,años,fecha,provincia,tmedia,tmin,tmax,idprovincia
0,2000,ene,a coruña,9.6,6.6,12.6,15.0
1,2000,feb,a coruña,12.2,9.7,14.7,15.0
2,2000,mar,a coruña,12.6,8.9,16.2,15.0
3,2000,abr,a coruña,12.0,9.2,14.8,15.0
4,2000,may,a coruña,15.8,13.0,18.6,15.0
...,...,...,...,...,...,...,...
9723,2015,ago,león,19.3,12.0,26.6,
9724,2015,sep,león,14.8,8.1,21.4,
9725,2015,oct,león,11.0,6.1,16.0,
9726,2015,nov,león,8.7,4.2,13.2,


## Merge Data

In [50]:
# hacemos merge entre data y df_comunidad
data = data.merge(df_comunidad)

In [54]:
# Y entre data y df_provincia
data = data.merge(df_provincias)

In [55]:
# Reordenamos las columnas
lst_columns = data.columns.to_list
lst_columns

<bound method IndexOpsMixin.tolist of Index(['id', 'hectareas', 'fecha', 'lat', 'lng', 'latlng_explicit',
       'idcomunidad', 'idprovincia', 'idmunicipio', 'municipio', 'causa',
       'mins_ctrl', 'mins_ext', 'personal', 'medios', 'comunidad',
       'provincia'],
      dtype='object')>

In [56]:
lst_columns = ['id', 'hectareas', 'fecha', 'lat', 'lng', 'latlng_explicit',
'idcomunidad', 'comunidad', 'idprovincia', 'provincia', 'idmunicipio', 'municipio', 'causa',
'mins_ctrl', 'mins_ext', 'personal', 'medios']
data = data[lst_columns]

In [58]:
data.head()

Unnamed: 0,id,hectareas,fecha,lat,lng,latlng_explicit,idcomunidad,comunidad,idprovincia,provincia,idmunicipio,municipio,causa,mins_ctrl,mins_ext,personal,medios
0,2001010001,3.7,2001-03-18,42.954656,-2.325719,1,1,Pais Vasco,1,Araba/Álava,13,BARRUNDIA,3,150,180,10,2
1,2001010004,1.5,2001-03-24,42.552183,-2.640673,1,1,Pais Vasco,1,Araba/Álava,41,NAVARIDAS,2,275,290,4,1
2,2001010005,1.5,2001-04-16,48.302507,-3.397798,1,1,Pais Vasco,1,Araba/Álava,33,LAPUEBLA DE LABARCA,2,135,165,4,1
3,2001010008,7.5,2001-05-25,42.946479,-2.485163,1,1,Pais Vasco,1,Araba/Álava,13,BARRUNDIA,3,335,410,6,1
4,2001010017,1.04,2001-07-20,43.091715,-3.024574,1,1,Pais Vasco,1,Araba/Álava,10,AIARA/AYALA,4,45,75,11,2


In [59]:
# Transformamos a minusculas los valores de las columnas comunidad, provincia y municipio
data[['comunidad','provincia','municipio']] = data[['comunidad','provincia','municipio']].apply(lambda x: x.str.lower())

In [60]:
data.head(7)

Unnamed: 0,id,hectareas,fecha,lat,lng,latlng_explicit,idcomunidad,comunidad,idprovincia,provincia,idmunicipio,municipio,causa,mins_ctrl,mins_ext,personal,medios
0,2001010001,3.7,2001-03-18,42.954656,-2.325719,1,1,pais vasco,1,araba/álava,13,barrundia,3,150,180,10,2
1,2001010004,1.5,2001-03-24,42.552183,-2.640673,1,1,pais vasco,1,araba/álava,41,navaridas,2,275,290,4,1
2,2001010005,1.5,2001-04-16,48.302507,-3.397798,1,1,pais vasco,1,araba/álava,33,lapuebla de labarca,2,135,165,4,1
3,2001010008,7.5,2001-05-25,42.946479,-2.485163,1,1,pais vasco,1,araba/álava,13,barrundia,3,335,410,6,1
4,2001010017,1.04,2001-07-20,43.091715,-3.024574,1,1,pais vasco,1,araba/álava,10,aiara/ayala,4,45,75,11,2
5,2001010018,1.25,2001-07-27,42.514063,-2.452207,1,1,pais vasco,1,araba/álava,43,oion-oyón,2,135,180,12,1
6,2001010020,11.84,2001-08-01,42.586275,-2.488137,1,1,pais vasco,1,araba/álava,60,iecora/yécora,4,130,280,26,6


# Sql


## Export data to postgresql database

In [65]:
import psycopg2
from sqlalchemy import create_engine

In [66]:
%load_ext sql

In [67]:
engine = create_engine('postgresql+psycopg2://postgres:12345@localhost:5432/Incendios')

In [68]:
engine.connect()

<sqlalchemy.engine.base.Connection at 0x20d14dc89a0>

### Tabla Comunidades Autonomas

In [69]:
df_comunidad.to_sql('Comunidades', con=engine, if_exists='append', index=False)

### Tabla Provincias

In [106]:
# Creamos un subset con los datos que queremos
provincias = data[['idprovincia','provincia','idcomunidad']]

In [107]:
# Eliminamos duplicados y ordenamos por su id
provincias = provincias.drop_duplicates().sort_values(by='idprovincia')

In [113]:
provincias['provincia'].replace({'castellón/castelló':'castellon'}, inplace=True)

In [115]:
provincias.to_sql('Provincias', con=engine, if_exists='append', index=False)

### Tabla Municipios

In [73]:
# Creamos un subset con los datos que queremos
df_ubicacion_municipios = data[['idmunicipio','municipio','lat','lng','idprovincia']]

In [74]:
# Eliminamos duplicados y ordenamos
df_ubicacion_municipios = df_ubicacion_municipios.drop_duplicates(subset='idmunicipio').sort_values(by='idmunicipio').reset_index(drop=True)

In [78]:
df_ubicacion_municipios.to_sql('Municipios', con=engine, if_exists='append', index=False)

### Tabla Fire

In [76]:
# Creamos un subset con los datos que queremos
df_fire = data[['id','hectareas','personal','medios','causa','idmunicipio']]

In [82]:
df_fire.to_sql('Fire', con=engine, if_exists='append', index=False)

### Tabla Time

In [83]:
# Creamos dataset de los datos que nos interesan
df_time = data[['fecha','mins_ctrl','mins_ext','id']]

In [84]:
df_time.to_sql('Fecha_Incendios', con=engine, if_exists='append', index=False)

### Tabla Causas incendios

In [85]:
df_causas.rename(columns={'es':'motivo'}, inplace=True)

In [86]:
df_causas.rename(columns={'id':'idcausas'}, inplace=True)

In [87]:
df_causas.to_sql('CausasIncendios', con=engine, if_exists='append', index=False)

### Tabla Temperaturas

In [166]:
temps.head()

Unnamed: 0,años,fecha,provincia,idprovincia,tmedia,tmin,tmax
0,2000,ene,a coruña,15,9.6,6.6,12.6
1,2000,feb,a coruña,15,12.2,9.7,14.7
2,2000,mar,a coruña,15,12.6,8.9,16.2
3,2000,abr,a coruña,15,12.0,9.2,14.8
4,2000,may,a coruña,15,15.8,13.0,18.6


In [165]:
# Convertimos los nombres de las tablas a minusculas
temps.columns = temps.columns.str.lower()

In [167]:
# Eliminamos na
temps.dropna(inplace=True)

In [171]:
temps.to_sql('Temperaturas', con=engine, if_exists='append', index=False)

NameError: name 'data' is not defined

ParserError: Error tokenizing data. C error: Expected 1 fields in line 151, saw 11
