# Exploratory Data Analysis
In this section, we provide you a sample code to read the database file(s).

In [None]:
# Imports
import pandas as pd


# Read the database .CSV
ocorrencias = pd.read_csv(
    'https://raw.githubusercontent.com/centraldedados/protecao_civil/master/data/anpc-2016.csv', 
    sep = ',', 
    on_bad_lines='skip'
)

# We replace the "," with "." to facilitate processing
ocorrencias['Latitude'] = pd.to_numeric(
    ocorrencias['Latitude'].str.replace(',', '.')
)
ocorrencias['Longitude'] = pd.to_numeric(
    ocorrencias['Longitude'].str.replace(',', '.')
)

In [2]:
# Check the size and shape of the database
ocorrencias.shape

(121187, 15)

In [3]:
# Count the values of the state(s) of the occurrence(s)
ocorrencias['EstadoOcorrencia'].value_counts()

EstadoOcorrencia
Encerrada                118169
Falso Alarme               2406
Despacho de 1º Alerta       198
Falso Alerta                168
Em Curso                    100
Conclusão                    72
Chegada ao TO                38
Em Resolução                 18
Despacho                     11
2                             1
Vigilância                    1
Name: count, dtype: int64

In [4]:
# We can use the .head() method to check the first n lines of the database
ocorrencias.head(3)

Unnamed: 0,Numero,DataOcorrencia,DataFechoOperacional,Natureza,EstadoOcorrencia,Distrito,Concelho,Freguesia,Localidade,Latitude,Longitude,NumeroMeiosTerrestresEnvolvidos,NumeroOperacionaisTerrestresEnvolvidos,NumeroMeiosAereosEnvolvidos,NumeroOperacionaisAereosEnvolvidos
0,2016150002576,09/01/2016 14:02:00,09/01/2016 17:30:00,Protecção e Assistência a Pessoas e Bens / Ass...,Encerrada,SETÚBAL,MOITA,Gaio-Rosário e Sarilhos Pequenos,Gaio- Rosario,38.680912,-9.002235,1.0,3.0,0.0,0.0
1,2016010098470,10/01/2016 00:30:00,,Protecção e Assistência a Pessoas e Bens / Ass...,Em Curso,AVEIRO,ALBERGARIA-A-VELHA,Albergaria-a-Velha e Valmaior,Rua 25 de Abril - Assilhó - Albergaria-a-Velha,40.692785,-8.479687,0.0,0.0,0.0,0.0
2,2016020002249,24/01/2016 18:57:00,24/01/2016 19:53:00,Protecção e Assistência a Pessoas e Bens / Ass...,Encerrada,BEJA,CASTRO VERDE,Castro Verde e Casével,"CASTRO VERDE-Rua Bento J. Carraça,6",37.71279,-8.091108,2.0,4.0,0.0,0.0


In [5]:
ocorrencias['Natureza'].value_counts()

Natureza
Protecção e Assistência a Pessoas e Bens / Assistência em Saúde / Trauma                                                                 52306
Protecção e Assistência a Pessoas e Bens / Assistência e Prevenção a actividades humanas / Patrulhamento, Reconhecimento e Vigilância     6850
Protecção e Assistência a Pessoas e Bens / Assistência e Prevenção a actividades humanas / Prevenção a actividades de lazer               6734
Riscos Mistos / Incêndios Rurais / Mato                                                                                                   6129
Protecção e Assistência a Pessoas e Bens / Assistência em Saúde / Intoxicação                                                             5724
                                                                                                                                         ...  
Riscos Tecnológicos / Incêndios Urbanos ou em Área Urbanizável / Museus e Galerias de Arte                                           

In [9]:
# Check the dates of the occurrences
ocorrencias['DiaOcorrencia'] = pd.to_datetime(ocorrencias['DataOcorrencia'], format="%d/%m/%Y %H:%M:%S").dt.date
ocorrencias['DiaOcorrencia'] = ocorrencias['DiaOcorrencia'].astype(str)

ValueError: time data "39,5983240486353" doesn't match format "%d/%m/%Y %H:%M:%S", at position 83938. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.

In [7]:
# Ocurrences per day
ocorrencias['DiaOcorrencia'].value_counts()

KeyError: 'DiaOcorrencia'

In [8]:
# Filter a specific day

ocorrencias_sample = ocorrencias[
    ocorrencias['DiaOcorrencia'] == '2016-08-08'
]

ocorrencias_sample

KeyError: 'DiaOcorrencia'

In [None]:
# Plot occurrences in a map

import folium

m = folium.Map(location=[39.4, -8.22], zoom_start=8)

for i, row in ocorrencias_sample.iterrows():

  folium.Marker(
      [row['Latitude'], row['Longitude']], tooltip=row['Natureza']
  ).add_to(m)



In [None]:
m

In [None]:
ocorrencias_sample_incendios = ocorrencias_sample[ocorrencias_sample.Natureza == 'Riscos Mistos / Incêndios Rurais / Mato']

In [None]:
ocorrencias_sample_incendios

In [None]:
from folium.plugins import HeatMap

# Create heatmap of fires

m = folium.Map(location=[39.4, -8.22], zoom_start=8)

# List comprehension to make out list of lists
heat_data = [[row['Latitude'],row['Longitude']] for index, row in ocorrencias_sample_incendios.iterrows()]

# Plot it on the map
HeatMap(heat_data).add_to(m)

m

In [None]:
import matplotlib.pyplot as plt
from matplotlib.pyplot import figure

fig = figure(figsize=(15, 3), dpi=80)
fig.patch.set_facecolor((1.0, 1.0, 1.0))
#ocorrencias['NumeroMeiosTerrestresEnvolvidos'] = ocorrencias['NumeroMeiosTerrestresEnvolvidos'].fillna(0)
ocorrencias['NumeroMeiosTerrestresEnvolvidos'] = ocorrencias['NumeroMeiosTerrestresEnvolvidos'].astype(str)
ocorrencias['DataOcorrencia'] = ocorrencias['DataOcorrencia'].astype(str)
print(type(ocorrencias['NumeroMeiosTerrestresEnvolvidos'][1]))
print(type(ocorrencias['NumeroMeiosTerrestresEnvolvidos'][1]))
plt.plot(ocorrencias['DataOcorrencia'], ocorrencias['NumeroMeiosTerrestresEnvolvidos'], label="Meios Terrestres", color="red")
plt.grid(b=None, which='major', axis='y', linestyle='--')
plt.xticks(rotation='vertical')
plt.legend()
plt.show()