<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Entendendo-os-Dados" data-toc-modified-id="Entendendo-os-Dados-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Entendendo os Dados</a></span></li><li><span><a href="#Lendo-Dataset" data-toc-modified-id="Lendo-Dataset-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Lendo Dataset</a></span></li></ul></div>

**<font size="6.5">Global Terroristm Database</font>**

Neste notebook, iremos trabalhar com um dataset contendo informações sobre ataques terroristas ao redor do mundo entre 1970 e 2017 (exceto 1993). Entre este período, mais de 180.000 registros foram coletados e disponibilizados por pesquisadores do National Consortium for the Study of Terrorism and Responses to Terrorism (START), na universidade de Maryland.

O conjunto de dados disponibilizado pelo [Kaggle](https://www.kaggle.com) pode ser encontrado [neste link](https://www.kaggle.com/START-UMD/gtd), bem como informações sobre o contexto, conteúdo, discussões e análises de outros usuários sobre este dataset. Visando aprimorar o aprendizado em diversas análises e a retirada de insights a partir de dados brutos, esta implementação irá aplicar técnicas de análise exploratória em Python e trará resultados explicativos sobre como as futuras conclusões foram pontuadas.

# Entendendo os Dados

Antes de realizar a leitura do arquivo `.csv`, vamos realizar um breve procedimento de entendimento dos dados e do conteúdo disponibilizado. Como informado no bloco introdutório acima, o dataset possui aproximadamente 180.000 instâncias espalhadas em 135 atributos que relacionam incidentes terroristas ao redor do mundo. Definição de terrorismo: _"Uso de força e violência ilegais por um indivíduo não estatal para atingir metas políticas, econômicas, religiosas ou sociais através do medo, coerção ou intimidação_".

Como temos um total de 135 atributos neste dataset, abaixo vamos detalhar apenas alguns dos mais importantes de acordo com as descrições proporcionadas pelo próprio Kaggle:

* **eventid** - ID de 12 dígitos que caracteriza o incidente. Os 8 primeiros dígitos referem-se a data na qual o incidente foi registrado `(yyyymmdd)`.
* **iyear** - Ano de acontecimento do incidente.
* **imonth** - Mês de acontecimento do incidente.
* **iday** - Dia de acontecimento do incidente.
* **approxdate<font color='red'>*</font>** - Data aproximada do incidente.
* **extended** - 1 = "Yes" significa que o incidente durou mais que 24h ; 0 = "No" significa que o incidente durou menos que 24h.
* <font color='red'>**resolution**</font> - `sem informações`.
* **country<font color='purple'>*</font>** - Código do país de acontecimento do incidente.
* **country_txt<font color='blue'>*</font>** - Nome do país de acontecimento do incidente.
* **region<font color='purple'>*</font>** - Código da região de acontecimento do incidente `código`.
* **region_txt** - Nome da região de acontecimento do incidente.
* **provstate<font color='blue'>*</font>** - Nome (no momento do incidente) da região subnacional administrativa de 1ª ordem.
* **city<font color='blue'>*</font>** - Cidade, vila ou município do incidente.
* **latitude** - Latitude da cidade onde o incidente ocorreu.
* **longitude** - Longitude da cidade onde o incidente ocorreu.
* **<font color='red'>specificity</font>** - `sem informações`, mas aparenta informar a magnitude do incidente.
* **<font color='red'>vicinity e location*</font>** - `sem informações`.
* **summary<font color='red'>*</font>** - `sem informações`, mas aparenta trazer uma breve descrição sobre o incidente.
* **<font color='red'>crit1, crit2, crit3 e doubtterr</font>** - `sem informações`.
* **alternative e alternative_txt<font color='red'>*</font>** - De certa forma categorizam o incidente em 5 tipos diferentes. 
* **sucess** - Indica o sucesso do ataque terrorista.
* **suicide** - 1 = "Yes" indica um atentado suicida ; 0 = "No" indica que não foi um atentado suicida.
* **attacktype1<font color='purple'>*</font>** - Código que relaciona o método de ataque do incidente.
* **attacktype1_txt** - Nome que relaciona o método de ataque do incidente.
* **<font color='red'>attacktype2, attacktype2_txt, attacktype3 e attacktype3_txt</font>** - `sem informações`, mas provavelmente indicam mais métodos de ataque.
* **targtype1<font color='purple'>*</font>** - Código que relaciona o alvo do ataque terrorista.
* **targtype1_txt** - Nome que relaciona o alvo do ataque terrorista.
* **targsubtype1<font color='blue'>* </font><font color='purple'>*</font>** - Código que relaciona um sub-alvo do ataque.
* **targsubtype1_txt<font color='blue'>*</font>** - Nome que relaciona um sub-alvo do ataque.
* **corp1<font color='blue'>* </font><font color='red'>*</font>** - `sem informações`, porém aparenta detalhar ainda mais o alvo do ataque a nível de título ou cargo.
* **target1<font color='blue'>* </font><font color='purple'>*</font>** - Detalhe do alvo a nível de nome/cargo pessoal.
* **natlty1<font color='purple'>*</font>** - Código da nacionalidade do alvo do ataque.
* **natlty1_txt<font color='blue'>*</font>** - Nacionalidade do alvo do ataque.
* **<font color='red'>targtype2, targtype2_txt, targsubtype2, targsubtype2_txt, corp2, target2, natlty2, natlty2_txt, targtype3, targtype3_txt, targsubtype3, targsubtype3_txt, corp3, target3, natlty3 e natlty3_txt</font>**- `sem informações`, porém relacionam se os respectivos atributos de mesmo nome e índices menores possuem mais de uma entrada. Possuem muitas instâncias nulas.
* **gname<font color='blue'>*</font>** - Nome do grupo responsável pelo ataque.
* **gsubname<font color='red'>*</font>** - Detalhes adicionais do grupo responsável pelos ataques (facção, por exemplo).
* **<font color='red'>gname2, gsubname2, gname3 e gsubname3</font>**- `sem informações`, porém são preenchidos quando mais de um grupo assume responsabilidade pelo ataque. Possuem muitas instâncias nulas.
* **motive<font color='red'>*</font>** - Motivo do ataque.
* **<font color='red'>guncertain1, guncertain2 e guncertain3</font>**- `sem informações`, porém deve relacionar a presença de armas de fogo ou não.
* **<font color='red'>individual</font>**- `sem informações`, porém deve relacionar se o ataque foi planejado individualmente ou não.
* **nperps** - Número total de terroristas participantes do ataque.
* **<font color='red'>nperpcap, claimed, claimode, claimode_txt, claim2, claimmode2, claimmode2_txt, claim3, claimmode3, claimmode3_txt e compclaim</font>**- `sem informações`. Possuem muitas instâncias nulas.
* **weaptype1<font color='purple'>*</font>** - Código que define o tipo de arma/artefato presente no ataque.
* **weaptype1_txt** - Tipo de arma/artefato presente no ataque.
* **weapsubtype1<font color='purple'>*</font>** - Código do subtipo da arma/artefato presente no ataque.
* **weapsubtype1_txt** - Subtipo da arma/artefato presente no ataque.
* **weaptype2<font color='red'>* </font> <font color='purple'>*</font>** - Código que define um segundo tipo de arma/artefato presente no ataque.
* **weaptype2_txt<font color='red'>*</font>** - Segundo tipo de arma/artefato presente no ataque.
* **weapsubtype2<font color='red'>* </font> <font color='purple'>*</font>** - Código de um segundo subtipo arma/artefato presente no ataque.
* **weapsubtype2_txt<font color='red'>*</font>** - Segundo subtipo da arma/artefato presente no ataque.
* **weaptype3<font color='red'>* </font> <font color='purple'>*</font>** - Código que define um terceiro tipo de arma/artefato presente no ataque.
* **weaptype3_txt<font color='red'>*</font>** - Terceiro tipo de arma/artefato presente no ataque.
* **weapsubtype3<font color='red'>* </font> <font color='purple'>*</font>** - Código de um terceiro subtipo da arma/artefato presente no ataque.
* **weapsubtype3_txt<font color='red'>*</font>** - Terceiro subtipo da arma/artefato presente no ataque.
* **weaptype4<font color='red'>* </font> <font color='purple'>*</font>** - Código que define um quarto tipo de arma/artefato presente no ataque.
* **weaptype4_txt<font color='red'>*</font>** - Quarto tipo de arma/artefato presente no ataque.
* **weapsubtype4<font color='red'>* </font> <font color='purple'>*</font>** - Código de um quarto subtipo da arma/artefato presente no ataque.
* **weapsubtype4_txt<font color='red'>*</font>** - Quarto subtipo da arma/artefato presente no ataque.
* **weapdetail<font color='red'>*</font>** - Detalhes da arma/artefato presente no ataque.
* **nkill** - Número confirmado de mortos no incidente relatado.
* **nkillus<font color='purple'>*</font>** - Número de cidadãos americanos mortos no incidente relatado.
* **nkillter** - `sem informações`, porém provavelmente indica o número de terroristas mortos no ataque.
* **nwound** - Número confirmado de vítimas não-fatais do atentado.
* **nwoundus** - Número confirmado de cidadãos americanos vítimas não-fatais do atentado.
* **nwoundte** - Número confirmado de terroristas vítimas não-fatais do atentado.
* **<font color='red'>property e propextent</font>** - `sem informações`.
* **propextent_txt<font color='red'>* </font> <font color='purple'>*</font>** - `sem informações`, mas provavelmente este atributo descreve a extensão do atentado.
* **<font color='red'>propvalue</font>** - `sem informações`.
* **propcomment<font color='red'>* </font>** - `sem informações`, mas traz comentários a respeito da proporção do atentado.
* **ishostkid** - `sem informações`, mas provavelmente trata-se de um flag que indica se houve crianças reféns.
* **nhostkid** - `sem informações`, mas provavelmente trata-se de um flag que indica se houve crianças reféns.
* **nhostkidus<font color='purple'>*</font>** - `sem informações`, mas provavelmente trata-se de um flag que indica se houve crianças americanas reféns.
* **<font color='red'>nhours, ndays, divert, kidhijcour, ransom, ransomamt, ransomamtus, ransompaidus, ransomnote, hostkidoutcome, hostkidoutcome_txt, nreleased, addnotes, scite1, scite2, scite3</font>** - `sem informações`. Atributos com muitas entradas nulas.
* **dbsource<font color='blue'>*</font>** - `sem informações`, porém provavelmente descreve a fonte do Banco de Dados.
* **<font color='red'>INT_LOG, INT_IDEO, INT_MISC, INT_ANY, related</font>** - `sem informações`.

<font color='red'>*</font> Muitas entradas nulas.

<font color='blue'>*</font> Atributo categórico com muitas categorias.

<font color='purple'>*</font> Atributo sem provável importância para análise.

A análise acima tem como principal objetivo o entendimento dos dados e a coleta de insights para análises futuras. Em um dataset de muitos atributos como esse, talvez essa análise se torne cansativa e desgastante, porém sua importância é nítida quando conseguimos indicar possíveis filtragens de atributos de acordo com sua importância, quantidade de dados nulos, tipos primitivos, entre outros fatores.

Como forma de facilitar nossa análise, preparei um segundo documento para descrever nossas features contendo:
* Nome do atributo;
* Breve descrição;
* Porcentagem de dados nulos;
* Categorização do atributo em Quantitativo e Qualitativo;
* Quantidade de categorias no caso de atributo Qualitativo;
* Flag de importância para as análises;

# Lendo Dataset

In [6]:
# Importando biblioteca e lendo arquivo
import pandas as pd

terr = pd.read_csv('/home/paninit/Downloads/datasets/globalterrorismdb_0718dist.csv', encoding='ISO-8859-1')
terr.head()

Unnamed: 0,eventid,iyear,imonth,iday,approxdate,extended,resolution,country,country_txt,region,...,addnotes,scite1,scite2,scite3,dbsource,INT_LOG,INT_IDEO,INT_MISC,INT_ANY,related
0,197000000001,1970,7,2,,0,,58,Dominican Republic,2,...,,,,,PGIS,0,0,0,0,
1,197000000002,1970,0,0,,0,,130,Mexico,1,...,,,,,PGIS,0,1,1,1,
2,197001000001,1970,1,0,,0,,160,Philippines,5,...,,,,,PGIS,-9,-9,1,1,
3,197001000002,1970,1,0,,0,,78,Greece,8,...,,,,,PGIS,-9,-9,1,1,
4,197001000003,1970,1,0,,0,,101,Japan,4,...,,,,,PGIS,-9,-9,1,1,


Com a análise