<a href="https://colab.research.google.com/github/amnacas/Portifolio/blob/master/Setembro_Amarelo_An%C3%A1lise_Explorat%C3%B3ria.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://github.com/amnacas/Portifolio/blob/master/Setembro%20Amarelo.jpg?raw=true">


---



# Análise exploratória dos dados de suicídios no Brasil (1985–2015)



##Motivação

A ídeia desse projeto é trazer uma luz para esse tema de extrema importância social, a prevenção ao suicídio, através da ótica de Data science e utilizando ferramentas básicas de Python. 

> Desde 2014, a Associação Brasileira de Psiquiatria – ABP, em parceria com o Conselho Federal de Medicina – CFM, organiza nacionalmente o Setembro Amarelo®. O dia 10 deste mês é, oficialmente, o Dia Mundial de Prevenção ao Suicídio, mas a campanha acontece durante todo o ano. 

> São registrados cerca de 12 mil suicídios todos os anos no Brasil e mais de 01 milhão no mundo. Trata-se de uma triste realidade, que registra cada vez mais casos, principalmente entre os jovens. Cerca de 96,8% dos casos de suicídio estavam relacionados a transtornos mentais. Em primeiro lugar está a depressão, seguida do transtorno bipolar e abuso de substâncias.

*Texto retidado do site da [Campanha Setembro Amarelo](https://www.setembroamarelo.com/).*




## Dados

O *dataset* utilizado nessa análise é proveniente do [Kaggle](https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016) e é composto por um conjunto de dados coletados das seguintes fontes:

* World Health Organization. (2018). [Suicide prevention.](http://www.who.int/mental_health/suicide-prevention/en/)
* United Nations Development Program. (2018). [Human development index (HDI).]( http://hdr.undp.org/en/indicators/137506)
* World Bank. (2018). [World development indicators: GDP (current US$) by country:1985 to 2016.](http://databank.worldbank.org/data/source/world-development-indicators#)
* Szamil. (2017). [Suicide in the Twenty-First Century dataset.](https://www.kaggle.com/szamil/suicide-in-the-twenty-first-century/notebook)

## Objetivos

Contribuir para um maior entendimento da extensão desse problema no Brasil visando divulgar e incentivar a campanha do [Setembro Amarelo](https://www.setembroamarelo.com/).

Para isso serão levantados os seguintes questionamentos:
*  Como está a taxa de suicídio do Brasil quando comparado ao resto do mundo?
* Qual é a faixa etaria das pessoas que comentem suicídio? Isso tem se alterado nos últimos 30 anos?
* Há uma correlação da geração com a taxa de suicídio?
* Existe uma tendêcia maior ao suicídio de acordo com o genêro?
* Existe uma correlação da taxa de suicídio com dados econômicos do país?



## Dicionário de Variáveis

O arquivo .csv importado possui 12 colunas, provenientes da compilação dos 4 *datasets* mencionados anteriormente. 

**Listagem e descrição das Variáveis**:

* *country*: país onde os dados foram registrados
 * 101 países
* *year*: ano em que os dados foram registrados
 * 1987 a 2016
* *sex*: sexo considerado no registro
 * *male* – masculino 
 * *female* – feminino
* *age*: faixa etária considerada
 * 5-14 anos
 * 15-24 anos
 * 25-34 anos
 * 35-54 anos
 * 55-74 anos
 * 75+ anos
* *suicides_no*: número de suicídios
* *population*: população para o grupo
* *suicides/100k pop*: número de suicídios por 100 mil habitantes
* *country_year*: identificador contendo country + year
* *HDI for year*: Índice de Desenvolvimento Humano (IDH) para o ano
* *gdp_for_year*: Produto Interno Bruto (PIB) para o ano
* *gdp_per_capita*: Produto Interno Bruto (PIB) per capita


## Bibliotecas que serão utilizadas

In [5]:
# Importando as bibliotecas necessárias 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

# Importando os dados de suicídio para um dataframe
df = pd.read_csv("https://raw.githubusercontent.com/amnacas/Portifolio/master/master.csv")

# %matplotlib inline sets the backend of matplotlib to the 'inline' backend.
# With this backend, the output of plotting commands is displayed inline within
# frontends like the Jupyter notebook, directly below the code cell that produced it.
# The resulting plots will then also be stored in the notebook document.

## Análise dos Dados

Esse *dataframe* é um conjunto de dados obtido a partir do Kaggle conforme dito anteriormente e é composto por dados de 4 fontes diferentes. 
Na junção dos 4 conjuntos de dados foi realizada a uniformização e tratamento dos dados, o que facilitará a nossa análise. 

O conjunto de dados é composto por 12 colunas e 27.820 linhas conforme apresentados abaixo:

In [9]:
# ver o formato do DataFrame
print("Formato do DataFrame: ", df.shape)

# ver as 5 primeiras entradas dos dataset
df.head()

Formato do DataFrame:  (27820, 12)


Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),gdp_per_capita ($),generation
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,796,Generation X
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,796,Silent
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,796,Generation X
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,796,G.I. Generation
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,796,Boomers


#Continua...