# Análise de suicídios

In [10]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

#### Leitura dos dados

In [11]:
df = pd.read_csv('master.csv')

Vamos dar uma olhada nos dados:

In [3]:
df.sample(5)

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),gdp_per_capita ($),generation
19187,Poland,2001,female,5-14 years,3,2546175,0.12,Poland2001,,190521263343,5249,Millenials
6492,Croatia,2005,male,25-34 years,58,306107,18.95,Croatia2005,0.782,45416358502,10722,Generation X
9347,France,2006,female,15-24 years,124,3915675,3.17,France2006,,2318593651988,40097,Millenials
27168,United States,2011,female,15-24 years,863,21552069,4.0,United States2011,0.911,15517926000000,53452,Millenials
12464,Israel,1989,male,75+ years,45,77500,58.06,Israel1989,,49881433991,12405,G.I. Generation


In [4]:
df.describe()

Unnamed: 0,year,suicides_no,population,suicides/100k pop,HDI for year,gdp_per_capita ($)
count,27820.0,27820.0,27820.0,27820.0,8364.0,27820.0
mean,2001.258375,242.574407,1844794.0,12.816097,0.776601,16866.464414
std,8.469055,902.047917,3911779.0,18.961511,0.093367,18887.576472
min,1985.0,0.0,278.0,0.0,0.483,251.0
25%,1995.0,3.0,97498.5,0.92,0.713,3447.0
50%,2002.0,25.0,430150.0,5.99,0.779,9372.0
75%,2008.0,131.0,1486143.0,16.62,0.855,24874.0
max,2016.0,22338.0,43805210.0,224.97,0.944,126352.0


O dataset tem dados de suicídios de 1985 até 2016.

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27820 entries, 0 to 27819
Data columns (total 12 columns):
country               27820 non-null object
year                  27820 non-null int64
sex                   27820 non-null object
age                   27820 non-null object
suicides_no           27820 non-null int64
population            27820 non-null int64
suicides/100k pop     27820 non-null float64
country-year          27820 non-null object
HDI for year          8364 non-null float64
 gdp_for_year ($)     27820 non-null object
gdp_per_capita ($)    27820 non-null int64
generation            27820 non-null object
dtypes: float64(2), int64(4), object(6)
memory usage: 2.5+ MB


Existem dados nulos?

In [6]:
df.isnull().sum()

country                   0
year                      0
sex                       0
age                       0
suicides_no               0
population                0
suicides/100k pop         0
country-year              0
HDI for year          19456
 gdp_for_year ($)         0
gdp_per_capita ($)        0
generation                0
dtype: int64

## Entendendo os dados

O campo country-year apresenta o nome do país e o ano do registro. Desta forma, é uma campo redundante e será descartado. Também devido a maioria dos dados do campo 'HDI for year', será descartado. 

In [7]:
df.drop(['country-year', 'HDI for year'], inplace=True, axis = 1)

Vamos renomear algumas colunas simplesmente para ficar mais fácil de acessá-las.

In [8]:
df = df.rename(columns={'gdp_per_capita ($)': 'gdp_per_capita', ' gdp_for_year ($) ':'gdp_for_year'})

Apenas para deixar claro, GDP é o PIB do país em questão. No caso, o campo 'gdp_for_year' está como uma string, então vamos converter isto para num número.

In [9]:
for i, x in enumerate(df['gdp_for_year']):
    df['gdp_for_year'][i] = x.replace(',', '')
    
df['gdp_for_year'] = df['gdp_for_year'].astype('int64')

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


KeyboardInterrupt: 

## Descrição dos dados

Cada dado no conjunto de dados representa um ano, de um país, uma determinada faixa de idade, e um sexo. Por exemplo, no país Brasil no ano de 1985, com mais de 75 anos, suicidaram 129 homens.

O conjunto de dados apresenta 10 atributos. Sendo estes:

- País: país do dados do registro;
- Ano: ano dos dados do registro;
- Sexo: Sexo (homem ou mulher);
- Idade: Faixa de idade dos suicidas, idades divididas em seis faixas;
- Suicides_no: quantidade de suicidas;
- População: população deste sexo, nesta faixa de idade, neste país e neste ano;
- Suicides/100k pop: Razão entre a quantidade de suicidas e a população / 100k;
- GDP_for_year: PIP do país no ano quem questão;
- GDP_per_capita: razão entre o PIP do país e sua população;
- Generation: Geração dos suicidas em questão, sendo possíveis 6 diferentes categorias.

Possíveis faixas de idade e gerações são:

In [None]:
df['age'].unique()

In [None]:
df['generation'].unique()

## Adicionando algumas coisas

Como o IDH foi descartado e é muito interessante avaliar se o desenvolvimento do país tem influência na taxa de suicidios, separei uma lista de países de primeiro e segundo mundo a partir dos dados do site:

http://worldpopulationreview.com

Depois, categorizei cada país do conjunto de dados em primeiro, segundo e terceiro mundo.

In [None]:
Frist_world = ['United States', 'Germany', 'Japan', 'Turkey', 'United Kingdom', 'France', 'Italy', 'South Korea',
              'Spain', 'Canada', 'Australia', 'Netherlands', 'Belgium', 'Greece', 'Portugal', 
              'Sweden', 'Austria', 'Switzerland', 'Israel', 'Singapore', 'Denmark', 'Finland', 'Norway', 'Ireland',
              'New Zeland', 'Slovenia', 'Estonia', 'Cyprus', 'Luxembourg', 'Iceland']

Second_world = ['Russian Federation', 'Ukraine', 'Poland', 'Uzbekistan', 'Romania', 'Kazakhstan', 'Azerbaijan', 'Czech Republic',
               'Hungary', 'Belarus', 'Tajikistan', 'Serbia', 'Bulgaria', 'Slovakia', 'Croatia', 'Maldova', 'Georgia',
               'Bosnia And Herzegovina', 'Albania', 'Armenia', 'Lithuania', 'Latvia', 'Brazil', 'Chile', 'Argentina',
               'China', 'India', 'Bolivia', 'Romenia']

In [None]:
country_world = []
for i in range(len(df)):
    
    if df['country'][i] in Frist_world:
        country_world.append(1)
    elif df['country'][i] in Second_world:
        country_world.append(2)
    else:
        country_world.append(3)

df['country_world'] = country_world

# Análise exploratória

Vou analisar o impacto de alguns atributos de forma isolada na quantidade de suicidios. Começemos pelo ano.

#### Ano

In [None]:
suicides_no_year = []

for y in df['year'].unique():
    suicides_no_year.append(sum(df[df['year'] == y]['suicides_no']))

n_suicides_year = pd.DataFrame(suicides_no_year, columns=['suicides_no_year'])
n_suicides_year['year'] = df['year'].unique()

top_year = n_suicides_year.sort_values('suicides_no_year', ascending=False)['year']
top_suicides = n_suicides_year.sort_values('suicides_no_year', ascending=False)['suicides_no_year']

plt.figure(figsize=(8,5))
plt.xticks(rotation=90)
sns.barplot(x = top_year, y = top_suicides)

#### Idade

In [None]:
suicides_no_age = []

for a in df['age'].unique():
    suicides_no_age.append(sum(df[df['age'] == a]['suicides_no']))

plt.xticks(rotation=30)
sns.barplot(x = df['age'].unique(), y = suicides_no_age)

#### Sexo

In [None]:
suicides_no_sex = []

for s in df['sex'].unique():
    suicides_no_sex.append(sum(df[df['sex'] == s]['suicides_no']))

sns.barplot(x = df['sex'].unique(), y = suicides_no_sex)

In [None]:
sns.catplot(x='sex', y='suicides_no',col='age', data=df, estimator=np.median,height=4, aspect=.7,kind='bar')

#### País

Paises com maior população devem ter mais suicidios.

In [None]:
suicides_no_pais = []
for c in df['country'].unique():
    suicides_no_pais.append(sum(df[df['country'] == c]['suicides_no']))
    
n_suicides_pais = pd.DataFrame(suicides_no_pais, columns=['suicides_no_pais'])
n_suicides_pais['country'] = df['country'].unique()

quant = 15
top_paises = n_suicides_pais.sort_values('suicides_no_pais', ascending=False)['country'][:quant]
top_suicides = n_suicides_pais.sort_values('suicides_no_pais', ascending=False)['suicides_no_pais'][:quant]
sns.barplot(x = top_suicides, y = top_paises)

Ao usarmos a quantidade de suicidios por 100k habitantes, retiramos o viés de países superpopulosos.

In [None]:
suicides_no_pais = []
for c in df['country'].unique():
    suicides_no_pais.append(sum(df[df['country'] == c]['suicides/100k pop']))
    
n_suicides_pais = pd.DataFrame(suicides_no_pais, columns=['suicides_no_pais/100k'])
n_suicides_pais['country'] = df['country'].unique()

quant = 15
top_paises = n_suicides_pais.sort_values('suicides_no_pais/100k', ascending=False)['country'][:quant]
top_suicides = n_suicides_pais.sort_values('suicides_no_pais/100k', ascending=False)['suicides_no_pais/100k'][:quant]
sns.barplot(x = top_suicides, y = top_paises)

#### Geração

In [None]:
suicides_no_gen = []
for g in df['generation'].unique():
    suicides_no_gen.append(sum(df[df['generation'] == g]['suicides_no']))

plt.figure(figsize=(8,5))
sns.barplot(x = df['generation'].unique(), y = suicides_no_gen)

#### Country world

In [None]:
suicides_no_world = []
for w in df['country_world'].unique():
    suicides_no_world.append(sum(df[df['country_world'] == w]['suicides_no']))
    
sns.barplot(x = df['country_world'].unique(), y = suicides_no_world)

In [None]:
suicides_no_world = []
for w in df['country_world'].unique():
    suicides_no_world.append(sum(df[df['country_world'] == w]['suicides/100k pop']))
    
sns.barplot(x = df['country_world'].unique(), y = suicides_no_world)

#### PIB do ano

In [None]:
sns.scatterplot(x = 'gdp_for_year', y = 'suicides_no', data = df)

#### PIB por capita

In [None]:
sns.scatterplot(x = 'gdp_per_capita', y = 'suicides_no', data = df)

### Correlação dos atributos

In [None]:
plt.figure(figsize=(8,7))
sns.heatmap(df.corr(), cmap = 'coolwarm', annot=True)

### Plot geral do mundo

In [None]:
import plotly.plotly as py
import plotly.graph_objs as go 
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot

In [None]:
init_notebook_mode(connected=True) 

In [None]:
cod = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/2014_world_gdp_with_codes.csv')

In [None]:
codes = []
for i in range(len(n_suicides_pais)):
    c = n_suicides_pais['country'][i]
    f = 0
    for j in range(len(cod)):
        if c == cod['COUNTRY'][j]:
            tmp = cod['CODE'][j]
            f = 1
            break
    if f == 0:
        if c == 'Bahamas':
            tmp  = 'BHM'
        elif c == 'Republic of Korea':
            tmp = 'KOR'
        elif c == 'Russian Federation':
            tmp = 'RUS'
        else:
            tmp = 'VC'
    codes.append(tmp)

In [None]:
data = dict(
        type = 'choropleth',
        locations = codes,
        z = n_suicides_pais['suicides_no_pais/100k'],
        text = n_suicides_pais['country'],
        colorbar = {'title' : 'número de suicídios'},
      )

In [None]:
layout = dict(
    title = 'Mapa de calor de suicídios 1985-2016',
    geo = dict(
        showframe = False,
        projection = {'type':'equirectangular'}
    )
)

In [None]:
choromap = go.Figure(data = [data],layout = layout)
iplot(choromap)

## Dados do Brasil

Como sou brasileiro, tenho um interesse particular no indice do suicidos do Brasil. Entãou vou tentar dar uma analisada nos índices especificos deste país.

In [12]:
df_brasil = df[df['country'] == 'Brazil']

Os campos de país e mundo do país são todos iguais, então descartados.

In [None]:
df_brasil.drop(['country', 'country_world'], axis = 1, inplace = True)

Vou repetir boa parte dos gráficos já feitos.

In [None]:
suicides_no_year = []

for y in df_brasil['year'].unique():
    suicides_no_year.append(sum(df_brasil[df_brasil['year'] == y]['suicides_no']))

n_suicides_year = pd.DataFrame(suicides_no_year, columns=['suicides_no_year'])
n_suicides_year['year'] = df_brasil['year'].unique()

top_year = n_suicides_year.sort_values('suicides_no_year', ascending=False)['year']
top_suicides = n_suicides_year.sort_values('suicides_no_year', ascending=False)['suicides_no_year']

plt.figure(figsize=(8,5))
plt.xticks(rotation=90)
sns.barplot(x = top_year, y = top_suicides)

In [None]:
suicides_no_age = []

for a in df['age'].unique():
    suicides_no_age.append(sum(df_brasil[df_brasil['age'] == a]['suicides_no']))

plt.xticks(rotation=30)
sns.barplot(x = df_brasil['age'].unique(), y = suicides_no_age)

In [None]:
suicides_no_sex = []

for s in df['sex'].unique():
    suicides_no_sex.append(sum(df_brasil[df_brasil['sex'] == s]['suicides_no']))

sns.barplot(x = df_brasil['sex'].unique(), y = suicides_no_sex)

In [None]:
suicides_no_gen = []
for g in df['generation'].unique():
    suicides_no_gen.append(sum(df_brasil[df_brasil['generation'] == g]['suicides_no']))

plt.figure(figsize=(8,5))
sns.barplot(x = df_brasil['generation'].unique(), y = suicides_no_gen)

In [None]:
sns.scatterplot(x = 'gdp_for_year', y = 'suicides_no', data = df_brasil)

In [None]:
sns.scatterplot(x = 'gdp_per_capita', y = 'suicides_no', data = df_brasil)

In [None]:
plt.figure(figsize=(8,7))
sns.heatmap(df_brasil.corr(), cmap = 'coolwarm', annot=True)

In [23]:
df_brasil = df_brasil.drop(['year', 'sex', 'generation','age', 'country'], axis = 1)

In [14]:
from sklearn.preprocessing import MinMaxScaler

In [32]:
y = df_brasil['suicides_no']
X = df_brasil.drop(['suicides_no', ' gdp_for_year ($) ', 'HDI for year', 'country-year'], axis = 1)

In [35]:
y=(y-y.min())/(y.max()-y.min())

In [36]:
y

4172    0.032369
4173    0.158730
4174    0.306878
4175    0.238406
4176    0.197946
4177    0.002179
4178    0.038282
4179    0.075941
4180    0.084345
4181    0.079365
4182    0.004980
4183    0.003112
4184    0.024276
4185    0.173047
4186    0.293184
4187    0.226891
4188    0.205415
4189    0.002490
4190    0.042951
4191    0.096483
4192    0.095238
4193    0.072207
4194    0.003112
4195    0.000622
4196    0.038593
4197    0.193589
4198    0.334578
4199    0.261438
4200    0.214130
4201    0.053533
          ...   
4514    0.126984
4515    0.019608
4516    0.114535
4517    0.104886
4518    0.014628
4519    0.007781
4520    0.113601
4521    0.469655
4522    0.941488
4523    0.609088
4524    0.414877
4525    0.263305
4526    0.113290
4527    0.134454
4528    0.018052
4529    0.107688
4530    0.018363
4531    0.011516
4532    0.138500
4533    0.519141
4534    1.000000
4535    0.582633
4536    0.424525
4537    0.275444
4538    0.141301
4539    0.137255
4540    0.019919
4541    0.1157

In [21]:
scaler = MinMaxScaler()
X, y = scaler.fit_transform(X,y)

ValueError: could not convert string to float: 'Brazil'