#                                 Projeto 2- Ciência dos Dados


##### Como os índices de suicídio são afetados por Índice de Desenvolvimento Humano, PIB ber Capita, sexo, geração, idade e país
Maria Victória Cavalieri e Laura Perim

## 1- Importando e limpando os dados
Ness etapa, importamos a base de dados obtida no Kaggle, e a limpamos para podermos analisá-la com grau elevado de autonomia.

In [None]:
%matplotlib notebook
%reset -f


import pandas as pd
import numpy as np
from scipy.stats import norm, probplot
import statsmodels.api as sm
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

In [14]:
 #Abrindo o documento e renomeando as colunas de alguns elementos das colunas
dados= pd.read_csv('suicide_.csv')
dados.rename(columns={'gdp_per_capita ($)':'gdp_capita'}, inplace=True)
dados.rename(columns={'HDI for year':'HDI'}, inplace=True)
dados.rename(columns={'suicides/100k pop' :'suicides_100k_pop'}, inplace=True)
dados.head()

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides_100k_pop,country-year,HDI,gdp_for_year ($),gdp_capita,generation
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,796,Generation X
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,796,Silent
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,796,Generation X
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,796,G.I. Generation
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,796,Boomers


In [15]:
def regress(X,Y):
    '''
    X: coluna(s) do DataFrame que serão utilizadas como variável(is) preditoras/explicativas (independente(s))
    Y: coluna do DataFrame que será utilizada como variável resposta (dependente)
    '''
    X_cp = sm.add_constant(X)
    model = sm.OLS(Y,X_cp)
    results = model.fit()
    return results
df = dados[[ 'year', 'sex', 'age','suicides_100k_pop', 'population','HDI',
'gdp_capita','generation']].dropna()


In [16]:
df.describe()

Unnamed: 0,year,suicides_100k_pop,population,HDI,gdp_capita
count,8364.0,8364.0,8364.0,8364.0,8364.0
mean,2005.348637,11.991936,1852173.0,0.776601,21074.371593
std,8.80302,17.361772,3969754.0,0.093367,22579.186968
min,1985.0,0.0,875.0,0.483,313.0
25%,2000.0,1.04,121642.5,0.713,4862.0
50%,2010.0,5.72,472250.5,0.779,12584.0
75%,2012.0,15.4425,1500290.0,0.855,30271.0
max,2014.0,187.06,43509340.0,0.944,126352.0


## 2- Preparando os dados para análise
Aqui, tivemos que substituir palavras ( variáveis qualitativas) por binários, como 1= homem e 0=mulher. Isso será feito mais pra frente com os países e com as faixa etárias, que se tornarão variáveis denominadas "dummies". Basicamente elas também se tornam variáveis binárias, mas como há mais de uma categoria, só uma torna-se 1, enquanto todo o resto se torna 0 a cada linha.

In [17]:
#Separando os sexos masculinos e femininos para a análise de dados, e os nomeando com variáveis binárias para utilizar a função de regressão
df.loc[df.sex == 'male', 'sex'] = 1
df.loc[df.sex == 'female', 'sex'] = 0
df.sex = df.sex.astype('int')
df.head()

Unnamed: 0,year,sex,age,suicides_100k_pop,population,HDI,gdp_capita,generation
72,1995,1,25-34 years,5.58,232900,0.619,835,Generation X
73,1995,1,55-74 years,5.06,178000,0.619,835,Silent
74,1995,0,75+ years,4.9,40800,0.619,835,G.I. Generation
75,1995,0,15-24 years,4.59,283500,0.619,835,Generation X
76,1995,1,15-24 years,4.56,241200,0.619,835,Generation X


## 3- Análise descritiva
Vamos começar fazendo algumas análises básicas dos dados como correlação entre elas ( se a correlação for muito alta, isso pode atrapalhar na análise de regressão, por exemplo).

In [86]:
#Calculando a covariância entre anguns dados da tabela,  e calculando a média entre as faixas etárias 
df2= df[['suicides_100k_pop', 'population','HDI',
'gdp_capita']]
df2.corr()


Unnamed: 0,suicides_100k_pop,population,HDI,gdp_capita
suicides_100k_pop,1.0,-0.023197,0.074279,-0.002339
population,-0.023197,1.0,0.102943,0.073701
HDI,0.074279,0.102943,1.0,0.771228
gdp_capita,-0.002339,0.073701,0.771228,1.0


Apesar de algumas correlações serem razoavelmente altas, como HDI (Índice de desenvolvimento humano) e GDP ( PIB per capita), 
vamos considerar todas as variáveis como possíveis influentes em nossa análise. Definimos que se a correlção superasse 0,8, ela seria
desconsiderada da análise, mas não houve nenhum caso assim.

Agora, vamos analisar como a média da taxa de suicídios se distribui para cada faixa etária. Para isso, plotaremos um histograma
que combina essa média com cada idade representada.

In [85]:

media= df.suicides_100k_pop.groupby(by=df.age).mean()
plt.figure(figsize=(7,7))
media.plot.bar(rot=45)
plt.xlabel("Years",fontsize=10)
plt.ylabel("Suicide rate per 100k")
plt.title('Suicide rate over age groups')
plt.show()

print(media)
df.suicides_100k_pop.groupby(by=df.sex).mean()

<IPython.core.display.Javascript object>

age
15-24 years     8.651736
25-34 years    11.467518
35-54 years    14.116133
5-14 years      0.628623
55-74 years    15.143006
75+ years      21.944598
Name: suicides_100k_pop, dtype: float64


sex
0     4.937198
1    19.046674
Name: suicides_100k_pop, dtype: float64

Podemos observar que a menor taxa se encontra entre crianças de 5-14 anos, e que a maior encontrasse na faixa de 75+ anos. Também podemos observar que as faixas de 35-54
e 55-74 anos são bem próximas.

#### Analisando os dados das  diferentes faixas etárias

In [19]:
f1=df.suicides_100k_pop[df.age=="5-14 years"].describe()
f2=df.suicides_100k_pop[df.age=="15-24 years"].describe()
f3=df.suicides_100k_pop[df.age=="25-34 years"].describe()
f4=df.suicides_100k_pop[df.age=="35-54 years"].describe()
f5=df.suicides_100k_pop[df.age=="55-74 years"].describe()
f6=df.suicides_100k_pop[df.age=="75+ years"].describe()

### Plotando um histograma para analisar a média por país
Agora vamos analisar como a taxa média de suicídios se distribui para cada país.

In [20]:
df_pais = dados[[ 'country','year', 'sex', 'age','suicides_100k_pop', 'population','HDI',
'gdp_capita','generation']]
mediaporpais=country_relevance= df_pais.suicides_100k_pop.groupby(by=df_pais.country).mean()
plt.figure(figsize=(20,5))
mediaporpais.plot.bar()
plt.xlabel('Country')
plt.ylabel("Suicide rate per 100k")
plt.title("Suicide rates by country")
plt.show()

<IPython.core.display.Javascript object>

Agora vamos analisar como a taxa de suicídios varia de acordo com o ano, desde 10985 até 2016:

In [89]:
df_ano = dados[[ 'country','year', 'sex', 'age','suicides_100k_pop', 'population','HDI',
'gdp_capita','generation']]
mediaporano= df_ano.suicides_100k_pop.groupby(by=df_ano.year).mean()
plt.figure(figsize=(20,5))
mediaporano.plot.bar()
plt.xlabel('Year')
plt.ylabel("Suicide rate per 100k")
plt.title("Suicide rates by year")
plt.show()

<IPython.core.display.Javascript object>

In [22]:
import seaborn

plt.figure()
seaborn.heatmap(df2.corr(), annot=True)
plt.show()

<IPython.core.display.Javascript object>

In [23]:
X = df[[ 'sex', 'year', 'population','HDI',
'gdp_capita']]
X = X.join(pd.get_dummies(df['age']))
X = X.join(pd.get_dummies(df['generation']))
Y = df['suicides_100k_pop']
results = regress(X,Y)
results.summary()

  return ptp(axis=axis, out=out, **kwargs)


0,1,2,3
Dep. Variable:,suicides_100k_pop,R-squared:,0.336
Model:,OLS,Adj. R-squared:,0.334
Method:,Least Squares,F-statistic:,281.2
Date:,"Fri, 29 May 2020",Prob (F-statistic):,0.0
Time:,22:26:13,Log-Likelihood:,-34030.0
No. Observations:,8364,AIC:,68090.0
Df Residuals:,8348,BIC:,68200.0
Df Model:,15,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,340.6664,64.560,5.277,0.000,214.112,467.221
sex,14.1050,0.310,45.537,0.000,13.498,14.712
year,-0.2392,0.043,-5.553,0.000,-0.324,-0.155
population,-6.259e-08,4e-08,-1.566,0.117,-1.41e-07,1.58e-08
HDI,42.9483,2.685,15.995,0.000,37.685,48.212
gdp_capita,-0.0001,1.08e-05,-10.290,0.000,-0.000,-8.98e-05
15-24 years,53.2400,10.234,5.202,0.000,33.179,73.301
25-34 years,56.2373,10.423,5.395,0.000,35.805,76.670
35-54 years,59.4993,10.885,5.466,0.000,38.161,80.837

0,1,2,3
Omnibus:,4881.797,Durbin-Watson:,0.968
Prob(Omnibus):,0.0,Jarque-Bera (JB):,66121.901
Skew:,2.549,Prob(JB):,0.0
Kurtosis:,15.796,Cond. No.,3.67e+22
