<a href="https://colab.research.google.com/github/andreiaoft/bootcamp-ai-luis-speech-search/blob/main/Vis%C3%A3o_geral_das_taxas_de_suic%C3%ADdio_1985_a_2016.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Visão geral das taxas de suicídio 1985 a 2016!
#### Compara informações socioeconômicas com taxas de suicídio por ano e país 

A Organização Mundial de Saúde  considera o  suicídio como um problema de saúde pública, uma vez que para cada suicídio exista outras dez tentativas potenciais graves merecedoras da assistência médica. O suicídio já é considerado a segunda  ou terceira causa de morte entre pessoas de 15 a 34 anos de idade, além de estar entre as 10 causas mais frequentes de morte.

**Objetivo:**
Este portifólio foi criado com um propósito de tangibilizar os conceitos aprendidos no Curso de Python Analytics da escola Mineradores.  



In [None]:
## Carregamento da base de dados- Database Upload
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as srn
import statistics as sts
data = pd. read_csv ("/content/drive/MyDrive/Dados_Machine_learning/master.csv")


In [None]:
## Tamanho do dataset- Dataset format
data.shape
# Há 27820 linhas e 12 colunas- There are 27820 rows and 12 columns

(27820, 12)

In [None]:
# Visualizando os primeiros registros- Viewing the first records
data.head()

In [None]:
# Tipos dos dados- Data Types
data.dtypes


In [None]:
# Análise exploratória:
data['HDI for year'].describe()
# Os valores da média e da mediana estão bem próximos, o que nos dá indícios de não ter grandes outliers.
# The mean and median values are very close, which gives us indications of no large outliers.



In [None]:
plt.figure(figsize=(10,5))
srn.boxplot(data['HDI for year']).set_title('HDI Year')
plt.show()
# observação : gostaria de saber como eu retiro esse texto em cima do gráfico

In [None]:
plt.figure(figsize=(10,5))
srn.distplot(data['HDI for year']).set_title('HDI YEAR')

In [None]:
# Número de suicídios por 100 mil/habitantes- suicides/100k inhabitants
data['suicides/100k pop'].describe()
# dados bastantes discrepantes. Very discrepant data.


In [None]:
srn.distplot(data['suicides/100k pop']).set_title('suicides/100k pop')

In [None]:
srn.boxplot(data['suicides/100k pop']).set_title('suicides/100k pop')

In [None]:
data.groupby('age').head(1)

In [None]:
data.groupby('age').describe()

In [None]:
data.groupby(["age", "sex"]).size()

In [None]:
plt.figure(figsize=(10,5))
srn.barplot(x = "age", y = 'suicides/100k pop', hue = "sex", data = data.groupby(["age", "sex"]).sum().reset_index())
plt.show()

In [None]:
# Estatísticas descritivas do Dataframe- Dataframe descriptive statistics 
data.describe().T

In [None]:
# Soma dos valores em cada coluna do Dataframe- Sum of the values in each column of the Dataframe
data.sum()

In [None]:
# Contar registros na base- Count records in the database
data.count()
# Há dados faltantes na coluna IDH: There is missing data in the HDI column

In [None]:
# Contando valores NaN- Counting NaN values
# Há 19.456 dados não preenchidas na coluna IDH- There are 19,456 missing data in the HDI column
data.isnull().sum()

In [None]:
data['HDI for year'].describe()

In [None]:
faltantes = data.isnull().sum
faltantes_percentual = (data.isnull()/len(data['HDI for year']))*100
print(faltantes_percentual) 

In [None]:
# Maneiras de resolver os valores missing:remoção, imputação com zero, valores centrais ou estatisticamente estimados.
# Entretanto para isso é necessário verificar se os dados apresentam uma distribuição normal.
# Ways to resolve missing values: removal, imputation with zero, central values or statistically estimated values.
# However, this requires checking that the data has a normal distribution.

data.hist(column = 'HDI for year',figsize= (9,6), bins= 30)

In [None]:
# Vamos imputar a tendência central (média) no lugar dos valores ausentes.
# Gerar novo IDH. Onde for nulo, preenche com a média, senão, mantemos o valor atual.
# We will impute the central tendency (mean) in place of the missing values.
# Generate new HDI. Where it is null, fill in with the mean, otherwise we keep the current value.

novo_IDH = np.where(data['HDI for year'].isnull(),data['HDI for year'].mean(),data['HDI for year'])
novo_IDH

In [None]:
# Descrevendo variáveis categóricas- Describing categorical variables
data['age'].describe()


In [None]:

data.describe(include = 'O')

In [None]:
# Gráfico de quantidade de registros da variável idade de acordo com cada categoria.
# Graph of the number of records of the variable age according to each category.

data['age'].value_counts().plot(kind= 'bar')