# Exercício

Procure uma base de dados em um dos seguintes sites: 
https://www.kaggle.com/datasets ou
https://archive.ics.uci.edu/ml/index.php

A base escolhida deve ter pelo menos 5000 linhas e 10 colunas. Em seguida, utilizando sua criatividade e os conceitos que você aprendeu nos dois jupyter notebooks anteriores do pandas, tente realizar operações interessantes na base de dados escolhida.  


# Aluno: Clésio de Araújo Gonçalves

In [None]:
# Imports
import pandas as pandas
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Carrega o dataset e exibe algumas informações

In [None]:
# Lendo a base de dados no formato .csv.
# Base de dados: Visão Geral das Taxas de Suicídio de 1985 a 2016
# Compara informações socioeconômicas com taxas de suicídio por ano e país
# URL: (https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016)
arquivo = 'master.csv'
dataset = pandas.read_csv(arquivo)
dataset.head()

In [None]:
# Tipo do objeto
type(dataset)

In [None]:
# Atributos e métodos disponíveis para o objeto dataset
dir(dataset)

In [None]:
# Quantidade de linhas e colunas (27.820 x 12)
dataset.shape

In [None]:
# Informações do sobre as colunas do dataset
# A coluna 'IDH para o ano' possui apenas 8.364 registros
dataset.info()

In [None]:
# Exibe as colunas
# Colunas: [país, ano, sexo, faixa etária, nº de suicídios, população, taxa de suicídio (100k hab), 
# chave composta país-ano, IDH para o ano, PIB para o ano ($), PIB per capita ($), geração 
# (com base na média de grupos de idade).]
dataset.columns

In [None]:
# Renomeando Colunas
# inplace=True modifica o objeto em memória
dataset.rename(
    columns = {
        'country':'Pais', 
        'year':'Ano', 
        'sex':'Sexo', 
        'age':'Idade', 
        'suicides_no':'NoSuicidio', 
        'population':'Populacao',
        'suicides/100k pop':'Suicidio100kPop',
        'country-year':'PaisAno',
        'HDI for year':'IDHPorAno',
        ' gdp_for_year ($) ':'PIBPorAnoValor', 
        'gdp_per_capita ($)':'PIBPerCapitaValor',
        'generation':'Geracao'
        }, 
    inplace=True
)

In [None]:
# Soma de valores nulos
dataset.isnull().sum()

In [None]:
# Excluir a coluna IDHPorAno por apresentar valores nulos e excluir o PaisAno pois apresenta duplicação
dataset.drop(['IDHPorAno', 'PaisAno'], axis=1, inplace=True)

In [None]:
# Retirar a vírgula do valor numérico de PIBPorAnoValor
dataset['PIBPorAnoValor'] = dataset['PIBPorAnoValor'].apply(lambda x: x.replace(',', ''))

In [None]:
# Convertendo tipos de dados para melhorar uso de memória
dataset.Pais = dataset.Pais.astype('category')
dataset.Ano = dataset.Ano.astype('int32')
dataset.Sexo = dataset.Sexo.astype('category')
dataset.Idade = dataset.Idade.astype('category')
dataset.NoSuicidio = dataset.NoSuicidio.astype('int32')
dataset.Populacao = dataset.Populacao.astype('int32')
dataset.Suicidio100kPop = dataset.Suicidio100kPop.astype('float32')
dataset.PIBPorAnoValor = dataset.PIBPorAnoValor.astype('int64')
dataset.PIBPerCapitaValor = dataset.PIBPerCapitaValor.astype('int32')
dataset.Geracao = dataset.Geracao.astype('category')

In [None]:
# Informações do uso de memória
dataset.info()

In [None]:
dataset

# 2. Manipulação e visualização dos dados no dataset Geral

OBS: O dataset geral inclui todos os países

In [None]:
# Resumo estatístico do número de suicídio
dataset['NoSuicidio'].describe()

In [None]:
# Soma do total de suicidios
dataset['NoSuicidio'].sum()

In [None]:
# Número de suicídios zerados
dataset[dataset.NoSuicidio == 0]

### 2.1 Quantidade de suidicios por Ano

In [None]:
# Soma a quantidade de suicidios por Ano
# O parametro values é usado para informar qual coluna terão os valores somados
# O parametro index informo as colunas que serão usadas para agregação.
# o parâmetro aggfunc é usado para definir a função de agregação, que poderia ser uma soma por exemplo.
# O parâmetro margins=True calcula a quantidade total no final da tabela.
dataset.pivot_table(values='NoSuicidio', index=['Ano'], aggfunc='sum', margins=True)

In [None]:
# Gráfico de Linha: Ano x Suicidio 
# Problema: gráfico apresenta margem de erro
plt.figure(figsize = (16,7))
sns.lineplot(x = 'Ano' , y = 'NoSuicidio', data = dataset) Retornou valores incorretos

In [None]:
# Gráfico de Linha: Ano x Suicidio
# Utilizei outro gráfico, pois os anos apresentam números de suicídio muito próximos
dataset_ano = dataset['NoSuicidio'].groupby(dataset['Ano']).sum()

dicionario_ano = dict(dataset_ano)

plt.figure(figsize = (16,7))
sns.lineplot(x = list(dicionario_ano.keys()), y = list(dicionario_ano.values()))

In [None]:
# Gráfico de Barras: Ano x Suicidio
plt.figure(figsize = (16,7))
sns.barplot(x = list(dicionario_ano.keys()), y = list(dicionario_ano.values()))

### 2.2 Quantidade de suidicios por Sexo

In [None]:
# Soma da quantidade de suicidios por sexo
dataset.pivot_table(values='NoSuicidio', index=['Sexo'], aggfunc='sum', margins=True)

In [None]:
# Gráfico de Barras: Sexo x Suicidio
plt.figure(figsize = (16,7))
sns.barplot(x = 'Sexo', y = 'NoSuicidio', data = dataset)

### 2.3 Quantidade de suidicios por Idade

In [None]:
# Soma da quantidade de suicidios por idade
dataset.pivot_table(values='NoSuicidio', index=['Idade'], aggfunc='sum', margins=True)

In [None]:
# Gráfico de Barras: Idade x Suicidio
plt.figure(figsize = (16,7))
sns.barplot(x = 'Idade', y = 'NoSuicidio', data = dataset)

In [None]:
# Soma da quantidade de suicidios por idade e sexo
dataset.pivot_table(values='NoSuicidio', index=['Idade', 'Sexo'], aggfunc='sum', margins=True)

In [None]:
# Gráfico de Barras: Sexo x Suicidio x Idade (Geral)
plt.figure(figsize = (16,7))
sns.barplot(x = 'Sexo', y = 'NoSuicidio', hue = 'Idade', data = dataset)

In [None]:
# Soma da quantidade de suicidios por Geração
dataset.pivot_table(values=['NoSuicidio'], index=['Geracao'], aggfunc='sum', margins=True)

### 2.4 Quantidade de suidicios por Geração

In [None]:
# Gráfico de Barras: Geração x Suicidio
plt.figure(figsize = (16,7))
sns.barplot(x = 'Geracao', y = 'NoSuicidio', data = dataset)

### 2.5 Quantidade de suidicios por País

In [None]:
# Soma da quantidade de suicidios por Pais
dataset.pivot_table(values='NoSuicidio', index=['Pais'], aggfunc='sum', margins=True)

In [None]:
# Gráfico de Barras: 10 países com o maior número de suicidio
dataset_pais = dataset['NoSuicidio'].groupby(dataset['Pais']).sum()
dataset_pais = dataset_pais.sort_values(ascending = False).head(10)

dicionario_pais = dict(dataset_pais)

plt.figure(figsize = (16,7))
sns.barplot(x = list(dicionario_pais.values()), y = list(dicionario_pais.keys()))

In [None]:
# Gráfico de Barras: 15 países com as maiores médias de taxas de suicidio por 100k habitantes
dataset_pais = dataset['Suicidio100kPop'].groupby(dataset['Pais']).mean()
dataset_pais = dataset_pais.sort_values(ascending = False).head(15)

dicionario_pais = dict(dataset_pais)

plt.figure(figsize = (16,9))
sns.barplot(x = list(dicionario_pais.values()), y = list(dicionario_pais.keys()))

# 3. Manipulação e visualização dos dados (País: Brasil)

In [None]:
# Dataset do Brasil
dataset_brasil = dataset[(dataset['Pais'] == 'Brazil')]
dataset_brasil

In [None]:
# Soma do número de suicídio no Brasil
dataset_brasil['NoSuicidio'].sum()

### 3.1 Quantidade de suidicios por Ano

In [None]:
# Total de suicídio no Brasil por ano
dataset_brasil.pivot_table(values='NoSuicidio', index=['Ano'], aggfunc='sum', margins=True)

In [None]:
# Gráfico de linhas: Número de suicídios X Ano (Brasil)
dataset_ano_brasil = dataset_brasil['NoSuicidio'].groupby(dataset_brasil['Ano']).sum()

dicionario_ano_brasil = dict(dataset_ano_brasil)

plt.figure(figsize = (16,7))
sns.lineplot(x = list(dicionario_ano_brasil.keys()), y = list(dicionario_ano_brasil.values()))

In [None]:
# Gráfico de Barras: Número de suicídios X Ano (Brasil)
plt.figure(figsize = (16,7))
sns.barplot(x = list(dicionario_ano_brasil.keys()), y = list(dicionario_ano_brasil.values()))

In [None]:
# Gráfico de linhas: Número de suicídios X Ano (Brasil x Geral)
plt.figure(figsize = (16,7))

sns.lineplot(x = list(dicionario_ano_brasil.keys()), y = list(dicionario_ano_brasil.values()))
sns.lineplot(x = list(dicionario_ano.keys()), y = list(dicionario_ano.values()))

### 3.2 Quantidade de suidicios por Sexo

In [None]:
# Soma da quantidade de suicidios por sexo
dataset_brasil.pivot_table(values='NoSuicidio', index=['Sexo'], aggfunc='sum', margins=True)

In [None]:
# Gráfico de Barras: Sexo x Suicidio
plt.figure(figsize = (16,7))
sns.barplot(x = 'Sexo', y = 'NoSuicidio', data = dataset_brasil)

### 3.3 Quantidade de suidicios por Idade

In [None]:
# Soma da quantidade de suicidios no Brasil por idade
dataset_brasil.pivot_table(values='NoSuicidio', index=['Idade'], aggfunc='sum', margins=True)

In [None]:
# Gráfico de Barras: Idade x Suicidio
plt.figure(figsize = (16,7))
sns.barplot(x = 'Idade', y = 'NoSuicidio', data = dataset_brasil)

In [None]:
# Soma da quantidade de suicidios por idade e sexo
dataset_brasil.pivot_table(values='NoSuicidio', index=['Idade', 'Sexo'], aggfunc='sum', margins=True)

In [None]:
# Gráfico de Barras: Sexo x Suicidio x Idade (Brasil)
plt.figure(figsize = (16,7))
sns.barplot(x = 'Sexo', y = 'NoSuicidio', hue = 'Idade', data = dataset_brasil)