___
# Projeto 2 - Ciência dos Dados 2020.2
Grupo: Lucas Kang
___

## Objetivo do projeto:

- A partir de diversos fatores como o ano, sexo, faixa etária e situação econômica de um país, é possível prever a quantidade de pessoas que irão cometer suicídio neste ano?  
- O target é quantitativo, já que o objetivo é prever uma informação numérica.

In [1]:
#importando as bibliotecas a serem utilizadas
import pandas as pd  
import matplotlib.pyplot as plt
import numpy as np
from math import *

In [2]:
#importando a base de dados a ser utilizada
suicidios = pd.read_csv('suicide_rates.csv')

In [3]:
suicidios.head(5)

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),gdp_per_capita ($),generation
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,796,Generation X
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,796,Silent
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,796,Generation X
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,796,G.I. Generation
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,796,Boomers


In [12]:
#criação de uma nova coluna para armazenar a faixa etária em formato numérico
suicidios['faixa_etaria'] = suicidios['age'].astype('category')
suicidios['faixa_etaria'].cat.categories = [1, 2, 3, 4, 5, 6]
suicidios.head()

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),gdp_per_capita ($),generation,faixa_etaria
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,796,Generation X,1
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,796,Silent,3
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,796,Generation X,1
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,796,G.I. Generation,6
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,796,Boomers,2


In [41]:
#divisão de sexo a fim de comparar depois, se o sexo da pessoa tem relação ao número de suicídios.

sexo_m = suicidios.loc[suicidios['sex'] == 'male',:]
sexo_f = suicidios.loc[suicidios['sex'] == 'female',:]

In [42]:
# comparar gdp_per_capita pra determinar se o país naquele ano era considerado Rico, Em desenvolvimento, ou Pobre (e.g: resultado maior que 30000 dol = rico, menor que 5000 dol/pessoa = probre)
# Utilizando a base de dados do IMF, foi feito uma divisão do gdp do país pelo gdp de Luxemburgo do ano de 2020 (USD 109602). 
# Os países que se encontraram com porcentagem abaixo de 30% foram consideradas pobres, de 31% a 60%, em desenvolvimento, e acima de 61%, rico.
# A divisão categórica foi feita a fim de analizar o efeito da situação econômica na mortalidade de pessoas por suicídio.

suicidios['classificação econômica'] = np.where((suicidios['gdp_per_capita ($)']/109602)>0.61, 'Wealthy', 
    (np.where((suicidios['gdp_per_capita ($)']/109602)<0.3, 'Poor','In development')))
suicidios.head()

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),gdp_per_capita ($),generation,faixa_etaria,classificação econômica
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,796,Generation X,1,Poor
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,796,Silent,3,Poor
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,796,Generation X,1,Poor
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,796,G.I. Generation,6,Poor
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,796,Boomers,2,Poor


# Bibliografia

_links utilizados:_

- https://www.dataquest.io/blog/tutorial-add-column-pandas-dataframe-based-on-if-else-condition/
- https://www.imf.org/en/Publications/WEO/weo-database/2021/April/weo-report?c=512,914,612,614,311,213,911,314,193,122,912,313,419,513,316,913,124,339,638,514,218,963,616,223,516,918,748,618,624,522,622,156,626,628,228,924,233,632,636,634,238,662,960,423,935,128,611,321,243,248,469,253,642,643,939,734,644,819,172,132,646,648,915,134,652,174,328,258,656,654,336,263,268,532,944,176,534,536,429,433,178,436,136,343,158,439,916,664,826,542,967,443,917,544,941,446,666,668,672,946,137,546,674,676,548,556,678,181,867,682,684,273,868,921,948,943,686,688,518,728,836,558,138,196,278,692,694,962,142,449,564,565,283,853,288,293,566,964,182,359,453,968,922,714,862,135,716,456,722,942,718,724,576,936,961,813,726,199,733,184,524,361,362,364,732,366,144,146,463,528,923,738,578,537,742,866,369,744,186,925,869,746,926,466,112,111,298,927,846,299,582,487,474,754,698,&s=NGDPD,PPPGDP,NGDPDPC,PPPPC,&sy=2010&ey=2021&ssm=0&scsm=1&scc=0&ssd=1&ssc=0&sic=1&sort=subject&ds=.&br=1
-