# Preparando os datasets

**Disciplina:** Visualização de dados <br>
**Aluno:** Franklin Oliveira <br>
**Professora:** Asla Sá <br>

-----

Nesse notebook, vamos importar e preparar os datasets para a criação das visualizações. 

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

sns.set()

# biblioteca para coletar os nomes dos continentes
import pycountry_convert as pc

## Importando os datasets de casamentos e divórcios

<br>

$$Taxa~de~casamentos = \frac{Nº~de~casamentos}{1000~hab.} $$

In [2]:
# importando arquivo em Excel
excel = pd.ExcelFile('./data/SF_3_1_Marriage_divorce_rates.xlsx')

In [3]:
# importando dataset com taxas de casamento
mar = excel.parse('MarriageRates', sep=';', encoding='utf-8-sig', header=3, nrows=51)
mar.replace(to_replace = '..', value = np.NAN, inplace = True) # trocando '..' por NaN
mar.drop('Note', axis=1, inplace=True)

mar.head(2)

Unnamed: 0,Country,1960,1961,1962,1963,1964,1965,1966,1967,1968,...,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017
0,Australia,,,,,,,,,,...,5.5,5.5,5.4,5.4,5.4,5.1,5.2,4.8,4.9,4.591825
1,Austria,8.3,8.5,8.4,8.1,8.0,7.8,7.6,7.6,7.6,...,4.2,4.3,4.5,4.3,4.6,4.3,4.4,5.1,5.1,5.1


<br>

Agora, vamos fazer a mesma coisa para as **taxas de divórcio**.

$$Taxa~de~divórcios = \frac{Nº~de~divórcios}{1000~hab.} $$

In [4]:
# importando dataset com taxas de divórcio
div = excel.parse('DivorceRate', sep=';', encoding='utf-8-sig', header=3, nrows=51)
div.replace(to_replace = '..', value = np.NAN, inplace = True) # trocando '..' por NaN
div.drop('Note', axis=1, inplace=True)

div.head(2)

Unnamed: 0,Country,1960,1961,1962,1963,1964,1965,1966,1967,1968,...,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017
0,Australia,,,,,,,,,,...,2.2,2.3,2.3,2.2,2.2,2.1,2.0,2.0,1.931599,2.0
1,Austria,1.1,1.1,1.1,1.1,1.2,1.2,1.2,1.2,1.3,...,2.4,2.3,2.1,2.1,2.0,1.9,1.9,1.9,1.8,1.8


## Ajustes 

Primeiramente, vamos passar os datasets para o formato *long*

In [5]:
# casamentos
mar = mar.set_index('Country')
mar = mar.stack().reset_index()
mar.columns = ['Country', 'Year', 'marriage_rate']

# depois...
mar.head()

Unnamed: 0,Country,Year,marriage_rate
0,Australia,1970,9.2798
1,Australia,1980,7.4
2,Australia,1981,7.6
3,Australia,1982,7.7
4,Australia,1983,7.5


In [6]:
# divórcios
div = div.set_index('Country')
div = div.stack().reset_index()
div.columns = ['Country', 'Year', 'divorce_rate']

div.head()

Unnamed: 0,Country,Year,divorce_rate
0,Australia,1970,0.9753
1,Australia,1980,2.7
2,Australia,1981,2.8
3,Australia,1982,2.9
4,Australia,1983,2.8


### Criando coluna com os nomes dos continentes

In [7]:
# dicionário com Siglas e Nomes
continents = {
    'NA': 'North America',
    'SA': 'South America', 
    'AS': 'Asia',
    'OC': 'Oceania',
    'AF': 'Africa',
    'EU': 'Europe'
}

In [8]:
def continente(pais):
    if pais == 'Korea':
        return 'Asia'
    else:
        country_code = pc.country_name_to_country_alpha2(pais, cn_name_format="default")
        continent_name = pc.country_alpha2_to_continent_code(country_code)
    return continents[continent_name]

In [9]:
mar['Continent'] = mar['Country'].apply(lambda x:continente(x))
div['Continent'] = div['Country'].apply(lambda x:continente(x))

#### Conhecendo o dataset 

Agora, para conhecermos um pouco melhor nosso dataset, vamos visualizar o volume (contagem) de informações que temos de cada continente.

In [10]:
print('Casamentos:')
print('Ano inicial:', mar['Year'].min(), '\tAno final:', mar['Year'].max())
print('nº de obs:', mar.shape[0])

print('\nDivórcios:')
print('Ano inicial:', div['Year'].min(), '\tAno final:', div['Year'].max())
print('nº de obs:', div.shape[0])

Casamentos:
Ano inicial: 1960 	Ano final: 2017
nº de obs: 2204

Divórcios:
Ano inicial: 1960 	Ano final: 2017
nº de obs: 1946


### Exportando em csv

In [11]:
mar.to_csv('./data/marriages.csv', sep=',', encoding='utf-8-sig')
div.to_csv('./data/divorces.csv', sep=',', encoding='utf-8-sig')

<br>

## Importando os datasets com idade média de casamento

Vamos coletar a idade média na qual os homens e mulheres casaram e adicionar ao dataframe principal.

In [12]:
mean = excel.parse('MeanAgeFirstMarriage', sep=';', encoding='utf-8-sig', header=3, nrows=82)
mean.replace(to_replace = '..', value = np.NAN, inplace = True) # trocando '..' por NaN
mean.drop('Note', axis=1, inplace=True)

mean.head(4)

Unnamed: 0,Country,Gender,1990,1991,1992,1993,1994,1995,1996,1997,...,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017
0,Australia,Male,26.5,26.7,26.9,27.0,27.2,27.3,27.6,27.8,...,29.6,29.6,29.6,29.7,29.8,29.9,30.0,30.1,30.3,30.4
1,,Female,24.3,24.5,24.7,24.8,25.1,25.3,25.7,25.9,...,27.7,27.7,27.9,28.0,28.1,28.3,28.4,28.5,28.7,28.8
2,Austria,Male,27.7,27.9,28.0,28.4,28.7,29.0,29.1,29.3,...,32.2,32.5,,32.9,33.2,,,,,34.2
3,,Female,25.2,25.4,25.6,25.8,26.1,26.3,26.5,26.8,...,29.5,29.9,,30.3,30.6,,,,,31.5


Para cada país, temos a idade média em que homens e mulheres casaram, de 1990 a 2017.

### Pequenos ajustes...


#### Primeiramente, vamos preencher os valores abaixo de cada país com o nome do país

In [13]:
for country in mean[~mean['Country'].isna()]['Country'].unique():
    i = mean[mean['Country']==country].index[0]
    mean.iloc[i+1,0] = mean.iloc[i, 0]

mean.head(4)

Unnamed: 0,Country,Gender,1990,1991,1992,1993,1994,1995,1996,1997,...,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017
0,Australia,Male,26.5,26.7,26.9,27.0,27.2,27.3,27.6,27.8,...,29.6,29.6,29.6,29.7,29.8,29.9,30.0,30.1,30.3,30.4
1,Australia,Female,24.3,24.5,24.7,24.8,25.1,25.3,25.7,25.9,...,27.7,27.7,27.9,28.0,28.1,28.3,28.4,28.5,28.7,28.8
2,Austria,Male,27.7,27.9,28.0,28.4,28.7,29.0,29.1,29.3,...,32.2,32.5,,32.9,33.2,,,,,34.2
3,Austria,Female,25.2,25.4,25.6,25.8,26.1,26.3,26.5,26.8,...,29.5,29.9,,30.3,30.6,,,,,31.5


#### Agora, vamos passar o dataset para o formato *long*

In [14]:
mean.set_index(['Country', 'Gender'], inplace=True)
mean = mean.stack().reset_index()
mean = mean.rename(columns={'level_2':'Year', 0:'mean_age'})

In [15]:
mean.head(3)

Unnamed: 0,Country,Gender,Year,mean_age
0,Australia,Male,1990,26.5
1,Australia,Male,1991,26.7
2,Australia,Male,1992,26.9


#### coletando idades 

In [16]:
male_age = mean[mean['Gender']=='Male'].copy()
female_age = mean[mean['Gender']=='Female'].copy()

# renomeando colunas
male_age.rename(columns={'mean_age':'male_mean_age'}, inplace=True)
female_age.rename(columns={'mean_age':'female_mean_age'}, inplace=True)

In [17]:
age = pd.merge(male_age, female_age, how='outer', on=['Country', 'Year'])
age.drop(['Gender_x', 'Gender_y'],axis=1 ,inplace=True)

#### agora, vamos criar uma coluna com a idade média do casal

In [18]:
age['couple_mean_age'] = age[['male_mean_age', 'female_mean_age']].apply(np.mean, axis=1)
age.head(2)

Unnamed: 0,Country,Year,male_mean_age,female_mean_age,couple_mean_age
0,Australia,1990,26.5,24.3,25.4
1,Australia,1991,26.7,24.5,25.6


#### por fim, vamos criar uma coluna com os nomes dos continentes

In [19]:
mean['Continent'] = mean['Country'].apply(continente)
age['Continent'] = age['Country'].apply(continente)
age.head(2)

Unnamed: 0,Country,Year,male_mean_age,female_mean_age,couple_mean_age,Continent
0,Australia,1990,26.5,24.3,25.4,Oceania
1,Australia,1991,26.7,24.5,25.6,Oceania


### Exportando dataset das idades médias em csv

In [20]:
mean.to_csv('./data/mean_age_first_marriage_long.csv', encoding='utf-8-sig')
age.to_csv('./data/mean_age_first_marriage.csv', encoding='utf-8-sig')

Agora os datasets estão prontos para as visualizações.