## PROMOTE GENDER EQUALITY AND EMPOWER WOMEN

Equipe :
    * Jéssica Villar - 1613176
    * Fernando Tancini - 1711799
    * Andrea Mourelo - 1820000

# Considerações iniciais

A ideia deste trabalho é fazer uma análise da situaçao de um dos objetivos de desenvolvimento do milênio da ONU: 'Promote Gender Equality and Empower Women'. 

Para isso, usamos os dados públicos do site 'Human Development Reports' da ONU (http://hdr.undp.org/en/data), usando os dados provenientes do download completo do banco (botão 'Download 2018 Human Development Data Bank' no menu da esquerda).

Durante a nossa pesquisa, achamos incompleto esse dataset, uma vez que não tinha uma coluna descrevendo a região e tipo de renda de cada país. Por isso, coletamos também esses dados a partir de uma outra fonte (https://databank.worldbank.org/data/reports.aspx?source=2&country=HIC).

Neste trabalho, vamos fazer o seguinte:
* Primeiro, fazer uma análise exploratória dos dados para compreender com que tipo de dados estamos lidando e qual a organizaçao deles. Nesta parte, vamos também transformar um pouco a organização para que seja mais facíl de analisar.

* Depois, vamos fazer uma análise descritiva (numérica e visual) dos dados para compreender algumas tendências e observar visualmente os dados.

* Finalmente, vamos tentar responder a umas 10/15 perguntas sobre o tema "Promote Gender Equality and Empower Women".

# Análise Exploratória de Dados

In [None]:
from IPython.display import display, Markdown, Latex
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib

## 1. Lendo os dados

In [None]:
# Dados incompletos coletados do site http://hdr.undp.org/en/content/developing-regions  (menu esquerda 'Download DB 2018')
filename = 'Dados/HDR_2018_data.xlsx'
first_data = pd.read_excel(filename)

# Dados coletados a partir de outra fonte para categorizar os países por região e tipo de renda
metadata_filename = 'Dados/HDR_2018_country_metadata.xlsx'
country_metadata = pd.read_excel(metadata_filename)

In [None]:
print(first_data.shape)
print(country_metadata.shape)

In [None]:
first_data.head()

In [None]:
country_metadata.head()

In [None]:
# Fazemos merge para poder categorizar os dados por região e tipo de renda
data = pd.merge(left=first_data, right=country_metadata, how='left', left_on='iso3', right_on='Code')

# Evitamos redundâncias
data.drop('Code', axis=1, inplace=True) # 1 is the axis number (0 for rows and 1 for columns) & inplace to not have to reassign a new df

In [None]:
data.shape # Temos bem mesmo numero de linhas + 3 colunas a mais

In [None]:
data.head()

In [None]:
# Mudando o nome de algumas colunas
data.rename(columns={'dimension':'category','iso3':'code','Long Name':'long_name','Income Group':'income_group','Region':'region'},inplace=True)

In [None]:
data.info()

Os dados parecem estar corretamente classificados, sendo:
* 'object' os dados de string
* 'int' e 'float64' os dados numéricos

## Convertendo o dataset

Segundo o princípio de 'tidy data':
* Colunas representas variaveis diferentes
* Linhas representam observacoes individuais

Então nosso dataset tem que ser modificado para ter nas colunas os dados que nos interessam.

In [None]:
# Criamos uma linha por pais, indicador e ano
data_per_year = pd.melt(frame=data, id_vars=['category','indicator_id','indicator_name','code', 'country_name','long_name','income_group','region'], var_name = 'year')

# Jogamos fora algumas colunas que nao interessam para analise
data_per_year.drop('indicator_id', axis=1, inplace=True)
data_per_year.drop('long_name', axis=1, inplace=True)


In [None]:
data_per_year.head()

In [None]:
# Alguns dados interessantes

print(data_per_year.shape)

# 157 indicadores diferentes estudados
indicators = data.indicator_name.unique()
print(indicators.shape)

# Diferentes indicadores de gênero estudados
gender_indicators = data[(data.category == 'Gender')].indicator_name.unique()
print(gender_indicators)

In [None]:
# Depois desse comando, vamos ter um MultiIndex com uma linha por paíss e ano e todos os indicadores em colunas
data_tidy = data_per_year.pivot_table(index=['code', 'country_name','income_group','region','year'],
                                     columns = 'indicator_name', values = 'value')

In [None]:
data_tidy.head(50)

In [None]:
# Isso vai permitir voltar a um DataFrame normal
data_tidy.reset_index(inplace=True)
data_tidy.shape

In [None]:
data_tidy.head()

In [None]:
data_tidy.shape
# Vemos que temos bem 1 linha por país e ano, pois: 5655 = 29 * 195 (195 países e 28 anos estudados + ano '9999')

In [None]:
# Valores mais recentes para fazer análises numéricas (o último ano do dataset é 2017) 
recent_data = data_tidy[(data_tidy.year == 2017)]

In [None]:
recent_data.head()

In [None]:
# Função para criar um df com dados de uma ou mais categorias
def data_categorias_recente(categorias):  # categorias sendo uma lista
    indicators = data[data.category.isin(categorias)].indicator_name.unique()
    other_indicators = np.array(['code','country_name','income_group','region'])
    recent_indicators = np.concatenate((other_indicators,indicators))
    return recent_data[recent_indicators]

In [None]:
# Valores mais recentes de GÊNERO para fazer análises numéricas
recent_data_gender = data_categorias_recente(['Gender'])
recent_data_gender

In [None]:
recent_data_gender.columns

In [None]:
# Modificando nomes das colunas de gênero para que estejam mais compactadas

# Jogamos fora as partes de (% of ...)
new_cols = []
for element in recent_data_gender.columns:
    if '(%' in element : 
        element = element.split(' (%')[0]
    if '(years)' in element : 
        element = element.split(' (years)')[0]
    new_cols.append(element)
recent_data_gender.columns = new_cols

# Modificando alguns na mão
recent_data_gender.rename(columns={'Female share of graduates in science, mathematics, engineering, manufacturing and construction at tertiary level':'Female share of graduates in SME, manufacturing and construction'},inplace=True)

In [None]:
recent_data_gender.info()

Vemos que não há dados catalogados no ano '2017' sobre:
* Child marriage, women married by age 18 (% of women ages 20–24 years who are married or in union)
* Female share of graduates in science, mathematics, engineering, manufacturing and construction at tertiary level (%)
* Violence against women ever experienced, intimate partner (% of female population ages 15 and older)
* Violence against women ever experienced, nonintimate partner (% of female population ages 15 and older)

Porém esses dados se encontram preenchidos no ano '9999'. Iremos analisá-los separadamente.

In [None]:
print(recent_data_gender.shape)
recent_data_gender.drop('Child marriage, women married by age 18',axis=1, inplace=True)
recent_data_gender.drop('Female share of graduates in SME, manufacturing and construction',axis = 1, inplace = True)
recent_data_gender.drop('Violence against women ever experienced, intimate partner',axis = 1, inplace = True)
recent_data_gender.drop('Violence against women ever experienced, nonintimate partner',axis = 1, inplace = True)
print(recent_data_gender.shape)

## 2. Examinando dados

### 2.1. Dados numéricos

### 2017

In [None]:
recent_data_gender.describe()

In [None]:
# Removendo as colunas que apresentaram menos de 10% (count < 19.5) dos dados preenchidos
recent_data_gender.drop('Antenatal care coverage, at least one visit',axis=1,inplace=True)
recent_data_gender.drop('Contraceptive prevalence, any method',axis=1,inplace=True)
recent_data_gender.drop('Female share of employment in senior and middle management',axis=1,inplace=True)
recent_data_gender.drop('Proportion of births attended by skilled health personnel',axis=1,inplace=True)
recent_data_gender.drop('Unmet need for family planning',axis=1,inplace=True)
recent_data_gender.shape

In [None]:
rdg_HDI = recent_data_gender[['Human Development Index (HDI), female','Human Development Index (HDI), male']][['Human Development Index (HDI), female','Human Development Index (HDI), male']].dropna()
rdg_HDI.columns = ['Female', 'Male']

fig, ax1= plt.subplots(figsize=(8,5))
matplotlib.rcParams.update({'font.size': 14})

female_HDI = rdg_HDI['Female']
male_HDI = rdg_HDI['Male']

#female_HDI.plot(ax = ax1, kind = 'box', title = 'Female')
#male_HDI.plot(ax = ax2, kind = 'box', title = 'Male')
rdg_HDI.plot(ax = ax1, kind = 'box', title = 'Human Development Index (HDI)')
pass

Observamos uma distribuiçao mais homogênea no HDI para homens do que para mulheres

In [None]:
rdg_paidmaternity = recent_data_gender['Mandatory paid maternity leave (days)'].dropna()

fig, ax1= plt.subplots(figsize=(10,5))
matplotlib.rcParams.update({'font.size': 14})
ax1.hist(rdg_paidmaternity, color='c', alpha=0.3)
ax1.set_title('Mandatory paid maternity leave (days)')
pass

In [None]:
# Como curiosidade, quais países apresentam mais de 600 dias de licença de maternidade remunerada obrigatória (dias)?
recent_data_gender[recent_data_gender['Mandatory paid maternity leave (days)'] >= 600].country_name

In [None]:
# Quais países estão acima da média de dias da licença de maternidade remunerada obrigatória?
paid_maternity_mean = rdg_paidmaternity.mean()
rdg_paidmaternity_above_mean = recent_data_gender[recent_data_gender['Mandatory paid maternity leave (days)']>=paid_maternity_mean]
rdg_paidmaternity_above_mean[['country_name','Mandatory paid maternity leave (days)']]

In [None]:
rdg_paidmaternity_above_mean['income_group'].value_counts()

Podemos observar que a maioria dos países, em que a quantidade de dias de licença maternidade paga obrigatório é maior do que é a média, estão concentrados nos países de alta renda ou renda média alta.

In [None]:
rdg_paidmaternity_above_mean['region'].value_counts()

A Europa e a Ásia Central são as regiões mais bem desenvolvidas nesse aspecto.

In [None]:
rdg_unemployment = recent_data_gender['Youth unemployment rate (female to male ratio)'].dropna()

fig, ax1= plt.subplots(figsize=(10,5))
matplotlib.rcParams.update({'font.size': 14})
ax1.hist(rdg_unemployment, color='c', alpha=0.3)
plt.axvline(x=1.00, color='r', alpha = 1,linestyle = '--', linewidth = 3) # Plotando no ratio = 1
ax1.set_title('Youth unemployment rate (female to male ratio)')
pass

Observamos que a existem muitas mais mulheres jovens desempregadas do que homens

In [None]:
# Quais países estão com proporção female/male de desemprego juvenil acima da média?
unemployment_mean = rdg_unemployment.mean()
rdg_unemployment_above_mean = recent_data_gender[recent_data_gender['Youth unemployment rate (female to male ratio)'] >= unemployment_mean]
print('Quantidade de países nessa situação:', rdg_unemployment_above_mean.shape[0], '\nSão eles:')
rdg_unemployment_above_mean[['country_name','Youth unemployment rate (female to male ratio)']]

In [None]:
rdg_unemployment_above_mean['income_group'].value_counts()

In [None]:
rdg_unemployment_above_mean['region'].value_counts()

Sub-Saharan Africa e Latin America & Caribbean são as regiões mais preocupantes e, juntas, representam 57,14% do total de países acima da média da proporção de desemprego female/male.

In [None]:
# Segundo o UNDP (United States Development Program), quanto maior o valor de 'Gender Inequality Index (GII)', mais disparidades entre mulheres e homens e mais perda para o desenvolvimento humano!
rdg_GII = recent_data_gender['Gender Inequality Index (GII)'].dropna()

fig, ax1= plt.subplots(figsize=(10,5))
matplotlib.rcParams.update({'font.size': 12})
ax1.hist(rdg_GII, color='c', alpha=0.3)
ax1.set_title('Gender Inequality Index (GII)')
pass

In [None]:
recent_data_gender[recent_data_gender['Gender Inequality Index (GII)'] >= 0.5]['region'].value_counts()

In [None]:
recent_data_gender[recent_data_gender['Gender Inequality Index (GII)'] >= 0.5]['income_group'].value_counts()

### Trabalhando com o ano '9999'

In [None]:
different_data = data_tidy[data_tidy.year == 9999]

In [None]:
different_data.head()

In [None]:
# Função para criar um df com dados de uma ou mais categorias
def data_categorias_diferente(categorias):  # categorias sendo uma lista
    indicators = data[data.category.isin(categorias)].indicator_name.unique()
    other_indicators = np.array(['code','country_name','income_group','region'])
    different_indicators = np.concatenate((other_indicators,indicators))
    return different_data[different_indicators]

In [None]:
# Valores mais recentes de GÊNERO para fazer análises numéricas
different_data_gender = data_categorias_diferente(['Gender'])
different_data_gender.head()

In [None]:
# Pegamos as colunas que faltam serem analisadas
different_data_gender = different_data_gender[['country_name','income_group','region','Child marriage, women married by age 18 (% of women ages 20–24 years who are married or in union)','Female share of graduates in science, mathematics, engineering, manufacturing and construction at tertiary level (%)','Violence against women ever experienced, intimate partner (% of female population ages 15 and older)','Violence against women ever experienced, nonintimate partner (% of female population ages 15 and older)']]
different_data_gender.head()

In [None]:
# Modificando nomes das colunas de gênero para que estejam mais compactadas

# Jogamos fora as partes de (% of ...)
new_cols = []
for element in different_data_gender.columns:
    if '(%' in element : 
        element = element.split(' (%')[0]
    if '(years)' in element : 
        element = element.split(' (years)')[0]
    new_cols.append(element)
different_data_gender.columns = new_cols

# Modificando alguns na mão
different_data_gender.rename(columns={'Female share of graduates in science, mathematics, engineering, manufacturing and construction at tertiary level':'Female share of graduates in SME, manufacturing and construction'},inplace=True)

In [None]:
different_data_gender.info()

In [None]:
different_data_gender.describe()

### 2007 - 2017
#### O indicador 'Female share of graduates in SME, manufacturing and construction' no ano '9999' é equivalente ao intervalo de '2007 - 2017', como pode ser observar em 'Dados/HDR_2018_all_indicators.xlsx'

In [None]:
ddg_graduation = different_data_gender['Female share of graduates in SME, manufacturing and construction'].dropna()

fig, ax1 = plt.subplots(figsize=(10,5))

matplotlib.rcParams.update({'font.size': 14})
ax1.hist(ddg_graduation, color='c', alpha=0.3)
ax1.set_title('Female share of graduates in SME, manufacturing and construction at tertiary level (%)')
pass

Observamos que as mulheres tem uma representaçao muito baixa nesses setores

### 2005 - 2018
#### O indicador 'Violence against women ever experienced, intimate partner' no ano '9999' é equivalente ao intervalo de '2005 - 2018', como pode ser observar em 'Dados/HDR_2018_all_indicators.xlsx'

In [None]:
ddg_violence = different_data_gender['Violence against women ever experienced, intimate partner'].dropna()

fig, ax1 = plt.subplots(figsize = (10,5))

matplotlib.rcParams.update({'font.size': 14})
ax1.hist(ddg_violence, color='c', alpha=0.3)
ax1.set_title('Violence against women ever experienced, intimate partner (%)')
pass

Observamos uns dados extremamente preocupantes : muitas mulheres têm tido violências provenientes dos seus companheros intimos

### 2.2. Dados categóricos

In [None]:
# Nem todos os países tem dados para todas as categorias
data['country_name'].value_counts(dropna=False)

In [None]:
# Os indicadores não tem o mesmo número de respostas
print(pd.DataFrame(data['indicator_name'].value_counts(dropna=False)))

In [None]:
# Número de respostas por indicador de gênero
print(pd.DataFrame(data[(data.category == 'Gender')]['indicator_name'].value_counts(dropna=False)))

### Visualizando

In [None]:
def qnt_indicadores(col = 'country_name', category = "", ano = 0):
    #tirar o 9999 inicialmente
    not_9999 = data_per_year[data_per_year.year != 9999]
    # com dropna() tiramos os registros de pais-indicador-ano que não estão informados
    dpy_notna = not_9999.dropna()
    if (ano):
        dpy_notna = dpy_notna[dpy_notna.year == ano]
    if (category != ""):
        dpy_notna = dpy_notna[dpy_notna.category == category]
    qnt_indic = pd.DataFrame(dpy_notna.groupby(col).count()['value'])
    qnt_indic = qnt_indic.rename(columns={'value': 'Quantidade de Indicadores'})
    return (qnt_indic)

In [None]:
def qnt_indicadores_years(col = 'country_name', category = ""):
    myData = data
    if (category != ""):
        myData = myData[myData.category == category]
    cols = ['country_name','indicator_id', 'indicator_name', 'code', 'category', 'long_name', 'income_group', 'region',9999]
    cols.remove(col)
    myData = myData.drop(columns=cols)
    myData = myData.set_index(col)
    myData = myData.groupby(col)
    myData = pd.DataFrame(myData.count())
    return myData

In [None]:
# Visualizar quantidade de indicadores por país do BRICS
qnt_indic_por_pais = qnt_indicadores()
brics = ['Brazil', 'Russian Federation', 'India', 'China', 'South Africa']
qnt_indic_brics = qnt_indic_por_pais.loc[brics]
ax = qnt_indic_brics.plot(kind='barh', title = 'Quantidade de indicadores por país (BRICS)', figsize = (10,4), legend=False)
ax.set_ylabel('')
ax.set_xlabel('Número de indicadores')
pass

In [None]:
# Visualizar quantidade de indicadores de gênero por país do BRICS
qnt_indic_gender_por_pais = qnt_indicadores(category = 'Gender')
qnt_indic_gender_brics = qnt_indic_gender_por_pais.loc[brics]
ax = qnt_indic_gender_brics.plot(kind='barh', title = 'Quantidade de indicadores de GÊNERO por país (BRICS)', figsize = (10,4), legend=False)
ax.set_ylabel('')
ax.set_xlabel('Número de indicadores')

O Brasil parece ser o pais mais preocupado com a coleta de dados de gênero nos paises do BRICS

In [None]:
# Visualizar quantidade indicadores de gênero dos países mais os têm
qnt_indic_gender_por_pais = qnt_indicadores(category = 'Gender')
qnt_indic_gender_por_pais_ordenado = qnt_indic_gender_por_pais.sort_values(by = 'Quantidade de Indicadores', ascending = False)
qnt_indic_gender_por_pais_ordenado_max = qnt_indic_gender_por_pais_ordenado.head(15).sort_values(by = 'Quantidade de Indicadores') # Permite colocar o maior acima do plot

ax = qnt_indic_gender_por_pais_ordenado_max.plot(kind='barh', title = 'Paises com mais indicadores de gênero', figsize = (10,4), legend=False)
ax.set_ylabel('')
ax.set_xlabel('Número de indicadores')

In [None]:
def timeEvolutionPerCountry(indicator, country, startYear = 1990, endYear = 2017):    
    myData = data_per_year
    myData = myData[myData.indicator_name == indicator]
    myData = myData[myData.year != 9999]

    myData = myData[myData.country_name == country]
    
    # remove anos anteriores ao startYear
    i = 1990
    while (i < startYear):
        myData = myData[myData.year != i]
        i += 1
        
    # remove anos posteriores ao endYear
    i = endYear + 1
    while (i < 2018):
        myData = myData[myData.year != i]
        i += 1
    
    myData = myData.dropna()
    return myData

In [None]:
myData = timeEvolutionPerCountry(indicator = 'Total unemployment rate (female to male ratio)', country = 'Brazil', startYear = 2005)
ax = myData.plot(x = 'year', y = 'value', figsize= (10,5))
ax.set_xlabel('Ano')
ax.set_xlabel('Total unemployment rate (female to male ratio)')
_ = plt.legend(labels=['Brazil'],loc='center left', bbox_to_anchor=(1, 0.5))

pass

Parece que tem tido uma melhora na taxa nos últimos anos.

In [None]:
# Evolução da coleta de dados de indicadores de gênero no Brazil:
qnt_indic_gender_no_tempo_por_pais = qnt_indicadores_years(category = 'Gender')
qnt_indic_gender_no_tempo_brazil = qnt_indic_gender_no_tempo_por_pais.loc[['Brazil']]
ax = qnt_indic_gender_no_tempo_brazil.iloc[0].plot(figsize = (15,5), legend=['Brazil'], title = "Evoluçao da quantidade de indicadores coletados no Brasil")
ax.set_ylabel('Quantidade de indicadores')
ax.set_xlabel('Ano')

In [None]:
# Evolução da coleta de dados de indicadores de gênero em relação a região:
qnt_indic_gender_no_tempo_por_regiao = qnt_indicadores_years(col='region', category = 'Gender')
qnt_indic_gender_no_tempo_por_regiao = qnt_indic_gender_no_tempo_por_regiao.drop(
    columns=[1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002, 2003, 2004, 2005])
ax = qnt_indic_gender_no_tempo_por_regiao.transpose().plot(figsize=(15,7), title = "Quantidade de indicadores de gênero por regiao")
ax.set_ylabel('Quantidade de indicadores')
ax.set_xlabel('Ano')
_ = plt.legend(loc='center left', bbox_to_anchor=(1, 0.5))
pass

In [None]:
def compare(df, c1, c2,title,ylabel):
    myData = df
    colsToRemove = []
    for c in myData.columns:
        colsToRemove.append(c)
    colsNotToRemove = [c1, c2]
    for n in colsNotToRemove:
        colsToRemove.remove(n)
    myData = myData.drop(columns=colsToRemove)
    myData = myData.dropna()
    ax = myData.plot(kind='scatter', figsize=(10,5), x=c1, y=c2, alpha=0.3, title=title)
    ax.set_ylabel(ylabel)
    return myData

In [None]:
compare(df=data_tidy, c1='Current health expenditure (% of GDP)', c2='Proportion of births attended by skilled health personnel (%)',title='Current health expenditure and\n births attended by skilled health personnel',ylabel='Births attended by skilled health personnel(%)')
pass

Não parece existir muita correlação entre as duas coisas.

In [None]:
rdg_income_grouped = recent_data_gender.rename(columns= {'income_group': "Income Group"}).groupby('Income Group')
seats_par = rdg_income_grouped["Share of seats in parliament"] #(% held by women)
mean_seats_par = seats_par.describe()['mean']
mean_seats_par = mean_seats_par.reindex(index = ['Low income', 'Lower middle income', 'Upper middle income', 'High income'])
ax = mean_seats_par.plot(kind='barh', title = 'Share of seats in parliament (% held by women)', figsize = (10,5))
ax.set_xlabel('%')
ax.set_ylabel('')
pass

Parece que quanto maior a renda, maior a proporçao de mulheres no parlamento, mesmo se segue sendo muito baixa até para os paises mais desenvolvidos

## PERGUNTA 1 - Quais sao os paises com mais adolescentes grávidas ? 

In [None]:
#fig, (ax1,ax2) = plt.subplots(2, 1, sharex=False, sharey=False, figsize=(5,15))
matplotlib.rcParams.update({'font.size': 14})

# Primeiro plot : barh

column_toPlot = 'Adolescent birth rate (births per 1,000 women ages 15-19)'
adolescentBirthRate = recent_data_gender[['country_name',column_toPlot,'income_group']].dropna() # Pegamos dados que nos interessam

adolescentBirthRate = adolescentBirthRate.sort_values(by = column_toPlot, ascending = False) # Ordenamos dados em funcao do birth rate
adolescentBirthRate_max = adolescentBirthRate.head(15).sort_values(by = column_toPlot) # Permite colocar o maior acima do plot
adolescentBirthRate_max.plot(kind='barh', x='country_name', y = column_toPlot,figsize=(10, 5), color='#446699', title = column_toPlot, legend = None)

# Segundo plot : fatias

adolescentBirthRate.rename(columns={column_toPlot:'birth_rate'}, inplace=True)  # mais facil para filtrar no comando seguinte
#Filtramos os que são maiores do que 100
adolescentBirthRate_counts100 = adolescentBirthRate[(adolescentBirthRate.birth_rate >= 100)].income_group.value_counts()

fig, ax = plt.subplots(figsize=(5, 5))
palette_income = {'Low income':'steelblue', 'Lower middle income': 'coral', 'Upper middle income' : 'green', 'High income':'red'}
plt.pie(x=adolescentBirthRate_counts100, startangle=90, colors=list(palette_income.values()))
ax.set_title("Adolescent birth rate > 100 per income group")
_ = plt.legend(adolescentBirthRate_counts100.index,title = 'Income groups',loc='center left', bbox_to_anchor=(1, 0.5))


Entre os que tem mais adolescentes grávidas, a maioria vem dos países com 'Low Income'

## PERGUNTA 2 - Homens e mulheres têm as mesmas oportunidades escolares ?

In [None]:
# Valores mais recentes de EDUCAÇÃO e GÊNERO
recent_data_education_gender = data_categorias_recente(['Education', 'Gender'])

# Bloco para criarmos vários grafos sobre educação e gênero
matplotlib.rcParams.update({'font.size': 12})

# Função que cria uma visualização em função de um critério
def comparacao(order,title,criterio_educacao_male, criterio_educacao_female):
    gender_schooling = recent_data_education_gender[[criterio_educacao_male, criterio_educacao_female, 'income_group']].dropna() # Pega as colunas de interesse
    gender_schooling.rename(columns={criterio_educacao_male:'Male', criterio_educacao_female:'Female'}, inplace=True) # Renomea para visualizaçao
    colormap = []
    for row in gender_schooling[['income_group']].itertuples(index=True, name='Pandas'): # Colores em funçao do income_group
        income = getattr(row, "income_group")
        if income == 'Low income':
            color = 'blue'
        elif income == 'Lower middle income':
            color = 'yellow'
        elif income == 'Upper middle income':
            color = 'green'
        elif income == 'High income':
            color = 'red'
        else : 
            color = 'black'
        colormap.append(color)
    
    gender_schooling.plot( kind = 'scatter',x = 'Male', y ='Female', c=colormap, title = title)
    # Plotamos uma reta de equação y=x
    border_min_male, border_min_female = gender_schooling.Male.min(), gender_schooling.Female.min()
    border_max_male, border_max_female = gender_schooling.Male.max(), gender_schooling.Female.max()
    x = np.linspace(min(border_min_male, border_min_female), max(border_max_male, border_max_female)) 
    plt.plot(x, x, linestyle='-')

# Criação da primeira visualização, junto de seu título
comparacao(1,'Expected years of schooling (years)','Expected years of schooling, male (years)','Expected years of schooling, female (years)')

# Criação da segunda visualização, junto de seu título
comparacao(2,'Mean years of schooling (years)','Mean years of schooling, male (years)','Mean years of schooling, female (years)')

# Criação da terceira visualização, junto de seu título
comparacao(3,'\nPopulation with at least some secondary education \n (% ages 25 and older)','Population with at least some secondary education, male (% ages 25 and older)','Population with at least some secondary education, female (% ages 25 and older)')


Nos três gráficos, vemos que quanto mais a renda aumenta, mais pessoas escolarizadas (grupo vermelho no canto de cima à direita) e mais igualdade na educação (pontos mais proximos da reta).

Além disso, é interessante ver que nos países com menos renda (azul), tem mais homens do que mulheres escolarizados ou com educação secundária, e o contrário acontece em alguns países com renda 'upper middle' (verde).

De forma geral, tem uma proporção maior de homens com educação secundária do que mulheres e também os homens estudam mais anos do que as mulheres (maioria dos pontos estão do lado direito da reta y=x)

## PERGUNTA 3 - Homens e mulheres possuem o mesmo rendimento bruto per capita?

In [None]:
rdg_income = recent_data_gender[['Estimated gross national income per capita, female (2011 PPP $)','Estimated gross national income per capita, male (2011 PPP $)']].dropna()

fig, ax1= plt.subplots(figsize=(10,5))
matplotlib.rcParams.update({'font.size': 14})
ax1.hist(rdg_income['Estimated gross national income per capita, male (2011 PPP $)'], color='r', alpha=0.3)
ax1.hist(rdg_income['Estimated gross national income per capita, female (2011 PPP $)'],   color='c', alpha=0.4)
ax1.set_title('Estimated gross national income per capita (2011 PPP $)')
plt.legend(labels = ['Male', 'Female'], loc='upper right')
pass

Observamos que as mulheres têm um rendimento bruto per capita muito mais baixo do que os homens, especialmente quanto maior a renda.

## PERGUNTA 4 - Ter mais mulheres no parlamento favoriza ter um HDI maior ?

In [None]:
recent_data_expenditures_parliament = data_categorias_recente(['Composite indices', 'Gender'])
#recent_data_expenditures_parliament.info()

parliament_hdi = recent_data_expenditures_parliament[['Share of seats in parliament (% held by women)', 'Human Development Index (HDI)', 'income_group']].dropna() # Pega as colunas de interesse
parliament_hdi.rename(columns={'Human Development Index (HDI)':'HDI'}, inplace=True) # Renomea para visualizaçao

matplotlib.rcParams.update({'font.size': 15})
parliament_hdi.plot(kind = 'scatter',x = 'Share of seats in parliament (% held by women)', y ='HDI', title = 'HDI and Gender')
pass

Parece que não.

## PERGUNTA 5 - Quantos países têm aumentado a porcentagem de mulheres no parlamento nos últimos anos? E como tem sido a evolução do Brasil comparada à da Islândia ?

In [None]:
# Dados que queremos plotar organizados temporalmente
data_parliament = data_tidy[['country_name','year','Share of seats in parliament (% held by women)']]
data_parliament = data_parliament[data_parliament.year != 9999] # Ano 9999 fora

# Pivotamos para ter países como colunas
data_parliament = data_parliament.pivot_table(index=['year'],
                                     columns = 'country_name', values = 'Share of seats in parliament (% held by women)')

# Média de todas as colunas
data_parliament_means = data_parliament.mean(axis='columns')

# Plot
data_parliament_means.plot(title = "Evolution of world's average share of seats in parliament held by women")
pass

Tem aumentado, mais ainda não chega à 50%.

In [None]:
# Evoluções Brasil vs Islândia 
data_parliament_Brazil_Iceland = data_parliament[['Brazil','Iceland']]
data_parliament_Brazil_Iceland.plot(title= "Evolution of the % of seats in parliament\n held by women Brazil vs Iceland", figsize=(10,5))
_ = plt.legend(['Brazil', 'Iceland'], title = 'Country',loc='center left', bbox_to_anchor=(1, 0.5))


Parece que o Brasil tem aumentado muito lentamente.

## PERGUNTA 6 - Qual atual situação do indicador 'Gender Inequality Index (GII)' no BRICS? Quais países do BRICS estão acima da média mundial?

In [None]:
category_toPlot = 'Gender Inequality Index (GII)'
world_GII = recent_data_gender[recent_data_gender[category_toPlot].notnull() == True] # Removendo os valores NaN
brics_GII = world_GII[world_GII['country_name'].isin(brics)] # Filtrando pelos países do BRICS
w_GII_mean = world_GII[category_toPlot].mean() # Média mundial de 'Gender Inequality Index (GII)'

fig, ax1= plt.subplots(figsize=(10,5))
matplotlib.rcParams.update({'font.size': 14})
brics_GII = brics_GII.sort_values(by = category_toPlot, ascending = True) # Organizando o dataframe do maior indicador para o menor
ax1.barh(brics_GII['country_name'], brics_GII[category_toPlot], color= 'c', alpha = 0.4) # Plotando o GII por país do BRICS
plt.axvline(w_GII_mean, color='r', alpha = 1,linestyle = '--', linewidth = 3) # Plotando a média mundial de GII)
ax1.set_title(category_toPlot)
pass

3 dos 5 paises do BRICS estao acima da média no GII.

## PERGUNTA 7 - A formação de mulheres em SME, manufacturing and construction está correlacionada com  o GII?

In [None]:
first_step = data_tidy[(data_tidy.year.isin([2017,9999]))] # Unindo os dados de 2017 e de 9999
graduation = first_step[['Female share of graduates in science, mathematics, engineering, manufacturing and construction at tertiary level (%)', 'Gender Inequality Index (GII)']].dropna()


matplotlib.rcParams.update({'font.size': 14})
graduation.plot(kind = 'scatter',x = 'Female share of graduates in science, mathematics, engineering, manufacturing and construction at tertiary level (%)', y ='Gender Inequality Index (GII)')
plt.xlabel('Female share of graduates in SME, manufacturing and construction (%)')
pass

Não há correlação entre os dois indicadores, seguramente por esse 'female share of graduates in SME, manufacturing and construction' ser menos significativo no calculo do GII.

## PERGUNTA 8 - Como tem evoluido a 'life expectancy' das mulheres ?

In [None]:
data_female_expectancy = data_tidy[['country_name','year','Life expectancy at birth, female (years)']]
data_male_expectancy = data_tidy[['country_name','year','Life expectancy at birth, male (years)']]

# Ano 9999 fora
data_female_expectancy = data_female_expectancy[data_female_expectancy.year != 9999]
data_male_expectancy = data_male_expectancy[data_male_expectancy.year != 9999]

# Pivots para ter os dados prontos para análise temporal
data_female_expectancy = data_female_expectancy.pivot_table(index=['year'],
                                     columns = 'country_name', values = 'Life expectancy at birth, female (years)')
data_male_expectancy = data_male_expectancy.pivot_table(index=['year'],
                                     columns = 'country_name', values = 'Life expectancy at birth, male (years)')

# Médias
female_expectancy_means = data_female_expectancy.mean(axis='columns')
male_expectancy_means = data_male_expectancy.mean(axis='columns')


# Plot dos gráficos normais
female_expectancy_means.plot(title = "Evolution of average life expectancy", figsize = (10,5))
male_expectancy_means.plot()
_ = plt.legend(['Female', 'Male'], title = 'Gender',loc='center left', bbox_to_anchor=(1, 0.5))


# Plot dos boxplots
f, (ax1,ax2) = plt.subplots(1,2,figsize = (15,5))
female_expectancy_every5years = data[data.indicator_name == 'Life expectancy at birth, female (years)'][['country_name',1990,1995,2000,2005,2010,2015]]
male_expectancy_every5years = data[data.indicator_name == 'Life expectancy at birth, male (years)'][['country_name',1990,1995,2000,2005,2010,2015]]

female_expectancy_every5years.plot(ax = ax1, kind='box', title = 'Female')
male_expectancy_every5years.plot(ax = ax2,kind='box', title = 'Male')
pass

As diferenças diminuem para se tornarem distribuiçoes mais homogêneas, mas parece que os homens têm melhor expectativa de vida

## PERGUNTA 9 - Como tem sido a evolução de diferença salarial entre homens e mulheres nos últimos anos ?

In [None]:
data_female_income = data_tidy[['country_name','year','Estimated gross national income per capita, female (2011 PPP $)']]
data_male_income = data_tidy[['country_name','year','Estimated gross national income per capita, male (2011 PPP $)']]

# Ano 9999 fora
data_female_income = data_female_income[data_female_income.year != 9999]
data_male_income = data_male_income[data_male_income.year != 9999]

# Pivots para ter os dados prontos para analise temporal
data_female_income = data_female_income.pivot_table(index=['year'],
                                     columns = 'country_name', values = 'Estimated gross national income per capita, female (2011 PPP $)')
data_male_income = data_male_income.pivot_table(index=['year'],
                                     columns = 'country_name', values = 'Estimated gross national income per capita, male (2011 PPP $)')

# Médias
female_income_means = data_female_income.mean(axis='columns')
male_income_means = data_male_income.mean(axis='columns')

# Plot dos graficos normais
female_income_means.plot(title = "Evolution of average estimated gross national income per capita", figsize = (10,5))
male_income_means.plot()
_ = plt.legend(['Female', 'Male'], title = 'Gender',loc='center left', bbox_to_anchor=(1, 0.5))


Observamos claramente que as mulheres seguem ganhando muito menos do que os homens em média, o que é muito alarmante. Apesar disso, as evoluções parecem bastante correlacionadas.

In [None]:
# Focus na diferença entre salários de homens e mulheres

# Geral
difference = male_income_means.values - female_income_means.values
difference_income = pd.Series(difference, index = female_income_means.index)

# Brazil
difference_Brazil = data_male_income['Brazil'].values - data_female_income['Brazil'].values
difference_income_Brazil = pd.Series(difference_Brazil, index = female_income_means.index)

# Noruega
difference_Norway = data_male_income['Norway'].values - data_female_income['Norway'].values
difference_income_Norway = pd.Series(difference_Norway, index = female_income_means.index)

# França
difference_France = data_male_income['France'].values - data_female_income['France'].values
difference_income_France = pd.Series(difference_France, index = female_income_means.index)


difference_income.plot(title = "Evolution of average estimated gross national income difference per capita", figsize = (10,7))
difference_income_Brazil.plot()
difference_income_Norway.plot()
difference_income_France.plot()
_ = plt.legend(['All', 'Brazil', 'Norway', 'France'], title = 'Country',loc='center left', bbox_to_anchor=(1, 0.5))


A diferença salarial parece ter diminuido um pouco em média no mundo, mas parece ter estagnado desde 2010.

No Brasil, os salários são menores, mas as diferenças salariais também. Porém, tem tido um crescimento dessa diferença desde 2015!

Surpreendentemente, em países como a Noruega e a França, onde os salários são maiores, a diferença salarial também é.

## PERGUNTA 10 - Existe correlação entre a educação em geral de um país e a igualdade de gênero?

In [None]:
compare(data_tidy, 'Education index', 'Gender Inequality Index (GII)', 'Gender Inequality and Education', 'Gender Inequality Index (GII)')
pass

Percebemos claramente que quando melhor a educação de um país, menor é a desigualdade de gênero de lá.

## PERGUNTA 11 - Qual é a evolução da quantidade de mulheres na política nos paises que compõe o BRICS? Como está o Brasil em relação aos outros?

In [None]:
def bricsTimeEvolution (ind):
    brazil = timeEvolutionPerCountry(indicator = ind, country = 'Brazil')
    russia = timeEvolutionPerCountry(indicator = ind, country = 'Russian Federation')
    india = timeEvolutionPerCountry(indicator = ind, country = 'India')
    china = timeEvolutionPerCountry(indicator = ind, country = 'China')
    southAfrica = timeEvolutionPerCountry(indicator = ind, country = 'South Africa')
    pd.Series(brazil['value'].tolist(), brazil['year'].tolist()).plot(figsize = (15,10))
    pd.Series(russia['value'].tolist(), russia['year'].tolist()).plot()
    pd.Series(india['value'].tolist(), india['year'].tolist()).plot()
    pd.Series(china['value'].tolist(), china['year'].tolist()).plot()
    pd.Series(southAfrica['value'].tolist(), southAfrica['year'].tolist()).plot()
    plt.legend(['Brazil','Russia','India','China','South Africa'], title = 'País',loc='center left', bbox_to_anchor=(1, 0.5))
    return

In [None]:
bricsTimeEvolution('Share of seats in parliament (% held by women)')
plt.title('Evolução de mulheres no parlamento no BRICS')
plt.xlabel('Ano')
plt.ylabel('Fatia de mulheres parlamentares')
pass

Podemos claramente perceber que o Brasil tem o pior desemprenho no sentido de incluir mais mulheres no parlamento.

## PERGUNTA 12 - Qual é a evolução da educação de mulheres nos países que compõe o BRICS? Como está o Brasil em relação aos outros?

In [None]:
bricsTimeEvolution('Mean years of schooling, female (years)')
plt.title("Evolução da educação de mulheres no BRICS")
plt.xlabel('Ano')
plt.ylabel('Média de anos de escolaridade (Mulheres)')
pass

O gráfico mostra que o Brasil tem um histórico de baixa educação de mulheres mesmo se analisado apenas dentro do BRICS. Se igualando a China e superando apenas a Índia, que é o país com pior escolaridade de mulheres.

## PERGUNTA 13 - A violência contra a mulher está correlacionada com a desigualdade de gênero ou com o índice de desenvolvimento humano?

In [None]:
x1 = 'Violence against women ever experienced, intimate partner (% of female population ages 15 and older)'
y1 = 'Gender Inequality Index (GII)'

violence_GII = first_step[[x1, y1]].dropna()

matplotlib.rcParams.update({'font.size': 14})
violence_GII.plot(kind = 'scatter',x = x1, y = y1)
plt.xlabel('Violence against women ever experienced, intimate partner (%)')
pass

Não há correlação entre as duas variáveis.

## PERGUNTA 14 - Como está a evolução da média de anos de estudos das mulheres?

In [None]:
data_female_schooling = data_tidy[['country_name','year','Mean years of schooling, female (years)']]
data_male_schooling = data_tidy[['country_name','year','Mean years of schooling, male (years)']]

# Ano 9999 fora
data_female_schooling = data_female_schooling[data_female_schooling.year != 9999]
data_male_schooling = data_male_schooling[data_male_schooling.year != 9999]

# Pivots para ter os dados prontos para análise temporal
data_female_schooling = data_female_schooling.pivot_table(index=['year'],
                                     columns = 'country_name', values = 'Mean years of schooling, female (years)')
data_male_schooling = data_male_schooling.pivot_table(index=['year'],
                                     columns = 'country_name', values = 'Mean years of schooling, male (years)')

# Médias
female_schooling_means = data_female_schooling.mean(axis='columns')
male_schooling_means = data_male_schooling.mean(axis='columns')


# Plot dos gráficos normais
female_schooling_means.plot(title = "Evolution of the average years of schooling", figsize = (10,5))
male_schooling_means.plot()
_ = plt.legend(['Female', 'Male'], title = 'Gender',loc='center left', bbox_to_anchor=(1, 0.5))


# Plot dos boxplots
f, (ax1,ax2) = plt.subplots(1,2,figsize = (15,5))
female_schooling_every5years = data[data.indicator_name == 'Mean years of schooling, female (years)'][['country_name',1990,1995,2000,2005,2010,2015]]
male_schooling_every5years = data[data.indicator_name == 'Mean years of schooling, male (years)'][['country_name',1990,1995,2000,2005,2010,2015]]

female_schooling_every5years.plot(ax = ax1, kind='box', title = 'Female', ylim = (0,15))
male_schooling_every5years.plot(ax = ax2,kind='box', title = 'Male', ylim = (0,15))
pass

Felizmente, homens e mulheres têm aumentado o número de anos na escola, mas infelizmente as diferenças seguem sendo grandes.

## PERGUNTA 15 - Há correlação entre a desiguldade de gênero e o índice de desenvolvimento humano?

In [None]:
x1 = 'Gender Inequality Index (GII)'
y1 = 'Human Development Index (HDI)'
GII_HDI = first_step[[x1,y1]]

matplotlib.rcParams.update({'font.size': 14})
GII_HDI.plot(kind = 'scatter',x = x1, y = y1, figsize = (10,5))
pass

Podemos observar que quanto menor o índice de desenvolvimento humano, pior o índice de desigualdade de gênero.

# Considerações finais

Através deste trabalho, podemos observar que a questão de gênero ainda não alcançou a igualdade, pelo menos por enquanto.

Seja na educação, saúde, política ou desenvolvimento humano e financeiro, os homens têm melhores desempenhos que as mulheres, o que é alarmante.

Além disso, como era esperado, quanto pior o nível de desenvolvimento humano, pior a situação das mulheres.

Todos os países do mundo têm que se conscienciar ainda mais e tentar melhorar essa questão, pois mais de 50% da populaçao mundial é discriminada pelo sexo.

### Comentários

Porém,

* Temos que ser cientes que temos poucos dados, provenientes de uma fonte somente. Além disso, nem todos os paises têm respondido nos mesmos anos ou aos mesmos indicadores e alguns dados têm sido agrupados pela ONU (coluna 9999), o que cria uma irregularidade e nos faz desconfiar nos resultados.

* Também, temos que ter consciência que alguns dados são difíceis de seren medidos (por exemplo o de número de violências), pois nem sempre as mulheres vão relatar esses fatos ou os países vão usar dados reais. Então, este trabalho é uma estimativa da situação atual.