# Casamento LGBT no Brasil

*Este notebook contém o projeto final aplicado da disciplina "Análise exploratória de dados", no Master em Jornalismo Dados, Automação e Data Storytelling do Insper, lecionada pelo Prof. André Filipe de Moraes Batista, PhD.*

**Integrantes do grupo:** Gabriela Caesar, Isabela Fleischmann e Thiago Araújo (Grupo GIT).

**Transparência:** o trabalho também está disponível no [GitHub](https://github.com/gabrielacaesar/lgbt_casamento).

**Base de dados escolhida:** casamentos de pessoas do mesmo gênero de 2013 até 2019 (dado mais recente). 

**Base de dados complementar:** números de habitantes desagregados por gênero, UF e faixa etária. 

**Fonte das bases de dados:** Instituto Brasileiro de Geografia e Estatística (IBGE). Os arquivos brutos [estão salvos aqui](https://github.com/gabrielacaesar/lgbt_casamento/tree/main/data/raw_data).

**Metodologia:** os dados do IBGE estão disponíveis em um formato que dificulta o reaproveitamento para a análise. Por isso, transformamos os dados em [formato "tidy"](https://escoladedados.org/tutoriais/tidy-data-dados-arrumados-e-5-problemas-comuns/) antes de iniciar as análises. Os arquivos tratados [estão salvos aqui](https://github.com/gabrielacaesar/lgbt_casamento/tree/main/data).


## Contexto do assunto
O Brasil tem [mais de 60 mil casais formados por pessoas do mesmo gênero](http://g1.globo.com/brasil/noticia/2011/04/censo-2010-contabiliza-mais-de-60-mil-casais-homossexuais.html), segundo o Censo 2010 - o último realizado no Brasil e divulgado em 2011. Esse número é bastante menor que o de casais formados por pessoas de gêneros diferentes: 37,5 milhões. 

Mais de dez anos se passaram. E como está essa situação hoje no Brasil? É inegável que, ao caminhar na Avenida Paulista, em São Paulo, em 2021, vemos mais casais LGBTs do que há 10 anos. O sentimento é que mais pessoas puderam viver histórias homoafetivas nas grandes cidades. Mas será que isso vale para todo o Brasil? E será que a eleição de Jair Bolsonaro impactou esses números?

Além disso, apenas em 2011, o STF julgou legal a união civil de pessoas do mesmo gênero. Em 2013, o Conselho Nacional de Justiça [passou a permitir que todos os cartórios registrassem a união homoafetiva](https://g1.globo.com/distrito-federal/noticia/casamento-gay-no-brasil-completa-4-anos-de-regulamentacao-leia-historias.ghtml).

A orientação sexual é uma informação pessoal e, por isso, há poucos dados sobre isso, já que os órgãos não costumam coletar essa informação. Antes da definição da base, o grupo mapeou diversos dados sobre LGBTs para verificar qual base poderia ter dados de qualidade para tratar o tema.

A base de dados do IBGE, porém, é uma exceção positiva nesse levantamento. Além de ter dados oficiais do Brasil, ela também tem um detalhamento que permite uma ampla análise exploratória para responder a perguntas.

## Perguntas a que queremos responder
1.   Quantos casamentos homoafetivos ocorreram no Brasil de 2013 a 2019?
2.   Qual foi o ano com mais casamentos? E com menos casamento?
3.   Quais foram as estatísticas básicas anuais? E em 2018?
4.   Quem casa mais no meio LGBT? Homens ou mulheres? 
5.   As mulheres também se casam mais considerando os dados anuais?
6.   Em qual mês as pessoas mais se casam? E em qual elas menos se casam?
7.   Há mais casamentos homoafetivos após a vitória de Jair Bolsonaro, em 28 de outubro de 2018?
8.   Em quais estados aconteceram mais casamentos LGBTs em números absolutos? E menos?
9.   Em quais regiões do Brasil os casamentos LGBTs mais ocorrem? E menos?
10.   Considerando a população adulta, quais estados têm as maiores e menores proporções de casamentos LGBTs? 
11.   Em um mapa do Brasil, como ficam as taxas de casamentos LGBTS por 100 mil adultos?
12.  Considerando a UF e o ano informados pelo usuário, quais são as estatísticas básicas dessa UF e desse ano quanto ao casamento LGBT?


## O que aprendemos com os dados

1.   Mais de 40 mil casamentos homoafetivos foram realizados de 2013 a 2019
2.  As mulheres definitivamente se casam mais do que os homens
3.  2014 foi o ano em que o número de casamentos de homens quase ultrapassou o de mulheres
4.   SP e DF foram as unidades federativas com as maiores taxas de casamentos LGBTs por habitantes adultos;
5.  Em números absolutos, SP concentra 41,5% dos casamentos, seguido por RJ (9,3%), MG (7,5%) e SC (5,5%). RR, AC e AP têm os menores números.
6.    Estados do Norte e do Nordeste, como MA, TO, PI, AP e AC, aparecem com as menores taxas
7.   O Sudeste, região mais populosa do Brasil, também foi a região com mais casamentos
8.   O ano com mais casamentos LGBTs foi 2018, seguido por 2019
9.   O mês com mais casamentos foi dezembro; e o mês com menos foi abril
10.   Os meses próximos à eleição de Jair Bolsonaro foram os picos de casamentos LGBTS
11.   Os dados apontam que os casais homoafetivos seguiram [a recomendação da presidente da Comissão Especial da Diversidade Sexual e de Gênero do Conselho Federal da OAB, Maria Berenice Dias](https://g1.globo.com/sp/sao-paulo/noticia/2018/11/07/casamento-lgbt-cresce-25-no-pais-diz-associacao-profissionais-oferecem-servicos-gratuitos-para-celebracoes.ghtml), para os casais procurarem assegurar o matrimônio ainda em 2018.

## 1. Verificação do dataframe
Esta etapa do trabalho se propõe a importar o CSV principal e todas as bibliotecas usadas no Notebook, além de verificar do que esse dataframe é formado antes de responder às perguntas de interesse.

In [5]:
# importação das bibliotecas
# %%capture 
# !pip install geopandas ## para instalar o geopandas
# import geopandas as gpd
import pandas as pd
import altair as alt

In [6]:
# leitura do CSV como dataframe
lgbt_casamento = pd.read_csv('https://raw.githubusercontent.com/gabrielacaesar/lgbt_casamento/main/data/lgbt_casamento.csv')

In [7]:
# primeiras linhas do nosso dataframe
lgbt_casamento.head()

Unnamed: 0,ano,uf,genero,mes,numero
0,2014,Rondônia,Masculino,Janeiro,0
1,2014,Rondônia,Masculino,Fevereiro,0
2,2014,Rondônia,Masculino,Março,0
3,2014,Rondônia,Masculino,Abril,0
4,2014,Rondônia,Masculino,Maio,0


In [8]:
# últimas linhas do nosso dataframe
lgbt_casamento.tail()

Unnamed: 0,ano,uf,genero,mes,numero
4531,2019,Distrito Federal,Feminino,Agosto,7
4532,2019,Distrito Federal,Feminino,Setembro,9
4533,2019,Distrito Federal,Feminino,Outubro,13
4534,2019,Distrito Federal,Feminino,Novembro,11
4535,2019,Distrito Federal,Feminino,Dezembro,7


In [9]:
# informações do dataframe, por exemplo: tipo da coluna e número de linhas
lgbt_casamento.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4536 entries, 0 to 4535
Data columns (total 5 columns):
ano       4536 non-null int64
uf        4536 non-null object
genero    4536 non-null object
mes       4536 non-null object
numero    4536 non-null int64
dtypes: int64(2), object(3)
memory usage: 177.3+ KB


In [10]:
# estatísticas das colunas numéricas do dataframe
lgbt_casamento.describe()

Unnamed: 0,ano,numero
count,4536.0,4536.0
mean,2016.0,9.693783
std,2.00022,25.962171
min,2013.0,0.0
25%,2014.0,1.0
50%,2016.0,3.0
75%,2018.0,9.0
max,2019.0,827.0


In [11]:
# cabeçalho da dataframe
lgbt_casamento.columns

Index(['ano', 'uf', 'genero', 'mes', 'numero'], dtype='object')

In [12]:
# valores únicos da coluna 'ano' do dataframe
lgbt_casamento['ano'].unique()

array([2014, 2013, 2015, 2016, 2017, 2018, 2019])

In [13]:
# valores únicos da coluna 'mes' do dataframe
lgbt_casamento['mes'].unique()

array(['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho',
       'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro'], dtype=object)

In [14]:
# valores únicos da coluna 'genero' do dataframe
lgbt_casamento['genero'].unique()

array(['Masculino', 'Feminino'], dtype=object)

In [15]:
# valores únicos da coluna 'uf' do dataframe
lgbt_casamento['uf'].unique()

array(['Rondônia', 'Acre', 'Amazonas', 'Roraima', 'Pará', 'Amapá',
       'Tocantins', 'Maranhão', 'Piauí', 'Ceará', 'Rio Grande do Norte',
       'Paraíba', 'Pernambuco', 'Alagoas', 'Sergipe', 'Bahia',
       'Minas Gerais', 'Espírito Santo', 'Rio de Janeiro', 'São Paulo',
       'Paraná', 'Santa Catarina', 'Rio Grande do Sul',
       'Mato Grosso do Sul', 'Mato Grosso', 'Goiás', 'Distrito Federal'], dtype=object)

In [16]:
# tamanho dos valores únicos da coluna 'uf' do dataframe
len(lgbt_casamento['uf'].unique())

27

In [17]:
# tamanho dos valores únicos da coluna 'mes' do dataframe
len(lgbt_casamento['mes'].unique())

12

In [18]:
# tamanho dos valores únicos da coluna 'ano' do dataframe
len(lgbt_casamento['ano'].unique())

7

In [19]:
# seleciona apenas a coluna 'mes'
lgbt_casamento['mes']

0         Janeiro
1       Fevereiro
2           Março
3           Abril
4            Maio
          ...    
4531       Agosto
4532     Setembro
4533      Outubro
4534     Novembro
4535     Dezembro
Name: mes, Length: 4536, dtype: object

In [20]:
# número de linhas na coluna 'numero'
len(lgbt_casamento['mes'])

4536

In [21]:
# pergunta se aquele campo da coluna 'mes' é NA (ou seja, sem preenchimento)
lgbt_casamento['mes'].isna()

0       False
1       False
2       False
3       False
4       False
        ...  
4531    False
4532    False
4533    False
4534    False
4535    False
Name: mes, Length: 4536, dtype: bool

In [22]:
# pergunta se aquele campo da coluna 'numero' é NA (ou seja, sem preenchimento)
lgbt_casamento['numero'].isna()

0       False
1       False
2       False
3       False
4       False
        ...  
4531    False
4532    False
4533    False
4534    False
4535    False
Name: numero, Length: 4536, dtype: bool

In [23]:
# número máximo da coluna 'numero'
# ou seja, maior número de casamentos em um mês em uma UF
lgbt_casamento['numero'].max()

827

In [24]:
# número mínimo da coluna 'numero'
# ou seja, menor número de casamentos em um mês em uma UF
lgbt_casamento['numero'].min()

0

In [25]:
# média da coluna 'numero'
lgbt_casamento['numero'].mean()

9.693783068783068

In [26]:
# mediana da coluna 'numero'
lgbt_casamento['numero'].median()

3.0

In [27]:
# desvio padrão da coluna 'numero'
lgbt_casamento['numero'].std()

25.962171041306817

In [28]:
# soma da coluna 'numero'
sum(lgbt_casamento['numero'])

43971

## 2. Análise exploratória de dados
Esta etapa do trabalho se propõe a analisar os dados com mais profundida para começar a responder a algumas perguntas formuladas inicialmente. Como o CSV já foi importado e as bibliotecas já foram chamadas anteriormente neste Notebook, isso não precisa ser repetido.

### Quantos casamentos homoafetivos ocorreram no Brasil de 2013 a 2019?



In [29]:
# mais de 40 mil casamentos homoafetivos nesse período
lgbt_casamento['numero'].sum()

43971

### Qual foi o ano com mais casamentos homoafetivos? E com menos?

In [30]:
# 2018 foi o ano com mais casamentos, seguido por 2019
casamento_ano = lgbt_casamento.groupby('ano')['numero'].sum().sort_values(ascending=False).reset_index()
print(casamento_ano)

    ano  numero
0  2018    9520
1  2019    9056
2  2017    5887
3  2015    5614
4  2016    5354
5  2014    4840
6  2013    3700


In [31]:
# gráfico para mostrar os dados citados acima
# referência https://altair-viz.github.io/gallery/bar_chart_with_highlighted_bar.html
alt.Chart(casamento_ano).mark_bar().encode(
    x = alt.X('ano:O', title = 'Ano'),
    y = alt.Y('numero', title = 'Nº de casamentos'),
    color=alt.condition(
        alt.datum.ano == 2018,  # destacar com laranka
        alt.value('orange'),
        alt.value('steelblue')
    ),
    tooltip = ['ano', 'numero']
).properties(title = '2018 é o recorde de casamentos homoafetivos', width=600, height=300).interactive()

## Quais foram as estatísticas básicas anuais?

In [32]:
# estatísticas básicas por ano e gênero
# ATENÇÃO: as estatísticas (mean, median, std, max e min) se referem a cada mês, e não ao ano completo
lgbt_casamento.groupby(['ano', 'genero']).agg({'numero':['sum', 'mean', 'median', 'std', 'max', 'min']})

Unnamed: 0_level_0,Unnamed: 1_level_0,numero,numero,numero,numero,numero,numero
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean,median,std,max,min
ano,genero,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,Feminino,1926,5.944444,1,17.632559,133,0
2013,Masculino,1774,5.475309,1,15.053342,99,0
2014,Feminino,2438,7.524691,2,19.235771,151,0
2014,Masculino,2402,7.41358,3,14.860818,99,0
2015,Feminino,2986,9.216049,3,19.493976,128,0
2015,Masculino,2628,8.111111,3,14.534894,86,0
2016,Feminino,2943,9.083333,3,19.294423,125,0
2016,Masculino,2411,7.441358,2,14.801879,102,0
2017,Feminino,3387,10.453704,4,23.745184,154,0
2017,Masculino,2500,7.716049,3,16.227282,113,0


## Quais foram as estatísticas básicas de 2018?

In [33]:
# estatísticas básicas por uf e gênero no ano de 2018
# ATENÇÃO: as estatísticas (mean, median, std, max e min) se referem a cada mês, e não ao ano completo
# Nas mulheres, SP, por exemplo, tem média de 209 casamentos mensais
# e mediana e 130,5
# o mínimo mensal por gênero foi 105; o máximo foi 827
lgbt_casamento.query('ano == 2018').groupby(['genero', 'uf']).agg({'numero':['sum', 'mean', 'median', 'std', 'max', 'min']})

Unnamed: 0_level_0,Unnamed: 1_level_0,numero,numero,numero,numero,numero,numero
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean,median,std,max,min
genero,uf,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Feminino,Acre,12,1.0,0.0,2.256304,8,0
Feminino,Alagoas,56,4.666667,2.0,10.218818,37,0
Feminino,Amapá,7,0.583333,0.0,1.1645,4,0
Feminino,Amazonas,31,2.583333,1.5,3.028901,11,0
Feminino,Bahia,170,14.166667,12.5,15.296068,60,0
Feminino,Ceará,212,17.666667,13.0,16.372556,69,9
Feminino,Distrito Federal,136,11.333333,9.0,9.902556,42,5
Feminino,Espírito Santo,63,5.25,4.0,3.545163,16,3
Feminino,Goiás,116,9.666667,8.0,4.163332,18,4
Feminino,Maranhão,14,1.166667,1.0,1.403459,5,0


### Quem casa mais no meio LGBT? Homens ou mulheres? 

In [34]:
# as mulheres se casam mais do que os homens
casamento_genero = lgbt_casamento.groupby('genero')['numero'].sum().sort_values(ascending=False).reset_index()
print(casamento_genero)

      genero  numero
0   Feminino   24591
1  Masculino   19380


In [35]:
# gráfico para mostrar os dados citados acima
# referência https://altair-viz.github.io/gallery/bar_chart_with_highlighted_bar.html
alt.Chart(casamento_genero).mark_bar().encode(
    x = alt.X('genero', title = 'Ano'),
    y = alt.Y('numero', title = 'Nº de casamentos'),
    color=alt.condition(
        alt.datum.genero == 'Feminino',
        alt.value('orange'),
        alt.value('steelblue')
    ),
    tooltip = ['genero', 'numero']
).properties(title = 'Casamentos homoafetivos: mulheres se casam mais do que homens', width=600, height=300).interactive()

### As mulheres também se casam mais considerando os dados anuais?

In [36]:
# considerando os dados anuais também
# as mulheres se casam mais do que os homens
# apenas em 2014 a diferença foi pequena
casamento_genero_ano = lgbt_casamento.groupby(['ano' , 'genero'])['numero'].sum().reset_index()
print(casamento_genero_ano)

     ano     genero  numero
0   2013   Feminino    1926
1   2013  Masculino    1774
2   2014   Feminino    2438
3   2014  Masculino    2402
4   2015   Feminino    2986
5   2015  Masculino    2628
6   2016   Feminino    2943
7   2016  Masculino    2411
8   2017   Feminino    3387
9   2017  Masculino    2500
10  2018   Feminino    5562
11  2018  Masculino    3958
12  2019   Feminino    5349
13  2019  Masculino    3707


In [37]:
# gráfico para mostrar os dados citados acima
# referência https://altair-viz.github.io/gallery/line_percent.html
alt.Chart(casamento_genero_ano).mark_line().encode(
    x = alt.X('ano:O', title = 'Ano'),
    y = alt.Y('numero', title = 'Nº de casamentos'),
    color= alt.Color('genero:N', sort = ['Masculino', 'Feminino'], title = 'Gênero'),
    tooltip = ['ano', 'numero', 'genero']
).properties(title = '2014 foi o ano com mais proximidade', width=600, height=300).interactive()

### Em qual mês as pessoas mais se casam? E menos?

In [38]:
# dezembro é o mês com mais casamentos
# abril é o mês com menos casamentos
casamento_mes = lgbt_casamento.groupby(['mes'])['numero'].sum().sort_values(ascending=False).reset_index()
print(casamento_mes)

          mes  numero
0    Dezembro    6804
1    Novembro    4363
2     Outubro    3940
3    Setembro    3890
4     Janeiro    3386
5       Julho    3373
6       Junho    3122
7        Maio    3118
8      Agosto    3101
9       Março    3073
10  Fevereiro    3001
11      Abril    2800


In [39]:
# gráfico para mostrar os dados citados acima
# referência https://altair-viz.github.io/gallery/bar_chart_with_highlighted_bar.html
alt.Chart(casamento_mes).mark_bar(point=True).encode(
    x = alt.X('mes', title = 'Mês', sort=['Dezembro', 'Novembro', 'Outubro']),
    y = alt.Y('numero', title='Número'),
    tooltip = ['mes', 'numero'],
    color=alt.condition(
        alt.datum.mes == 'Dezembro',  
        alt.value('orange'),    
        alt.value('steelblue')
    ),
).properties(
    title = 'Dezembro é o mês com mais casamentos homoafetivos', width = 600, height=300).interactive()

### Há mais casamentos homoafetivos após a vitória de Jair Bolsonaro, em 28 de outubro de 2018?


In [40]:
# observe: dezembro de 2018 foi o mês com mais casamentos
# logo depois, janeiro de 2019, fevereiro de 2019, novembro de 2018...
# todos são meses próximos - e após a eleição de Jair Bolsonaro
casamento_mes_ano = lgbt_casamento.groupby(['mes', 'ano'])['numero'].sum().sort_values(ascending=False).reset_index()
print(casamento_mes_ano)

          mes   ano  numero
0    Dezembro  2018    3098
1     Janeiro  2019    1319
2   Fevereiro  2019    1033
3    Novembro  2018     957
4    Dezembro  2019     774
..        ...   ...     ...
79       Maio  2013     235
80      Abril  2013     221
81      Março  2013     160
82  Fevereiro  2013     110
83    Janeiro  2013      74

[84 rows x 3 columns]


In [41]:
# gráfico para mostrar os dados citados acima
# referência https://altair-viz.github.io/gallery/simple_heatmap.html
alt.Chart(casamento_mes_ano).mark_rect().encode(
    x = alt.X('mes', title = 'Mês', sort=['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro']),
    y = alt.Y('ano:O', title = 'Ano'),
    color= alt.Color('numero:Q', title = 'Nº de casamentos'),
    tooltip = ['mes', 'ano', 'numero'],
).properties(title = 'Dezembro de 2018 foi o pico de casamentos homoafetivos', width=600, height=300)

### Em quais estados aconteceram mais casamentos LGBTs em números absolutos? E menos?

In [42]:
# mais de 18 mil casamentos foram em SP, seguido pelo RJ e por MG
# SP concentra 41,5% dos casamentos homoafetivos e é também o estado mais populoso do Brasil
# já Roraima, Acre e Amapá aparecem com poucos casamentos e também são pouco populosos
casamento_uf = lgbt_casamento.groupby('uf')['numero'].sum().sort_values(ascending=False).reset_index()
casamento_uf['n_perc'] = (casamento_uf['numero'] / sum(casamento_uf['numero'])) * 100
print(casamento_uf)

                     uf  numero     n_perc
0             São Paulo   18267  41.543290
1        Rio de Janeiro    4110   9.347070
2          Minas Gerais    3310   7.527689
3        Santa Catarina    2434   5.535467
4                Paraná    2041   4.641696
5     Rio Grande do Sul    1913   4.350595
6                 Ceará    1888   4.293739
7            Pernambuco    1519   3.454550
8                 Bahia    1268   2.883719
9      Distrito Federal    1202   2.733620
10                Goiás    1069   2.431148
11                 Pará     706   1.605604
12   Mato Grosso do Sul     686   1.560119
13       Espírito Santo     601   1.366810
14  Rio Grande do Norte     499   1.134839
15              Paraíba     473   1.075709
16             Amazonas     371   0.843738
17              Alagoas     332   0.755043
18             Maranhão     257   0.584476
19          Mato Grosso     237   0.538992
20                Piauí     185   0.420732
21             Rondônia     162   0.368425
22         

In [43]:
# gráfico para mostrar os dados citados acima
# referência https://altair-viz.github.io/gallery/bar_chart_horizontal.html
alt.Chart(casamento_uf).mark_bar().encode(
    x = alt.X('numero', title = 'Nº de casamentos'),
    y = alt.Y('uf', sort = ['São Paulo', 'Rio de Janeiro', 'Minas Gerais', 'Santa Catarina'], title = 'UF'),
    tooltip = ['uf', 'numero', 'n_perc']
).properties(title = 'Casamento LGBT: estados do Sudeste e do Sul aparecem primeiro no ranking', width=600, height=300)

### Em quais regiões do Brasil os casamentos LGBTs mais ocorrem? E menos?

In [44]:
# criação de dicionário transformado depois em dataframe com as UFs e as respectivas regiões

uf_norte = {'regiao': ['Norte']*7, 'uf': ["Rondônia","Acre","Amazonas","Roraima", "Pará","Amapá","Tocantins"]}
uf_nordeste = {'regiao': ['Nordeste']*9, 'uf': ["Maranhão","Piauí","Ceará","Rio Grande do Norte","Paraíba","Pernambuco", "Alagoas","Sergipe","Bahia"]}
uf_sudeste = {'regiao': ['Sudeste']*4, 'uf': ["Minas Gerais","Espírito Santo","Rio de Janeiro","São Paulo"]}
uf_sul = {'regiao': ['Sul']*3, 'uf': ["Paraná","Santa Catarina","Rio Grande do Sul"]}
uf_centro_oeste = {'regiao': ['Centro-Oeste']*4, 'uf': ["Mato Grosso do Sul","Mato Grosso","Goiás", "Distrito Federal"]}

regiao_norte = pd.DataFrame(uf_norte)
regiao_nordeste = pd.DataFrame(uf_nordeste)
regiao_sudeste = pd.DataFrame(uf_sudeste)
regiao_sul = pd.DataFrame(uf_sul)
regiao_centro_oeste = pd.DataFrame(uf_centro_oeste)

regioes_uf = pd.concat([regiao_norte, regiao_nordeste, regiao_sudeste, regiao_sul, regiao_centro_oeste])

In [45]:
lgbt_casamento_regioes = lgbt_casamento.merge(regioes_uf, on='uf')
lgbt_casamento_regioes_ano = lgbt_casamento_regioes.groupby(['regiao', 'ano'])['numero'].sum().sort_values(ascending=False).reset_index()
lgbt_casamento_regioes_ano.head()

Unnamed: 0,regiao,ano,numero
0,Sudeste,2018,5689
1,Sudeste,2019,5509
2,Sudeste,2017,3536
3,Sudeste,2016,3125
4,Sudeste,2015,3077


In [46]:
# gráfico para mostrar os dados citados acima
# referência https://altair-viz.github.io/gallery/horizontal_stacked_bar_chart.html
alt.Chart(lgbt_casamento_regioes_ano).mark_bar().encode(
    x = alt.X('sum(numero)', title = 'Nº de casamentos'),
    y = alt.Y('ano', title = 'Ano'),
    tooltip = ['regiao', 'numero'],
    color = alt.Color('regiao', title = "Região")
).properties(title = 'Sudeste concentra maior número de casamentos homoafetivos', width=600, height=300)

In [47]:
lgbt_casamento_regioes_genero = lgbt_casamento_regioes.groupby(['regiao','genero'])['numero'].sum().reset_index()
lgbt_casamento_regioes_genero.head()

Unnamed: 0,regiao,genero,numero
0,Centro-Oeste,Feminino,1759
1,Centro-Oeste,Masculino,1435
2,Nordeste,Feminino,3794
3,Nordeste,Masculino,2785
4,Norte,Feminino,869


In [48]:
# gráfico para mostrar os dados citados acima
# referência https://altair-viz.github.io/gallery/grouped_bar_chart.html
alt.Chart(lgbt_casamento_regioes_genero).mark_bar().encode(
    x = alt.X('genero', title = "Gênero"),
    y = alt.Y('numero', title = 'Nº de casamentos'),
    color = alt.Color('genero', sort = ['Masculino', 'Feminino'], title = 'Gênero'),
    column = alt.Column('regiao:N', title = 'Região'),
    tooltip = ['regiao', 'genero', 'numero']
).properties(title = 'Veja, por região, o total de casamentos de 2013 a 2019', width=100)

### Considerando a população adulta, quais estados têm as maiores e menores proporções de casamentos LGBTs? 

Este trecho da análise depende de alguns cruzamentos para chegarmos ao resultado


In [49]:
# arquivo com o nome da uf e a respectiva sigla
sigla_uf = pd.read_csv('https://raw.githubusercontent.com/kelvins/Municipios-Brasileiros/main/csv/estados.csv')

In [50]:
# o arquivo com a população adulta usa a sigla, e não o nome da uf
# por isso, vamos cruzar o dataframe principal com o dataframe acima 
# assim, o novo dataframe terá a sigla para criar com o CSV da população adulta
sigla_uf_lgbt_casamento = lgbt_casamento.merge(sigla_uf, how = 'left', left_on = 'uf', right_on = 'nome')
sigla_uf_lgbt_casamento = sigla_uf_lgbt_casamento.drop(['uf_x', 'codigo_uf', 'latitude', 'longitude'], axis=1)
sigla_uf_lgbt_casamento = sigla_uf_lgbt_casamento.rename(columns={'uf_y':'uf', 'nome': 'nome_uf'})
sigla_uf_lgbt_casamento.head(6)

Unnamed: 0,ano,genero,mes,numero,uf,nome_uf
0,2014,Masculino,Janeiro,0,RO,Rondônia
1,2014,Masculino,Fevereiro,0,RO,Rondônia
2,2014,Masculino,Março,0,RO,Rondônia
3,2014,Masculino,Abril,0,RO,Rondônia
4,2014,Masculino,Maio,0,RO,Rondônia
5,2014,Masculino,Junho,0,RO,Rondônia


In [51]:
ano_uf_lgbt_casamento = sigla_uf_lgbt_casamento.groupby(['genero', 'ano', 'uf'])['numero'].sum().sort_values(ascending=False)
ano_uf_lgbt_casamento.head(6)

genero     ano   uf
Feminino   2018  SP    2445
           2019  SP    2120
Masculino  2018  SP    1655
Feminino   2017  SP    1495
Masculino  2019  SP    1453
Feminino   2016  SP    1202
Name: numero, dtype: int64

In [52]:
# os dados são do IBGE e tratam das pessoas com 15 anos ou mais 
# aqui chamamos esse grupo de 'população adulta'
# para casar no Brasil, a pessoa precisa ter a partir de 16 anos
# mas o grupo etário dessa idade, para o IBGE, é de 15-19 anos
pop_adulta = pd.read_csv('https://raw.githubusercontent.com/gabrielacaesar/lgbt_casamento/main/data/pop_adulta.csv')

In [53]:
# padronizando gênero para ficar igual ao do csv lgbt_casamento
pop_adulta['genero'] = pop_adulta['genero'].replace(['Mulher'],'Feminino').replace(['Homem'],'Masculino')
pop_adulta.head(2)

Unnamed: 0,genero,ano,pop_adulta,uf
0,Masculino,2013,265626,AC
1,Masculino,2014,272692,AC


In [54]:
pop_lgbt_casamento = pd.merge(ano_uf_lgbt_casamento, pop_adulta, how = 'left', on = ['ano', 'genero', 'uf'])
pop_lgbt_casamento.head(5)

Unnamed: 0,ano,genero,uf,numero,pop_adulta
0,2018,Feminino,SP,2445,18915105
1,2019,Feminino,SP,2120,19109416
2,2018,Masculino,SP,1655,17569093
3,2017,Feminino,SP,1495,18716547
4,2019,Masculino,SP,1453,17760876


In [55]:
### criamos a taxa de casamento lgbt por 100 mil habitantes adultos
pop_lgbt_casamento['tx_pop'] = (pop_lgbt_casamento['numero'] / pop_lgbt_casamento['pop_adulta']) * 100000
pop_lgbt_casamento.sort_values(by = 'tx_pop', ascending=False)

Unnamed: 0,ano,genero,uf,numero,pop_adulta,tx_pop
0,2018,Feminino,SP,2445,18915105,12.926177
67,2018,Masculino,DF,138,1115186,12.374617
64,2019,Feminino,DF,148,1269796,11.655416
73,2019,Masculino,DF,132,1136890,11.610622
1,2019,Feminino,SP,2120,19109416,11.094007
...,...,...,...,...,...,...
373,2013,Masculino,AC,0,265626,0.000000
374,2013,Feminino,RR,0,166383,0.000000
375,2016,Masculino,AC,0,287146,0.000000
376,2015,Masculino,AC,0,279837,0.000000


### 2019: taxas mais altas e mais baixas, por UF

In [56]:
# DF e SP aparecem com destaque, com taxas acima de 10, em 2019
tx_2019 = pop_lgbt_casamento.query('ano == 2019').sort_values(by = 'tx_pop', ascending=False)
tx_2019.head(10)

Unnamed: 0,ano,genero,uf,numero,pop_adulta,tx_pop
64,2019,Feminino,DF,148,1269796,11.655416
73,2019,Masculino,DF,132,1136890,11.610622
1,2019,Feminino,SP,2120,19109416,11.094007
105,2019,Feminino,MS,101,1089092,9.27378
4,2019,Masculino,SP,1453,17760876,8.180903
14,2019,Feminino,RJ,568,7408969,7.666384
53,2019,Feminino,SC,195,2931464,6.651966
56,2019,Masculino,SC,180,2845696,6.325342
17,2019,Masculino,RJ,410,6579835,6.231159
38,2019,Feminino,PE,217,3922693,5.531914


In [57]:
# MA aparece com destaque, com taxas baixo de 1, em 2019
pop_lgbt_casamento.query('ano == 2019').sort_values(by = 'tx_pop', ascending=True).head(10)

Unnamed: 0,ano,genero,uf,numero,pop_adulta,tx_pop
261,2019,Masculino,MA,15,2531188,0.592607
234,2019,Feminino,MA,22,2686814,0.818814
267,2019,Masculino,PI,15,1208013,1.241708
307,2019,Masculino,TO,8,595765,1.342811
236,2019,Masculino,AM,22,1464687,1.502027
275,2019,Masculino,SE,14,843619,1.659517
335,2019,Masculino,AP,5,300208,1.665512
216,2019,Masculino,PB,29,1494526,1.940415
327,2019,Masculino,AC,6,308791,1.943062
148,2019,Masculino,PA,63,3163035,1.991758


In [58]:
# o gráfico abaixo se refere aos dois dataframes criados acima
# o eixo x tem a taxa de casamentos LGBTs por 100 mil adultos, por gênero, naquele ano
# o eixo y tem o número de casamentos LGBTs, por gênero, naquele ano
# referência https://altair-viz.github.io/gallery/trellis_scatter_plot.html
alt.Chart(tx_2019).mark_point().encode(
    x = alt.X('tx_pop:Q', title = 'Nº de casamentos'),
    y = alt.Y('numero:Q', title = 'Taxa por 100 mil adultos'),
    color = alt.Color('genero', sort = ['Masculino', 'Feminino'], title = 'Gênero'),
    tooltip = ['uf', 'genero', 'tx_pop', 'numero', 'pop_adulta']
).properties(title = '2019: Taxa de casamentos LGBTs', width=600, height=300)

### 2018: taxas mais altas e mais baixas, por UF

In [59]:
# novamente SP e DF aparecem com destaque
tx_2018 = pop_lgbt_casamento.query('ano == 2018').sort_values(by = 'tx_pop', ascending=False)
tx_2018.head(10)

Unnamed: 0,ano,genero,uf,numero,pop_adulta,tx_pop
0,2018,Feminino,SP,2445,18915105,12.926177
67,2018,Masculino,DF,138,1115186,12.374617
71,2018,Feminino,DF,136,1247134,10.905003
93,2018,Feminino,MS,110,1074182,10.24035
2,2018,Masculino,SP,1655,17569093,9.419951
36,2018,Masculino,SC,229,2807204,8.157583
47,2018,Feminino,SC,200,2891671,6.916416
29,2018,Feminino,PE,260,3881393,6.698626
25,2018,Feminino,PR,283,4658113,6.075422
40,2018,Feminino,CE,212,3692378,5.741557


In [60]:
# desta vez, AP, RR, MA e RO têm taxas abaixo de um
pop_lgbt_casamento.query('ano == 2018').sort_values(by = 'tx_pop', ascending=True).head(10)

Unnamed: 0,ano,genero,uf,numero,pop_adulta,tx_pop
366,2018,Masculino,AP,1,292039,0.34242
365,2018,Masculino,RR,1,212649,0.470259
287,2018,Masculino,MA,12,2500973,0.479813
273,2018,Feminino,MA,14,2649907,0.52832
322,2018,Masculino,RO,6,677846,0.885157
266,2018,Masculino,MT,15,1330673,1.127249
318,2018,Masculino,TO,7,586706,1.193102
251,2018,Masculino,AM,18,1436331,1.253193
253,2018,Masculino,PI,17,1201187,1.415267
294,2018,Feminino,TO,11,581958,1.890171


In [79]:
# o gráfico abaixo se refere aos dois dataframes criados acima
# o eixo x tem a taxa de casamentos LGBTs por 100 mil adultos, por gênero, naquele ano
# o eixo y tem o número de casamentos LGBTs, por gênero, naquele ano
# referência https://altair-viz.github.io/gallery/trellis_scatter_plot.html
alt.Chart(tx_2018).mark_point().encode(
    x = alt.X('tx_pop:Q', title = 'Nº de casamentos'),
    y = alt.Y('numero:Q', title = 'Taxa por 100 mil adultos'),
    color = alt.Color('genero', sort = ['Masculino', 'Feminino'], title = 'Gênero'),
    tooltip = ['uf', 'genero', 'tx_pop', 'numero', 'pop_adulta']
).properties(title = '2018: Taxa de casamentos LGBTs', width=600, height=300)

### Em um mapa do Brasil, como ficam as taxas de casamentos LGBTS por 100 mil adultos?

#### Observação: para fazer o mapa do Brasil é necessário fazer indicar o caminho para o arquivo "bcim_2016_21_11_2018.gpkg", que pode ser baixado do site do IBGE. Este trecho do mapa não funciona no Colab a princípio, mas sim no Jupyter Notebook. 

[Veja este trecho da análise neste Notebook aqui](https://github.com/gabrielacaesar/lgbt_casamento/blob/main/notebooks/gabriela-caesar-analise-de-dados-2out2021-perguntas_2.ipynb).

In [62]:
tx_pop_lgbt_casamento = pop_lgbt_casamento.groupby(['ano', 'uf']).agg({'numero': sum,'tx_pop': sum}).reset_index()
tx_pop_lgbt_casamento.head()

Unnamed: 0,ano,uf,numero,tx_pop
0,2013,AC,0,0.0
1,2013,AL,17,1.404225
2,2013,AM,7,0.547217
3,2013,AP,6,2.380704
4,2013,BA,99,1.809937


In [63]:
print(" --------------------------- \n         Bem-vindo/a! \n ---------------------------")
ano_user = int(input("Escolha um ano de 2013 a 2019: \n"))
#print(uf_user)
print(" --------------------------- \n      Já vamos calcular! \n ---------------------------")

 --------------------------- 
         Bem-vindo/a! 
 ---------------------------
Escolha um ano de 2013 a 2019: 
2018
 --------------------------- 
      Já vamos calcular! 
 ---------------------------


In [64]:
ano_user_tx_pop_lgbt_casamento = tx_pop_lgbt_casamento.query('ano == @ano_user', engine='python')
ano_user_tx_pop_lgbt_casamento.head()

Unnamed: 0,ano,uf,numero,tx_pop
135,2018,AC,18,5.90481
136,2018,AL,95,7.531687
137,2018,AM,49,3.400385
138,2018,AP,8,2.707445
139,2018,BA,288,4.9529


In [65]:
# referência https://rodrigodutcosky.medium.com/mapas-coropl%C3%A9ticos-com-os-estados-do-brasil-em-python-b9b48c6db585
# baixe o arquivo abaixo no link https://www.ibge.gov.br/geociencias/cartas-e-mapas/bases-cartograficas-continuas/15759-brasil.html?=&t=downloads
# clique em 'bcim' > 'versao2016' > 'geopackage' > 'bcim_2016_21_11_2018.gpkg'
info_ufs = gpd.read_file('bcim_2016_21_11_2018.gpkg', layer = 'lim_unidade_federacao_a')
info_ufs.columns

NameError: name 'gpd' is not defined

In [66]:
info_ufs.rename({'sigla':'uf'}, axis = 1, inplace = True)
mapa_br = info_ufs.merge(ano_user_tx_pop_lgbt_casamento, on = 'uf', how = 'left')
#mapa_br[['uf', 'ano', 'numero', 'tx_pop', 'geometry']].head()

NameError: name 'info_ufs' is not defined

In [67]:
%matplotlib inline

mapa_br.plot(column = 'tx_pop',
             cmap = 'Blues',
             figsize = (10, 6),
             legend = True,
             edgecolor = 'black')

NameError: name 'mapa_br' is not defined

### Considerando a UF e o ano informados pelo usuário, quais são as estatísticas básicas dessa UF e desse ano quanto ao casamento LGBT?

In [80]:
sigla_uf_lgbt_casamento = lgbt_casamento.merge(sigla_uf, how = 'left', left_on = 'uf', right_on = 'nome')
sigla_uf_lgbt_casamento.head()

Unnamed: 0,ano,uf_x,genero,mes,numero,codigo_uf,uf_y,nome,latitude,longitude
0,2014,Rondônia,Masculino,Janeiro,0,11,RO,Rondônia,-10.83,-63.34
1,2014,Rondônia,Masculino,Fevereiro,0,11,RO,Rondônia,-10.83,-63.34
2,2014,Rondônia,Masculino,Março,0,11,RO,Rondônia,-10.83,-63.34
3,2014,Rondônia,Masculino,Abril,0,11,RO,Rondônia,-10.83,-63.34
4,2014,Rondônia,Masculino,Maio,0,11,RO,Rondônia,-10.83,-63.34


In [81]:
print(" --------------------------- \n         Bem-vindo/a! \n ---------------------------")
ano_user = int(input("Escolha um ano de 2013 a 2019: \n"))
uf_user = input("Escolha uma UF. Por exemplo, AC, AL, SP, RJ... \n")
uf_user = uf_user.upper().strip()
#print(uf_user)
print(" --------------------------- \n      Já vamos calcular! \n ---------------------------")

 --------------------------- 
         Bem-vindo/a! 
 ---------------------------
Escolha um ano de 2013 a 2019: 
2019
Escolha uma UF. Por exemplo, AC, AL, SP, RJ... 
sp
 --------------------------- 
      Já vamos calcular! 
 ---------------------------


In [91]:
# gráfico de linha usando filtro pela UF e pelo ano informados pelo usuário
# referência https://altair-viz.github.io/gallery/line_chart_with_points.html
# obs: tirei a f string por causa da versão antiga no Python neste laptop
alt.Chart(sigla_uf_lgbt_casamento.query('uf_y == @uf_user & ano == @ano_user', engine='python')).mark_line(point=True).encode(
    x = alt.X('mes', title = 'Mês', sort=['Janeiro', 'Fevereiro', 'Março']),
    y = alt.Y('numero', title='Nº de casamentos'),
    color = alt.Color('genero', sort = ['Masculino', 'Feminino'], title = 'Gênero'),
    tooltip = ['mes', 'ano', 'genero', 'numero']
).properties(
    title = '{}: Casamento LGBTs em {}'.format(uf_user, ano_user),
    width = 600, height=300
).interactive()

In [92]:
# boxplot usando filtro pela UF informada pelo usuário
# referência https://altair-viz.github.io/gallery/boxplot.html
# obs: tirei a f string por causa da versão antiga no Python neste laptop
dados_user = sigla_uf_lgbt_casamento.query('uf_y == @uf_user', engine='python')

alt.Chart(dados_user).mark_boxplot(size=80).encode(
    x = alt.X('ano:O', title="Ano"),
    y = alt.Y('numero', title="Nº de casamentos"),
    color = alt.Color('genero', sort = ['Masculino', 'Feminino'], title='Gênero'),
    tooltip = ['mes', 'ano', 'genero', 'numero']
).properties(
    title={
      "text": ['{}: Casamento LGBTs'.format(uf_user)], 
      "subtitle": ['Mulheres vs. Homens']
    },
    width=600,
    height=300
).interactive()

## Muito obrigado/a!