# ICD - Projeto final
## LGBTQI+: bem estar e consequências do preconceito na União Europeia em 2012

- Gabriel Lima Canguçu
- Giovanna Louzi Bellonia
- Thiago Martin Poppe

## Informações externas

Link para o vídeo: *In progress* <BR>
Link para o GitHub: https://github.com/gilouzi/Data-Science-LGBT_EU

Todos os notebooks utilizados para filtragem dos dados e análise se encontram na pasta do trabalho.

## Introdução

Os últimos anos foram marcados por uma crescente onda de ódio em todo o mundo, acompanhada pela ascensão do conservadorismo. Um dos principais grupos sociais afetados por esse fenômeno é o dos LGBTQI+, que há anos luta por direitos e inclusão; conquistas recentes como a legalização da união civil LGBT em todo o território americano representam uma grande conquista em meio a esse cenário, mas a situação nem sempre foi assim.

Tendo isso em mente, utilizamos dados referentes à União Europeia em 2012 para analisar aspectos como a influência da discriminação na vida pessoal, além da relação entre o IDH de um país com o bem estar desse grupo.

## Perguntas

- Qual a influência do Índice de Desenvolvimento Humano (IDH) sobre a qualidade de vida dos LGBTs? Essa minoria social se beneficia de menos discriminação e mais direitos em países com maiores IDHs?
- O machismo influencia para que homens tenham menor aceitação da sexualidade em comparação com as mulheres? Isso é mais perceptível entre homens bissexuais?

## Dados utilizados

A principal base de dados utilizada para esta análise foi retirada de https://www.kaggle.com/ruslankl/european-union-lgbt-survey-2012 e contém dados de países pertencentes à União Europeia e Croácia no ano de 2012. Essa base foi obtida após uma pesquisa, para a qual foi realizada uma série de perguntas a respeito de bem estar, discriminação e violência direcionadas aos LGBTs. As perguntas consideram, ainda, subgrupos dentro dos LGBTs e separação por país de origem.

Foi utilizada, ainda, a base disponível em http://hdr.undp.org/en/indicators/137506 para a obtenção do IDH de cada um dos países presentes na pesquisa.

## Limpeza dos dados

Para a bases de dados do IDH, todas as colunas com excessão à referente ao ano de 2012 foram removidas.

Já para a base da pesquisa foram necessárias pequenas correções e ajustes, como a inclusão de uma coluna com o ID do país, conversão de valores em porcentagem para *float* e remoção de uma coluna contendo apenas valores NaN.

## Análise dos dados

### Quantidade de autodeclarados gays e lésbicas

![](./Data/images/gays_lesbians.png)

### Quantidade de autodeclarados bissexuais

![](./Data/images/bissex.png)

### Quantidade de autodeclarados transgêneros

![](./Data/images/trans.png)

### Análise geral quantitativa

![](./Data/images/general.png)

## Regressão linear

Para todas as perguntas da pesquisa a resposta terá um valor pertencente ao intervalo discreto [-1, 1], com excessão de respostas neutras ("Don't know"), que terão valor igual a NaN. Perguntas com uma resposta negativa terão valor -1, e com resposta positiva terão valor +1; ao final, os valores são somados a um _score_ que define, de um modo geral, o bem estar de um indivíduo.

As respostas das perguntas se dividem em essencialmente três conjuntos, sendo eles:
- Very widespread, Fairly widespread, Fairly rare, Very rare
- Yes, No
- Always, Often, Rarely, Never

Não existe, contudo, uma relação direta entre o tipo de resposta e o seu valor numérico. Por exemplo, em uma pergunta com a resposta "yes" o valor somado ao _score_ pode ser +1 ou -1 para o caso de a pergunta ser, respectivamente, positiva ou negativa. Para isso, foram utilizadas funções criadas pelo autor da pesquisa para agrupar perguntas cujas respostas numérica e categórica têm a mesma relação.

A partir do _score_ obtido para cada indivíduo, obtivemos o _score_ total para cada país. Com base nisso, pudemos buscar obter respostas a respeito da influência do IDH de um país sobre o bem estar geral da população LGBT por meio de uma regressão linear, onde o IDH ocupa o eixo das abscissas e o _score_ o eixo das ordenadas. Os resultados se encontram a seguir:

![](./Data/images/regression.png)

É possível constatar que um modelo linear descreve bem os dados. Assim, notamos que de fato há um relação entre o IDH de um país e o bem estar da população LGBT.

Abaixo encontram-se as regressões considerando as diferentes categorias para a medição do _score_, como _daily life_, _discrimination_, _harassment_ entre outros.

### Daily Life

![](./Data/images/regression_daily.png)

### Discrimination

![](./Data/images/regression_discrim.png)

### Rights awareness

![](./Data/images/regression_rights.png)

### Violence and harassment

![](./Data/images/regression_violence.png)

## Classificação

Por meio de um classificador kNN, buscamos descobrir se seria possível prever a que subgrupo pertence uma pessoa com base em suas respostas. Com isso, buscaríamos saber se existe algum viés em respostas negativas direcionado a um dos grupos.

Após a classificação, obtivemos uma acurácia de penas 26% para todas as classes. A matriz de confusão ode ser vista a seguir:

![](./Data/images/confusion_matrix.png)

Com isso, constatamos que não é possível afirmar que não há um subgrupo mais afetado. Contudo, a classe "Bisexual man" obteve a melhor acurácia; isso pode indicar que este é o subgrupo com menores índices de autoaceitação aceitação, ainda que não possamos afirmar com certeza. Portanto, nossa hipótese de que o grupo composto por homens bissexuais é o mais afetado pelo machismo não pode ser confirmada ou refutada.

## Conclusão

A regressão linear nos mostra que o índice de desenvolvimento humano de um país é um bom indicativo do bem estar da população LGBT. Isso pode se dar pelo fato de que habitantes de países com maiores IDHs têm mais acesso à educação, além de contarem com um maior número de leis que visa a garantia dos direitos dessa minoria social.

Entretanto, o classificador não mostrou resultados promissores quanto ao fato de homens bissexuais a terem menor aceitação sobre a sexualidade. Logo, é possível que não haja uma grande influência do machismo nesse grupo, mas também é possível que os dados disponíveis sejam insuficientes para comprovar essa hipótese.