# Solicitações de refúgio no Brasil
##### Elaborado por Bruna Lopes, Paula Duque, Rogério Silva e Yasmini Gomes

## Contextualização

Com a Convenção de 1951, imigrantes que buscavam por proteção ou melhores condições de vida em outro país foram entitulados refugiados e foi estipulado o princípio denominado non-refoulement, que estabelece a não obrigatoriedade de
retorno ao país de origem. Dentre os fatores que desencadeiam esse processo, destacamos: condição de vida miserável, perseguição política, discriminação racial e existência de conflitos armados.

De acordo com o Comitê Nacional para Refugiados (Conare), a quantidade de pessoas que pedem refúgio no Brasil vem aumentando a cada ano. Isso ocorre em função da permissividade das leis nacionais, quando comparadas aos países da Europa e dos
Estados Unidos, que são restritivos quanto à legalidade dos imigrantes e acesso aos recursos. A legislação brasileira, redigida em parceria com o Alto Comissariado das Nações Unidas para Refugiados (Acnur), é considerada pela ONU como uma das
mais modernas e abrangentes do mundo.

A responsabilidade do país em receber refugiados abrange diversas esferas, dentre as quais podemos citar: Direitos Humanos, Polícia Federal, Ministério das Relações Exteriores, Ministério da Saúde, Trabalho e Educação. Cada uma dessas desempenha
um papel para auxiliar na integração entre os refugiados e a população local, ao passo que seja garantam o cumprimento dos direitos universais, integração no mercado de trabalho e apoio psíquico, dentre outras questões.


## Objetivo

Diante do aumento na quantidade de refugiados no Brasil, o objetivo desse projeto é elaborar um dashboard que auxilie a área de estratégia do Governo no acompanhamento das solicitações de refúgio, bem como no mapeamento de quais localidades possuem um maior número de solicitações e se apresentam uma infraestrutura adequada para suportar essa demanda. A partir disso, poderão ser identificadas regiões críticas e criadas novas políticas públicas.

## Hipóteses e questões

- Quantas solicitações de refúgio o Brasil recebe por ano?
- Quantas nacionalidades enxergam o Brasil como refúgio?
- Quais foram os principais eventos que causaram impacto no crescimento de refugiados no Brasil?
- Quais estados brasileiros mais recebem refugiados?
- Quais estados possuem programas de acolhimento?
- Quanto tempo, em média, demora para que uma solicitação de refúgio seja julgada?

## Etapas

1. **Escolha do problema:** Análise das solicitações de refúgio no Brasil para tomada de decisão
2. **Coleta de dados:** Repositório de dados públicos disponibilizados pelo Governo
3. **Processamento:** Preparação dos dados sobre pedidos de refúgio com Python
4. **Exploração dos dados:** Limpeza dos dados e construção de novos parâmetros utilizando bases auxiliares com Python
5. **Visualização dos resultados:** Elaboração de um painel no Power BI
6. **Análise crítica:** Análise geral dos dados para responder as hipóteses e questões do projeto

### Import das bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import unidecode

In [2]:
pip install pyxlsb

Note: you may need to restart the kernel to use updated packages.


### Abertura dos dados

In [3]:
path = 'data/' #pasta onde se encontram os arquivos com os dados

**Decisões sobre pedidos de reconhecimento da condição de refugiado**

Esta [base de dados](https://www.gov.br/mj/pt-br/assuntos/seus-direitos/refugio/refugio-em-numeros-e-publicacoes/capa) pode ser encontrada no portal do Ministério da Justiça e Segurança Pública, ela será a base principal do projeto. 

O formato do arquivo é `.xlsxb` e foi necessário instalar uma engine específica para ler e tratar as abas do documento com a biblioteca Pandas. A análise do projeto está limitada ao período de decisões que ocorreram de jan/2015 até jun/2021.

_Colunas:_
- `DATA SOLICITAÇÃO`: Ano de solicitação de refúgio
- `ANO DE NASCIMENTO`: Ano de nascimento do solicitante de refúgio
- `PAÍS DE ORIGEM`: País de origem do solicitante de refúgio
- `CIDADE SOLICITAÇÃO`: Cidade onde a solicitação foi feita
- `DATA DA DECISÃO`: Data que a solicitação foi julgada
- `STATUS`: Status da decisão do CONARE

In [4]:
sheets = ['2021', '2020', '2019', '2018', '2017', '2016', '2015']
colunas = ['STATUS', 'PAÍS DE ORIGEM', 'DATA SOLICITAÇÃO', 'ANO DE NASCIMENTO', 'CIDADE SOLICITAÇÃO', 'DATA DA  DECISÃO']

In [5]:
df = pd.read_excel(path + "decisoes-pedidos-refugio.xlsb", engine='pyxlsb',
                  sheet_name= sheets, usecols= colunas)

O DataFrame criado ainda está com as bases de decisão separada por ano e será necessário concatená-las.

In [6]:
df['2015'].head(3)

Unnamed: 0,STATUS,DATA SOLICITAÇÃO,PAÍS DE ORIGEM,ANO DE NASCIMENTO,CIDADE SOLICITAÇÃO,DATA DA DECISÃO
0,ELEGIBILIDADE / DEFERIMENTO,2014,AFEGANISTÃO,1992,BRASÍLIA,42118.0
1,ELEGIBILIDADE / DEFERIMENTO,2014,AFEGANISTÃO,1986,RIO DE JANEIRO,42118.0
2,ELEGIBILIDADE / DEFERIMENTO,2014,AFEGANISTÃO,1989,RIO DE JANEIRO,42118.0


In [7]:
df['2021'].head(3)

Unnamed: 0,STATUS,DATA SOLICITAÇÃO,PAÍS DE ORIGEM,ANO DE NASCIMENTO,CIDADE SOLICITAÇÃO,DATA DA DECISÃO
0,ELEGIBILIDADE - DEFERIDO,2020,SÍRIA,2004,RIO DE JANEIRO,44232
1,ELEGIBILIDADE - DEFERIDO,2020,SÍRIA,1991,PORTO ALEGRE,44232
2,ELEGIBILIDADE - DEFERIDO,2020,SÍRIA,1999,SÃO PAULO,44232


In [8]:
solicitacoes = pd.concat(df, ignore_index=True)

In [9]:
solicitacoes.rename(columns= {'STATUS':'Decisão CONARE', 'DATA SOLICITAÇÃO':'Data de solicitação', 
                              'PAÍS DE ORIGEM':'País de origem', 'ANO DE NASCIMENTO':'Ano de Nascimento', 
                              'CIDADE SOLICITAÇÃO':'Cidade de solicitação', 'DATA DA  DECISÃO':'Data da decisão'}, 
                    inplace= True)

In [10]:
solicitacoes.head()

Unnamed: 0,Decisão CONARE,Data de solicitação,País de origem,Ano de Nascimento,Cidade de solicitação,Data da decisão
0,ELEGIBILIDADE - DEFERIDO,2020,SÍRIA,2004,RIO DE JANEIRO,44232.0
1,ELEGIBILIDADE - DEFERIDO,2020,SÍRIA,1991,PORTO ALEGRE,44232.0
2,ELEGIBILIDADE - DEFERIDO,2020,SÍRIA,1999,SÃO PAULO,44232.0
3,ELEGIBILIDADE - DEFERIDO,2020,SÍRIA,2003,RIO DE JANEIRO,44232.0
4,ELEGIBILIDADE - DEFERIDO,2020,SÍRIA,1993,SÃO PAULO,44232.0


**Lista de países e continentes**

Arquivo excel que disponibiliza a relação de continentes e países, esta base será útil para agrupar por continente a quantidade de solicitações.

In [11]:
paises = pd.read_excel(path + 'lista-paises-continentes.xlsx', usecols= ['País', 'Continente'])

In [12]:
paises.rename(columns= {'Continente':'Continente de origem', 'País':'País de origem'}, inplace= True)

In [13]:
paises.head(3)

Unnamed: 0,País de origem,Continente de origem
0,AFEGANISTÃO,ÁSIA
1,ÁFRICA DO SUL,ÁFRICA
2,ALBÂNIA,EUROPA


**Lista de municípios brasileiros**

Arquivo excel com a [listagem de municípios brasileiros](http://blog.mds.gov.br/redesuas/lista-de-municipios-brasileiros/) disponibilizado pelo Ministério da Cidadania.

In [14]:
cidadesBR = pd.read_excel(path + "Lista-de-Municípios-com-IBGE-Brasil.xlsx", 
                          sheet_name= 'Lista de Municípios IBGE',
                          usecols= ['UF', 'Região', 'Município', 'Capital', 'População 2010'])

In [15]:
cidadesBR.sort_values(by= ['Município', 'População 2010'], ascending=False, inplace=True)

In [16]:
cidadesBR['Região'].replace(to_replace=r'^Região', value= '', regex=True, inplace=True)

In [17]:
cidadesBR.rename(columns= {'Região':'Região de solicitação', 'UF':'Estado de solicitação'}, inplace= True)

In [18]:
cidadesBR

Unnamed: 0,Estado de solicitação,Município,Região de solicitação,População 2010,Capital
3648,SP,Óleo,Sudeste,2673.0,
232,PA,Óbidos,Norte,49333.0,
1832,BA,Érico Cardoso,Nordeste,10859.0,
3925,PR,Ângulo,Sul,2859.0,
4634,RS,Áurea,Sul,3665.0,
...,...,...,...,...,...
2245,MG,Abaeté,Sudeste,22690.0,
151,PA,Abaetetuba,Norte,141100.0,
5324,GO,Abadiânia,Centro-Oeste,15757.0,
5323,GO,Abadia de Goiás,Centro-Oeste,6876.0,


### Preparação dos dados

- **solicitacoes**

Nesta base de dados será necessário transformar a coluna `DATA DA  DECISÃO` (repare que existem um espaço adicional) para o formato de data e limpar as linhas que possuem informações vazias. Além disso, para não existir inconsistências na hora de unir às listas de apoio, aplicaremos a limpeza de espaços com `strip()`, texto em maiúscula com `upper()` e retirar acentos com a função personalizada `retirar_acento`.

In [19]:
# exclusão de informações vazias
solicitacoes.dropna(inplace=True)

In [20]:
# correção da data
solicitacoes['Data da decisão'] = pd.to_datetime(solicitacoes['Data da decisão'], unit='D', origin='1899-12-30')

In [21]:
# limpeza de espaços excessivos
solicitacoes['País de origem'] = solicitacoes['País de origem'].str.strip()
solicitacoes['Cidade de solicitação'] = solicitacoes['Cidade de solicitação'].str.strip()
solicitacoes['Decisão CONARE'] = solicitacoes['Decisão CONARE'].str.strip()

In [22]:
# texto em maiúscula
solicitacoes['País de origem'] = solicitacoes['País de origem'].str.upper()
solicitacoes['Cidade de solicitação'] = solicitacoes['Cidade de solicitação'].str.upper()
solicitacoes['Decisão CONARE'] = solicitacoes['Decisão CONARE'].str.upper()

In [23]:
def retirar_acento(expression):
    try:
        return unidecode.unidecode(expression)
    except:
        return '0 VAZIO'

In [24]:
# retirar acentos
solicitacoes['País de origem'] = solicitacoes['País de origem'].apply(retirar_acento)
solicitacoes['Cidade de solicitação'] = solicitacoes['Cidade de solicitação'].apply(retirar_acento)

Mesmo com o tratamento inicial é possivel observar que existem registros com mais de uma forma de escrita para representar a mesma coisa, esse é o caso 'CABO VERDE' e 'CABO-VERDE', por exemplo. Também é possível encontrar cidades nomeadas como "A DEFINIR" ou 'NAO INFORMADO', esses casos excluiremos da base na hora juntar as bases, pois não será possível mesclá-los e representam um percertual pequeno dos registros.

In [25]:
solicitacoes['País de origem'].sort_values().unique()

array(['AFEGANISTAO', 'AFRICA', 'AFRICA DO SUL', 'ALBANIA', 'ALEMANHA',
       'ANGOLA', 'APATRIDA', 'ARABIA SAUDITA', 'ARGELIA', 'ARGENTINA',
       'ARMENIA', 'BANGLADESH', 'BARBADOS', 'BENIN', 'BOLIVIA',
       'BURKINA FASO', 'BURUNDI', 'BUTAO', 'CABO VERDE', 'CABO-VERDE',
       'CAMAROES', 'CANADA', 'CAZAQUISTAO', 'CHILE', 'CHINA', 'COLOMBIA',
       'CONGO', 'COREIA DO SUL', 'COSTA DO MARFIM', 'CUBA', 'DINAMARCA',
       'EGITO', 'EL SALVADOR', 'EMIRADOS ARABES', 'EQUADOR', 'ESPANHA',
       'ESTADOS UNIDOS', 'ESTADOS UNIDOS DA AMERICA', 'ETIOPIA',
       'FILIPINAS', 'FRANCA', 'GAMBIA', 'GANA', 'GUATEMALA', 'GUIANA',
       'GUINE', 'GUINE BISSAU', 'GUINE-BISSAU', 'GUINE-CONACRI', 'HAITI',
       'HONDURAS', 'IEMEN', 'IEMEN ', 'INDIA', 'IRA', 'IRAQUE', 'ISRAEL',
       'ITALIA', 'IUGOSLAVIA', 'JAMAICA', 'JORDANIA',
       'JORDANIA/PALESTINA', 'KOSOVO', 'KUWAIT', 'LETONIA', 'LIBANO',
       'LIBERIA', 'LIBIA', 'LITUANIA', 'MALASIA', 'MALI', 'MARROCOS',
       'MAURITANIA', 'MEX

In [26]:
solicitacoes['Cidade de solicitação'].sort_values().unique()

array(['"A DEFINIR"', '0X2A', 'ALTAMIRA', 'ANANINDEUA', 'ANAPOLIS',
       'ANGRA DOS REIS', 'ARACAJU', 'ARACATUBA', 'ARAGUAINA',
       'ARARAQUARA', 'BAGE', 'BARRA DO GARCA', 'BARRACAO', 'BAURU',
       'BELEM', 'BELO HORIZONTE', 'BOA VISTA', 'BRAS', 'BRASILEIA',
       'BRASILIA', 'CABEDELO', 'CACERES', 'CAMPINA GRANDE', 'CAMPINAS',
       'CAMPO DOS GOYTACAZES', 'CAMPO GRANDE', 'CARUARU', 'CASCAVEL',
       'CAXIAS DO SUL', 'CHAPECO', 'CORUMBA', 'CRICIUMA', 'CRUZEIRO',
       'CRUZEIRO DO SUL', 'CUIABA', 'CURITIBA', 'DIONISIO CERQUEIRA',
       'DIVINOPOLIS', 'DIVIN[OPOLIS', 'DOIS VIZINHOS', 'DOURADOS',
       'EPITACIOLANDIA', 'ERECHIM', 'FLORIANOPOLIS', 'FORTALEZA',
       'FOZ DO IGUACU', 'GOIANIA', 'GOVERNADOR VALADARES', 'GUAIRA',
       'GUAJARA', 'GUARAPUAVA', 'GUARUJA', 'GUARULHOS', 'ILHEUS',
       'IMPERATRIZ', 'ITAI', 'ITAJAI', 'ITU', 'JAGUARAO', 'JALES',
       'JATAI', 'JI-PARANA', 'JOAO PESSOA', 'JOINVILLE', 'JUAZEIRO',
       'JUIZ DE FORA', 'LAGES', 'LONDRINA', 'MAC

In [27]:
def ajustar(local):
    for chave, valor in padrao_nome.items():
        if local in valor:
            return chave
        else:
            local_mantido = local
    return local_mantido

In [28]:
padrao_nome = {'AFRICA DO SUL': ['AFRICA'],
               'CABO VERDE': ['CABO-VERDE'],
               'CONGO-BRAZZAVILLE': ['REP.DO CONGO', 'CONGO'],
               'ESTADOS UNIDOS': ['ESTADOS UNIDOS DA AMERICA'],
               'GUINE': ['GUINE-CONACRI', 'REP. DA GUINE'],
               'GUINE BISSAU': ['GUINE-BISSAU', 'REP. DA GUINE-BISSAU'],
               'IEMEN': ['IEMEN '],
               'JORDANIA': ['JORDANIA/PALESTINA'],
               'REP. DEM DO CONGO': ['REPUBLICA DEMOCRATICA DO CONGO', 'REP.DEM DO CONGO', 'REP. DEM. DO CONGO', 'RDC'],
               'REP. DOMINICANA': ['REPUBLICA DOMINICANA', 'REP.DOMINICANA'],
               'REP. TCHECA': ['REPUBLICA TCHECA'],
               'SIRIA': ['PALESTINA/SIRIA'],
               'SRI-LANKA': ['SRI LANKA'],
               'RUSSIA': ['UNIAO SOVIETICA']
              }

solicitacoes['País de origem'] = solicitacoes['País de origem'].apply(ajustar)

In [29]:
padrao_nome = {'DIVINOPOLIS': ['DIVIN[OPOLIS'],
               'CAMPOS DOS GOYTACAZES': ['CAMPO DOS GOYTACAZES'],
               'SANTA VITORIA DO PALMAR': ['VITORIA DO PALMAR'],
               'SAO PAULO': ['BRAS'],
               'BARRA DO GARCAS': ['BARRA DO GARCA']
              }

solicitacoes['Cidade de solicitação'] = solicitacoes['Cidade de solicitação'].apply(ajustar)

In [30]:
solicitacoes.head(3)

Unnamed: 0,Decisão CONARE,Data de solicitação,País de origem,Ano de Nascimento,Cidade de solicitação,Data da decisão
0,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,2004,RIO DE JANEIRO,2021-02-05
1,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,1991,PORTO ALEGRE,2021-02-05
2,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,1999,SAO PAULO,2021-02-05


In [31]:
solicitacoes['Ano de Nascimento'].unique()

array([2004, 1991, 1999, 2003, 1993, 1992, 1997, 1964, 1989, 1986, 1962,
       1963, 1982, 1980, 2011, 2018, 1983, 1984, 1990, 1981, 1985, 1971,
       1975, 1987, 1988, 1977, 1994, 1965, 2000, 1976, 1967, 1970, 1968,
       1954, 1998, 1996, 1973, 2014, 2006, 2015, 2012, 2007, 2009, 2008,
       2013, 2005, 2016, 2001, 2010, 2017, 2002, 1978, 1972, 1979, 2019,
       1969, 1995, 1958, 1966, 1974, 1961, 1939, 1942, 1960, 1952, 1959,
       2020, 1955, 1957, 1947, 1949, 1941, 1948, 1953, 1951, 1944, 1946,
       1956, 1945, 1950, 1943, 1940, 1936, 1927, 1937, 1935, 1938, 1933,
       1929, 1930, 1931, 1932, 1934, 1924, '0xf', 1900.0, 'Desconhecido'],
      dtype=object)

In [32]:
datas_invalidas = ['0xf', 'Desconhecido', 1900.0]
solicitacoes = solicitacoes[~(solicitacoes['Ano de Nascimento'].isin(datas_invalidas))]

In [33]:
solicitacoes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 74590 entries, 0 to 74924
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   Decisão CONARE         74590 non-null  object        
 1   Data de solicitação    74590 non-null  int64         
 2   País de origem         74590 non-null  object        
 3   Ano de Nascimento      74590 non-null  object        
 4   Cidade de solicitação  74590 non-null  object        
 5   Data da decisão        74590 non-null  datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(4)
memory usage: 4.0+ MB


- **paises**

Nesta base de dados, assim como em **solicitacoes**, aplicaremos a limpeza de espaços com `strip()`, texto em maiúscula com `upper()` e retirar acentos com a função personalizada `retirar_acento`.

In [34]:
paises['País de origem'] = paises['País de origem'].str.strip()
paises['País de origem'] = paises['País de origem'].str.upper()
paises['País de origem'] = paises['País de origem'].apply(retirar_acento)

In [35]:
paises.head(3)

Unnamed: 0,País de origem,Continente de origem
0,AFEGANISTAO,ÁSIA
1,AFRICA DO SUL,ÁFRICA
2,ALBANIA,EUROPA


- **cidadesBR**

Nesta base de dados, assim como em **solicitacoes**, aplicaremos a limpeza de espaços com `strip()`, texto em maiúscula com `upper()` e retirar acentos com a função personalizada `retirar_acento`. Por fim, ajustaremos a coluna `Capital` para informar com 'SIM' ou 'NÃO' um município é a capital do estado.

In [36]:
cidadesBR['Região de solicitação'] = cidadesBR['Região de solicitação'].str.strip()
cidadesBR['Município'] = cidadesBR['Município'].str.strip()

In [37]:
cidadesBR['Região de solicitação'] = cidadesBR['Região de solicitação'].str.upper()
cidadesBR['Município'] = cidadesBR['Município'].str.upper()

In [38]:
cidadesBR['Município'] = cidadesBR['Município'].apply(retirar_acento)

In [39]:
cidadesBR['Capital'] = cidadesBR['Capital'].apply(lambda municipio:'SIM' if municipio == 'Capital' else 'NÃO')

In [40]:
cidadesBR.head(3)

Unnamed: 0,Estado de solicitação,Município,Região de solicitação,População 2010,Capital
3648,SP,OLEO,SUDESTE,2673.0,NÃO
232,PA,OBIDOS,NORTE,49333.0,NÃO
1832,BA,ERICO CARDOSO,NORDESTE,10859.0,NÃO


- **df_solicitacoes**

Este DataFrame foi criado para agrupar as informações coletadas, assim  será possível criar um arquivo único (já tratado) para desenvolvermos o painel. Para isso, começaremos mesclando as **solicitacoes** com **paises** e avaliaremos se as informações estão corretas.

In [41]:
df_solicitacoes = pd.merge(left= solicitacoes, right= paises, 
                           on= 'País de origem', how= 'left', 
                           validate= "m:1")

In [42]:
df_solicitacoes.head()

Unnamed: 0,Decisão CONARE,Data de solicitação,País de origem,Ano de Nascimento,Cidade de solicitação,Data da decisão,Continente de origem
0,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,2004,RIO DE JANEIRO,2021-02-05,ÁSIA
1,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,1991,PORTO ALEGRE,2021-02-05,ÁSIA
2,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,1999,SAO PAULO,2021-02-05,ÁSIA
3,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,2003,RIO DE JANEIRO,2021-02-05,ÁSIA
4,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,1993,SAO PAULO,2021-02-05,ÁSIA


In [43]:
df_solicitacoes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 74590 entries, 0 to 74589
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   Decisão CONARE         74590 non-null  object        
 1   Data de solicitação    74590 non-null  int64         
 2   País de origem         74590 non-null  object        
 3   Ano de Nascimento      74590 non-null  object        
 4   Cidade de solicitação  74590 non-null  object        
 5   Data da decisão        74590 non-null  datetime64[ns]
 6   Continente de origem   74581 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(5)
memory usage: 4.6+ MB


Após o `merge` é possível encontrar paises nomeados como 'MODOU NIANG', 'APATRIDA' e 'NAO INFORMADO', esses casos excluiremos da base, pois são inconsistências.

In [44]:
# paises que não tiveram correspondências de continente foram excluídos
df_solicitacoes[df_solicitacoes['Continente de origem'].isnull()]['País de origem'].unique()

array(['MODOU NIANG', 'NAO INFORMADO', 'APATRIDA'], dtype=object)

In [45]:
df_solicitacoes = df_solicitacoes[~(df_solicitacoes['Continente de origem'].isnull())]

O próximo passo a ser realizado em **df_solicitacoes** é mesclar com **cidadesBR**, mas antes de usar o `merge`, no Brasil existem municípios com o mesmo nome e isso acabaria duplicando ou triplicando um registro com essa característica. Como não existe outra coluna que ajude nessa definição i.e. temos uma imprecisão na base de dados já que não é possível ter certeza do local exato onde essas solicitações foram geradas. Por isso, usaremos como premissa que o local da solicitação será o que possui maior número de habitantes e para isso será usada a função `drop_duplicates()`.

Outra alternativa válida como premissa seria identificar todos os municípios que recebem solicitações de refúgio, mas durante a investigação nada foi encontrado, mas fica como sugestão.

In [46]:
cidadesBR.drop_duplicates(subset='Município', keep='first', inplace= True)

In [47]:
cidadesBR

Unnamed: 0,Estado de solicitação,Município,Região de solicitação,População 2010,Capital
3648,SP,OLEO,SUDESTE,2673.0,NÃO
232,PA,OBIDOS,NORTE,49333.0,NÃO
1832,BA,ERICO CARDOSO,NORDESTE,10859.0,NÃO
3925,PR,ANGULO,SUL,2859.0,NÃO
4634,RS,AUREA,SUL,3665.0,NÃO
...,...,...,...,...,...
2245,MG,ABAETE,SUDESTE,22690.0,NÃO
151,PA,ABAETETUBA,NORTE,141100.0,NÃO
5324,GO,ABADIANIA,CENTRO-OESTE,15757.0,NÃO
5323,GO,ABADIA DE GOIAS,CENTRO-OESTE,6876.0,NÃO


In [48]:
df_solicitacoes = pd.merge(left= df_solicitacoes, right= cidadesBR, 
                           left_on= 'Cidade de solicitação', right_on= 'Município', 
                           how= 'left', validate= "m:1").drop(columns = ['Município'])

In [49]:
df_solicitacoes.head(3)

Unnamed: 0,Decisão CONARE,Data de solicitação,País de origem,Ano de Nascimento,Cidade de solicitação,Data da decisão,Continente de origem,Estado de solicitação,Região de solicitação,População 2010,Capital
0,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,2004,RIO DE JANEIRO,2021-02-05,ÁSIA,RJ,SUDESTE,6320446.0,SIM
1,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,1991,PORTO ALEGRE,2021-02-05,ÁSIA,RS,SUL,1409351.0,SIM
2,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,1999,SAO PAULO,2021-02-05,ÁSIA,SP,SUDESTE,11253503.0,SIM


In [50]:
df_solicitacoes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 74581 entries, 0 to 74580
Data columns (total 11 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   Decisão CONARE         74581 non-null  object        
 1   Data de solicitação    74581 non-null  int64         
 2   País de origem         74581 non-null  object        
 3   Ano de Nascimento      74581 non-null  object        
 4   Cidade de solicitação  74581 non-null  object        
 5   Data da decisão        74581 non-null  datetime64[ns]
 6   Continente de origem   74581 non-null  object        
 7   Estado de solicitação  74485 non-null  object        
 8   Região de solicitação  74485 non-null  object        
 9   População 2010         74485 non-null  float64       
 10  Capital                74485 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(8)
memory usage: 6.8+ MB


Após usar a função `escolher_registro()` é possível encontrar cidades nomeadas como '"A DEFINIR"' ou '0X2A', esses casos excluiremos da base, pois são inconsistências.

In [51]:
# registros que não tiveram cidades válidas foram excluídos
df_solicitacoes[df_solicitacoes['Estado de solicitação'].isnull()]['Cidade de solicitação'].unique()

array(['"A DEFINIR"', '0X2A'], dtype=object)

In [52]:
df_solicitacoes = df_solicitacoes[~(df_solicitacoes['Estado de solicitação'].isnull())]

In [53]:
df_solicitacoes

Unnamed: 0,Decisão CONARE,Data de solicitação,País de origem,Ano de Nascimento,Cidade de solicitação,Data da decisão,Continente de origem,Estado de solicitação,Região de solicitação,População 2010,Capital
0,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,2004,RIO DE JANEIRO,2021-02-05,ÁSIA,RJ,SUDESTE,6320446.0,SIM
1,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,1991,PORTO ALEGRE,2021-02-05,ÁSIA,RS,SUL,1409351.0,SIM
2,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,1999,SAO PAULO,2021-02-05,ÁSIA,SP,SUDESTE,11253503.0,SIM
3,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,2003,RIO DE JANEIRO,2021-02-05,ÁSIA,RJ,SUDESTE,6320446.0,SIM
4,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,1993,SAO PAULO,2021-02-05,ÁSIA,SP,SUDESTE,11253503.0,SIM
...,...,...,...,...,...,...,...,...,...,...,...
74576,ERRO DE LANÇAMENTO NA LISTAGEM DA PLENÁRIA,2014,BURKINA FASO,1977,SAO PAULO,2015-12-11,ÁFRICA,SP,SUDESTE,11253503.0,SIM
74577,ERRO DE LANÇAMENTO NA LISTAGEM DA PLENÁRIA,2014,BURKINA FASO,1979,SAO PAULO,2015-12-11,ÁFRICA,SP,SUDESTE,11253503.0,SIM
74578,ERRO DE LANÇAMENTO NA LISTAGEM DA PLENÁRIA,2014,BURKINA FASO,1986,SAO PAULO,2015-12-11,ÁFRICA,SP,SUDESTE,11253503.0,SIM
74579,ERRO DE LANÇAMENTO NA LISTAGEM DA PLENÁRIA,2014,CUBA,1989,BRASILIA,2015-12-11,AMÉRICA,DF,CENTRO-OESTE,2570160.0,SIM


**_Obs:_** Mesmo não sendo o foco deste projeto, é válido reforçar que existem diversos caminhos para se chegar na mesma solução e um dos critérios que ajudam nessa escolha é a performance e otimização do código. Inicialmente, foi construída a função `escolher_registros()`, mas ao executá-la constatou-se um longo tempo de processamento. Por isso, ao reavaliar a melhor solução, usar `drop_duplicates()` demonstrou na prática ser a melhor alternativa.

In [54]:
 # solução descartada pelo longo tempo de processamento

def escolher_registro(municipio, coluna):
    try:
        registros = cidadesBR[cidadesBR['Município'] == municipio]
        n_reg = registros['Município'].count()
        if n_reg > 0:
            escolha = registros.loc[registros['População 2010'].idxmax()][coluna]
            return escolha
        else:
            return None
        
    except:
        return None

In [55]:
 # solução descartada pelo longo tempo de processamento
#df_solicitacoes_lento = pd.DataFrame()
#df_solicitacoes_lento['Estado de solicitação'] = df_solicitacoes['Cidade de solicitação'].apply(lambda row: escolher_registro(row, 'Estado de solicitação'))
#df_solicitacoes_lento['Região de solicitação'] = df_solicitacoes['Cidade de solicitação'].apply(lambda row: escolher_registro(row, 'Região de solicitação'))
#df_solicitacoes_lento['Capital'] = df_solicitacoes['Cidade de solicitação'].apply(lambda row: escolher_registro(row, 'Capital'))

O último passo para disponibilizarmos os dados tratados para o Power BI é avaliarmos o `STATUS`, pois pode ter sofrido alterações ao longo dos anos - talvez faça sentido reagruparmos de outa forma. Nesta etapa do tratamento dos dados usaremos o [guia de definições e terminologias](https://www.gov.br/mj/pt-br/assuntos/seus-direitos/refugio/anexos/ProjetoRefgioemNmerosFINAL.pdf) da ACNUR, neste ponto o conhecimento do negócio será determinante para escolhermos a melhor forma de apresentar essa informação.

O anexo I do documento informa que o `STATUS` pode ser divido em **1- decisão do CONARE** e **2- justificativa alegada para a situação de refugiado (categoria)** tomando como base Resoluções Normativas, Estatuto de Refugiados e outros artigos de lei.


| Decisão CONARE | Categoria | STATUS | <center>Definição</center> |
|----------------|---------------|--------|-----------|
| Concecido  | Elegibilidade | Elegibilidade Reconhecido | Solicitantes de reconhecimento da condição de refugiado que, após passarem pelo procedimento de determinação da condição de refugiado, foram reconhecidos como tal, por estarem presentes os requisitos previstos na Convenção Relativa ao Estatuto dos Refugiados de 1951 e/ou no art. 1º da Lei nº 9.474, de 1997. |
| Concecido  | Extensão de refúgio | Elegibilidade Reconhecido | Deferimento da Extensão dos Efeitos da Condição de Refugiado, ou seja, concessão da extensão dos efeitos da condição de refugiado/a, por demonstrar o vínculo familiar e/ou a dependência econômica, previstos no art. 2º da Lei nº 9.474, de 1997. |
| Concecido  | Reassentamento | Elegibilidade Reconhecido | Transferência de um refugiado, cujos direitos fundamentais estão em risco no primeiro país de refúgio, para outro Estado, que aceitou admiti-lo como refugiado. |
| Negado | Elegibilidade | Elegibilidade Indeferida | Solicitantes de reconhecimento da condição de refugiado que, após passarem pelo procedimento de determinação da condição de refugiado, não lhes foi reconhecida esta condição, por não estarem presentes os requisitos previstos na Convenção Relativa ao Estatuto dos Refugiados de 1951 e/ou no art. 1º da Lei nº 9.474, de 1997, ou, ainda que presentes tais requisitos, por incidirem nas hipóteses de exclusão previstas no Art. 1(F) da Convenção de 1951 e no art. 3º da Lei nº 9.474, de 1997. |
| Negado | Extensão de refúgio | Elegibilidade Indeferida | Indeferimento da Extensão dos Efeitos da Condição de Refugiado, ou seja, não concessão da extensão dos efeitos da condição de refugiado/a, por não demonstrar o vínculo familiar e/ou a dependência econômica, previstos no art. 2º da Lei nº 9.474, de 1997. |
| Negado | Resolução CNIg | Elegibilidade Indeferida | Solicitantes de reconhecimento da condição de refugiado que tiveram seus casos indeferidos, nos termos da Resolução Recomendada nº 08, da Resolução Normativa nº 27, ambas do Conselho Nacional de Imigração – CNIg, combinada com o inciso I do art. 12 da Resolução Normativa nº 18 do Conare. |
| Descontinuado | Perda | Perda da Condição de Refugiado | Toda pessoa refugiada que perde a condição de refugiado/a em razão de um dos motivos elencados no art. 39 da Lei nº 9.474, de 1997. |
| Descontinuado | Cessação | Cessação | Toda pessoa refugiada que tem cessada a condição de refugiado/a em razão de um dos motivos elencados na Convenção Relativa ao Estatuto dos Refugiados de 1951 e/ou no art. 38 da Lei nº 9.474, de 1997. |
| Descontinuado | Extinto | Extinção | Solicitantes de reconhecimento da condição de refugiado que tiveram suas solicitações extintas, sem resolução do mérito, pelos motivos elencados no art. 6º-B Resolução Normativa nº 18 do Conare (com redação dada pelas Resoluções Normativas nº 26 e 28 do Conare) ou no art. 6º da Resolução Normativa nº 23 do Conare (com redação dada pela Resolução Normativa nº 28 do Conare). |
| Descontinuado | Arquivado | Arquivado | Solicitantes de reconhecimento da condição de refugiado que tiveram suas solicitações arquivadas pelos motivos elencados no art. 6º da Resolução Normativa nº 18 do Conare (com redação dada pelas Resoluções Normativas nº 26 e 28, ambas do Conare) ou no art. 6º da Resolução Normativa nº 23 do Conare (com redação dada pela Resolução Normativa nº 28 do Conare). |

In [56]:
df_solicitacoes['Decisão CONARE'].sort_values().unique()

array(['ARQUIVADO', 'ARQUIVAMENTO', 'CESSAÇÃO',
       'CESSAÇÃO / NATURALIZAÇÃO', 'ELEGIBILIDADE - DEFERIDO',
       'ELEGIBILIDADE - INDEFERIDO', 'ELEGIBILIDADE / DEFERIMENTO',
       'ELEGIBILIDADE / INDEFERIMENTO', 'ELIGIBILIDADE - DEFERIDO',
       'ELIGIBILIDADE - INDEFERIDO', 'ENCAMINHAMENTO CNIG',
       'ERRO DE LANÇAMENTO NA LISTAGEM DA PLENÁRIA',
       'EXTENSÃO / DEFERIMENTO', 'EXTENSÃO / INDEFERIMENTO',
       'EXTENSÃO DOS EFEITOS DA CONDIÇÃO DE REFUGIADO - DEFERIDO',
       'EXTENSÃO DOS EFEITOS DA CONDIÇÃO DE REFUGIADO - INDEFERIDO',
       'EXTINÇÃO (DESISTÊNCIA SEM FORMULÁRIO PRÓPRIO)',
       'EXTINÇÃO (SEM RESOLUÇÃO DO MÉRITO) ART.6-B',
       'INDEFERIDO CONARE - REGULARIZADO VIA CNIG',
       'PERDA / ARQUIVAMENTO',
       'PERDA / MANUTENÇÃO DA CONDIÇÃO DE REFUGIADO', 'PERDA / RENÚNCIA',
       'PERDA / VIAGEM NÃO AUTORIZADA', 'PERDA DA CONDIÇÃO DE REFUGIADO',
       'REASSENTAMENTO'], dtype=object)

In [57]:
padrao_nome = {'CONCEDIDO': ['ELEGIBILIDADE - DEFERIDO', 'ELEGIBILIDADE / DEFERIMENTO', 
                             'ELIGIBILIDADE - DEFERIDO', 'EXTENSÃO / DEFERIMENTO',
                             'EXTENSÃO DOS EFEITOS DA CONDIÇÃO DE REFUGIADO - DEFERIDO', 'REASSENTAMENTO'],
               'NEGADO': ['ELEGIBILIDADE - INDEFERIDO', 'ELEGIBILIDADE / INDEFERIMENTO', 
                          'ELIGIBILIDADE - INDEFERIDO', 'ENCAMINHAMENTO CNIG', 'EXTENSÃO / INDEFERIMENTO',
                          'EXTENSÃO DOS EFEITOS DA CONDIÇÃO DE REFUGIADO - INDEFERIDO', 
                          'INDEFERIDO CONARE - REGULARIZADO VIA CNIG'],
               'DESCONTINUADO': ['ARQUIVADO', 'ARQUIVAMENTO', 'CESSAÇÃO', 'CESSAÇÃO / NATURALIZAÇÃO', 
                                 'ERRO DE LANÇAMENTO NA LISTAGEM DA PLENÁRIA', 
                                 'EXTINÇÃO (DESISTÊNCIA SEM FORMULÁRIO PRÓPRIO)', 
                                 'EXTINÇÃO (SEM RESOLUÇÃO DO MÉRITO) ART.6-B', 'PERDA / ARQUIVAMENTO', 
                                 'PERDA / MANUTENÇÃO DA CONDIÇÃO DE REFUGIADO', 'PERDA / RENÚNCIA', 
                                 'PERDA / VIAGEM NÃO AUTORIZADA', 'PERDA DA CONDIÇÃO DE REFUGIADO']
              }

df_solicitacoes['Decisão'] = df_solicitacoes['Decisão CONARE'].apply(ajustar)

In [58]:
padrao_nome = {'ELEGIBILIDADE': ['ELEGIBILIDADE - DEFERIDO', 'ELEGIBILIDADE / DEFERIMENTO', 
                                 'ELIGIBILIDADE - DEFERIDO', 'ELEGIBILIDADE - INDEFERIDO', 'ELEGIBILIDADE / INDEFERIMENTO', 
                                 'ELIGIBILIDADE - INDEFERIDO'],
               'EXTENSÃO': ['EXTENSÃO / DEFERIMENTO','EXTENSÃO DOS EFEITOS DA CONDIÇÃO DE REFUGIADO - DEFERIDO', 
                            'EXTENSÃO / INDEFERIMENTO', 'EXTENSÃO DOS EFEITOS DA CONDIÇÃO DE REFUGIADO - INDEFERIDO'],
               'REASSENTAMENTO': ['REASSENTAMENTO'],
               'RESOLUÇÃO CNIG': ['ENCAMINHAMENTO CNIG', 'INDEFERIDO CONARE - REGULARIZADO VIA CNIG'],
               'PERDA': ['PERDA / ARQUIVAMENTO', 'PERDA / MANUTENÇÃO DA CONDIÇÃO DE REFUGIADO', 'PERDA / RENÚNCIA', 
                         'PERDA / VIAGEM NÃO AUTORIZADA', 'PERDA DA CONDIÇÃO DE REFUGIADO'],
               'CESSAÇÃO': ['CESSAÇÃO', 'CESSAÇÃO / NATURALIZAÇÃO'],
               'EXTINÇÃO': ['EXTINÇÃO (DESISTÊNCIA SEM FORMULÁRIO PRÓPRIO)', 'EXTINÇÃO (SEM RESOLUÇÃO DO MÉRITO) ART.6-B'],
               'ARQUIVAMENTO': ['ARQUIVADO', 'ARQUIVAMENTO', 'PERDA / ARQUIVAMENTO', 
                                'ERRO DE LANÇAMENTO NA LISTAGEM DA PLENÁRIA']
              }

df_solicitacoes['Categoria'] = df_solicitacoes['Decisão CONARE'].apply(ajustar)

In [59]:
df_solicitacoes

Unnamed: 0,Decisão CONARE,Data de solicitação,País de origem,Ano de Nascimento,Cidade de solicitação,Data da decisão,Continente de origem,Estado de solicitação,Região de solicitação,População 2010,Capital,Decisão,Categoria
0,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,2004,RIO DE JANEIRO,2021-02-05,ÁSIA,RJ,SUDESTE,6320446.0,SIM,CONCEDIDO,ELEGIBILIDADE
1,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,1991,PORTO ALEGRE,2021-02-05,ÁSIA,RS,SUL,1409351.0,SIM,CONCEDIDO,ELEGIBILIDADE
2,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,1999,SAO PAULO,2021-02-05,ÁSIA,SP,SUDESTE,11253503.0,SIM,CONCEDIDO,ELEGIBILIDADE
3,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,2003,RIO DE JANEIRO,2021-02-05,ÁSIA,RJ,SUDESTE,6320446.0,SIM,CONCEDIDO,ELEGIBILIDADE
4,ELEGIBILIDADE - DEFERIDO,2020,SIRIA,1993,SAO PAULO,2021-02-05,ÁSIA,SP,SUDESTE,11253503.0,SIM,CONCEDIDO,ELEGIBILIDADE
...,...,...,...,...,...,...,...,...,...,...,...,...,...
74576,ERRO DE LANÇAMENTO NA LISTAGEM DA PLENÁRIA,2014,BURKINA FASO,1977,SAO PAULO,2015-12-11,ÁFRICA,SP,SUDESTE,11253503.0,SIM,DESCONTINUADO,ARQUIVAMENTO
74577,ERRO DE LANÇAMENTO NA LISTAGEM DA PLENÁRIA,2014,BURKINA FASO,1979,SAO PAULO,2015-12-11,ÁFRICA,SP,SUDESTE,11253503.0,SIM,DESCONTINUADO,ARQUIVAMENTO
74578,ERRO DE LANÇAMENTO NA LISTAGEM DA PLENÁRIA,2014,BURKINA FASO,1986,SAO PAULO,2015-12-11,ÁFRICA,SP,SUDESTE,11253503.0,SIM,DESCONTINUADO,ARQUIVAMENTO
74579,ERRO DE LANÇAMENTO NA LISTAGEM DA PLENÁRIA,2014,CUBA,1989,BRASILIA,2015-12-11,AMÉRICA,DF,CENTRO-OESTE,2570160.0,SIM,DESCONTINUADO,ARQUIVAMENTO


### Exportação dos dados tratados

In [60]:
df_solicitacoes.to_excel(path + 'base-tratada.xlsx', sheet_name= 'dados')

### Visualização dos dados

[Clique aqui](https://app.powerbi.com/view?r=eyJrIjoiZGE2ZWJkYjEtNDJhNy00MmQ0LTlmZmItYWI2NmFkZjQ4YTg2IiwidCI6IjFhMzI3OTZlLTE2YjctNDM0NS04ZWZiLWE5ZDc0YTJiOGNmNiJ9&pageName=ReportSectionab7da524e7800e5a65c4) para acessar o painel e a análise dos dados. 