<a href="https://colab.research.google.com/github/marciadartup/Portif-lio/blob/master/M%C3%B3dulo_04__Explora%C3%A7%C3%A3o_dos_Dados_com_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



---

# Exploração dos Dados com Pandas

Diariamente, nós produzimos e consumimos uma quantidade enorme de dados. Saber manipular, explorar e entender as informações contidas nesses dados é uma habilidade vital que é grande diferencial profisisonal, quando feito com eficácia.

<center><img width="45%" src="https://image.freepik.com/free-photo/man-wooden-cubes-table-management-concept_155003-9374.jpg"></center>

Utilizando a biblioteca `Pandas`, uma das, se não a principal biblioteca do Python para manipulação de dados, podemos limpar, organizar, e tirar diversos insights de nossos dados de forma rápida e prática.


## Os Dados

Nesse notebook, utilizaremos dados disponibilizados no [Kaggle](https://www.kaggle.com/ravels1991/brasil-solicitaes-de-refugiado?) sobre a situação dos refugiados no Brasil.

<center><img width="45%" src="https://image.freepik.com/free-vector/world-refugee-day-event-flat-design_23-2148542417.jpg"></center>


Esse conjunto de dados foi criado e disponibilizado pelo [Comitê Nacional para os Refugiados](comitê nacional para os refugiados). e disponibilizados nessa plataforma a fim de promover transparência sobre a situação e encorajar cientistas e analistas de dados a analisarem os dados, tirarem insights e propor soluções que possam ajudar nessa situação delicada.

Os dados podem ser encontrados [aqui](https://www.kaggle.com/ravels1991/brasil-solicitaes-de-refugiado?).

In [1]:
# importando os pacotes necessários
import pandas as pd

In [2]:
# carregando os dados
df = pd.read_excel("https://www.dropbox.com/s/69pajozeme6ezjc/solicitacoes-de-reconhecimento-da-condicao-de-refugiado.xlsx?dl=1")

Com nossos dados carregados e dentro do nosso `Data Frame`, é importante visualizarmos as primeiras entradas, para que possamos verificar que tudo foi carregado corretamente, e está, de fato, pronto para uso.

Para isso, utilizamos o método `head()`, que nos mostra as 5 primeiras entradas do data frame. Podemos ver mais entradas passando um número arbitrário dentro dos parênteses.

Para visualizarmos as útlimas entradas, procedemos da mesma forma, mas ao invés de utilizar head, utilizamos `tail()`.

In [3]:
# verificando as 5 primeiras entradas
df.head()

Unnamed: 0,Tipo de Alertas e Restrições,Nacionalidade,Mês/Ano,UF,Quantidade
0,SOLICITAÇÃO DE REFÚGIO,AFEGANISTÃO,12/2001,DF,1
1,SOLICITAÇÃO DE REFÚGIO,AFEGANISTÃO,01/2010,DF,1
2,SOLICITAÇÃO DE REFÚGIO,AFEGANISTÃO,03/2010,DF,2
3,SOLICITAÇÃO DE REFÚGIO,AFEGANISTÃO,03/2010,SP,2
4,SOLICITAÇÃO DE REFÚGIO,AFEGANISTÃO,08/2010,DF,1


Nesse conjunto de dados, estamos lidando com diferentes nacionalidades. Um dos insights interessantes que podemos extrair é a quantidade de países dos quais vêm os refugiados. Podemos fazer isso através do método `unique()`, que nos retorna cada um dos valores únicos de uma coluna.

In [4]:
# ver as nacionalidades diferentes
df["Nacionalidade"].unique()

array(['AFEGANISTÃO', 'ALBÂNIA', 'ALEMANHA', 'ANDORRA', 'ANGOLA',
       'APÁTRIDA', 'ARGENTINA', 'ARGÉLIA', 'ARMÊNIA', 'ARÁBIA SAUDITA',
       'AUSTRÁLIA', 'BANGLADESH', 'BARBADOS', 'BAREINE', 'BELARUS',
       'BELIZE', 'BENIN', 'BHUTAN', 'BOLÍVIA', 'BRASIL', 'BULGÁRIA',
       'BURKINA FASO', 'BURUNDI', 'BUTÃO', 'BÉLGICA',
       'BÓSNIA E HERZEGOVINA', 'CABO VERDE', 'CAMARÕES', 'CAMBOJA',
       'CANADÁ', 'CAZAQUISTÃO', 'CHILE', 'CHINA', 'COLÔMBIA', 'CONGO',
       'CORÉIA DO NORTE', 'CORÉIA DO SUL', 'COSTA DO MARFIM',
       'COSTA RICA', 'CROÁCIA', 'CUBA', 'DAOME', 'DINAMARCA', 'DJIBUTI',
       'DOMINICA', 'EGITO', 'EL SALVADOR', 'EMIRADOS ÁRABES', 'EQUADOR',
       'ERITRÉIA', 'ESLOVÁQUIA', 'ESPANHA', 'ESTADOS UNIDOS', 'ESTÔNIA',
       'ETIÓPIA', 'FIJI, ILHAS', 'FILIPINAS', 'FRANÇA', 'GABÃO', 'GANA',
       'GEÓRGIA', 'GRÉCIA', 'GUAM', 'GUATEMALA', 'GUIANA',
       'GUIANA FRANCESA', 'GUINÉ', 'GUINÉ BISSAU', 'GUINÉ EQUATORIAL',
       'GÂMBIA', 'HAITI', 'HONDURAS', 'HUNGRIA',

Sabendo com quais países estamos lidando, podemos também visualizar quantos refugiados vêm de cada país. Para isso, podemos utilizar o método `value_counts()`.

Assim, vamos iterar por cada entrada da coluna, e contar as ocrrências de cada valor dela. Com isso, conseguimos contar quantas pessoas vieram de cada um dos países.

In [5]:
# verificando a quantidade de refugiados por país
df["Nacionalidade"].value_counts()

CUBA          887
HAITI         775
VENEZUELA     665
COLÔMBIA      556
SENEGAL       469
             ... 
BÉLGICA         1
MONGÓLIA        1
GUAM            1
NORUEGA         1
IUGUSLAVIA      1
Name: Nacionalidade, Length: 165, dtype: int64

Também podemos ordenar essa lista, ou então apresentar apenas um grupo de interesse. Por exemplo, através de técnicas de slicing por índice, igual ao que fizemos com as strings, podemos selecionar linhas dentro do value_counts, e retornar, por exemplo, os 10 países com mais refugiados no Brasil.


In [6]:
# verificando países com mais refugiados no Brasil
df["Nacionalidade"].value_counts()[:10]

CUBA            887
HAITI           775
VENEZUELA       665
COLÔMBIA        556
SENEGAL         469
SÍRIA           466
BANGLADESH      385
GUINÉ BISSAU    371
ANGOLA          343
CONGO           337
Name: Nacionalidade, dtype: int64

Também podemos utilizar o método `sum()` para, como o nome sugere, somar os valores de uma coluna. Nesse caso, vamos utilizar esse método para contar o total de refugiados no Brasil.

In [7]:
# ver o total de refugiados
df["Quantidade"].sum()

178037