# Como fazer uma simples análise de dados com python? 

Neste post, eu farei uma análise dos dados de votação de dois conselhos da ONU - o Conselho de Segurança e da Assembleia Geral - de 1946 a 2021. Este dataset foi obtido no kaggle, você pode acessá-lo no link: https://www.kaggle.com/datasets/guybarash/un-resolutions

Quando tenho que analisar um dataset, o primeiro passo que faço é ver quais colunas temos no dataset e criar uma série de perguntas que quero responder com esses dados. É nesta etapa de exploração dos dados, que vamos investigar os nossos dados.

No caso deste dataset, algumas das perguntas que formulei foram: 

* Qual a quantidade de resoluções por ano?
* Qual a quantidade de resoluções por ano e por Conselho?
* Em qual ano tivemos mais resoluções? De qual conselho? 

In [68]:
# Pandas é a principal biblioteca utilizada para trabalhar com datasets em python.
# Imports das bibliotecas necessárias para a análise: 

import pandas as pd 
pd.get_option("display.max_columns") # Serve para mostrar todas as colunas
pd.options.display.max_rows = 200    # Serve para definir o máximo de linhas que queremos visualizar.
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', -1)

  pd.set_option('display.max_colwidth', -1)


In [19]:
# Lendo o csv que está no caminho do meu computador [aqui você deve colocar o caminho do seu computador]
# e passando as colunas que quero trabalhar (lembrando que não é necessário passar as colunas que queremos trabalhar no dataset, foi apenas uma opção minha):

col_nums = [0,1,2,3,4,5,6,7,8]

data = pd.read_csv("C:/repositorio_blog/UN DATA.csv", usecols = col_nums)

In [7]:
# Olhando as duas primeiras linhas do nosso dataset: 

data.head(2) # Se eu não passar nada dentro da função head() ela vai me voltar um dataframe com cinco linhas.

Unnamed: 0,Council,Date,Title,Resolution,TOTAL VOTES,NO-VOTE COUNT,ABSENT COUNT,NO COUNT,YES COUNT
0,Security Council,2016-12-13,Security Council resolution 2323 (2016) [on ex...,S/RES/2323(2016),15,0,0,0,15
1,Security Council,2020-06-22,Security Council resolution 2527 (2020) [on ex...,S/RES/2527(2020),15,0,0,0,15


Dessa forma, pode-se perceber que eu escolhi trabalhar com a coluna que indica o conselho, a coluna de data da resolução, a coluna que indica o título da resolução, a coluna que contém o id da resolução, e as colunas que têm a quantidade de votos. 

Os tipos de votos são os seguintes: 

* Y - nação votou sim
* N - nação votou não
* X - nação escolheu por não votar 
* A - nação se absteve
* [VAZIO] significa que a nação não estava na lista para votar


In [22]:
# Vou colocar todas as colunas do meu dataframe em lowercase para facilitar a exploração:

data.columns = data.columns.str.lower()

data.head(2)

Unnamed: 0,council,date,title,resolution,total votes,no-vote count,absent count,no count,yes count
0,Security Council,2016-12-13,Security Council resolution 2323 (2016) [on ex...,S/RES/2323(2016),15,0,0,0,15
1,Security Council,2020-06-22,Security Council resolution 2527 (2020) [on ex...,S/RES/2527(2020),15,0,0,0,15


In [23]:
# Obtendo informações gerais do dataframe: 

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7855 entries, 0 to 7854
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   council        7855 non-null   object
 1   date           7855 non-null   object
 2   title          7855 non-null   object
 3   resolution     7855 non-null   object
 4   total votes    7855 non-null   int64 
 5   no-vote count  7855 non-null   int64 
 6   absent count   7855 non-null   int64 
 7   no count       7855 non-null   int64 
 8   yes count      7855 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 552.4+ KB


In [24]:
# Verificando quantas linhas e colunas temos no dataframe: 

print(data.shape)

(7855, 9)


In [25]:
# Checando os tipos das colunas do DataFrame: 

data.dtypes

council          object
date             object
title            object
resolution       object
total votes       int64
no-vote count     int64
absent count      int64
no count          int64
yes count         int64
dtype: object

In [29]:
# A coluna Date está como tipo 'object', portanto iremos transformá-la para tipo Datetime.
# Transformação da coluna Date de STRING para DATETIME: 

data['date'] = pd.to_datetime(data['date'])

data.dtypes

council                  object
date             datetime64[ns]
title                    object
resolution               object
total votes               int64
no-vote count             int64
absent count              int64
no count                  int64
yes count                 int64
Date             datetime64[ns]
dtype: object

In [30]:
# Agora, com a data no formato correto, irei ordenar o dataframe pela data: 

data = data.sort_values(by = ['date'])

In [31]:
# Para facilitar minhas análises, vou criar uma coluna com o ano e mês de cada resolução.

# Criando uma coluna com apenas o ano da resolução:

data['year'], data['month'] = data['date'].dt.year, data['date'].dt.month

# Criando uma coluna com ano e mês:

data['year_month'] = (data['month']).astype(str) + '-' +  (data['year']).astype(str)

data.head(2)

Unnamed: 0,council,date,title,resolution,total votes,no-vote count,absent count,no count,yes count,Date,year,month,year_month
3889,Security Council,1946-01-25,Security Council resolution 1 (1946) [on estab...,S/RES/1(1946),11,0,0,0,11,1946-01-25,1946,1,1-1946
2787,General Assembly,1946-01-26,Amendments to the provisional rules of procedu...,A/RES/17(I)[RULE-73],51,8,0,18,25,1946-01-26,1946,1,1-1946


In [33]:
# Quantos conselhos temos? 

data.council.unique()

array(['Security Council', 'General Assembly'], dtype=object)

In [88]:
# Qual a quantidade de resoluções por ano? Sem levar em consideração cada conselho.

res_ano = data['resolution'].groupby(data['year']).count().reset_index()
res_ano.head(1)

Unnamed: 0,year,resolution
0,1946,41


In [74]:
# Consultando todas as resoluções por ano (de acordo com o ano escolhido pelo usuário):

consulta_ano = input("Ano de Consulta: ")


select_colunas = data[['year','title']]
consulta_res_ano = select_colunas[(select_colunas["year"] == int(consulta_ano))].reset_index(drop = True)

consulta_res_ano.head(2)

Unnamed: 0,year,title
0,1982,Security Council resolution 500 (1982) [on convening of an emergency special session of the General Assembly on territories occupied by Israel]
1,1982,The situation in the occupied Arab territories : resolution / adopted by the General Assembly


In [79]:
# Quantidade de resoluções por ano e por Conselho:

council_res_ano = pd.pivot_table(data,
    columns = 'council',
    index = 'year',
    values = 'resolution',
    aggfunc = pd.Series.nunique
).reset_index()

council_res_ano.head(2)

council,year,General Assembly,Security Council
0,1946,26.0,15.0
1,1947,13.0,22.0


In [78]:
# Em qual ano tivemos mais resoluções no CSNU? 

data_filtered = data[data['council']=='Security Council']

council_res_ano_max = data_filtered['resolution'].groupby(data_filtered['year']).count().reset_index()

max_sc = council_res_ano_max.sort_values('resolution', ascending = False).reset_index().drop(['index'],axis=1)

max_sc.head() 

Unnamed: 0,year,resolution
0,1993,93
1,2006,87
2,2016,77
3,1994,77
4,1992,74


In [80]:
# Em qual ano tivemos mais resoluções da Assembleia Geral? 

data_filtered = data[data['council']=='General Assembly']

council_res_ano_max = data_filtered['resolution'].groupby(data_filtered['year']).count().reset_index()

max_ga = council_res_ano_max.sort_values('resolution', ascending = False).reset_index().drop(['index'],axis=1)

max_ga.head() ## 1982 foi o ano com mais resoluções 

Unnamed: 0,year,resolution
0,1982,165
1,1986,156
2,1985,156
3,1984,149
4,1979,148


In [90]:
# Em qual ano o Conselho de Segurança e Assembleia Geral tiveram a maior quantidade de votos Yes, No e Absent?

lista_votos = ['yes count', 'no count', 'absent count']

lista_conselhos = ['Security Council', 'General Assembly']

for council in lista_conselhos:
  
  df_filtered_council = data[data['council'] == council]
  print("\n", council)

  for x in lista_votos:
  
    df_resolution_yes_sc = df_filtered_council[x].groupby(df_filtered_council['year']).sum().reset_index()
  
    ano_mais_yes = df_resolution_yes_sc.sort_values(x, ascending = False).reset_index().drop(['index'],axis=1)
  
    print("\n", ano_mais_yes.head())


 Security Council

    year  yes count
0  1993  1320     
1  2006  1251     
2  2016  1126     
3  1998  1088     
4  1994  1086     

    year  no count
0  1991  7       
1  1990  6       
2  1950  6       
3  1947  4       
4  2010  4       

    year  absent count
0  1948  51          
1  1978  38          
2  1979  35          
3  1947  27          
4  2018  27          

 General Assembly

    year  yes count
0  1982  19872    
1  1986  19847    
2  1985  19290    
3  1987  18824    
4  1988  18243    

    year  no count
0  2018  1365    
1  2020  1293    
2  2019  1237    
3  2021  1177    
4  2017  1099    

    year  absent count
0  1986  2683        
1  1985  2681        
2  1982  2495        
3  2018  2289        
4  2019  2286        
