# Sobre a base de dados e a análise

Esta base de dados pretende acompanhar e reunir informações sobre os principais protestos antigovernamentais ocorridos em todo o mundo. Compreende manifestações de países das Américas, da Europa, da Ásia, da África e da Oceania ocorridas (ou ainda em andamento) desde 2017, trazendo informações como a data de início do evento, as motivações, o país em que aconteceu (ou está acontecendo), principais lideranças, a duração, o tamanho e os resultados obtidos. 
A última atualização aconteceu em maio de 2022, por isso não há tantos registros relacionados a esse ano.

Esta análise pretende explorar algumas informações da base de dados com a intenção de torná-las legíveis e facilmente assimiláveis para qualquer pessoa. O grupo de países analisado com mais ênfase é o dos países da América do Sul, dos quais foram explorados alguns dados como o número de protestos total iniciados entre 2017 e 2022, o percentual de manifestações iniciadas em cada país e o nível de liberdade. A partir da avaliação dos países da América do Sul compreendidos nesta base de dados (que não são todos), foram feitas comparações com outros grupos de países, para obtermos uma visão mais abrangente do posicionamento desta região em comparação com outras regiões do mundo.  





## Importação das bibliotecas, leitura do csv e avaliação da base de dados

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [None]:
df = pd.read_csv("GlobalProtestTracker.csv", encoding= 'UTF-8')
df. head(3)

In [None]:
df.info()

## Tratamento da base de dados a ser manipulada

Foi feita uma cópia da base de dados original para ser tratada e analisada. O tratamento, basicamente, consistiu em identificar e excluir colunas com poucos campos preenchidos ou que continham dados irrelevantes para a análise pretendida.

In [None]:
#Criando uma cópia da base de dados

df_copia = df.copy()


In [None]:
df['Political motivation?'].isnull().sum()

In [None]:
#Excluindo colunas com muitos dados nulos e sem relevância para esta análise

df_copia.drop(columns=["Active protests", "Corruption motivation?", "Political motivation?",'Economic motivation?', "Protests with a significant outcome", "Large protests (Over 100,000 protesting)", "Violent government response", "Long protests (more than 3 months)", "Coronavirus-related protests", "Capital city"], inplace=True)
df_copia.head(3)

In [None]:
not_free = df_copia['Freedom Rating (Status)'].str.contains('Not free')
not_free.count()

In [None]:
#Correção da grafia
df_copia.iloc[233].replace(['Partly freee'], ['Partly free'], inplace=True)

### Algumas avaliações gerais

In [None]:
df_copia.shape

In [None]:
#O país que mais aparece é a França (com mais protestos registrados)
valores = df["Country"].value_counts()
valores


### Agrupando os países da América do Sul

In [None]:
#Fazendo uma df só com os países da América do Sul
df_copia_brazil = df_copia[df_copia['Country'].str.contains('Brazil')]
df_copia_argentina = df_copia[df_copia['Country'].str.contains('Argentina')]
df_copia_uruguay = df_copia[df_copia['Country'].str.contains('Uruguay')]
df_copia_paraguay = df_copia[df_copia['Country'].str.contains('Paraguay')]
df_copia_chile = df_copia[df_copia['Country'].str.contains('Chile')]
df_copia_colombia = df_copia[df_copia['Country'].str.contains('Colombia')]
df_copia_bolivia = df_copia[df_copia['Country'].str.contains('Bolivia')]
df_copia_venezuela = df_copia[df_copia['Country'].str.contains('Venezuela')]
df_copia_guyana = df_copia[df_copia['Country'].str.contains('Guyana')]
df_copia_peru = df_copia[df_copia['Country'].str.contains('Peru')]
df_copia_ecuador = df_copia[df_copia['Country'].str.contains('Ecuador')]
df_copia_suriname = df_copia[df_copia['Country'].str.contains('Suriname')] 

frames = [df_copia_brazil, df_copia_argentina, df_copia_peru, df_copia_bolivia, df_copia_chile, df_copia_guyana, df_copia_ecuador, df_copia_colombia, df_copia_uruguay, df_copia_paraguay, df_copia_venezuela, df_copia_suriname]

df_america_sul = pd.concat(frames)
df_america_sul.head(6)

In [None]:
df_america_sul.shape

In [None]:
df_copia['Start Date'].unique()

In [None]:
#Contagem do número de protestos que começaram em cada ano (no mundo)

#mundo_2022 = df_copia[df_copia['Start Date'].str.contains('22')]
#mundo_2022.count()
#mundo_2021 = df_copia[df_copia['Start Date'].str.contains('21')]
#mundo_2021.count()
#mundo_2020 = df_copia[df_copia['Start Date'].str.contains('20')]
#mundo_2020.count()
#mundo_2019 = df_copia[df_copia['Start Date'].str.contains('19')]
#mundo_2019.count()
#mundo_2018 = df_copia[df_copia['Start Date'].str.contains('18')]
#mundo_2018.count()
#mundo_2017 = df_copia[df_copia['Start Date'].str.contains('17')]
#mundo_2017.count()

In [None]:
#Contagem do número de protestos que começaram em cada ano (na América do Sul)

#as_2022 = df_america_sul[df_america_sul['Start Date'].str.contains('22')]
#as_2022.count()
#as_2021 = df_america_sul[df_america_sul['Start Date'].str.contains('21')]
#as_2021.count()
#as_2020 = df_america_sul[df_america_sul['Start Date'].str.contains('20')]
#as_2020.count()
#as_2019 = df_america_sul[df_america_sul['Start Date'].str.contains('19')]
#as_2019.count()
#as_2018 = df_america_sul[df_america_sul['Start Date'].str.contains('18')]
#as_2018.count()
#as_2017 = df_america_sul[df_america_sul['Start Date'].str.contains('17')]
#as_2017.count()

### Agrupando países da Europa

In [None]:
df_copia['Country'].unique()

In [None]:
df_copia_austria = df_copia[df_copia['Country'].str.contains('Austria')]
df_copia_belarus = df_copia[df_copia['Country'].str.contains('Belarus')]
df_copia_belgium = df_copia[df_copia['Country'].str.contains('Belgium')]
df_copia_bosnia = df_copia[df_copia['Country'].str.contains('Bosnia and Herzegovina')]
df_copia_bulgaria = df_copia[df_copia['Country'].str.contains('Bulgaria')]
df_copia_croatia = df_copia[df_copia['Country'].str.contains('Croatia')]
df_copia_cyprus = df_copia[df_copia['Country'].str.contains('Cyprus')]
df_copia_czech = df_copia[df_copia['Country'].str.contains('Czech Republic')]
df_copia_france = df_copia[df_copia['Country'].str.contains('France')]
df_copia_georgia = df_copia[df_copia['Country'].str.contains('Georgia')]
df_copia_germany = df_copia[df_copia['Country'].str.contains('Germany')]
df_copia_greece = df_copia[df_copia['Country'].str.contains('Greece')]
df_copia_hungary = df_copia[df_copia['Country'].str.contains('Hungary')]
df_copia_italy = df_copia[df_copia['Country'].str.contains('Italy')]
df_copia_malta = df_copia[df_copia['Country'].str.contains('Malta')]
df_copia_moldova = df_copia[df_copia['Country'].str.contains('Moldova')]  
df_copia_montenegro = df_copia[df_copia['Country'].str.contains('Montenegro')]
df_copia_netherlands = df_copia[df_copia['Country'].str.contains('Netherlands')]
df_copia_macedonia = df_copia[df_copia['Country'].str.contains('North Macedonia')]
df_copia_poland = df_copia[df_copia['Country'].str.contains('Poland')]
df_copia_portugal = df_copia[df_copia['Country'].str.contains('Portugal')]
df_copia_romania = df_copia[df_copia['Country'].str.contains('Romania')]
df_copia_serbia = df_copia[df_copia['Country'].str.contains('Serbia')]
df_copia_slovakia = df_copia[df_copia['Country'].str.contains('Slovakia')]
df_copia_slovenia = df_copia[df_copia['Country'].str.contains('Slovenia')]
df_copia_spain = df_copia[df_copia['Country'].str.contains('Spain')]  
df_copia_switzerland = df_copia[df_copia['Country'].str.contains('Switzerland')]
df_copia_turkey = df_copia[df_copia['Country'].str.contains('Turkey')]
df_copia_ukraine = df_copia[df_copia['Country'].str.contains('Ukraine')]
df_copia_uk = df_copia[df_copia['Country'].str.contains('United Kingdom')]
frames = [df_copia_austria, df_copia_uk, df_copia_ukraine, df_copia_turkey, df_copia_switzerland, df_copia_spain, df_copia_slovenia, df_copia_slovakia, df_copia_serbia,
          df_copia_romania, df_copia_portugal, df_copia_poland,df_copia_macedonia,df_copia_netherlands, df_copia_montenegro, df_copia_moldova, df_copia_malta,
          df_copia_italy, df_copia_hungary, df_copia_greece, df_copia_germany, df_copia_georgia, df_copia_france, df_copia_czech, df_copia_cyprus, df_copia_croatia,
           df_copia_bulgaria, df_copia_bosnia, df_copia_belgium, df_copia_belarus]

df_europa = pd.concat(frames)
df_europa.head(6)

In [None]:
#Contagem do número de protestos que começaram em cada ano (na Europa)

#eu_2022 = df_europa[df_europa['Start Date'].str.contains('22')]
#eu_2022.count()
#eu_2021 = df_europa[df_europa['Start Date'].str.contains('21')]
#eu_2021.count()
#eu_2020 = df_europa[df_europa['Start Date'].str.contains('20')]
#eu_2020.count()
#eu_2019 = df_europa[df_europa['Start Date'].str.contains('19')]
#eu_2019.count()
#eu_2018 = df_europa[df_europa['Start Date'].str.contains('18')]
#eu_2018.count()
#eu_2017 = df_europa[df_europa['Start Date'].str.contains('17')]
#eu_2017.count()

In [None]:
valores_mundo = [31, 51, 66, 87, 77, 17]
valores_america_sul = [2, 2, 7, 11, 8, 3]
valores_europa = [4, 11,14,25, 26, 5]

barWidth = 0.20

plt.figure(figsize=(12,6))

b1 = np.arange(len(valores_mundo))
b2 = [x + barWidth for x in b1] 
b3 = [x + barWidth for x in b2]

plt.bar(b1, valores_mundo, color = 'blue', width=barWidth, label='Mundo')
plt.bar(b2, valores_america_sul, color = 'green', width=barWidth, label='América do Sul')
plt.bar(b3, valores_europa, color = 'red', width=barWidth, label='Europa')

plt.xticks([r + barWidth for r in range(len(valores_mundo))], ['2017', '2018', '2019', '2020', '2021', '2022'])
plt.ylabel('Quantidade de protestos')
plt.title('Quantidade de protestos iniciados no mundo, na América do Sul e na Europa')

plt.legend()
plt.show()

In [None]:
#Contando a quantidade de vezes que cada país da América do Sul aparece na base de dados

#df_copia_brazil.count()
#df_copia_argentina.count()
#df_copia_uruguay.count() 
#df_copia_paraguay.count() 
#df_copia_chile.count() 
#df_copia_colombia.count()  
#df_copia_bolivia.count()  
#df_copia_venezuela.count()  
#df_copia_peru.count()  
#df_copia_ecuador.count()  


In [None]:

#Brazil = 4
#Argentina = 5
#Peru = 5
#Bolivia = 4
#Chile = 2
#Ecuador = 3
#Colombia = 5
#Uruguay = 1
#Paraguay = 1
#Venezuela = 3
numero_de_linhas = df_america_sul.shape[0] #para encontrar o número total de protestos da América do Sul
lista = [4, 5, 5, 4, 2, 3, 5, 1, 1, 3]
sizes = []
for n in lista:                        #calcular o percentual do número de protestos de cada país
    valor = (n/numero_de_linhas)*100
    sizes.append(valor)


labels = ['Brazil', 'Argentina', 'Peru', 'Bolivia', 'Chile', 'Ecuador',
       'Colombia', 'Uruguay', 'Paraguay', 'Venezuela']

#Criando uma figura e um eixo
fig1, ax1 = plt.subplots()
plt.pie(sizes, labels=labels, autopct = '%0.1f%%') #é possível colocar o valor correspondente a fatia usando o parametro autopct (aqui está definido que o valor terá 1 casa decimal)


ax1.axis('equal')
plt.suptitle('Percentual de protestos na América do Sul (2017-2022)')
plt.show()



### Comparação do nível de liberdade de manifestação

In [None]:
df_america_sul['Freedom Rating (Status)'].value_counts()

In [None]:
#Freedom Rating na AS
sizes = [17, 13, 3]
labels = ['Partly free', 'Free', 'Not free']
plt.figure(figsize=(15,5))

plt.barh(labels, sizes, color='green')
plt.title('Freedom Rating (South America)')
plt.show()


### Agrupando países do Oriente Médio

In [None]:
df_copia['Country'].unique()

In [None]:
df_copia_egypt = df_copia[df_copia['Country'].str.contains('Egypt')]
df_copia_iraq = df_copia[df_copia['Country'].str.contains('Iraq')]
df_copia_sudao = df_copia[df_copia['Country'].str.contains('Sudan')]
df_copia_libano = df_copia[df_copia['Country'].str.contains('Lebanon')]
df_copia_tunisia = df_copia[df_copia['Country'].str.contains('Tunisia')]
df_copia_algeria = df_copia[df_copia['Country'].str.contains('Algeria')]
df_copia_marocco = df_copia[df_copia['Country'].str.contains('Marocco')]
df_copia_jordan = df_copia[df_copia['Country'].str.contains('Jordan')]
df_copia_kwait = df_copia[df_copia['Country'].str.contains('Kuwait')]
df_copia_oman = df_copia[df_copia['Country'].str.contains('Oman')]
df_copia_mauritania = df_copia[df_copia['Country'].str.contains('Mauritania')]
df_copia_somalia = df_copia[df_copia['Country'].str.contains('Somalia')]
df_copia_syria = df_copia[df_copia['Country'].str.contains('Syria')]
df_copia_yemen = df_copia[df_copia['Country'].str.contains('Yemen')]
df_copia_libya = df_copia[df_copia['Country'].str.contains('Libya')]
df_copia_cameroon = df_copia[df_copia['Country'].str.contains('Cameroon')]

frames = [df_copia_egypt, df_copia_iraq, df_copia_sudao, df_copia_libano, df_copia_tunisia, df_copia_algeria, df_copia_marocco, df_copia_jordan, 
          df_copia_kwait, df_copia_oman, df_copia_mauritania, df_copia_somalia,df_copia_syria,df_copia_yemen, df_copia_libya, 
          df_copia_cameroon]

df_arabes = pd.concat(frames)
df_arabes.head(6)

In [None]:
df_arabes.shape

A seguir, será identificado o número de ocorrências dos status de liberdade (parcialmente livre, livre e não livre) em cada grupo de países considerado nesta comparação: países da América do Sul, da Europa e países árabes (e também os dados mundiais). Então, esses dados serão apresentados em um gráfico em linhas para termos noção do nível de liberdade de manifestação em cada grupo.

In [None]:
#not_free = df_america_sul[df_america_sul['Freedom Rating (Status)'].str.contains('Not free')]
#not_free.count()
partly_free = df_america_sul[df_america_sul['Freedom Rating (Status)'].str.contains('Partly free')]
partly_free.count()
#free = df_america_sul[df_america_sul['Freedom Rating (Status)'].str.match('Free')]
#free.count()


In [None]:
#not_free = df_europa[df_europa['Freedom Rating (Status)'].str.contains('Not free')]
#not_free.count()
#partly_free = df_europa[df_europa['Freedom Rating (Status)'].str.contains('Partly free')]
#partly_free.count()
free = df_europa[df_europa['Freedom Rating (Status)'].str.match('Free')]
free.count()

In [None]:
#not_free = df_copia[df_copia['Freedom Rating (Status)'].str.contains('Not free')]
#not_free.count()
partly_free = df_copia[df_copia['Freedom Rating (Status)'].str.contains('Partly free')]
partly_free.count()
#free = df_copia[df_copia['Freedom Rating (Status)'].str.match('Free')]
#free.count()

In [None]:
#not_free = df_arabes[df_arabes['Freedom Rating (Status)'].str.contains('Not free')]
#not_free.count()
#partly_free = df_arabes[df_arabes['Freedom Rating (Status)'].str.contains('Partly free')]
#partly_free.count()
free = df_arabes[df_arabes['Freedom Rating (Status)'].str.match('Free')]
free.count()

In [None]:
x = ['Free', 'Partly Free', 'Not free']
y_as = [17, 13, 3]
y_mundo = [109, 118,102]
y_europa = [56, 18, 11]
y_arabes = [5, 4, 24]
plt.figure(figsize=(10,6))
plt.plot(x, y_as, color='green', linestyle='--', marker='o', linewidth=2, label='South America')
plt.plot(x, y_europa, color='red', linestyle='--', marker='o', linewidth=2, label='Europa')
plt.plot(x, y_mundo, color='blue', linestyle='--', marker='o', linewidth=2, label='World')
plt.plot(x, y_arabes, color='orange', linestyle='--', marker='o', linewidth=2, label='Arab Countries')
#plt.plot(df_sete_menos['Country or region'], df_sete_menos['GDP per capita'], color="purple",linestyle='--', marker='o', linewidth=2, label='GDP per capita')
#plt.plot(df_sete_menos['Country or region'], df_sete_menos['Freedom to make life choices'], color="red", linestyle='--', marker='o', linewidth=2, label='Freedom to make life choices')
#plt.plot(df_sete_menos['Country or region'], df_sete_menos['Healthy life expectancy'], color="blue", linestyle='--', marker='o', linewidth=2, label='Healthy life expectancy')

plt.legend()
plt.title('Freedom Rating (status) - South America, Europe and Arab Countries', color ="purple" )

## Insights 

* 2020 foi o ano com o maior número de manifestações antigoverno na América Latina, acompanhando uma tendência mundial. Aliás, em 2018 e 2022, os grupos analisados (países da europa e os sul-americanos) acompanharam a tendência mundial, de aumento do número de protestos entre 2018 e 2020 e queda nos anos posteriores. (Será que em 2023 o número foi menor que em 2022, seguindo esta tendência? A conferir...)
* Argentina, Peru e Colômbia estão empatados no topo do ranking dos países sul-americanos com maior quantidade de protestos iniciados na América do Sul entre 2017 e 2022, enquanto o Brasil ocupa a segunda posição. Uruguai e Paraguai representam 3% cada um do número total de protestos iniciados na região no mesmo período.
* A maior parte dos protestos iniciados na América do Sul são parcialmente livres. Somente na Venezuela os protestos receberam o status de não livres.
* Quando comparamos o nível de liberdade entre América do Sul, Europa, países árabes e todos os países relacionados na database, percebemos que: (1) a maior parte dos protestos na América do Sul e na Europa são totalmente livres (e a Europa desbanca a América do Sul neste quesito); (2) já nos países árabes, a situação é bem diferente, sendo a maioria esmagadora das manifestações não livres.