# **Big Data Analysis**

## **Pré-tratamento**

***Nesta secção irá ser feito o pré-tratamento dos dados***. Concretamente iremos ***fundir os dados*** provenientes dos diferentes datasets, *"alinhando-os"* pelas colunas *"Entidade"* (equivalente a nome do país), *"Code"* (equivalente ao código identificador IUPAC do país) e *"Year"* (correspondente ao ano em que foram recolhidos os dados).

Iremos também *"aparar"* os dados em função do indicador limitante, neste caso o ano de dados disponíveis, sendo o ***período de 1990 a 2016*** o período comum a todos os datasets.

**Para efeitos de comparação** iremos fazer merge dos datasets usando o package Pandas e PySpark, de modo a comparar a eficiência de ambos em diferentes contextos

### Pré-tratamento utilizando Pandas

In [None]:
# Com pandas
import pandas as pd

# Importamos o módulo time para efeitos de comparação de tempos de execução
import time

#pd_start = time.time() # inicio do contador pandas

# Carregamos o dataset com dados populacionais
import pandas as pd
pop = pd.read_csv('datasets/population.csv')
pop.rename(columns={'Entity': 'Country'}, inplace = True)
pop = pop[pop['Year'] >= 1990]
pop = pop[pop['Year'] <= 2016]
#pop.head()


Unnamed: 0,Country,Code,Year,Population (historical estimates)
227,Afghanistan,AFG,1990,10694804
228,Afghanistan,AFG,1991,10745168
229,Afghanistan,AFG,1992,12057436
230,Afghanistan,AFG,1993,14003764
231,Afghanistan,AFG,1994,15455560


In [None]:
# Carregamos o dataset para prevelência de obesidade
obes = pd.read_csv('datasets/share-of-adults-defined-as-obese.csv')
obes.rename(columns={'Entity': 'Country'}, inplace = True)
obes = obes[obes['Year'] >= 1990]
#obes.head()


Unnamed: 0,Country,Code,Year,"Indicator:Prevalence of obesity among adults, BMI &GreaterEqual; 30 (crude estimate) (%) - Sex:Both sexes"
15,Afghanistan,AFG,1990,1.0
16,Afghanistan,AFG,1991,1.1
17,Afghanistan,AFG,1992,1.2
18,Afghanistan,AFG,1993,1.2
19,Afghanistan,AFG,1994,1.3


In [None]:
# Carregamos o dataset para prevalência doenças mentais
mental = pd.read_csv('datasets/mental-illnesses-prevalence.csv')
mental.rename(columns={'Entity': 'Country'}, inplace = True)
mental = mental[mental['Year'] <= 2016]
#mental.head()


Unnamed: 0,Country,Code,Year,Schizophrenia disorders (share of population) - Sex: Both - Age: Age-standardized,Depressive disorders (share of population) - Sex: Both - Age: Age-standardized,Anxiety disorders (share of population) - Sex: Both - Age: Age-standardized,Bipolar disorders (share of population) - Sex: Both - Age: Age-standardized,Eating disorders (share of population) - Sex: Both - Age: Age-standardized
0,Afghanistan,AFG,1990,0.223206,4.996118,4.713314,0.703023,0.1277
1,Afghanistan,AFG,1991,0.222454,4.98929,4.7021,0.702069,0.123256
2,Afghanistan,AFG,1992,0.221751,4.981346,4.683743,0.700792,0.118844
3,Afghanistan,AFG,1993,0.220987,4.976958,4.673549,0.700087,0.115089
4,Afghanistan,AFG,1994,0.220183,4.977782,4.67081,0.699898,0.111815


In [None]:
# Carregamos os dados relativos à pobreza (threshold abaixo de 6.85$ / dia)
poverty = pd.read_csv('datasets/poverty.csv')
poverty.rename(columns={'country': 'Country', 'year' : 'Year'}, inplace = True)
poverty = poverty[poverty['Year'] <= 2016]
poverty = poverty[poverty['Year'] >= 1990]
pov_filter = poverty[['Country','Year','headcount_ratio_international_povline','headcount_ratio_lower_mid_income_povline','headcount_ratio_upper_mid_income_povline']]
#pov_filter.head()

Unnamed: 0,Country,Year,headcount_ratio_international_povline,headcount_ratio_lower_mid_income_povline,headcount_ratio_upper_mid_income_povline
0,Albania,1996,0.920669,11.174149,44.618417
1,Albania,2002,1.570843,14.132118,49.669635
2,Albania,2005,0.860527,8.715685,38.545254
3,Albania,2008,0.31365,5.250542,31.110345
4,Albania,2012,0.849754,6.182414,34.528906


In [None]:
merged = pd.DataFrame()
merged = pd.merge(pop,obes,on=['Country','Code','Year'])
merged = pd.merge(merged,mental,on=['Country','Code','Year'])
merged = pd.merge(merged,pov_filter, left_on=['Country', 'Year'], right_on=['Country','Year'] )
pd_end = time.time() # fim do contador pandas

#pd_elapsed = pd_end - pd_start # tempo de execução do contador pandas


# Salvar o ficheiro com os datasets juntos na diretoria indicada
merged.to_csv('datasets/dataset_final.csv', index=False)

merged.head()

Unnamed: 0,Country,Code,Year,Population (historical estimates),"Indicator:Prevalence of obesity among adults, BMI &GreaterEqual; 30 (crude estimate) (%) - Sex:Both sexes",Schizophrenia disorders (share of population) - Sex: Both - Age: Age-standardized,Depressive disorders (share of population) - Sex: Both - Age: Age-standardized,Anxiety disorders (share of population) - Sex: Both - Age: Age-standardized,Bipolar disorders (share of population) - Sex: Both - Age: Age-standardized,Eating disorders (share of population) - Sex: Both - Age: Age-standardized,headcount_ratio_international_povline,headcount_ratio_lower_mid_income_povline,headcount_ratio_upper_mid_income_povline
0,Albania,ALB,1996,3271336,11.0,0.280476,2.401929,3.687558,0.541907,0.09891,0.920669,11.174149,44.618417
1,Albania,ALB,1996,3271336,11.0,0.280476,2.401929,3.687558,0.541907,0.09891,0.534846,8.898443,47.879143
2,Albania,ALB,2002,3123554,13.9,0.281883,2.461524,3.713175,0.542581,0.105739,1.570843,14.132118,49.669635
3,Albania,ALB,2002,3123554,13.9,0.281883,2.461524,3.713175,0.542581,0.105739,1.092647,11.388324,52.090966
4,Albania,ALB,2005,3032636,15.6,0.282246,2.472493,3.719762,0.542578,0.112578,0.860527,8.715685,38.545254


### Pré-tratamento de dados utilizando Spark

In [None]:
#pip install pyspark
# remover # para instalar o package pyspark antes dos imports

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

import time

# Criação de uma sessão Spark
Spark = SparkSession.builder.appName("BigDataAnalysis").getOrCreate()

#o tempo está a contar desde o inicio da execução da tarefa e não antes do início da sessão, mesmo assim Pysparks revelou ser mais lento neste caso
spark_start = time.time()

# Carregar e aparar datasets

# Dataset da população
spark_pop = Spark.read.csv(
    'datasets/population.csv',
    header = True ,
    inferSchema = True
    )

spark_pop = spark_pop.filter(col('Year').between(1990, 2016))

# Carregamos o dataset para prevelência de obesidade
spark_obes = Spark.read.csv(
    'datasets/share-of-adults-defined-as-obese.csv',
    header = True,
    inferSchema = True
    )

spark_obes = spark_obes.filter(col('Year') >= 1990)

# Carregamos o dataset para prevalência doenças mentais
spark_mental = Spark.read.csv(
    'datasets/mental-illnesses-prevalence.csv',
    header = True,
    inferSchema = True
    )

spark_mental = spark_mental.filter(col('Year') <= 2016)

# Unimos os datasets com o mesmo critério (país, IUPAC, código)

spark_merged = spark_pop.join \
  (spark_obes, on = ['Entity','Code','Year'], how = 'inner').join \
  (spark_mental, on = ['Entity', 'Code','Year'], how = 'inner')

# Descomentar para ver o dataset
#spark_merged.show()

Spark.stop()

spark_end = time.time() # fim do contador spark

spark_elapsed = spark_end - spark_start # tempo de execução do contador spark

In [None]:
# spark_merged.write.format("csv").option("header", "true").mode("append").save('datasets/merged_spark.csv')
# não estou a conseguir salvar o ficheiro tratado com pyspark dá um erro estranho, relacionado com a diretoria,
# ja tentei com "append" e "overwrite", deve ser mesmo da diretoria

In [None]:
# Comparamos o tempo de computação para cada um dos modelos

print(f'Com pandas, demorou {round(pd_elapsed, 3)} segundos',
      f'Com spark, demorou {round(spark_elapsed, 3)} segundos',
      sep = '\n')

### Análise do pré-tratamento
Neste caso concreto percebemos que várias ferramentas têm comportamentos diferentes em função dos dados, o que é algo a ter em conta no contexto do que pretendemos fazer.

Numa próxima abordagem iremos perceber que em função do que podemos fazer há ferramentas/abordagens mais ou menos eficientes. Neste caso concreto, a utilização de Spark demonstrou-se como menos eficiente.

## Escolha da base de dados


**Tarefa:**  
Ver nas bases de dados qual se adequa melhor ao nosso caso:  

- Cassandra
- Hadoop base
- MongoDB

**Características do nosso dataset:**  
- O dataset parece ser bem estruturado com um esquema fixo.  
- Tem um tamanho moderado com 5.185 entradas.  
- Inclui dados históricos e estatísticas de saúde, o que pode implicar em consultas analíticas e relatórios.

**Cassandra:**
É altamente escalável e projetado para lidar com grandes volumes de dados distribuídos por vários servidores.  
É otimizado para gravações rápidas e pode lidar com grandes volumes de dados com desempenho consistente.  
No entanto, pode não ser o ideal para consultas complexas ad-hoc, pois seu modelo de dados é otimizado para consultas conhecidas e repetitivas.  
  
**HBase:**
Também é projetado para escalabilidade horizontal e pode lidar com grandes volumes de dados.  
É otimizado para leituras e gravações aleatórias em grandes datasets.  
Suporta consultas em tempo real em Big Data, mas pode ser complexo de configurar e gerenciar.  
  
**MongoDB:**
É um banco de dados orientado a documentos, projetado para flexibilidade e escalabilidade.  
Suporta um esquema dinâmico, o que o torna uma boa escolha para dados que podem evoluir com o tempo.  
É conhecido por sua facilidade de uso, eficiência em consultas complexas e boas capacidades de agregação de dados.  
Tem um forte suporte para consultas ad-hoc, indexação e agregação de dados.


**Em resumo**, se a flexibilidade no schema dos dados, a facilidade de desenvolvimento, e análises complexas são importantes, MongoDB pode ser a melhor escolha. Se a escalabilidade e a distribuição geográfica são prioridades, consideremos o Cassandra. E se estamos a operar dentro de um ecossistema Hadoop e precisa de acesso rápido e em tempo real aos dados, HBase pode ser a opção mais adequada.


### **Optei pela base de dados no mongoDB**  # espero nao termos limitações por isto...  

Connect to BigData:
- Add a connection IP address:
    - Your current IP address (193.137.92.51) has been added to enable local connectivity. Acho que vou ter de fazer o setup disto fora da rede da Uminho que não me deixa aceder ao servidor criado... De qualquer forma a professora falou que podiamos colocar lá os ficheiros manualmente, erá só para termos uma noção... era top conseguir aceder aos datasets com código... trabalha-los e correr o código de analise e no fim fazer os saves relevantes e o artigo na base de dados again...

Create a database user:  
- Username : bigdata  
- pass : bioinfo24

In [None]:
# Gerar um ambiente virtual especifico para o projeto 
!python3 -m venv venv
!source venv/bin/activate

# alterar o kernel do jupyter para o venv criado

In [None]:
# Instalar packages
!pip install --quiet pandas pymongo

In [None]:
# Correr comando bash para criar uma pasta mongodb e criar uma base de dados mongodb lá
!mkdir -p mongodb
!mongod --dbpath ./mongodb/

In [15]:
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

uri = 'localhost:27017'

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


In [None]:
# Problema de conexão resolvido fazendo whitelist a todos os IPs
# Considerando o tipo de trabalho, não me parece necessário estar a focar em IPs específicos
# Sounds good?

In [None]:
# Aceder à DB 
db = client.get_database("BigData")

Database(MongoClient(host=['ac-cz5bks6-shard-00-00.l3at7tn.mongodb.net:27017', 'ac-cz5bks6-shard-00-01.l3at7tn.mongodb.net:27017', 'ac-cz5bks6-shard-00-02.l3at7tn.mongodb.net:27017'], document_class=dict, tz_aware=False, connect=True, retrywrites=True, w='majority', appname='BigData', authsource='admin', replicaset='atlas-ve1o01-shard-0', tls=True, server_api=<pymongo.server_api.ServerApi object at 0x000002C93AF06DE0>), 'BigData')

In [None]:
# Aceder à colecção
collection = db.get_collection("ObesPovMen")
collection

Collection(Database(MongoClient(host=['ac-cz5bks6-shard-00-00.l3at7tn.mongodb.net:27017', 'ac-cz5bks6-shard-00-01.l3at7tn.mongodb.net:27017', 'ac-cz5bks6-shard-00-02.l3at7tn.mongodb.net:27017'], document_class=dict, tz_aware=False, connect=True, retrywrites=True, w='majority', appname='BigData', authsource='admin', replicaset='atlas-ve1o01-shard-0', tls=True, server_api=<pymongo.server_api.ServerApi object at 0x000002C93AF06DE0>), 'BigData'), 'ObesPovMen')

In [None]:
# Teste da importação de dados
# NOTA QUE SÓ CORRI O SCRIPT COM OS FICHEIROS DO GOOGLE COLLAB PARA A COLLECTION TESTE
# Temos de rever e refazer para os dados que iremos usar

# TODO's:
# TODO criar coleção que iremos usar
# TODO

# Read CSV file using pandas
csv_file = "datasets/dataset_final.csv"
data = pd.read_csv(csv_file)
#print(data.head())

# Convert DataFrame to dictionary
data_dict = data.to_dict(orient='records')
#data_dict

In [None]:
# Insert data into MongoDB collection
collection.insert_many(data_dict)

InsertManyResult([ObjectId('661040acd2e916bddcd8fea0'), ObjectId('661040acd2e916bddcd8fea1'), ObjectId('661040acd2e916bddcd8fea2'), ObjectId('661040acd2e916bddcd8fea3'), ObjectId('661040acd2e916bddcd8fea4'), ObjectId('661040acd2e916bddcd8fea5'), ObjectId('661040acd2e916bddcd8fea6'), ObjectId('661040acd2e916bddcd8fea7'), ObjectId('661040acd2e916bddcd8fea8'), ObjectId('661040acd2e916bddcd8fea9'), ObjectId('661040acd2e916bddcd8feaa'), ObjectId('661040acd2e916bddcd8feab'), ObjectId('661040acd2e916bddcd8feac'), ObjectId('661040acd2e916bddcd8fead'), ObjectId('661040acd2e916bddcd8feae'), ObjectId('661040acd2e916bddcd8feaf'), ObjectId('661040acd2e916bddcd8feb0'), ObjectId('661040acd2e916bddcd8feb1'), ObjectId('661040acd2e916bddcd8feb2'), ObjectId('661040acd2e916bddcd8feb3'), ObjectId('661040acd2e916bddcd8feb4'), ObjectId('661040acd2e916bddcd8feb5'), ObjectId('661040acd2e916bddcd8feb6'), ObjectId('661040acd2e916bddcd8feb7'), ObjectId('661040acd2e916bddcd8feb8'), ObjectId('661040acd2e916bddcd8fe

In [None]:
# Close connection
client.close()

# PowerBI Connectors

#### Connecting with MongoDB for VS Code

Quando perguntei como faríamos para aceder ou submeter ficheiros na BD em código, a professora respondeu que podíamos fazer isso manualmente e que não seria exigido por agora. No entanto, fui pesquisar, e aqui está:

Tive problemas ao testar, após aplicar a *connection string* (passo 3). Posso estar a fazer algo de errado no setup/criação da BD no Mongo ou pode ser apenas da conexão UMinho que não permite.

1. **Instalar MongoDB for VS Code**:  
    - No VS Code, abre "Extensions" na navegação à esquerda e procura por "MongoDB for VS Code". Seleciona a extensão e clica em instalar.

2. **No VS Code, abrir o Command Palette**:
    - Clica em "View" e abre "Command Palette".
    - Pesquisa por "MongoDB: Connect" no Command Palette e clica em "Connect with Connection String".

3. **Conectar ao seu deployment MongoDB**:
    - Cola a *connection string* no Command Palette:
    
    `mongodb+srv://**bigdata:bioinfo24**@bigdata.l3at7tn.mongodb.net/`

A senha para *bigdata* está incluída na *connection string* para a sua configuração inicial. Esta senha não estará disponível novamente após sair deste fluxo de conexão.

Clique em “Create New Playground” no MongoDB for VS Code para começar.

In [None]:
#troubleshoot?
import pymongo
from urllib.parse import quote_plus

username = quote_plus('<username>')
password = quote_plus('<password>')
cluster = '<clusterName>'
authSource = '<authSource>'
authMechanism = '<authMechanism>'

uri = 'mongodb+srv://' + username + ':' + password + '@' + cluster + '/?authSource=' + authSource + '&authMechanism=' + authMechanism

client = pymongo.MongoClient(uri)

result = client["<dbName"]["<collName>"].find()

# print results
for i in result:
    print(i)
