# **Big Data Analysis**

## **Pré-tratamento**

***Nesta secção irá ser feito o pré-tratamento dos dados***. Concretamente iremos ***fundir os dados*** provenientes dos diferentes datasets, *"alinhando-os"* pelas colunas *"Entidade"* (equivalente a nome do país), *"Code"* (equivalente ao código identificador IUPAC do país) e *"Year"* (correspondente ao ano em que foram recolhidos os dados).

Iremos também *"aparar"* os dados em função do indicador limitante, neste caso o ano de dados disponíveis, sendo o ***período de 1990 a 2016*** o período comum a todos os datasets.

**Para efeitos de comparação** iremos fazer merge dos datasets usando o package Pandas e PySpark, de modo a comparar a eficiência de ambos em diferentes contextos

### Pré-tratamento utilizando Pandas

In [None]:
# Com pandas
import pandas as pd

# Importamos o módulo time para efeitos de comparação de tempos de execução
import time

pd_start = time.time() # inicio do contador pandas

# Carregamos o dataset com dados populacionais
import pandas as pd
pop = pd.read_csv('datasets/population.csv')
pop = pop[pop['Year'] >= 1990]
pop = pop[pop['Year'] <= 2016]

# Carregamos o dataset para prevelência de obesidade
obes = pd.read_csv('datasets/share-of-adults-defined-as-obese.csv')
obes = obes[obes['Year'] >= 1990]

# Carregamos o dataset para prevalência doenças mentais
mental = pd.read_csv('datasets/mental-illnesses-prevalence.csv')
mental = mental[mental['Year'] <= 2016]

merged = pd.DataFrame()
merged = pd.merge(pop,obes,on=['Entity','Code','Year'])
merged = pd.merge(merged,mental,on=['Entity','Code','Year'])

pd_end = time.time() # fim do contador pandas

pd_elapsed = pd_end - pd_start # tempo de execução do contador pandas


# Salvar o ficheiro com os datasets juntos na diretoria indicada
merged.to_csv('datasets/merged_pandas.csv', index=False)

merged.head()

Unnamed: 0,Entity,Code,Year,Population (historical estimates),"Indicator:Prevalence of obesity among adults, BMI &GreaterEqual; 30 (crude estimate) (%) - Sex:Both sexes",Schizophrenia disorders (share of population) - Sex: Both - Age: Age-standardized,Depressive disorders (share of population) - Sex: Both - Age: Age-standardized,Anxiety disorders (share of population) - Sex: Both - Age: Age-standardized,Bipolar disorders (share of population) - Sex: Both - Age: Age-standardized,Eating disorders (share of population) - Sex: Both - Age: Age-standardized
0,Afghanistan,AFG,1990,10694804,1.0,0.223206,4.996118,4.713314,0.703023,0.1277
1,Afghanistan,AFG,1991,10745168,1.1,0.222454,4.98929,4.7021,0.702069,0.123256
2,Afghanistan,AFG,1992,12057436,1.2,0.221751,4.981346,4.683743,0.700792,0.118844
3,Afghanistan,AFG,1993,14003764,1.2,0.220987,4.976958,4.673549,0.700087,0.115089
4,Afghanistan,AFG,1994,15455560,1.3,0.220183,4.977782,4.67081,0.699898,0.111815


### Pré-tratamento de dados utilizando Spark

In [None]:
#pip install pyspark
# remover # para instalar o package pyspark antes dos imports

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

import time

# Criação de uma sessão Spark
Spark = SparkSession.builder.appName("BigDataAnalysis").getOrCreate()

#o tempo está a contar desde o inicio da execução da tarefa e não antes do início da sessão, mesmo assim Pysparks revelou ser mais lento neste caso
spark_start = time.time()

# Carregar e aparar datasets

# Dataset da população
spark_pop = Spark.read.csv(
    'datasets/population.csv',
    header = True ,
    inferSchema = True
    )

spark_pop = spark_pop.filter(col('Year').between(1990, 2016))

# Carregamos o dataset para prevelência de obesidade
spark_obes = Spark.read.csv(
    'datasets/share-of-adults-defined-as-obese.csv',
    header = True,
    inferSchema = True
    )

spark_obes = spark_obes.filter(col('Year') >= 1990)

# Carregamos o dataset para prevalência doenças mentais
spark_mental = Spark.read.csv(
    'datasets/mental-illnesses-prevalence.csv',
    header = True,
    inferSchema = True
    )

spark_mental = spark_mental.filter(col('Year') <= 2016)

# Unimos os datasets com o mesmo critério (país, IUPAC, código)

spark_merged = spark_pop.join \
  (spark_obes, on = ['Entity','Code','Year'], how = 'inner').join \
  (spark_mental, on = ['Entity', 'Code','Year'], how = 'inner')

# Descomentar para ver o dataset
#spark_merged.show()

Spark.stop()

spark_end = time.time() # fim do contador spark

spark_elapsed = spark_end - spark_start # tempo de execução do contador spark

In [None]:
# spark_merged.write.format("csv").option("header", "true").mode("append").save('datasets/merged_spark.csv')
# não estou a conseguir salvar o ficheiro tratado com pyspark dá um erro estranho, relacionado com a diretoria,
# ja tentei com "append" e "overwrite", deve ser mesmo da diretoria

In [None]:
# Comparamos o tempo de computação para cada um dos modelos

print(f'Com pandas, demorou {round(pd_elapsed, 3)} segundos',
      f'Com spark, demorou {round(spark_elapsed, 3)} segundos',
      sep = '\n')

### Análise do pré-tratamento
Neste caso concreto percebemos que várias ferramentas têm comportamentos diferentes em função dos dados, o que é algo a ter em conta no contexto do que pretendemos fazer.

Numa próxima abordagem iremos perceber que em função do que podemos fazer há ferramentas/abordagens mais ou menos eficientes. Neste caso concreto, a utilização de Spark demonstrou-se como menos eficiente.

In [None]:
import pandas as pd

pd.read_csv('datasets/merged_pandas.csv')

Unnamed: 0,Entity,Code,Year,Population (historical estimates),"Indicator:Prevalence of obesity among adults, BMI &GreaterEqual; 30 (crude estimate) (%) - Sex:Both sexes",Schizophrenia disorders (share of population) - Sex: Both - Age: Age-standardized,Depressive disorders (share of population) - Sex: Both - Age: Age-standardized,Anxiety disorders (share of population) - Sex: Both - Age: Age-standardized,Bipolar disorders (share of population) - Sex: Both - Age: Age-standardized,Eating disorders (share of population) - Sex: Both - Age: Age-standardized
0,Afghanistan,AFG,1990,10694804,1.0,0.223206,4.996118,4.713314,0.703023,0.127700
1,Afghanistan,AFG,1991,10745168,1.1,0.222454,4.989290,4.702100,0.702069,0.123256
2,Afghanistan,AFG,1992,12057436,1.2,0.221751,4.981346,4.683743,0.700792,0.118844
3,Afghanistan,AFG,1993,14003764,1.2,0.220987,4.976958,4.673549,0.700087,0.115089
4,Afghanistan,AFG,1994,15455560,1.3,0.220183,4.977782,4.670810,0.699898,0.111815
...,...,...,...,...,...,...,...,...,...,...
5179,Zimbabwe,ZWE,2012,13265331,11.1,0.200552,3.360127,3.183051,0.538599,0.092329
5180,Zimbabwe,ZWE,2013,13555420,11.3,0.200720,3.381162,3.183019,0.538599,0.093430
5181,Zimbabwe,ZWE,2014,13855758,11.6,0.200902,3.399114,3.183361,0.538597,0.094608
5182,Zimbabwe,ZWE,2015,14154937,11.9,0.201042,3.407624,3.184012,0.538596,0.095652


## Escolha da base de dados


**Tarefa:**  
Ver nas bases de dados qual se adequa melhor ao nosso caso:  

- Cassandra
- Hadoop base
- MongoDB

**Características do nosso dataset:**  
- O dataset parece ser bem estruturado com um esquema fixo.  
- Tem um tamanho moderado com 5.185 entradas.  
- Inclui dados históricos e estatísticas de saúde, o que pode implicar em consultas analíticas e relatórios.

**Cassandra:**
É altamente escalável e projetado para lidar com grandes volumes de dados distribuídos por vários servidores.  
É otimizado para gravações rápidas e pode lidar com grandes volumes de dados com desempenho consistente.  
No entanto, pode não ser o ideal para consultas complexas ad-hoc, pois seu modelo de dados é otimizado para consultas conhecidas e repetitivas.  
  
**HBase:**
Também é projetado para escalabilidade horizontal e pode lidar com grandes volumes de dados.  
É otimizado para leituras e gravações aleatórias em grandes datasets.  
Suporta consultas em tempo real em Big Data, mas pode ser complexo de configurar e gerenciar.  
  
**MongoDB:**
É um banco de dados orientado a documentos, projetado para flexibilidade e escalabilidade.  
Suporta um esquema dinâmico, o que o torna uma boa escolha para dados que podem evoluir com o tempo.  
É conhecido por sua facilidade de uso, eficiência em consultas complexas e boas capacidades de agregação de dados.  
Tem um forte suporte para consultas ad-hoc, indexação e agregação de dados.


**Em resumo**, se a flexibilidade no schema dos dados, a facilidade de desenvolvimento, e análises complexas são importantes, MongoDB pode ser a melhor escolha. Se a escalabilidade e a distribuição geográfica são prioridades, consideremos o Cassandra. E se estamos a operar dentro de um ecossistema Hadoop e precisa de acesso rápido e em tempo real aos dados, HBase pode ser a opção mais adequada.


### **Optei pela base de dados no mongoDB**  # espero nao termos limitações por isto...  

Connect to BigData:
- Add a connection IP address:
    - Your current IP address (193.137.92.51) has been added to enable local connectivity. Acho que vou ter de fazer o setup disto fora da rede da Uminho que não me deixa aceder ao servidor criado... De qualquer forma a professora falou que podiamos colocar lá os ficheiros manualmente, erá só para termos uma noção... era top conseguir aceder aos datasets com código... trabalha-los e correr o código de analise e no fim fazer os saves relevantes e o artigo na base de dados again...

Create a database user:  
- Username : bigdata  
- pass : bioinfo24

In [2]:
# Isto foi para usar no google colab
#!pip install pymongo

Note: you may need to restart the kernel to use updated packages.


In [3]:
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

uri = "mongodb+srv://bigdata:bioinfo24@bigdata.l3at7tn.mongodb.net/?retryWrites=true&w=majority&appName=BigData"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

ac-cz5bks6-shard-00-01.l3at7tn.mongodb.net:27017: [WinError 10061] Nenhuma ligação pôde ser feita porque o computador de destino
as recusou ativamente (configured timeouts: socketTimeoutMS: 20000.0ms, connectTimeoutMS: 20000.0ms),ac-cz5bks6-shard-00-02.l3at7tn.mongodb.net:27017: [WinError 10061] Nenhuma ligação pôde ser feita porque o computador de destino
as recusou ativamente (configured timeouts: socketTimeoutMS: 20000.0ms, connectTimeoutMS: 20000.0ms),ac-cz5bks6-shard-00-00.l3at7tn.mongodb.net:27017: [WinError 10061] Nenhuma ligação pôde ser feita porque o computador de destino
as recusou ativamente (configured timeouts: socketTimeoutMS: 20000.0ms, connectTimeoutMS: 20000.0ms), Timeout: 30s, Topology Description: <TopologyDescription id: 660e64d831f27e967042dca8, topology_type: ReplicaSetNoPrimary, servers: [<ServerDescription ('ac-cz5bks6-shard-00-00.l3at7tn.mongodb.net', 27017) server_type: Unknown, rtt: None, error=AutoReconnect('ac-cz5bks6-shard-00-00.l3at7tn.mongodb.net:27017:

In [None]:
# Problema de conexão resolvido fazendo whitelist a todos os IPs
# Considerando o tipo de trabalho, não me parece necessário estar a focar em IPs específicos
# Sounds good? R: Very good

In [4]:
# Aceder à DB e colecção
db = client.get_database("BigData")
collection = db.get_collection("teste2")

In [5]:
# Teste da importação de dados
# NOTA QUE SÓ CORRI O SCRIPT COM OS FICHEIROS DO GOOGLE COLLAB PARA A COLLECTION TESTE
# Temos de rever e refazer para os dados que iremos usar

# TODO's:
# TODO criar novo dataset (com os dados da pobreza)
# TODO criar coleção que iremos usar
# TODO

import pandas as pd

# Read CSV file using pandas
csv_file = "/datasets/merged_pandas.csv"
data = pd.read_csv(csv_file)

# Convert DataFrame to dictionary
data_dict = data.to_dict(orient='records')

# Insert data into MongoDB collection
collection.insert_many(data_dict)

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/merged_pandas.csv'

In [29]:
# Close connection
client.close()

#### Connecting with MongoDB for VS Code

Quando perguntei como faríamos para aceder ou submeter ficheiros na BD em código, a professora respondeu que podíamos fazer isso manualmente e que não seria exigido por agora. No entanto, fui pesquisar, e aqui está:

Tive problemas ao testar, após aplicar a *connection string* (passo 3). Posso estar a fazer algo de errado no setup/criação da BD no Mongo ou pode ser apenas da conexão UMinho que não permite.

1. **Instalar MongoDB for VS Code**:  
    - No VS Code, abre "Extensions" na navegação à esquerda e procura por "MongoDB for VS Code". Seleciona a extensão e clica em instalar.

2. **No VS Code, abrir o Command Palette**:
    - Clica em "View" e abre "Command Palette".
    - Pesquisa por "MongoDB: Connect" no Command Palette e clica em "Connect with Connection String".

3. **Conectar ao seu deployment MongoDB**:
    - Cola a *connection string* no Command Palette:
    
    `mongodb+srv://**bigdata:bioinfo24**@bigdata.l3at7tn.mongodb.net/`

A senha para *bigdata* está incluída na *connection string* para a sua configuração inicial. Esta senha não estará disponível novamente após sair deste fluxo de conexão.

Clique em “Create New Playground” no MongoDB for VS Code para começar.

In [None]:
#troubleshoot?
import pymongo
from urllib.parse import quote_plus

username = quote_plus('<username>')
password = quote_plus('<password>')
cluster = '<clusterName>'
authSource = '<authSource>'
authMechanism = '<authMechanism>'

uri = 'mongodb+srv://' + username + ':' + password + '@' + cluster + '/?authSource=' + authSource + '&authMechanism=' + authMechanism

client = pymongo.MongoClient(uri)

result = client["<dbName"]["<collName>"].find()

# print results
for i in result:
    print(i)
