# HuGS-DW: Human GWAS-SNP Cross-Reference Data Warehouse
# Tecnologia de Processamento de dados 2019-2020 - Phase 3

#### Elias Barreira 40821, José Matos 49652, Miguel Casanova 24475, Telmo Silva 54013
#### Horas de contribuição: 15h por elemento

### 1. OLAP queries
### a. Check and revise the queries defined in Phase I. Ensure that the queries are meaningful for the processes at hand

As queries que propusemos na fase 1 do projecto, debruçam-se sobre questões relacionadas com filogenias e variabilidade genética humana. Mais precisamente, este data warehouse vai permitir uma abordagem analítica acerca de como variantes genéticas estão distribuídas de forma distinta entre diferentes populações humanas, ou mesmo, prever a predisposição de certas populações para determinadas doenças.

Este data warehouse pretende responder às necessidades de vários "processos de negócio", tais como:
- **Laboratórios de investigação** - servindo como uma ferramenta para análise da Variabilidade Genética Populacional;
- **Departamentos médicos de doenças genéticas** - providenciando uma ferramenta que permite estudar a associação entre doenças a variações genéticas;
- **Seguradoras e outras instituições de análise de background e risco** - este data warehouse permitirá a previsão da prevalência de certas variantes genéticas de risco, em diferentes populações humanas.

As queries propostas inicialmente foram:

1. Que populações têm uma maior frequência de variantes genéticas em genes vs regiões intergénicas e/ou reguladoras?
2.  Existe uma relação entre variabilidade genética e aspectos socioeconómicos e culturais das populações? (maior taxas de mutações, maior isolamento populacional?)
3. Em que populações uma determinada doença complexa tem maior probabilidade de ocorrer?
4. As variantes genéticas identificadas estão em que contexto genómico? Existe uma maior associação de doenças com genes ou com regiões não codificantes?
5. Em populações com igual frequência de alelos de risco para uma determinada doença, qual o impacto que aspectos socioeconómicos têm sobre a incidência da doença?

Na sua maioria, as queries formuladas inicialmente são muito relevantes e adequadas aos vários processos de negócio. Requerem porém alguma revisão, que se prende com os seguintes factos:

**- Como temos muitos dados, optámos por compromissos:**
- Inserimos apenas estudos em que se refere uma associação entre uma doença e um único SNP.
- Inserimos apenas os SNPs que aparecem associados aos estudos (e consequentemente, a uma doença).
- Reduzimos assim de 2 milhões de SNPs para alguns milhares.
- Para cada pessoa inserimos a informação sobre os SNPs referidos acima.
- Ao inserirmos alguns factos na SNP_Person_Fact, o snp_id virá necessariamente vazio (não foi criado o SNP).
- Inserimos dummy data quando necessário para poder executar as queries obtendo resultados.

**- A mudança da estrutura do DW, levou-nos a adaptar as nossas queries.**

**- Dificuldade na obtenção de informação acerca de doenças, nomeadamente na sua incidência em diferentes populações, mortalidade, etc. Isto levou-nos a deixar algumas queries de lado, tal como a query 5.**

Mesmo tendo em conta estes precalços, as queries mantiveram-se mais ou menos as mesmas, sem grande necessidade de alterações. Salienta-se apenas as seguintes mudanças:
1. A query 1 foi ligeiramente adaptada, para se focar no cálculdo das frequências de variantes genéticas em diferentes Populações, Países, géneros, etc. Esta mudança deveu-se essencialmente ao facto de termos julgado que a query original se sobrepunha à query 4.
2. A query 5 tornou-se inviável, essencialmente porque não obtivemos dados relativamente à incidência e mortalidade das doenças, por país e/ou população.

As restantes queries, por manterem a sua viabilidade e interesse para os processos de negócio definidos, mantiveram-se na mesma.

### b. For each query type identify dimensions, attributes and measures for each one 

### Query 1 - Quais as frequências de variantes genéticas em diferentes populações, Países, géneros?
Este tipo de queries vai orbitar à volta da tabela de factos snp_person_fact. Vai usar essencialmente dados de:
- **Dimensões:** SNP_dimension, Population_Dimension, Person_Dimension, Gender_Dimension
- **Atributos:** Usaremos vários atributos, nomeadamente, snp_key, snp_ref_code, context, gender_key, gender, population_key, population_description, super_population, country
- **Medidas:** A snp_person_fact table é uma factless table. Porém, usamos a informação das colunas allele_1 e allele_2, da snp_person_fact, para conseguir calcular a frequência de alelos de referência e alternativos.

### Query 2 - Existe uma relação entre variabilidade genética e aspectos socioeconómicos e culturais das populações? 

Estas queries vão centrar-se em torno da mesma estrutura de dados das queries anteriores, porém focando-se em aspectos demográficos vários. Assim, vai usar essencialmente:
- **Dimensões:** SNP_dimension, Population_Dimension, Person_Dimension, Gender_Dimension
- **Atributos:** Usaremos vários atributos, nomeadamente, snp_key, snp_ref_code, context, gender_key, gender, population_key, population_description, super_population, country e, principlamente, atributos demográficos como mortality_per_1000_habitants, gross_national_income e gross_national_income_group
- **Medidas:** A snp_person_fact table é uma factless table. Porém, usamos a informação das colunas allele_1 e allele_2, da snp_person_fact, para conseguir calcular a frequência de alelos de referência e alternativos.

### Query 3 - Em que populações uma determinada doença complexa tem maior probabilidade de ocorrer?

Este conjunto de queries marca os primeiros exercícios de drill-across diferentes tabelas de factos. Vai usar informação acerca da associação genética de certas variantes de risco com determinadas doenças (extraída da disease_gwas_fact table), para procurar informação acerca da variabilidade dessas variantes em diferentes populações (a partir da snp_person_fact table).

- **Dimensões:** Person_Dimension, Disease_Dimension, Population_Dimension
- **Atributos:** Os atributos usados serão, super_population, population_description, person_key, snp_id, disease_id, disease_name
- **Medidas:** Como nas queries anteriores, não temos medidadas aditivas associadas aos factos e que sejam relevantes para esta query. Porém, mais uma vez, a informação nas colunas allele_1 e allele_2, da snp_person_fact, vão permitir calcular a frequência de alelos de referência e alternativos em determinadas populações.

### Query 4 - As variantes genéticas identificadas estão em que contexto genómico? Existe uma maior associação de doenças com genes ou com regiões não codificantes?

Estas queries centram-se em torno das doenças e de SNPs de risco identificados em vários estudos (os factos da disease_gwas_fact table). Assim, usa-se essencialmente a informação contida em:
- **Dimensões:** Disease_Dimension, SNP_Dimension
- **Atributos:** Os atributos usados nestas queries são snp_ref_code, context e disease_name
- **Medidas:** Não se usam as medidas da tabela disease_gwas_fact. Usa-se o context (da SNP_Dimension), para agregar dados por tipo de localização genómica onde se encontrar variantes genéticas.

### Query 5 - Em populações com igual frequência de alelos de risco para uma determinada doença, qual o impacto que aspectos socioeconómicos têm sobre a incidência da doença?

Estas queries fariam o drill-across entre as tabelas de factos Disease_GWAS_fact e SNP_Person_fact, para explorar como os aspectos ambientais estão relacionados com a gravidade da doença em certas populações. Por não termos informações acerca da incidência das doenças em diferentes Países e/ou populações, estas queries não são possíveis. Se fossem possíveis, estas queries iriam necessitar dos seguintes dados:
- **Dimensões:** Disease_Dimension, Population_Dimension
- **Atributos:** Os atributos que seriam usados seriam population_key, snp_key, disease_key, population_description, life_expectancy_birth, gross_national_income. Para além destes, necessitariamos de dados acerca da incidência das doenças em grupos populacionais.
- **Medidas:** Estes queries não usariam medidas das tabelas de factos. Usariam a informação acerca da população, para calcular a frequência que as variantes genéticas de risco têm nestas populações. Poderíamos considerar usar a medida semi-aditiva da tabela Disease_GWAS_fact, para filtrar as associações genéticas identificadas entre SNPs e doenças, com maior probabilidade.

### c. Write the SQL queries and execute them. Make sure the results are understandable

- Comecemos por carregar as funcões que nos vão ajudar com os comandos SQL.

In [1]:
import psycopg2 as pg
import pandas as pd
import os

def pandafy(rows, colnames):
    N=len(colnames)
    D={cn: [] for cn in colnames}
    for row in rows:
        for i in range(N): D[colnames[i]].append(row[i])
    pdfy=pd.DataFrame(D)
    return pdfy

def excuteSingleSQLstatement(sql, host, database, user, password):
    conn = pg.connect(host=host,database=database, user=user, password=password)
    cur = conn.cursor()
    cur.execute(sql)
    cur.close()
    conn.commit()
    conn.close()    

def getSQLfromQuery(sql, params, host, database, user, password):
    conn = pg.connect(host=host, database=database, user=user, password=password)
    cur  = conn.cursor()    
    if len(params)==0:
        cur.execute(sql)
    else: 
        cur.execute(sql, params)
    data = cur.fetchall()
    colnames = [desc[0] for desc in cur.description]
    cur.close()
    conn.close()
    df=pandafy(data, colnames)
    return df

def excuteManySQLstatements(sql_list, host, database, user, password):
    conn = pg.connect(host=host,database=database, user=user, password=password)
    cur = conn.cursor()
    for sql in sql_list: cur.execute(sql)
    cur.close()
    conn.commit()
    conn.close()   

### Query 1 - Quais as frequências de variantes genéticas em diferentes populações, Países, géneros?
Elaboramos aqui um conjunto de queries que visam fazer a análise da frequência alélica dos vários SNPs, em determinados contextos (populacionais, países, géneros).

- **A query seguinte, vai calcular a percentagem de alelos de referência e alternativos nas várias sub-populações.**
- Esta query permite-nos ter uma noção da variabilidade genética encontrada em várias populações.

In [2]:
SQL = """
SELECT population_description, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
        (cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, population_dimension P
WHERE P.population_key = SP.population_id
GROUP BY population_description
ORDER BY alternative_frequency DESC
"""
df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,population_description,reference_frequency,alternative_frequency
0,"Luhya in Webuye, Kenya",0.986532,0.013468
1,African Caribbean in Barbados,0.989583,0.010417
2,Mende in Sierra Leone,0.990196,0.009804
3,"Yoruba in Ibadan, Nigeria",0.990741,0.009259
4,British in England and Scotland,0.990975,0.009025
5,Esan in Nigeria,0.991582,0.008418
6,African Ancestry in Southwest US,0.994536,0.005464
7,"Gambian in Western Division, The Gambia",0.995575,0.004425
8,Toscani in Italy,0.996885,0.003115
9,"Colombian in Medellin, Colombia",0.998227,0.001773


- **A query seguinte, vai calcular, por SNP e para cada Super-população e sub-população, as frequências do alelo de referência e do alelo alternativo.**

In [3]:
# As we mentioned above, we had to introduce some changes in the snp_person_fact table.
# As the snp_id was missing (for the reasons already explained above), we manually added the snp_id.
SQL = """
    alter table snp_person_fact add id serial;
    update snp_person_fact
    set snp_id = 1
    where id <= 2504; 
    update snp_person_fact
    set snp_id = 2
    where id > 2504 and id <= 5008;
    update snp_person_fact
    set snp_id = 3
    where id > 5008 and id <= 7512;
    ALTER TABLE snp_person_fact 
    DROP COLUMN id;
    """
#excuteSingleSQLstatement(SQL,host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

In [4]:
SQL = """
SELECT *
FROM snp_person_fact
"""
df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,gender_id,population_id,snp_id,person_id,chromossome_id,allele_1,allele_2
0,13,18,1053,1,19,1,0
1,13,18,1053,2502,19,1,1
2,13,18,1053,2503,19,1,0
3,13,18,1053,2504,19,0,1
4,13,19,4179,56,19,0,0
...,...,...,...,...,...,...,...
7515,34,7,3,2500,19,0,0
7516,34,7,3,2501,19,0,0
7517,34,7,3,2502,19,0,0
7518,34,7,3,2503,19,0,0


In [5]:
SQL = """
SELECT snp_ref_code, super_population, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
		(cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, population_dimension P, snp_dim S
WHERE P.population_key = SP.population_id AND S.snp_id=SP.snp_id
GROUP BY super_population, snp_ref_code
ORDER BY snp_ref_code
"""
df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,snp_ref_code,super_population,reference_frequency,alternative_frequency
0,rs1003531,African,1.0,0.0
1,rs1003531,American,0.998559,0.001441
2,rs1003531,East Asian,1.0,0.0
3,rs1003531,European,1.0,0.0
4,rs1003531,South Asian,0.998978,0.001022
5,rs10038,African,0.982602,0.017398
6,rs10038,American,0.998559,0.001441
7,rs10038,East Asian,1.0,0.0
8,rs10038,European,1.0,0.0
9,rs10038,South Asian,1.0,0.0


- Vamos organizar um pouco a maneira como visualizamos o resultado da query

In [6]:
pivDf = df.pivot(index='snp_ref_code', columns='super_population', values=['reference_frequency', 'alternative_frequency'])
pivDf = pivDf.stack()
pivDf

Unnamed: 0_level_0,Unnamed: 1_level_0,reference_frequency,alternative_frequency
snp_ref_code,super_population,Unnamed: 2_level_1,Unnamed: 3_level_1
rs1003531,African,1.0,0.0
rs1003531,American,0.998559,0.001441
rs1003531,East Asian,1.0,0.0
rs1003531,European,1.0,0.0
rs1003531,South Asian,0.998978,0.001022
rs10038,African,0.982602,0.017398
rs10038,American,0.998559,0.001441
rs10038,East Asian,1.0,0.0
rs10038,European,1.0,0.0
rs10038,South Asian,1.0,0.0


- **A query seguinte, vai calcular, por SNP e para cada Super-população e sub-população, as frequências do alelo de referência e do alelo alternativo.**

In [7]:
SQL = """
SELECT snp_ref_code, super_population, population_description, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
		(cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, population_dimension P, snp_dim S
WHERE P.population_key = SP.population_id AND S.snp_id=SP.snp_id
GROUP BY super_population, population_description, snp_ref_code
ORDER BY snp_ref_code
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df
#with pd.option_context('display.max_rows', None, 'display.max_columns', None):  
#    display(df)

Unnamed: 0,snp_ref_code,super_population,population_description,reference_frequency,alternative_frequency
0,rs1003531,African,African Ancestry in Southwest US,1.000,0.000
1,rs1003531,African,African Caribbean in Barbados,1.000,0.000
2,rs1003531,African,Esan in Nigeria,1.000,0.000
3,rs1003531,African,"Gambian in Western Division, The Gambia",1.000,0.000
4,rs1003531,African,"Luhya in Webuye, Kenya",1.000,0.000
...,...,...,...,...,...
76,rs1004246,South Asian,"Punjabi in Lahore,Pakistan",1.000,0.000
77,rs1004246,South Asian,Sri Lankan Tamil in the UK,1.000,0.000
78,rs117710327,European,British in England and Scotland,0.375,0.625
79,rs4808075,European,Finnish in Finland,1.000,0.000


- **A query seguinte, vai calcular, por SNP, País e sub-população, as frequências do alelo de referência e do alelo alternativo.**

In [8]:
SQL = """
SELECT snp_ref_code, country, population_description, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
		(cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, person_dimension P, snp_dim S
WHERE P.person_key = SP.person_id AND S.snp_id=SP.snp_id
GROUP BY country, population_description, snp_ref_code
ORDER BY snp_ref_code
"""
df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

#with pd.option_context('display.max_rows', None, 'display.max_columns', None):  
#    display(df)

Unnamed: 0,snp_ref_code,country,population_description,reference_frequency,alternative_frequency
0,rs1003531,Bangladesh,Bengali in Bangladesh,1.000000,0.000000
1,rs1003531,Barbados,African Caribbean in Barbados,1.000000,0.000000
2,rs1003531,China,"Chinese Dai in Xishuangbanna, China",1.000000,0.000000
3,rs1003531,China,"Han Chinese in Beijing, China",1.000000,0.000000
4,rs1003531,China,"Southern Han Chinese, China",1.000000,0.000000
...,...,...,...,...,...
77,rs1004246,Vietnam,"Kinh in Ho Chi Minh City, Vietnam",1.000000,0.000000
78,rs117710327,United Kingdom,British in England and Scotland,0.500000,0.500000
79,rs117710327,United States of America,"Gujarati Indian in Houston,TX",0.333333,0.666667
80,rs4808075,Bangladesh,Bengali in Bangladesh,1.000000,0.000000


- **A query seguinte vai calcular as frequências alélicas de um SNP, por género**

In [9]:
SQL = """
SELECT snp_ref_code, gender, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
		(cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, gender_dimension G, snp_dim S
WHERE G.gender_key = SP.gender_id AND S.snp_id=SP.snp_id
GROUP BY snp_ref_code, gender
"""
df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,snp_ref_code,gender,reference_frequency,alternative_frequency
0,rs1003531,female,1.0,0.0
1,rs1003531,male,0.999189,0.000811
2,rs10038,female,0.994493,0.005507
3,rs10038,male,0.995945,0.004055
4,rs1004246,female,0.996853,0.003147
5,rs1004246,male,0.997161,0.002839
6,rs117710327,male,0.375,0.625
7,rs4808075,male,1.0,0.0


### Query 2 - Existe uma relação entre variabilidade genética e aspectos socioeconómicos e culturais das populações? (maior taxas de mutações, maior isolamento populacional?)
Com este tipo de queries, pretendemos determinar se aspectos socioeconómicos e culturais das populações, podem traduzir-se numa maior ou menos variabilidade genética.

- **A query seguinte, vai calcular para cada SNP e para cada país, as frequências alélicas encontradas. Associa esta informação ao produto interno bruto de cada País.**

In [10]:
SQL = """
SELECT snp_ref_code, PD.country, gross_national_income, gross_national_income_group,  (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
		(cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, snp_dim S, population_dimension PD
WHERE  S.snp_id=SP.snp_id AND PD.population_key = SP.population_id
GROUP BY snp_ref_code, gross_national_income, gross_national_income_group, PD.country
ORDER BY snp_ref_code, Alternative_frequency DESC
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,snp_ref_code,country,gross_national_income,gross_national_income_group,reference_frequency,alternative_frequency
0,rs1003531,Colombia,7330,4k - 14k,0.994681,0.005319
1,rs1003531,United Kingdom,44280,Above 14k,0.998305,0.001695
2,rs1003531,Bangladesh,1220,1k - 4k,1.0,0.0
3,rs1003531,Kenya,1290,1k - 4k,1.0,0.0
4,rs1003531,Pakistan,1360,1k - 4k,1.0,0.0
5,rs1003531,Vietnam,1970,1k - 4k,1.0,0.0
6,rs1003531,Nigeria,2880,1k - 4k,1.0,0.0
7,rs1003531,Peru,6340,4k - 14k,1.0,0.0
8,rs1003531,China,7910,4k - 14k,1.0,0.0
9,rs1003531,Barbados,15270,Above 14k,1.0,0.0


- **A query seguinte, vai calcular para cada SNP e para cada país, as frequências alélicas encontradas para cada género. Associa esta informação à taxa de mortalidade no País (dividida por género).**

In [11]:
SQL = """
SELECT  snp_ref_code, PD.country, gender,  mortality_per_1000_habitants, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
		(cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, gender_dimension G, snp_dim S, population_dimension PD
WHERE G.gender_key = SP.gender_id AND S.snp_id=SP.snp_id AND PD.population_key = SP.population_id
GROUP BY snp_ref_code, gender, gross_national_income, PD.country, mortality_per_1000_habitants
ORDER BY snp_ref_code, country

"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df
with pd.option_context('display.max_rows', None, 'display.max_columns', None): 
    display(df)

Unnamed: 0,snp_ref_code,country,gender,mortality_per_1000_habitants,reference_frequency,alternative_frequency
0,rs1003531,Bangladesh,female,109.47,1.0,0.0
1,rs1003531,Bangladesh,male,150.04,1.0,0.0
2,rs1003531,Barbados,female,74.17,1.0,0.0
3,rs1003531,Barbados,male,124.02,1.0,0.0
4,rs1003531,China,female,64.48,1.0,0.0
5,rs1003531,China,male,100.07,1.0,0.0
6,rs1003531,Colombia,female,89.3,1.0,0.0
7,rs1003531,Colombia,male,190.84,0.988372,0.011628
8,rs1003531,Finland,female,43.46,1.0,0.0
9,rs1003531,Finland,male,94.25,1.0,0.0


### Query 3: Em que populações uma determinada doença complexa tem maior probabilidade de ocorrer?

Com estas queries, pretendemos determinar quais populações vão ter uma maior frequência de variantes genéticas, associadas a determinadas doenças.

- Neste caso, vamos usar asma para testar a nossa query. É uma doença interessante para testar, pois está associada a mais do que um SNP de risco. 
- Para testar a doença, inserimos "dummy data" na snp_person_fact, para o SNP 1053 e três indívíduos.

In [12]:
# Comando SQL para inserir dados fictícios.
SQL = """
    insert into snp_person_fact values (13,18,1053,1,19,1,0);
    insert into snp_person_fact values (13,18,1053,2502,19,1,1);
    insert into snp_person_fact values (13,18,1053,2503,19,1,0); 
    insert into snp_person_fact values (13,18,1053,2504,19,0,1);
    """
#!!!!!!!! comentar esta proxima linha para evitar dados repetidos em nova execucao
#excuteSingleSQLstatement(SQL, host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes") 

- **A query seguinte vai calcular a frequência absoluta de um SNP de risco associado a uma determinada doença, em indíviduos de determinadas sub-populações**

In [13]:
complex_disease = 'asthma'

SQL = """
SELECT super_population, population_description, count(population_description) AS abs_freq 
FROM person_dimension PD 
WHERE person_key in (
  SELECT person_id 
  FROM snp_person_fact SP
  WHERE snp_id in (
    SELECT snp_id 
    FROM disease_gwas_fact DG
    WHERE disease_id in (
      SELECT disease_key 
      FROM disease_dimension D
      WHERE disease_name like %s
	  )
    )
    AND (SP.allele_1 = 1 or SP.allele_2 = 1)
)
GROUP BY super_population, population_description 
ORDER BY abs_freq desc
"""

df1  = getSQLfromQuery(SQL, (complex_disease,), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df1

Unnamed: 0,super_population,population_description,abs_freq
0,South Asian,"Gujarati Indian in Houston,TX",3
1,European,British in England and Scotland,1


- **A query seguinte vai calcular a frequência absoluta e relativas de um SNP de risco associado a uma determinada doença, em todos os indíviduos de uma determinada sub-população**

In [14]:
SQL = """
SELECT count(*) 
FROM person_dimension 
WHERE population_description = %s
"""

result_array = []
for p in df1['population_description']:
    df2 = getSQLfromQuery(SQL, (p,), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
    result_array.append(df2['count'][0])
    
#for pop in df['population_description']:
#    print(pop)

In [15]:
df1['count'] = result_array
df1['freq'] = df1['abs_freq'] / df1['count']
df1

Unnamed: 0,super_population,population_description,abs_freq,count,freq
0,South Asian,"Gujarati Indian in Houston,TX",3,103,0.029126
1,European,British in England and Scotland,1,91,0.010989


### Query 4 - As variantes genéticas identificadas estão em que contexto genómico? Existe uma maior associação de doenças com genes ou com regiões não codificantes?
Nestas queries, procuramos entender o contexto genómico em que variantes genéticas associadas com doenças, se encontram.

Comecemos por analisar em que contexto genómico se encontram os vários SNPs.

In [16]:
SQL ="""
SELECT context 
FROM snp_dim 
GROUP BY context 
ORDER BY context
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,context
0,3_prime_UTR_variant
1,5_prime_UTR_variant
2,intergenic_variant
3,intron_variant
4,missense_variant
5,non_coding_transcript_exon_variant
6,regulatory_region_variant
7,splice_donor_variant
8,splice_region_variant
9,stop_gained


- **Comecemos por fazer uma query para saber, por doença, qual o SNP de risco que lhe está associado e em que contexto genómico se encontra**

In [17]:
SQL ="""
SELECT disease_name, snp_ref_code, context 
FROM disease_dimension D , snp_dim S, disease_gwas_fact DF
WHERE DF.disease_id = D.disease_key  and S.snp_id = DF.snp_id
GROUP BY disease_name, snp_ref_code, context 
ORDER BY disease_name
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,disease_name,snp_ref_code,context
0,abdominal aortic aneurysm,rs6511720,intron_variant
1,Aggressive periodontitis,rs4284742,intron_variant
2,allergic rhinitis,rs11671925,TF_binding_site_variant
3,allergic rhinitis,rs12973620,intron_variant
4,alopecia areata,rs17834679,intron_variant
...,...,...,...
379,urolithiasis,rs74956940,intron_variant
380,varicose veins,rs584768,intergenic_variant
381,vitiligo,rs2304206,5_prime_UTR_variant
382,vitiligo,rs4807000,regulatory_region_variant


### Vamos agrupar as nossas variantes genéticas desta forma:
#### non_coding:
- 3_prime_UTR_variant
- 5_prime_UTR_variant
- intergenic_variant
- intron_variant
- non_coding_transcript_exon_variant
- regulatory_region_variant
- TF_binding_site_variant

#### coding:
- missense_variant
- splice_donor_variant
- splice_region_variant
- stop_gained
- synonymous_variant

#### Existe uma maior associação de doenças com genes ou com regiões não codificantes?

- **As próximas queries dão-nos uma lista de SNPs associadas às doenças no nosso DW, e a localização genómica desses SNPs**
- Lista de doenças e SNPs de risco, em contextos "non-coding"

In [18]:
SQL ="""
SELECT disease_name, snp_ref_code, context AS non_coding_context
FROM disease_dimension D , snp_dim S, disease_gwas_fact DF
WHERE DF.disease_id = D.disease_key  and S.snp_id = DF.snp_id AND 
(context like '3_prime_UTR_variant' or context like '5_prime_UTR_variant' or context like 'intergenic_variant' or context like 'intron_variant' or context like 'non_coding_transcript_exon_variant' or context like 'regulatory_region_variant' or context like 'TF_binding_site_variant') 
GROUP BY disease_name, snp_ref_code, context 
ORDER BY disease_name
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,disease_name,snp_ref_code,non_coding_context
0,abdominal aortic aneurysm,rs6511720,intron_variant
1,Aggressive periodontitis,rs4284742,intron_variant
2,allergic rhinitis,rs11671925,TF_binding_site_variant
3,allergic rhinitis,rs12973620,intron_variant
4,alopecia areata,rs17834679,intron_variant
...,...,...,...
317,urolithiasis,rs74956940,intron_variant
318,varicose veins,rs584768,intergenic_variant
319,vitiligo,rs2304206,5_prime_UTR_variant
320,vitiligo,rs4807000,regulatory_region_variant


- Lista de doenças e SNPs de risco, em contextos "coding"

In [19]:
SQL ="""
SELECT disease_name, snp_ref_code, context AS coding_context
FROM disease_dimension D , snp_dim S, disease_gwas_fact DF
WHERE DF.disease_id = D.disease_key  and S.snp_id = DF.snp_id AND 
(context like 'missense_variant' or context like 'splice_donor_variant' or context like 'splice_region_variant' or context like 'stop_gained' or context like 'synonymous_variant') 
GROUP BY disease_name, snp_ref_code, context 
ORDER BY disease_name
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,disease_name,snp_ref_code,coding_context
0,Alzheimer's disease,rs283814,synonymous_variant
1,Alzheimer's disease,rs429358,missense_variant
2,Alzheimer's disease,rs7412,missense_variant
3,bipolar disorder,rs7250872,missense_variant
4,breast cancer,rs2363956,missense_variant
...,...,...,...
57,tuberculosis,rs1434579,stop_gained
58,type 1 diabetes mellitus 7,rs12720356,missense_variant
59,type 1 diabetes mellitus 7,rs2304256,missense_variant
60,type 1 diabetes mellitus 7,rs34536443,missense_variant


- **A próxima query dá-nos a frequência com que variações genéticas de risco, associadas a doenças, ocorrem em contexto "non-coding" e "coding"**

In [20]:
SQL ="""
SELECT cast(count(case when context like '3_prime_UTR_variant' or context like '5_prime_UTR_variant' or context like 'intergenic_variant' or context like 'intron_variant' or context like 'non_coding_transcript_exon_variant' or context like 'regulatory_region_variant' or context like 'TF_binding_site_variant' then 1 else null end)AS float)/count(context) AS non_coding, 
       cast(count(case when context like 'missense_variant' or context like 'splice_donor_variant' or context like 'splice_region_variant' or context like 'stop_gained' or context like 'synonymous_variant' then 1 else null end)AS float)/count(context) AS coding
FROM disease_dimension D , snp_dim S, disease_gwas_fact DF
WHERE DF.disease_id = D.disease_key  and S.snp_id = DF.snp_id
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,non_coding,coding
0,0.838346,0.161654


- **Finalmente, vamos calcular o número de vezes e a frequência, que uma determinada variante genética de risco, se encontra num context genómico particular**

In [21]:
SQL ="""
WITH myquery AS (
SELECT disease_name, snp_ref_code, context 
FROM disease_dimension D , snp_dim S, disease_gwas_fact DF
WHERE DF.disease_id = D.disease_key  and S.snp_id = DF.snp_id
GROUP BY disease_name, snp_ref_code, context 
ORDER BY disease_name
)

SELECT context, count(context), count(context)/(select count(*) from myquery)::float AS frequency 
FROM myquery 
GROUP BY context
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,context,count,frequency
0,intron_variant,207,0.539062
1,5_prime_UTR_variant,2,0.005208
2,splice_region_variant,5,0.013021
3,non_coding_transcript_exon_variant,16,0.041667
4,regulatory_region_variant,29,0.075521
5,TF_binding_site_variant,5,0.013021
6,synonymous_variant,9,0.023438
7,intergenic_variant,49,0.127604
8,3_prime_UTR_variant,14,0.036458
9,missense_variant,46,0.119792


### Query 5 - Em populações com igual frequência de alelos de risco para uma determinada doença, qual o impacto que aspectos socioeconómicos têm sobre a incidência da doença?
Com estas queries, pretendiamos analisar como o contexto demográfico influencia a taxa de incidência de uma determinada doença. Por outras palavras, saber qual o peso do "ambiente" na manifestação de doenças.
Infelizmente, não conseguimos obter os dados para a prevalência/incidência das doenças em diferentes populações. Por essa razão, esta query tornou-se inviável.

Vamos de qualquer modo discutir, brevemente, o procedimento que teríamos seguido para elaborar esta query.

- Comecemos por inserir factos ficticios para garantirmos que a query poderia funcionar. 

In [22]:
SQL = """
insert into snp_person_fact values (13,19,4179,56,19,0,0);
insert into snp_person_fact values (13,19,4179,57,19,0,0);
insert into snp_person_fact values (13,6,4179,1347,19,0,0);
insert into snp_person_fact values (13,6,4179,1348,19,0,0);
"""
#!!!!!!!! comentar esta proxima linha para evitar dados repetidos em nova execucao
# excuteSingleSQLstatement(SQL, host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes") 

- A query seguinte dá-nos a frequência absoluta por população.
- De seguida, escolheríamos entre os resultados, quais as populações com a mesma frequência absoluta dos alelos de risco.

In [23]:
test_disease = 'cancer'

SQL = """
SELECT population_id, count(population_id) 
FROM snp_person_fact 
WHERE snp_id IN  (
  SELECT snp_id 
  FROM disease_gwas_fact 
  WHERE disease_id IN (
    SELECT disease_key 
    FROM disease_dimension 
    WHERE disease_name = %s
  )
)
GROUP BY population_id
"""

df1  = getSQLfromQuery(SQL, (test_disease,), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df1

Unnamed: 0,population_id,count
0,6,2
1,19,2


- Descobertas as populações com as mesmas frequências aproximadas da doença, agora teríamos de comparar os factores económicos com a taxa de prevalência/incidência da doença (dados que não conseguimos obter).
- Na tabela produzida por esta query, seria necessário ter também a prevalência da doença em ambas as populacoes para compararmos com factores sócio económicos.

In [24]:
test_disease = 'cancer'

SQL = """
SELECT PD.population_key, PD.population_description, s1.abs_freq, PD.life_expectancy_birth, PD.gross_national_income 
FROM population_dimension PD
INNER JOIN(
  SELECT population_id, count(population_id) AS abs_freq 
  FROM snp_person_fact 
  WHERE snp_id in  (
    SELECT snp_id 
    FROM disease_gwas_fact 
    WHERE disease_id in (
      SELECT disease_key 
      FROM disease_dimension 
      WHERE disease_name = %s
    )
  )
  GROUP BY population_id
) AS s1 ON s1.population_id = PD.population_key
WHERE PD.population_key IN (6,19)
"""


df1  = getSQLfromQuery(SQL, (test_disease,), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df1

Unnamed: 0,population_key,population_description,abs_freq,life_expectancy_birth,gross_national_income
0,6,Bengali in Bangladesh,2,71.51,1220
1,19,Finnish in Finland,2,81.48,47160


## 2. Bottlenecks
### a. Identify the most important bottlenecks and execute performance analysis

- Os bottlenecks mais importantes no HuGS-DW, vão estar relacionados com queries que tenham quer percorrer as tabelas de factos e algumas das dimensões, como a SNP_dimension. A dimensão destas tabelas, tornarão queries que tenham que atravessar as tabelas e agregar dados dentro dela, em operações que podem ser muito lentas. 

Vamos por isso, a título de exemplo, executar alguns `EXPLAIN ANALYZE` a algumas das nossas queries.

#### Grupo de queries 1
- **Query que calcula a percentagem de alelos de referência e alternativos nas várias sub-populações.**

In [25]:
SQL = """
EXPLAIN ANALYZE 
SELECT population_description, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
        (cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, population_dimension P
WHERE P.population_key = SP.population_id
GROUP BY population_description
ORDER BY alternative_frequency DESC
"""
df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,QUERY PLAN
0,Sort (cost=547.56..547.66 rows=40 width=282) ...
1,Sort Key: ((((count(CASE WHEN (sp.allele_1 =...
2,Sort Method: quicksort Memory: 27kB
3,-> HashAggregate (cost=544.90..546.50 rows...
4,-> Hash Join (cost=10.90..300.50 row...
5,Hash Cond: (sp.population_id = p...
6,-> Seq Scan on snp_person_fact ...
7,-> Hash (cost=10.40..10.40 row...
8,Buckets: 1024 Batches: 1 ...
9,-> Seq Scan on population...


In [26]:
%timeit getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

73 ms ± 2.95 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


- **Query que calcula, por SNP e para cada Super-população e sub-população, as frequências do alelo de referência e do alelo alternativo.**

In [27]:
SQL = """
EXPLAIN ANALYZE 
SELECT snp_ref_code, super_population, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
		(cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, population_dimension P, snp_dim S
WHERE P.population_key = SP.population_id AND S.snp_id=SP.snp_id
GROUP BY super_population, snp_ref_code
ORDER BY snp_ref_code
"""
df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,QUERY PLAN
0,GroupAggregate (cost=2410.80..2993.60 rows=75...
1,-> Sort (cost=2410.80..2429.60 rows=7520 w...
2,"Sort Key: s.snp_ref_code, p.super_popu..."
3,Sort Method: quicksort Memory: 780kB
4,-> Hash Join (cost=681.26..897.64 ro...
5,Hash Cond: (sp.population_id = p...
6,-> Merge Join (cost=670.36..78...
7,Merge Cond: (s.snp_id = sp...
8,-> Index Scan using snp_d...
9,-> Sort (cost=670.36..68...


In [28]:
%timeit getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

118 ms ± 8.28 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


- **Query que calcula, por SNP, País e sub-população, as frequências do alelo de referência e do alelo alternativo.**

In [29]:
SQL = """
EXPLAIN ANALYZE 
SELECT snp_ref_code, country, population_description, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
		(cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, person_dimension P, snp_dim S
WHERE P.person_key = SP.person_id AND S.snp_id=SP.snp_id
GROUP BY country, population_description, snp_ref_code
ORDER BY snp_ref_code
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,QUERY PLAN
0,GroupAggregate (cost=1470.90..2071.78 rows=75...
1,-> Sort (cost=1470.90..1489.68 rows=7511 w...
2,"Sort Key: s.snp_ref_code, p.country, p..."
3,Sort Method: external sort Disk: 512kB
4,-> Hash Join (cost=761.70..987.39 ro...
5,Hash Cond: (sp.person_id = p.per...
6,-> Merge Join (cost=670.36..78...
7,Merge Cond: (s.snp_id = sp...
8,-> Index Scan using snp_d...
9,-> Sort (cost=670.36..68...


In [30]:
%timeit getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

335 ms ± 32.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


#### Grupo de queries 2
- **Query que calcula para cada SNP e para cada país, as frequências alélicas encontradas para cada género. Associa esta informação à taxa de mortalidade no País (dividida por género).**

In [31]:
SQL = """
EXPLAIN ANALYZE SELECT  snp_ref_code, PD.country, gender,  mortality_per_1000_habitants, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
		(cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, gender_dimension G, snp_dim S, population_dimension PD
WHERE G.gender_key = SP.gender_id AND S.snp_id=SP.snp_id AND PD.population_key = SP.population_id
GROUP BY snp_ref_code, gender, gross_national_income, PD.country, mortality_per_1000_habitants
ORDER BY snp_ref_code, country
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,QUERY PLAN
0,GroupAggregate (cost=2568.51..3207.71 rows=75...
1,-> Sort (cost=2568.51..2587.31 rows=7520 w...
2,"Sort Key: s.snp_ref_code, pd.country, ..."
3,Sort Method: quicksort Memory: 1009kB
4,-> Hash Join (cost=683.07..1002.85 r...
5,Hash Cond: (sp.population_id = p...
6,-> Hash Join (cost=672.17..888...
7,Hash Cond: (sp.gender_id =...
8,-> Merge Join (cost=670....
9,Merge Cond: (s.snp_i...


In [32]:
%timeit getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

157 ms ± 8.02 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### Grupo de queries 3
- **Query que calcula a frequência absoluta de um SNP de risco associado a uma determinada doença, em indíviduos de determinadas sub-populações.**

In [33]:
complex_disease = 'asthma'

SQL = """
EXPLAIN ANALYZE 
SELECT super_population, population_description, count(population_description) AS abs_freq 
FROM person_dimension PD 
WHERE person_key in (
  SELECT person_id 
  FROM snp_person_fact SP
  WHERE snp_id in (
    SELECT snp_id 
    FROM disease_gwas_fact DG
    WHERE disease_id in (
      SELECT disease_key 
      FROM disease_dimension D
      WHERE disease_name like %s
	  )
    )
    AND (SP.allele_1 = 1 or SP.allele_2 = 1)
)
GROUP BY super_population, population_description 
ORDER BY abs_freq desc
"""

df1  = getSQLfromQuery(SQL, (complex_disease,), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df1

Unnamed: 0,QUERY PLAN
0,Sort (cost=787.50..787.60 rows=41 width=37) (...
1,Sort Key: (count(pd.population_description))
2,Sort Method: quicksort Memory: 25kB
3,-> HashAggregate (cost=785.99..786.40 rows...
4,-> Nested Loop (cost=733.82..785.69 ...
5,-> HashAggregate (cost=733.82....
6,-> Nested Loop Semi Join ...
7,Join Filter: (sp.snp...
8,Rows Removed by Join...
9,-> Seq Scan on snp_...


In [34]:
%timeit getSQLfromQuery(SQL, (complex_disease,), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

69.5 ms ± 1.91 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### Grupo de queries 4
- **Query que calcula a frequência com que variações genéticas de risco, associadas a doenças, ocorrem em contexto "non-coding" e "coding".**

In [35]:
SQL ="""
EXPLAIN ANALYZE 
SELECT cast(count(case when context like '3_prime_UTR_variant' or context like '5_prime_UTR_variant' or context like 'intergenic_variant' or context like 'intron_variant' or context like 'non_coding_transcript_exon_variant' or context like 'regulatory_region_variant' or context like 'TF_binding_site_variant' then 1 else null end)AS float)/count(context) AS non_coding, 
       cast(count(case when context like 'missense_variant' or context like 'splice_donor_variant' or context like 'splice_region_variant' or context like 'stop_gained' or context like 'synonymous_variant' then 1 else null end)AS float)/count(context) AS coding
FROM disease_dimension D , snp_dim S, disease_gwas_fact DF
WHERE DF.disease_id = D.disease_key  and S.snp_id = DF.snp_id
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,QUERY PLAN
0,Aggregate (cost=1185.55..1185.58 rows=1 width...
1,-> Hash Join (cost=1131.68..1164.27 rows=5...
2,Hash Cond: (df.snp_id = s.snp_id)
3,-> Hash Join (cost=590.14..612.10 ro...
4,Hash Cond: (df.disease_id = d.di...
5,-> Seq Scan on disease_gwas_fac...
6,-> Hash (cost=471.73..471.73 r...
7,Buckets: 1024 Batches: 1 ...
8,-> Seq Scan on disease_di...
9,-> Hash (cost=459.57..459.57 rows=65...


In [36]:
%timeit getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

77.3 ms ± 1.08 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### Sem grandes surpresas, as queries mais longas são as que utilizam a tabela snp_person_fact. Se considerarmos que esta tabela tem apenas uma fracção dos dados originais, facilmente conseguimos perceber como poderia dificultar o uso do DW para várias queries analíticas. 

### b. Propose a plan for improving performance and implement it NOTE, if for improving performance, the existing database schema is to be changed, just describe the proposed changes – do NOT implement it!

- Para aumentarmos a performance do nosso datawarehouse, poderíamos introduzir várias estratégias, como um planeamento eficaz de um desenho físico do sistema, o uso de índices, ou vistas materializadas.

#### b.1 - Implementação de índices
- O uso de índices permite um acesso eficaz a dados importantes. Os índices, não são mais que apontadares que o database management system pode usar para aumentar a velocidade de acesso aos dados.
- No postgresql, os índices utilizados por defeito são B+ Tree indexes.
- Vamos então tentar implementar estes indíces a alguns dos atributos das tabelas de factos e das dimensões de maior tamanho (SNP_Dimension e Disease_Dimension).

In [37]:
SQL = '''
DROP INDEX IF EXISTS idx_SPF_person;
DROP INDEX IF EXISTS idx_P_person;
DROP INDEX IF EXISTS idx_SPF_snp;
DROP INDEX IF EXISTS idx_S_snp;
DROP INDEX IF EXISTS idx_DGF_disease;
DROP INDEX IF EXISTS idx_D_disease;
DROP INDEX IF EXISTS idx_DGF_snp;
DROP INDEX IF EXISTS idx_DGF_study;
DROP INDEX IF EXISTS idx_St_study;
DROP INDEX IF EXISTS idx_snp_snp;
DROP INDEX IF EXISTS idx_disease_name;

'''
#!!!!!!!! comentar esta proxima linha para evitar dados repetidos em nova execucao
#excuteSingleSQLstatement(SQL, host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes") 

In [38]:
SQL = """
CREATE INDEX idx_SPF_person ON snp_person_fact(person_id);
CREATE INDEX idx_P_person ON person_dimension(person_key);
CREATE INDEX idx_SPF_snp ON snp_person_fact(snp_id);
CREATE INDEX idx_S_snp ON snp_dim(snp_id);
CREATE INDEX idx_DGF_disease ON disease_gwas_fact(disease_id);
CREATE INDEX idx_D_disease ON disease_dimension(disease_key);
CREATE INDEX idx_DGF_snp ON disease_gwas_fact(snp_id);
CREATE INDEX idx_DGF_study ON disease_gwas_fact(study_id);
CREATE INDEX idx_St_study ON study_dim(study_id);
CREATE INDEX idx_snp_snp ON snp_dim(snp_ref_code);
CREATE INDEX idx_disease_name ON disease_dimension(disease_name);
"""
#!!!!!!!! comentar esta proxima linha para evitar dados repetidos em nova execucao
#excuteSingleSQLstatement(SQL, host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes") 

#### b.2 - Uso de vistas materializadas
- Em data warehouses, vistas materializadas podem ser usadas para pre-calcular e armazenar dados agregados. Normalmente, armazenam dados sumarizados. Podem também ser usados para pre-calcular joins de tabelas, com ou sem agregações. 
- Em suma, as vistas materializadas são usadas para aumentar a eficiência de joins ou agregações complicadas, para queries grandes ou importantes.
- Infelizmente, a versão dos postgreSQL a correr nos servidores da FCUL, não permite a criação de vistas materializadas. De qualquer modo, a título académico, colocamos em baixo o código para a criação de vistas que consideramos importantes.

- **Vista com dados acerca de variabilidade genética das diferentes populações, pré-calculada.**

In [None]:
SQL  = """
CREATE /*MATERIALIZED*/ VIEW MV_freq_allele_population AS
SELECT P.population_description, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
        (cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, population_dimension P
WHERE P.population_key = SP.population_id
GROUP BY population_description
ORDER BY alternative_frequency DESC
"""

excuteSingleSQLstatement(SQL, host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

- **Vista com frequências alélicas de cada SNP, em diferentes super-populações.**

In [None]:
SQL  = """
CREATE /*MATERIALIZED*/ VIEW MV_freq_snp_population as
SELECT snp_ref_code, super_population, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
        (cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, population_dimension P, snp_dim S
WHERE P.population_key = SP.population_id AND S.snp_id=SP.snp_id
GROUP BY super_population, snp_ref_code
ORDER BY snp_ref_code
"""

excuteSingleSQLstatement(SQL, host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

- **Vista que pré-calcula a frequência que variantes genéticas associadas a doenças, se encontram num contexto genómico particular.**

In [None]:
SQL  = """
CREATE /*MATERIALIZED*/ VIEW MV_freq_allele_disease as
with myquery as (
select disease_name, snp_ref_code, context 
    from disease_dimension D , snp_dim S, disease_gwas_fact DF
    where DF.disease_id = D.disease_key  and S.snp_id = DF.snp_id
    group by disease_name, snp_ref_code, context 
   order by disease_name
)

select context,count(context),count(context)/(select count(*) from myquery)::float as frequency from myquery 
group by context
"""

excuteSingleSQLstatement(SQL, host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

- **Vista que agrega informação acerca de doenças, SNP de risco associado e o p_value para a sua associação com a doença.**

In [None]:
SQL ="""
CREATE /*MATERIALIZED*/ VIEW MV_disease_pvalue AS
SELECT DISTINCT D.disease_name, S.snp_ref_code, DF.p_value
FROM disease_dimension D, disease_gwas_fact DF, snp_dim S
WHERE DF.disease_id = D.disease_key
ORDER BY p_value
"""

excuteSingleSQLstatement(SQL, host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

### c. Verify that the proposed modifications have better performance

- Para verificar se as modificações aumentaram a performance do HuGS-DW, vamos correr os `EXPLAIN ANALYZE` novamente.

#### C.1 - Aumento de performance através do uso de índices
#### Grupo de queries 1
- **Query que calcula a percentagem de alelos de referência e alternativos nas várias sub-populações.**

In [40]:
SQL = """
EXPLAIN ANALYZE 
SELECT population_description, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
        (cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, population_dimension P
WHERE P.population_key = SP.population_id
GROUP BY population_description
ORDER BY alternative_frequency DESC
"""
df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,QUERY PLAN
0,Sort (cost=547.56..547.66 rows=40 width=282) ...
1,Sort Key: ((((count(CASE WHEN (sp.allele_1 =...
2,Sort Method: quicksort Memory: 27kB
3,-> HashAggregate (cost=544.90..546.50 rows...
4,-> Hash Join (cost=10.90..300.50 row...
5,Hash Cond: (sp.population_id = p...
6,-> Seq Scan on snp_person_fact ...
7,-> Hash (cost=10.40..10.40 row...
8,Buckets: 1024 Batches: 1 ...
9,-> Seq Scan on population...


In [41]:
%timeit getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

72.7 ms ± 2.96 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


- **Query que calcula, por SNP e para cada Super-população e sub-população, as frequências do alelo de referência e do alelo alternativo.**

In [42]:
SQL = """
EXPLAIN ANALYZE 
SELECT snp_ref_code, super_population, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
		(cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, population_dimension P, snp_dim S
WHERE P.population_key = SP.population_id AND S.snp_id=SP.snp_id
GROUP BY super_population, snp_ref_code
ORDER BY snp_ref_code
"""
df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,QUERY PLAN
0,GroupAggregate (cost=2040.69..2623.49 rows=75...
1,-> Sort (cost=2040.69..2059.49 rows=7520 w...
2,"Sort Key: s.snp_ref_code, p.super_popu..."
3,Sort Method: quicksort Memory: 780kB
4,-> Hash Join (cost=10.90..527.53 row...
5,Hash Cond: (sp.population_id = p...
6,-> Merge Join (cost=0.00..413....
7,Merge Cond: (s.snp_id = sp...
8,-> Index Scan using idx_s...
9,-> Index Scan using idx_s...


In [43]:
%timeit getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

119 ms ± 5.77 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


- **Query que calcula, por SNP, País e sub-população, as frequências do alelo de referência e do alelo alternativo.**

In [44]:
SQL = """
EXPLAIN ANALYZE 
SELECT snp_ref_code, country, population_description, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
		(cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, person_dimension P, snp_dim S
WHERE P.person_key = SP.person_id AND S.snp_id=SP.snp_id
GROUP BY country, population_description, snp_ref_code
ORDER BY snp_ref_code
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,QUERY PLAN
0,GroupAggregate (cost=1100.80..1701.68 rows=75...
1,-> Sort (cost=1100.80..1119.57 rows=7511 w...
2,"Sort Key: s.snp_ref_code, p.country, p..."
3,Sort Method: external sort Disk: 512kB
4,-> Hash Join (cost=91.34..617.28 row...
5,Hash Cond: (sp.person_id = p.per...
6,-> Merge Join (cost=0.00..413....
7,Merge Cond: (s.snp_id = sp...
8,-> Index Scan using idx_s...
9,-> Index Scan using idx_s...


In [45]:
%timeit getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

293 ms ± 34.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


#### Grupo de queries 2
- **Query que calcula para cada SNP e para cada país, as frequências alélicas encontradas para cada género. Associa esta informação à taxa de mortalidade no País (dividida por género).**

In [46]:
SQL = """
EXPLAIN ANALYZE SELECT  snp_ref_code, PD.country, gender,  mortality_per_1000_habitants, (cast(count(case when allele_1=0 then 1 else null end)AS float)+cast(count(case when allele_2=0 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Reference_frequency,
		(cast(count(case when allele_1=1 then 1 else null end)AS float)+cast(count(case when allele_2=1 then 1 else null end)AS float))/(count(allele_1)+count(allele_2)) AS Alternative_frequency
FROM snp_person_fact SP, gender_dimension G, snp_dim S, population_dimension PD
WHERE G.gender_key = SP.gender_id AND S.snp_id=SP.snp_id AND PD.population_key = SP.population_id
GROUP BY snp_ref_code, gender, gross_national_income, PD.country, mortality_per_1000_habitants
ORDER BY snp_ref_code, country
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,QUERY PLAN
0,GroupAggregate (cost=2198.40..2837.60 rows=75...
1,-> Sort (cost=2198.40..2217.20 rows=7520 w...
2,"Sort Key: s.snp_ref_code, pd.country, ..."
3,Sort Method: quicksort Memory: 1009kB
4,-> Hash Join (cost=12.71..632.74 row...
5,Hash Cond: (sp.population_id = p...
6,-> Hash Join (cost=1.81..518.4...
7,Hash Cond: (sp.gender_id =...
8,-> Merge Join (cost=0.00...
9,Merge Cond: (s.snp_i...


In [47]:
%timeit getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

155 ms ± 7.23 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### Grupo de queries 3
- **Query que calcula a frequência absoluta de um SNP de risco associado a uma determinada doença, em indíviduos de determinadas sub-populações.**

In [48]:
complex_disease = 'asthma'

SQL = """
EXPLAIN ANALYZE 
SELECT super_population, population_description, count(population_description) AS abs_freq 
FROM person_dimension PD 
WHERE person_key in (
  SELECT person_id 
  FROM snp_person_fact SP
  WHERE snp_id in (
    SELECT snp_id 
    FROM disease_gwas_fact DG
    WHERE disease_id in (
      SELECT disease_key 
      FROM disease_dimension D
      WHERE disease_name like %s
	  )
    )
    AND (SP.allele_1 = 1 or SP.allele_2 = 1)
)
GROUP BY super_population, population_description 
ORDER BY abs_freq desc
"""

df1  = getSQLfromQuery(SQL, (complex_disease,), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df1

Unnamed: 0,QUERY PLAN
0,Sort (cost=294.93..295.03 rows=41 width=37) (...
1,Sort Key: (count(pd.population_description))
2,Sort Method: quicksort Memory: 25kB
3,-> HashAggregate (cost=293.42..293.83 rows...
4,-> Nested Loop (cost=241.25..293.12 ...
5,-> HashAggregate (cost=241.25....
6,-> Hash Semi Join (cost=...
7,Hash Cond: (sp.snp_i...
8,-> Seq Scan on snp_...
9,Filter: ((alle...


In [49]:
%timeit getSQLfromQuery(SQL, (complex_disease,), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

64.4 ms ± 1.51 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### Grupo de queries 4
- **Query que calcula a frequência com que variações genéticas de risco, associadas a doenças, ocorrem em contexto "non-coding" e "coding".**

In [50]:
SQL ="""
EXPLAIN ANALYZE 
SELECT cast(count(case when context like '3_prime_UTR_variant' or context like '5_prime_UTR_variant' or context like 'intergenic_variant' or context like 'intron_variant' or context like 'non_coding_transcript_exon_variant' or context like 'regulatory_region_variant' or context like 'TF_binding_site_variant' then 1 else null end)AS float)/count(context) AS non_coding, 
       cast(count(case when context like 'missense_variant' or context like 'splice_donor_variant' or context like 'splice_region_variant' or context like 'stop_gained' or context like 'synonymous_variant' then 1 else null end)AS float)/count(context) AS coding
FROM disease_dimension D , snp_dim S, disease_gwas_fact DF
WHERE DF.disease_id = D.disease_key  and S.snp_id = DF.snp_id
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,QUERY PLAN
0,Aggregate (cost=1185.55..1185.58 rows=1 width...
1,-> Hash Join (cost=1131.68..1164.27 rows=5...
2,Hash Cond: (df.snp_id = s.snp_id)
3,-> Hash Join (cost=590.14..612.10 ro...
4,Hash Cond: (df.disease_id = d.di...
5,-> Seq Scan on disease_gwas_fac...
6,-> Hash (cost=471.73..471.73 r...
7,Buckets: 1024 Batches: 1 ...
8,-> Seq Scan on disease_di...
9,-> Hash (cost=459.57..459.57 rows=65...


In [51]:
%timeit getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")

77.7 ms ± 3.86 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


### Como podemos constatar, o uso de índices melhora de maneira inconsistente e não substancial as buscas ao DW. Isto está provavelmente relacionado com o facto de que os dados introduzidos são ainda muito poucos para justificar um aumento significativo da performance das buscas.
### Uma escolha mais cuidada dos atributos a indexar levaria provavelmente, a aumentos de performance mais interessantes.

#### C.1 - Aumento de performance através do de vistas materializadas
NOTA: Como mencionamos em cima, não se podem criar vistas materializadas na versao do postgreSQL da FCUL.

- **`SELECT` correpondente À vista que agrega informação acerca de doenças, SNP de risco associado e o p_value para a sua associação com a doença.**

In [52]:
SQL ="""
EXPLAIN ANALYZE 
SELECT DISTINCT D.disease_name, S.snp_ref_code, DF.p_value
FROM disease_dimension D, disease_gwas_fact DF, snp_dim S
WHERE DF.disease_id = D.disease_key
ORDER BY p_value
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,QUERY PLAN
0,Unique (cost=745785.62..780668.86 rows=348832...
1,-> Sort (cost=745785.62..754506.43 rows=34...
2,"Sort Key: df.p_value, d.disease_name, ..."
3,Sort Method: external merge Disk: 176...
4,-> Nested Loop (cost=3.37..44777.67 ...
5,-> Merge Join (cost=3.37..697....
6,Merge Cond: (d.disease_key...
7,-> Index Scan using idx_d...
8,-> Index Scan using idx_d...
9,-> Materialize (cost=0.00..492...


- **`SELECT` da vista materializada (que neste caso... não é materializada!).**

In [53]:
SQL ="""
EXPLAIN ANALYZE 
SELECT *
FROM MV_disease_pvalue
"""

df  = getSQLfromQuery(SQL, (), host="appserver-01.alunos.di.fc.ul.pt",database="tpd020", user="tpd020", password="tpd020_1000genomes")
df

Unnamed: 0,QUERY PLAN
0,Unique (cost=745785.62..780668.86 rows=348832...
1,-> Sort (cost=745785.62..754506.43 rows=34...
2,"Sort Key: df.p_value, d.disease_name, ..."
3,Sort Method: external merge Disk: 176...
4,-> Nested Loop (cost=3.37..44777.67 ...
5,-> Merge Join (cost=3.37..697....
6,Merge Cond: (d.disease_key...
7,-> Index Scan using idx_d...
8,-> Index Scan using idx_d...
9,-> Materialize (cost=0.00..492...


### Aqui não podemos testar o aumento da eficácia que a vista materializada iria conceder, pois não conseguimos criar esta estrutura no nosso DW.

### d. Discuss: With the full use of the data warehouse what are the expectation for its growth in 1, 5 and 10 years. Identify what approaches would be used to address such an increase in data

Como já foi referido nas partes anteriores do projeto, o HuGS-DW é relativamente simples em termos de actualizações no tempo. O crescimento acontecerá apenas quando novos estudos GWAS forem publicados, ou novos dados genéticos estiverem disponíveis. Neste sentido, e no ponto de vista do exercício académico, estas alterações seriam periódicas e consistiriam em adicionar novas linhas às tabelas de dimensões respetivas (com consequente aumento dos factos, para cada estudo e para cada indivíduos cujo genoma fosse sequenciado). Neste campo, será importante garantir que aquando da adição de novos dados, estes são adicionados na ordem correcta (sem reintroduzir dados previamente inseridos).
No que diz respeito a Slow Changing Dimensions (SCDs), as únicas SCD que podemos considerar são aquelas que agregam informação demográfica. Nos actuais esquemas de negócio, não existe interesse em guardar historial dos dados, pelo que estas dimensões comportar-se-iam com SCD do tipo 1, simplesmente substituíndo os indíces demográficos por valores actualizados. Se existisse a necessidade de se referir a dados demográficos históricos, poder-se-ia considerar o uso de SCDs de tipo IV, onde se usaria uma "mini-dimension" com o histórico dos dados (de 5 em 5 anos) e que não obrigaria a grandes alterações ao esquema actual.

Num ponto de vista teórico, se o aumento de dados genómicos e acerca de doenças acompanhasse o crescimento exponencial de dados que se observa actualmente, seríamos obrigados a implementar eficazmente vários índices e vistas materializadas, para aumentar a performance do sistema. Para além disso, e para lidar com o aumento extraordinário de dados, teríamos que tomar várias opções importantes acerca do desenho físico do DW. Nomeadamente, teríamos que ter em atenção várias questões relacionadas com o tipo de suporte físico usado para guardar os dados, estratégias de compressão para diminuir o espaço ocupado pelos dados, partição e armazenamento distribuído dos vários dados (por exemplo, separando os dados genómicos, dos dados acerca de doenças).

## 3. Do a critical assessment of this full project
### a. For each of the 3 phases of the project discuss what went right, wrong and what would you do to make it better?

Na globalidade, acreditamos que este foi um exercícios académico que nos permitiu explorar as várias fases do processo de elaboração de um Data Warehouse. Foi, obviamente, um projecto muito exigente tendo em conta a dimensão e origem variada dos dados que nos propusemos aglomerar. Não obstante, apesar de algumas dificuldades, foi certamente um projecto bem concebido, conduzido e concretizado.

No que diz respeito às várias fases do projecto, podemos concluir:
### Fase 1 - Concepção do HuGS-DW
Nesta fase, criou-se o esboço do que viria a ser o nosso DW. 

#### O positivo
- O processo de concepção foi enriquecedor e globalmente positivo. Permitiu identificar um star-schema adequado, um conjunto de queries analíticas relevantes e um sistema de dados bem definido. O facto de que o modelo pouco teve que mudar comprova que a fase de desenho do data warehouse foi bem sucedidada. 

#### O menos positivo
- Aqui o ponto mais frágil, foi uma definição mais exacta dos processos de negócio. Talvez por nos faltar a visão de "negócio" por detrás dos DW e dos processos analíticos procurados por certos tipos de negócios, este ponto foi abordado mais conceptualmente. Não obstante, a definação dos datamarts parece-nos adequada e, retrospectivamente, parecem-nos datamarts que poderão ser usados por Institutos e centros de investigação cientifica, departamentos e centros médicos que lidam com doenças genéticas e outras estruturas, como seguradoras e entidades de avaliação de riscos.

#### O que faríamos para melhorar esta fase?
- Para além de uma melhor definição dos processos de negócio, acreditamos que pouco havia a mudar.

### Fase 2 - Criação do sistema de dados e do ETL workflow
Esta fase foi, de longe, a mais complicada e que mais exigiu de cada um de nós. A escolha de um projecto de tamanha dimensão e envergadura, foi um claro risco. Mas entre as dificuldades, limitações e noites mal dormidas, achamos que conseguimos criar um sistema de dados que não se tem que envergonhar do objectivo com o qual foi criado. 

#### O positivo
- O mais positivo desta fase, foi ter elaborado um sistema de dados muito rico, que foi buscar informação de muitas fontes de dados diferentes. Desde informação genética do 1000 genomes, NCBI, GWAS, informações acerca de doenças da ontologia DOID e dados demográficos do World Bank. Ler, filtrar e juntar dados tão diversos durante o processo de ETL, foi certamente um desafio. Mas termos conseguido fazê-lo (ainda que com algumas limitações), foi a nossa maior realização. 

#### O menos positivo
- Os pontos menos positivos prendem-se com o ponto que acabamos de mencionar. O processo de ler, filtrar e carregar informação num sistema de dados é, de longe, o mais complicado e exigente. Este projecto deixou-o muito claro. Apesar de termos conseguido modelar a maior parte das dimensões, houve dimensões que, pela sua magnitude, se revelaram um desafio enorme. Nomeadamente, as dimensões Study_Dimension e SNP_Dimension. Consequentemente, a modelação e injecção de dados nas tabelas de factos também não foram ideais. Acreditamos que este foi o ponto mais negativo desta fase. Mas não temos a menor dúvida que este seria sempre, o ponto mais complicado no processo de criação de um DW com tanta informação e com tantas fontes.

#### O que faríamos para melhorar esta fase?
- Faríamos o que todos os analistas a programadores fariam com um projecto desta envergadura. Dispender muito mais tempo no processo de ETL, para garantir que os dados estavam com a melhor qualidade possível.

### Fase 3 - Uso do HuGS-DW para análise e testes de eficiência
Nesta última fase procedemos à implementação de queries analíticas para extrair conhecimento dos dados que introduzimos do DW.
#### O positivo
- O mais positivo foi finalmente ver o resultado das queries que podem ser efectuadas no nosso DW e ver como se pode derivar conhecimento analítico dos dados do HuGS-DW. Como um pequeno exemplo, uma das nossas primeiras queries neste projecto, acerca da variabilidade genética de diferentes populações, mostra que as populações com maior variabilidade genética são as Africanas. Obviamente, estes não são dados novos, mas reproduzem dados previamente publicados. O que é mais extraordinário, é termos tido esta informação mesmo só tendo a informação genética para 3 SNPs (de 2504 indivíduos). 
- A facilidade de aceder a informação acerca das doenças e fazer um drill-across para a variabilidade genética, também foi algo que nos satisfaz muito e tem imenso potencial no ponto de vista analítico.

#### O menos positivo
- O ponto menos positivo deriva ainda dos problemas que tivemos com a modelação das nossas dimensões e factos. Este problema foi contornado com a introdução de alguns dados (e também alguma "dummy data"). Visto os dados introduzidos terem sido relativamente menores que os planeados originalmente, as análises de performance ficaram de algum modo comprometidas.

#### O que faríamos para melhorar esta fase?
- Não há muito a fazer para melhorar esta fase, para além de melhorar a fase 2 e o workflow de ETL. Podemos dizer que o nosso DW está numa versão alpha, ainda muito preliminar. Não por nossa culpa, mas porque um projecto desta dimensão iria requerer um muito maior investimento de tempo e energia de cada um de nós. 

### b. For each phase propose a grade (1-20) Justify your grade

As notas que propomos reflectem a análise que fizemos no ponto anterior, que cremos justificar a avaliação. 

- Fase 1: 18
- Fase 2: 16
- Fase 3: 17

Concluíndo, acreditamos que os objectivos e desafios que propusemos, foram atingidos e superados. A dificuldade deste projecto era inegável, assim como é o sucesso do ponto ao qual conseguimos chegar com o nosso DW.