# Data Warehouse

Vamos criar nossa Data Warehouse com os arquivos da pasta `data`. 

1. Crie uma base de dados chamada `hr` no `hive`.
1. Para cada arquivo, crie uma tabela externa de mesmo nome no `hive`.
    1. Como você faria para criar tabelas internas?
    1. Como você trata arquivos com e sem `headers`?
1. Selecione todos os dados de cada tabela para verificar que o processo funcionou.

## Crie a base de dados

Acessando o beeline:

``
beeline -u "jdbc:hive2://quickstart.cloudera:10000/default"
``

Criando a base de dados: 
``` mysql
create database hr;
```

## Criar tabela externa para cada arquivo

### Criando as pastas

Comandos executados em outro terminal, fora do beeline:

```
hdfs dfs -mkdir /user/hive/hr
hdfs dfs -mkdir /user/hive/hr/jobs
hdfs dfs -mkdir /user/hive/hr/countries
hdfs dfs -mkdir /user/hive/hr/departments
hdfs dfs -mkdir /user/hive/hr/dependents
hdfs dfs -mkdir /user/hive/hr/employees
hdfs dfs -mkdir /user/hive/hr/locations
hdfs dfs -mkdir /user/hive/hr/regions
hdfs dfs -put Documents/dados_hr/jobs.csv /user/hive/hr/jobs/
hdfs dfs -put Documents/dados_hr/countries.csv /user/hive/hr/countries/
hdfs dfs -put Documents/dados_hr/departments.csv /user/hive/hr/departments/
hdfs dfs -put Documents/dados_hr/dependents.csv /user/hive/hr/dependents/
hdfs dfs -put Documents/dados_hr/employees.csv /user/hive/hr/employees/
hdfs dfs -put Documents/dados_hr/locations.csv /user/hive/hr/locations/
hdfs dfs -put Documents/dados_hr/regions.csv /user/hive/hr/regions/
```

### Criando as tabelas externas

Acessando o beeline:
``
beeline -u "jdbc:hive2://quickstart.cloudera:10000/default"
``

jobs:

``` mysql
create external table jobs ( indice int, job_title string, min_salario float, max_salario float) 
row format delimited fields terminated by ',' lines terminated by '\n' 
stored as textfile
location '/user/hive/hr/jobs';
```
![image.png](attachment:image.png)

countries:

``` mysql
create external table countries ( country_id string, country_name string, region_id int) 
row format delimited fields terminated by ',' lines terminated by '\n' 
stored as textfile
location '/user/hive/hr/countries'
tblproperties("skip.header.line.count"="1"); 
```
![image-2.png](attachment:image-2.png)

departments:

``` mysql
create external table departments ( department_id int, department_name string, location_id int) 
row format delimited fields terminated by ',' lines terminated by '\n' 
stored as textfile
location '/user/hive/hr/departments'
tblproperties("skip.header.line.count"="1"); 
``` 
![image-3.png](attachment:image-3.png)

dependents:

``` mysql
create external table dependents ( dependent_id int, first_name string, last_name string, relationship string, employee_id int) 
row format delimited fields terminated by ',' lines terminated by '\n' 
stored as textfile
location '/user/hive/hr/dependents'
tblproperties("skip.header.line.count"="1"); 
``` 
![image-4.png](attachment:image-4.png)

employees:

``` mysql
create external table employees ( employee_id int, first_name string, last_name string, email string, phone_number string, hire_date date, job_id int, salary float, manager_id int, department_id int) 
row format delimited fields terminated by ',' lines terminated by '\n' 
stored as textfile
location '/user/hive/hr/employees'
tblproperties("skip.header.line.count"="1"); 
``` 
![image-5.png](attachment:image-5.png)

locations:

``` mysql
create external table locations ( location_id int, street_adress string, postal_code string, city_character string, state_province string, country_id string) 
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
STORED AS TEXTFILE
location '/user/hive/hr/locations';
``` 
![image-8.png](attachment:image-8.png)

regions:

``` mysql
create external table regions ( region_id int, region string) 
row format delimited fields terminated by ',' lines terminated by '\n' 
stored as textfile
location '/user/hive/hr/regions'; 
```
![image-7.png](attachment:image-7.png)

> A) Tabela interna:
create table interna ( id int ) 

> B) Com headers: uso do comando ```tblproperties("skip.header.line.count"="1")```, para ignorar a primeira linha com headers 

> B) Sem headers: basta nomear os ```headers``` ao criar a tabela

# Hive / beeline

1. Em quantos países a empresa está presente, de acordo com os dados da tabela `location`?
1. Em quais cidades inglesas e alemãs a empresa está presente?
1. Faça um relatório que traga o primeiro nome colaborador e o número de dependentes (colaborador | dependentes). Importante que os colaboradores que não tem dependentes também apareçam na lista. A lista deve ser ordenada pelo número de dependentes, do maior para o menor e em seguida por ordem alfabética.
1. A empresa está passando por uma reestruturação e precisa saber quantos funcionários estão alocados em cada departamento, bem como o total e a média de salários deles. Faça um relatório no formato nome_departamento | numero_funcionarios | salario_total | salario_medio ordenado por salario medio, do maior para o menor. Os números decimais devem conter duas casas após a virgula.
1. Faça um relatório que apresente o número de funcionários, o salario total e médio por departamento e país.
1. Traga o valor acumulado por departamento de cada pais .

Todos os comandos abaixo foram executados pelo terminal, utilizando o beeline.

Acessando o beeline: ``beeline -u "jdbc:hive2://quickstart.cloudera:10000/default"``


## Quantidades de países
``` mysql
select count(distinct(country_id)) cnt
from locations;
```
![image.png](attachment:image.png)

## Cidades inglesas e alemãs
``` mysql
select country_id, city_character
from locations
where country_id in ('US', 'DE');
```
![image-3.png](attachment:image-3.png)

## Colaboradores e dependentes
``` mysql
SELECT e.first_name colaborador, COUNT(DISTINCT(dependent_id)) dependentes
FROM employees e LEFT JOIN dependents d
ON (e.employee_id = d.employee_id)
GROUP BY e.first_name
ORDER BY dependentes DESC, colaborador;
```
![image-4.png](attachment:image-4.png)

## Reestruturação - Análise dos departamentos
``` mysql
SELECT departamento nome_departamento, COUNT(DISTINCT(funcionario_id)) numero_funcionarios, SUM(salario) salario_total, ROUND(AVG(salario), 2) salario_medio 
FROM (SELECT dp.department_name departamento, em.employee_id funcionario_id, em.salary salario   
FROM departments dp LEFT JOIN employees em ON em.department_id = dp.department_id)
    AS departamentos_funcionarios
GROUP BY departamento
ORDER BY salario_medio DESC;
```
![image-5.png](attachment:image-5.png)

## Relatório de departamentos por país
``` mysql
SELECT tb1.department_name nome_departamento, tb1.country_name pais, COUNT(DISTINCT(em.employee_id)) numero_funcionarios, SUM(em.salary) salario_total, ROUND(AVG(em.salary), 2) salario_medio 
FROM employees em RIGHT JOIN
(SELECT dp.department_name, tb0.country_name, dp.department_id FROM departments dp LEFT JOIN
(SELECT ct.country_name, lt.location_id FROM countries ct RIGHT JOIN locations lt ON ct.country_id = lt.country_id) tb0
ON dp.location_id = tb0.location_id) AS tb1 ON tb1.department_id = em.department_id
GROUP BY tb1.department_name, tb1.country_name;
```
![image-6.png](attachment:image-6.png)



## Valor acumulado por departamento de cada país
``` mysql
SELECT tb1.country_name pais, tb1.department_name nome_departamento, SUM(em.salary) salario_total 
FROM employees em RIGHT JOIN
(SELECT dp.department_name, tb0.country_name, dp.department_id FROM departments dp LEFT JOIN
(SELECT ct.country_name, lt.location_id FROM countries ct RIGHT JOIN locations lt ON ct.country_id = lt.country_id) tb0
ON dp.location_id = tb0.location_id) AS tb1 ON tb1.department_id = em.department_id
GROUP BY  tb1.country_name, tb1.department_name;
```
![image-7.png](attachment:image-7.png)

# Para entregar

Exercícios 4 e 6.

## Ex 4

``` mysql
SELECT departamento nome_departamento, COUNT(DISTINCT(funcionario_id)) numero_funcionarios, SUM(salario) salario_total, ROUND(AVG(salario), 2) salario_medio 
FROM (SELECT dp.department_name departamento, em.employee_id funcionario_id, em.salary salario   
FROM departments dp LEFT JOIN employees em ON em.department_id = dp.department_id)
    AS departamentos_funcionarios
GROUP BY departamento
ORDER BY salario_medio DESC;
```
![image.png](attachment:image.png)

## Ex 6
``` mysql
SELECT tb1.country_name pais, tb1.department_name nome_departamento, SUM(em.salary) salario_total 
FROM employees em RIGHT JOIN
(SELECT dp.department_name, tb0.country_name, dp.department_id FROM departments dp LEFT JOIN
(SELECT ct.country_name, lt.location_id FROM countries ct RIGHT JOIN locations lt ON ct.country_id = lt.country_id) tb0
ON dp.location_id = tb0.location_id) AS tb1 ON tb1.department_id = em.department_id
GROUP BY  tb1.country_name, tb1.department_name;
```
![image-2.png](attachment:image-2.png)