# Projeto final do Modulo de Data Engineering


## Data de Entrega: 
09/09/2021

email: filipe.furlam@letscode.com.br

Envie o notebook preenchido, inclusive com anexos.


# Proposta

Fazer análise dos resultados de partidas de futebol existentes no arquivo `data/results.csv`


O dataset foi retirado do desafio existente no kaggel.

https://www.kaggle.com/martj42/international-football-results-from-1872-to-2017



| Campo Arquivo  | Campo Hive           | Tipo    | Descrição                                                              |
|----------------|----------------------|---------|------------------------------------------------------------------------|
| date           | Data                 | date    | quando jogo ocorreu                                                    |
| home_teamName  | equipe_mandante      | string  | equipe da casa                                                         |
| away_teamName  | equipe_visitante     | string  | equipe visitante                                                       |
| home_scoreHome | gol_equipe_mandante  | int     | pontuação equipe da casa                                               |
| away_scoreAway | gol_equipe_visitante | int     | pontuação equipe visitante                                             |
| tournamentName | torneio              | string  | torneio                                                                |
| cityCity       | cidade               | string  | onde o jogo aconteceu                                                  |
| countryCountry | pais                 | string  | onde a partida ocorreu                                                 |
| neutralTRUE    | fora_pais            | boolean | se o jogo ocorreu fora do país da equipe da casa, FALSE caso contrário |



# Carregado arquivos no Hive (5.0)

1. Importar o arquivo `result.csv` para o HDFS.

2. Criar uma tabela no Hive com o nome `resultado`, onde seja possível realizar consultas no arquivo `result.csv`.
    - O nome das colunas devem respeitar o tipo e a nomenclatura informada acima.

Reposta 1 e 2 (enviar o código com todos os passos para crição da tabela):
>
    

**Exercício 1**
1. Criar diretório do HDFS
    -  hdfs dfs -mkdir /user/cloudera/projeto
2. Mover o arquivo result.csv para o HDFS
    - hdfs dfs -put /home/cloudera/Documents/projeto/results.csv /user/cloudera/projeto
**Exercício 2**
1. Entrar no beeline
    -  beeline -u "jdbc:hive2://quickstart.cloudera:10000/default"
2. Criar um database
    - create database if not exists projeto location '/user/cloudera/projeto';
3. Usar o Database
    - use projeto;
4. Subir a tabela no Hive
    
    create external table resultado
    
    (
    
    Data date,
    
    equipe_mandante string,
    
    equipe_visitante string,
    
    gol_equipe_mandante int,
    
    gol_equipe_visitante int,
    
    torneio string,
    
    cidade string,
    
    pais string,
    
    fora_pais boolean
    
    )      
    
    ROW FORMAT DELIMITED
    
    FIELDS TERMINATED BY ','
    
    STORED AS TEXTFILE
    
    LOCATION '/user/cloudera/projeto'
    
    tblproperties ("skip.header.line.count"="1");

3. Executar uma query simples no HUE ou CLI retornando as 5 primeiras linhas da tabela criada.


Resposta 3 (print da query e resulado **OU** somente a query):
> SELECT * from resultado
    LIMIT 5

# Análise com Spark (5.0)
Realizar análise utilizando `Spark`. Opções:

a. Conectar o Spark à tabela Hive criada acima; 
    
    AJUDA: copiar o hive-site.xml para o conf do Spark.
    ```
    sudo cp /etc/hive/conf/hive-site.xml /etc/spark/conf/
    ```
    AJUDA: Para ler a tabela Hive e criar o dataframe, utilize o script abaixo:
    ```
    from pyspark.sql import HiveContext
    h = HiveContext(sc)
    df = h.sql("select * from default.resultado")
    ```

**OU**


b. Realizar localmente no seu computador. Nesse caso, leia diretamente o arquivo results.csv no notebook.


Após a criação do dataframe, responda as questões abaixo.
1. quantos registro existem no dataframe?
1. quantas equipes únicas mandantes existem no dataframe?
1. quantas vezes as equipes mandantes saíram vitoriosas?
1. quantas vezes as equipes visitantes saíram vitoriosas?
1. quantas partidas resultaram em empate:
1. crie uma tabela partida_pais com o total de partida em cadas país
    1.  em qual país teve mais partidas?

In [1]:
#  importar as funções
from pyspark import sql, SparkContext, HiveContext


# criar o sparkcontext
sc = SparkContext()

# criar a sessão spark
spark = sql.SparkSession(sc)

In [2]:
from pyspark.sql.types import StructType, StringType, IntegerType, FloatType
from pyspark.sql.functions import col

In [11]:
schema_ = StructType() \
        .add('Data', StringType(), True) \
        .add('equipe_mandante', StringType(), True) \
        .add('equipe_visitante', StringType(), True) \
        .add('gol_equipe_mandante', IntegerType(), True)\
        .add('gol_equipe_visitante', IntegerType(), True)\
        .add('torneio', StringType(), True)\
        .add('cidade', StringType(), True)\
        .add('pais', StringType(), True)\
        .add('fora_pais', StringType(), True)
resultado = spark.read.csv('../Aulas/data/results.csv', schema=schema_,header=True)

In [13]:
# 1: quantos registro existem no dataframe?
resultado.count()

38900

In [17]:
# 2: quantas equipes únicas mandantes existem no dataframe?
resultado.select('equipe_mandante').distinct().count()

241

In [20]:
# 3: quantas vezes as equipes mandantes saíram vitoriosas?
# vitoria=gols_mandante>gols_visitante
resultado.filter(resultado.gol_equipe_mandante>resultado.gol_equipe_visitante).count()

18917

In [21]:
# 4: quantas vezes as equipes visitantes saíram vitoriosas?
# vitoria=gols_visitante>gols_mandante
resultado.filter(resultado.gol_equipe_mandante<resultado.gol_equipe_visitante).count()

10964

In [22]:
# 5: quantas partidas resultaram em empate:
resultado.filter(resultado.gol_equipe_mandante==resultado.gol_equipe_visitante).count()

9019

In [99]:
# 6: crie uma tabela partida_pais com o total de partida em cadas país
#    a) em qual país teve mais partidas?
partida_pais=resultado.select('pais').groupby('pais').count()
partida_pais.sort('count',ascending=0).head(1)[0][0]

'USA'