


# Projeto 1 - Analisando Dados do Uber com Spark 




### *********** REQUISITO *********** 
Utilizar Java JDK 11 e Apache Spark 2.4.2

### *********** DEFINIR O PROBLEMA DE NEGÓCIO ***********

1- Quantos são e quais são as bases de carros do Uber (onde os carros ficam esperando passageiros)?

2- Qual o total de veículos que passaram pela base B02617?

3- Qual o total de corridas por base? Apresente de forma decrescente.

### *********** CARGA DE DADOS ***********

Dataset: https://github.com/fivethirtyeight/uber-tlc-foil-response

Esse conjunto de dados contém dados de mais de 4,5 milhões de captações Uber na cidade de Nova York de abril a setembro de 2014 e 14,3 milhões de captações Uber de janeiro a junho de 2015. Dados em nível de viagem sobre 10 outras empresas de veículos de aluguel (FHV) bem como dados agregados para 329 empresas de FHV, também estão incluídos. Todos os arquivos foram recebidos em 3 de agosto, 15 de setembro e 22 de setembro de 2015.

In [None]:
# Criar o RDD a partir do arquivo csv
# RDD é quase a mesma coisa que um dataframe do pandas, a diferença é que a RDD foi concebida para rodar em ambiente distribuido E pseudodistribuido
uberRDD = sc.textFile("data/uber.csv")

In [None]:
# Verificar o tipo de objeto
type(uberRDD)

### *********** ANALISE EXPLORATORIA ***********

In [None]:
# Total de registros
uberRDD.count()

In [None]:
# Primeiro registro
uberRDD.first()

In [None]:
# Visualizar os registros
uberRDD.take(20)

### *********** LIMPEZA, TRANSFORMAÇÃO, MANIPULAÇÃO DE DADOS ***********

In [None]:
# Dividindo o arquivo em colunas, separadas pelo caracter ",""
# Executando uma transformaçao
uberLinhas = uberRDD.map(lambda line: line.split(","))

In [None]:
# Verificar o tipo de objeto
type(uberLinhas)

In [None]:
# Visualizar os registros em colunas
uberLinhas.collect()

### *********** APRESENTANDO OS RESULTADOS ***********

In [None]:
# Número de bases de carros do Uber
# Reposta para pergunta 1
uberLinhas.map(lambda linha: linha[0]).distinct().count() -1

In [None]:
# Bases de carros do Uber
# Resposta para pergunta 1
uberLinhas.map(lambda linha: linha[0]).distinct().collect()

In [None]:
# Total de veículos que passaram pela base B02617
# Resposta para pergunta 2
uberLinhas.filter(lambda linha: "B02617" in linha).count()

In [None]:
# Gravando os dados dos veículos da base B02617 em um novo RDD
b02617_RDD = uberLinhas.filter(lambda linha: "B02617" in linha)

In [None]:
b02617_RDD.collect()

In [None]:
# Criando um novo RDD
uberRDD2 = sc.textFile("data/uber.csv").filter(lambda line: "base" not in line).map(lambda line:line.split(","))

In [None]:
# Aplicando redução para calcular o total por base
# Resposta para pergunta 3
uberRDD2.map(lambda kp: (kp[0], int(kp[3])) ).reduceByKey(lambda k,v: k + v).takeOrdered(10, key = lambda x: -x[1])

# Fim