# Projeto BIG DATA I

## Objetivo de projeto

Como queremos demostrar que de fato a solução proposta traz uma melhora, foi solicitado implementar uma análise comparativa de resultados usando a antiga abordagem (usando pandas) e usando a nova proposta de solução (pyspark). Para isso, tome em consideração o seguinte:

1. Escolha dois conjuntos de dados interessantes, sendo que um deles é pequeno (menos de 10.000 linhas) e o outro bem maior (acima de 1.000.000 linhas).

2. Aplique todas as etapas de ETL nos dois conjuntos de dados usando pandas y pyspark. As etapas incluem: (1) Extração dos dados, por exemplo de um csv, (2) Tratamento dos dados (limpeza, alteração de nomes de colunas, criação de mais tabelas, transformação nas colunas, etc.), e, (3) Carregamento dos dados (salvar a transformação feita sobre os dados).

3. Lembre que cada etapa tem que ser feita usando unicamente pandas ou pyspark.

4. Como o objetivo é fazer uma análise comparativa, tome em consideração o tempo que demora cada etapa, para depois facilitar as comparações.

Boa sorte e divirta-se!!

## Importando Bibliotecas

In [9]:
import pandas as pd
from pyspark.sql import SparkSession
import timeit

# Pandas vs PySpark

## Importando arquivo csv

In [13]:
# Iniciando a sessão do Spark
spark = SparkSession.builder.appName("Pandas vs PySpark").getOrCreate()

# Lendo os datasets csv usando pandas
df_Netflix_pandas = pd.read_csv("datasets/Netflix_movies.csv")
df_Fraud_pandas = pd.read_csv("datasets/Fraudulent_Transactions_Data.csv")

# Lendo os datasets csv usando PySpark
df_Netflix_spark = spark.read.csv("datasets/Netflix_movies.csv", header=True, inferSchema=True)
df_Fraud_spark = spark.read.csv("datasets/Fraudulent_Transactions_Data.csv", header=True, inferSchema=True)

## Comparar o tempo de execução de algumas operações comuns usando pandas e PySpark

In [17]:
# Operação de contar a quantidade de linhas do dataset Netflix usando pandas
start = timeit.default_timer()
df_Netflix_pandas_lines = df_Netflix_pandas.shape[0]
pandas_time = timeit.default_timer() - start

# Operação de contar a quantidade de linhas do dataset Netflix usando PySpark
start = timeit.default_timer()
df_Netflix_spark_lines = df_Netflix_spark.count()
spark_time = timeit.default_timer() - start

# Cálculo da diferença percentual
percentual_diff = (pandas_time - spark_time) / pandas_time * 100

print("Quantidade de linhas (Pandas): ", df_Netflix_pandas_lines)
print("Quantidade de linhas (PySpark): ", df_Netflix_spark_lines)
print("Tempo de execução (Pandas): ", pandas_time)
print("Tempo de execução (PySpark): ", spark_time)
print("Diferença percentual: ", percentual_diff, "%")

if pandas_time < spark_time:
    print("Pandas foi mais rápido.")
else:
    print("PySpark foi mais rápido.")

Quantidade de linhas (Pandas):  3323
Quantidade de linhas (PySpark):  3323
Tempo de execução (Pandas):  4.600000102072954e-05
Tempo de execução (PySpark):  0.06350290001137182
Diferença percentual:  -137949.77957012376 %
Pandas foi mais rápido.


In [18]:
# Operação de contar a quantidade de linhas do dataset Fraudulent Transactions usando pandas
start = timeit.default_timer()
df_Fraud_pandas_lines = df_Fraud_pandas.shape[0]
pandas_time = timeit.default_timer() - start

# Operação de contar a quantidade de linhas do dataset Fraudulent Transactions usando PySpark
start = timeit.default_timer()
df_Fraud_spark_lines = df_Fraud_spark.count()
spark_time = timeit.default_timer() - start

# Cálculo da diferença percentual
percentual_diff = (pandas_time - spark_time) / pandas_time * 100

print("Quantidade de linhas (Pandas): ", df_Fraud_pandas_lines)
print("Quantidade de linhas (PySpark): ", df_Fraud_spark_lines)
print("Tempo de execução (Pandas): ", pandas_time)
print("Tempo de execução (PySpark): ", spark_time)
print("Diferença percentual: ", percentual_diff, "%")

if pandas_time < spark_time:
    print("Pandas foi mais rápido.")
else:
    print("PySpark foi mais rápido.")

Quantidade de linhas (Pandas):  6362620
Quantidade de linhas (PySpark):  6362620
Tempo de execução (Pandas):  6.150000263005495e-05
Tempo de execução (PySpark):  0.460375499969814
Diferença percentual:  -748478.0167183753 %
Pandas foi mais rápido.
