#Desafio Técnico
##Processo Seletivo – F1rst – Big Data – São Carlos

Autor: Rafael Vinicius Polato Passador

Data: 09/2023

## Solução 1 - Pandas


Importando bibliotecas necessárias

In [2]:
import pandas as pd


Convertendo a amostra em um Panda Dataframe

In [7]:
df = pd.read_csv('info_transportes.csv', sep=';')

Vendo as 5 primeiras linhas da amostra

In [8]:
df.head()

Unnamed: 0,DATA_INICIO,DATA_FIM,CATEGORIA,LOCAL_INICIO,LOCAL_FIM,DISTANCIA,PROPOSITO
0,01-01-2016 21:11,01-01-2016 21:17,Negocio,Fort Pierce,Fort Pierce,51,Alimentação
1,01-02-2016 01:25,01-02-2016 01:37,Negocio,Fort Pierce,Fort Pierce,5,
2,01-02-2016 20:25,01-02-2016 20:38,Negocio,Fort Pierce,Fort Pierce,48,Entregas
3,01-05-2016 17:31,01-05-2016 17:45,Negocio,Fort Pierce,Fort Pierce,47,Reunião
4,01-06-2016 14:42,01-06-2016 15:49,Negocio,Fort Pierce,West Palm Beach,637,Visita ao cliente


Convertendo as colunas de data e criando uma nova coluna DT_REFE com a data de referência com o formato “yyyy-MM-dd"


In [9]:
df['DATA_INICIO'] = pd.to_datetime(df['DATA_INICIO'], format='%m-%d-%Y %H:%M')
df['DATA_FIM'] = pd.to_datetime(df['DATA_FIM'], format='%m-%d-%Y %H:%M')

df['DT_REFE'] = df['DATA_INICIO'].dt.strftime('%Y-%m-%d')

print(df)


             DATA_INICIO            DATA_FIM CATEGORIA      LOCAL_INICIO  \
0    2016-01-01 21:11:00 2016-01-01 21:17:00   Negocio       Fort Pierce   
1    2016-01-02 01:25:00 2016-01-02 01:37:00   Negocio       Fort Pierce   
2    2016-01-02 20:25:00 2016-01-02 20:38:00   Negocio       Fort Pierce   
3    2016-01-05 17:31:00 2016-01-05 17:45:00   Negocio       Fort Pierce   
4    2016-01-06 14:42:00 2016-01-06 15:49:00   Negocio       Fort Pierce   
...                  ...                 ...       ...               ...   
1148 2016-12-31 01:07:00 2016-12-31 01:14:00   Negocio            Karchi   
1149 2016-12-31 13:24:00 2016-12-31 13:42:00   Negocio            Karchi   
1150 2016-12-31 15:03:00 2016-12-31 15:38:00   Negocio  Unknown Location   
1151 2016-12-31 21:32:00 2016-12-31 21:50:00   Negocio        Katunayake   
1152 2016-12-31 22:08:00 2016-12-31 23:51:00   Negocio           Gampaha   

             LOCAL_FIM  DISTANCIA          PROPOSITO     DT_REFE  
0          Fort Pier

In [10]:
df['DT_REFE'].head()


0    2016-01-01
1    2016-01-02
2    2016-01-02
3    2016-01-05
4    2016-01-06
Name: DT_REFE, dtype: object

Calculando as estatísticas de corridas:

* QT_CORR Quantidade de corridas.
* QT_CORR_NEG Quantidade de corridas com a categoria “Negócio”.
* QT_CORR_PESS Quantidade de corridas com a categoria “Pessoal”.
* VL_MAX_DIST Maior distância percorrida por uma corrida.
* VL_MIN_DIST Menor distância percorrida por uma corrida.
* VL_AVG_DIST Média das distâncias percorridas.
* QT_CORR_ REUNI Quantidade de corridas com o propósito de "Reunião".
* QT_CORR_NAO_REUNI Quantidade de corridas com o propósito declarado e
diferente de "Reunião"

In [11]:
info_corridas_do_dia = df.groupby('DT_REFE').agg(
    QT_CORR=('DATA_INICIO', 'count'),
    QT_CORR_NEG=('CATEGORIA', lambda x: (x == 'Negócio').sum()),
    QT_CORR_PESS=('CATEGORIA', lambda x: (x == 'Pessoal').sum()),
    VL_MAX_DIST=('DISTANCIA', 'max'),
    VL_MIN_DIST=('DISTANCIA', 'min'),
    VL_AVG_DIST=('DISTANCIA', 'mean'),
    QT_CORR_REUNI=('PROPOSITO', lambda x: (x == 'Reunião').sum()),
    QT_CORR_NAO_REUNI=('PROPOSITO', lambda x: (x != 'Reunião').sum())
).reset_index()

In [12]:
print(info_corridas_do_dia)

        DT_REFE  QT_CORR  QT_CORR_NEG  QT_CORR_PESS  VL_MAX_DIST  VL_MIN_DIST  \
0    2016-01-01        1            0             0           51           51   
1    2016-01-02        2            0             0           48            5   
2    2016-01-05        1            0             0           47           47   
3    2016-01-06        3            0             0          637           43   
4    2016-01-07        1            0             0            8            8   
..          ...      ...          ...           ...          ...          ...   
282  2016-12-27        6            0             0           79            5   
283  2016-12-28        7            0             0          104            2   
284  2016-12-29       13            0             0          129            3   
285  2016-12-30        5            0             0           46            8   
286  2016-12-31        5            0             0          482            7   

     VL_AVG_DIST  QT_CORR_R

In [13]:
info_corridas_do_dia.head()

Unnamed: 0,DT_REFE,QT_CORR,QT_CORR_NEG,QT_CORR_PESS,VL_MAX_DIST,VL_MIN_DIST,VL_AVG_DIST,QT_CORR_REUNI,QT_CORR_NAO_REUNI
0,2016-01-01,1,0,0,51,51,51.0,0,1
1,2016-01-02,2,0,0,48,5,26.5,0,2
2,2016-01-05,1,0,0,47,47,47.0,1,0
3,2016-01-06,3,0,0,637,43,250.333333,1,2
4,2016-01-07,1,0,0,8,8,8.0,1,0


In [15]:
info_corridas_do_dia

Unnamed: 0,DT_REFE,QT_CORR,QT_CORR_NEG,QT_CORR_PESS,VL_MAX_DIST,VL_MIN_DIST,VL_AVG_DIST,QT_CORR_REUNI,QT_CORR_NAO_REUNI
0,2016-01-01,1,0,0,51,51,51.000000,0,1
1,2016-01-02,2,0,0,48,5,26.500000,0,2
2,2016-01-05,1,0,0,47,47,47.000000,1,0
3,2016-01-06,3,0,0,637,43,250.333333,1,2
4,2016-01-07,1,0,0,8,8,8.000000,1,0
...,...,...,...,...,...,...,...,...,...
282,2016-12-27,6,0,0,79,5,37.500000,1,5
283,2016-12-28,7,0,0,104,2,61.000000,0,7
284,2016-12-29,13,0,0,129,3,55.538462,2,11
285,2016-12-30,5,0,0,46,8,31.400000,1,4


## Solução 2 - PySpark

Importando bibliotecas necessárias

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, count, sum, max, min, avg, when, to_timestamp, date_format
from pyspark.sql.window import Window



Iniciando sessão do Spark

In [84]:
import os
import sys

os.environ['PYSPARK_PYTHON'] = sys.executable
os.environ['PYSPARK_DRIVER_PYTHON'] = sys.executable

#spark.sql("set spark.sql.legacy.timeParserPolicy=LEGACY")

In [85]:
spark = SparkSession.builder.appName("info_corridas_do_dia").getOrCreate()


Carregando o dataset em um Spark Dataframe

In [86]:
df = spark.read.option("delimiter", ";").csv("info_transportes.csv", header=True, inferSchema=True)

Vendo as 10 primeiras linhas do dataframe

In [87]:
df.show(10) # o valor default é 20

+----------------+----------------+---------+---------------+---------------+---------+-----------------+
|     DATA_INICIO|        DATA_FIM|CATEGORIA|   LOCAL_INICIO|      LOCAL_FIM|DISTANCIA|        PROPOSITO|
+----------------+----------------+---------+---------------+---------------+---------+-----------------+
|01-01-2016 21:11|01-01-2016 21:17|  Negocio|    Fort Pierce|    Fort Pierce|       51|      Alimentação|
|01-02-2016 01:25|01-02-2016 01:37|  Negocio|    Fort Pierce|    Fort Pierce|        5|             null|
|01-02-2016 20:25|01-02-2016 20:38|  Negocio|    Fort Pierce|    Fort Pierce|       48|         Entregas|
|01-05-2016 17:31|01-05-2016 17:45|  Negocio|    Fort Pierce|    Fort Pierce|       47|          Reunião|
|01-06-2016 14:42|01-06-2016 15:49|  Negocio|    Fort Pierce|West Palm Beach|      637|Visita ao cliente|
|01-06-2016 17:15|01-06-2016 17:19|  Negocio|West Palm Beach|West Palm Beach|       43|      Alimentação|
|01-06-2016 17:30|01-06-2016 17:35|  Negocio|W

Convertendo as colunas de data e criando uma nova coluna DT_REFE com a data de referência com o formato “yyyy-MM-dd"


In [88]:
# Converte as colunas de data para o formato correto
df = df.withColumn("DATA_INICIO", to_timestamp("DATA_INICIO", "MM-dd-yyyy H:m")) \
       .withColumn("DATA_FIM", to_timestamp("DATA_FIM", "MM-dd-yyyy H:m"))

# Adiciona a nova coluna DT_REFE no formato desejado
df = df.withColumn("DT_REFE", date_format("DATA_INICIO", "yyyy-MM-dd").cast("date"))


In [89]:
df.show(10)

+-------------------+-------------------+---------+---------------+---------------+---------+-----------------+----------+
|        DATA_INICIO|           DATA_FIM|CATEGORIA|   LOCAL_INICIO|      LOCAL_FIM|DISTANCIA|        PROPOSITO|   DT_REFE|
+-------------------+-------------------+---------+---------------+---------------+---------+-----------------+----------+
|2016-01-01 21:11:00|2016-01-01 21:17:00|  Negocio|    Fort Pierce|    Fort Pierce|       51|      Alimentação|2016-01-01|
|2016-01-02 01:25:00|2016-01-02 01:37:00|  Negocio|    Fort Pierce|    Fort Pierce|        5|             null|2016-01-02|
|2016-01-02 20:25:00|2016-01-02 20:38:00|  Negocio|    Fort Pierce|    Fort Pierce|       48|         Entregas|2016-01-02|
|2016-01-05 17:31:00|2016-01-05 17:45:00|  Negocio|    Fort Pierce|    Fort Pierce|       47|          Reunião|2016-01-05|
|2016-01-06 14:42:00|2016-01-06 15:49:00|  Negocio|    Fort Pierce|West Palm Beach|      637|Visita ao cliente|2016-01-06|
|2016-01-06 17:1

In [90]:
df.select('DT_REFE').show(10)


+----------+
|   DT_REFE|
+----------+
|2016-01-01|
|2016-01-02|
|2016-01-02|
|2016-01-05|
|2016-01-06|
|2016-01-06|
|2016-01-06|
|2016-01-07|
|2016-01-10|
|2016-01-10|
+----------+
only showing top 10 rows



Calculando as estatísticas de corridas:

* QT_CORR Quantidade de corridas.
* QT_CORR_NEG Quantidade de corridas com a categoria “Negócio”.
* QT_CORR_PESS Quantidade de corridas com a categoria “Pessoal”.
* VL_MAX_DIST Maior distância percorrida por uma corrida.
* VL_MIN_DIST Menor distância percorrida por uma corrida.
* VL_AVG_DIST Média das distâncias percorridas.
* QT_CORR_ REUNI Quantidade de corridas com o propósito de "Reunião".
* QT_CORR_NAO_REUNI Quantidade de corridas com o propósito declarado e
diferente de "Reunião"

In [91]:
window_spec = Window.partitionBy("DT_REFE")
df = df.withColumn("QT_CORR", count("*").over(window_spec))

df = df.withColumn("QT_CORR_NEG", count(when(df['CATEGORIA'] == 'Negócio', True)).over(window_spec))

df = df.withColumn("QT_CORR_PESS", count(when(df['CATEGORIA'] == 'Pessoal', True)).over(window_spec))

df = df.withColumn("VL_MAX_DIST", max("DISTANCIA").over(window_spec))

df = df.withColumn("VL_MIN_DIST", min("DISTANCIA").over(window_spec))

df = df.withColumn("VL_AVG_DIST", avg("DISTANCIA").over(window_spec))

df = df.withColumn("QT_CORR_REUNI", count(when(df['PROPOSITO'] == 'Reunião', True)).over(window_spec))

df = df.withColumn("QT_CORR_NAO_REUNI", count(when(df['PROPOSITO'] != 'Reunião', True)).over(window_spec))


Substituindo os valores NULL por 0

In [92]:
df = df.fillna(0)

Criando uma nova tabela "info_corridas_do_dia"

In [93]:
# Crie um novo DataFrame apenas com as colunas desejadas
info_corridas_do_dia = df.select("DT_REFE", "QT_CORR", "QT_CORR_NEG", "QT_CORR_PESS", "VL_MAX_DIST", "VL_MIN_DIST", "VL_AVG_DIST", "QT_CORR_REUNI", "QT_CORR_NAO_REUNI")

# Exiba o DataFrame
info_corridas_do_dia.show(10)

+----------+-------+-----------+------------+-----------+-----------+------------------+-------------+-----------------+
|   DT_REFE|QT_CORR|QT_CORR_NEG|QT_CORR_PESS|VL_MAX_DIST|VL_MIN_DIST|       VL_AVG_DIST|QT_CORR_REUNI|QT_CORR_NAO_REUNI|
+----------+-------+-----------+------------+-----------+-----------+------------------+-------------+-----------------+
|2016-01-01|      1|          0|           0|         51|         51|              51.0|            0|                1|
|2016-01-02|      2|          0|           0|         48|          5|              26.5|            0|                1|
|2016-01-02|      2|          0|           0|         48|          5|              26.5|            0|                1|
|2016-01-05|      1|          0|           0|         47|         47|              47.0|            1|                0|
|2016-01-06|      3|          0|           0|        637|         43|250.33333333333334|            1|                2|
|2016-01-06|      3|          0|

In [94]:
spark.stop()
