<a href="https://colab.research.google.com/github/Jumikosz/spark/blob/main/trab_Spark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Trabalho de análise de dados com Spark

Instalação do PySpark no notebook

In [None]:
!pip install pyspark

Criando uma sessão no PySpark

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("trab_pos_spark").getOrCreate()

Conectando com o Google Drive

In [None]:
from google.colab import drive

drive.mount('/content/drive')

Mounted at /content/drive


Importando classes e tipos de dados para alterar a definição do schema




In [None]:
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, FloatType

---
**Database Vendas**

Criando os dataframes através dos arquivos no Google Drive:

df_vendas_cliente - Possui os registros dos clientes \

1.  df_vendas_cliente - Possui os registros dos clientes
2.  df_vendas_transacoes - Possui os registro de todas as transações efetuadas \
3. df_vendas_lojas - Possui o registro de todas as lojas

In [None]:
df_vendas_cliente = spark.read \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .option("delimiter", ";") \
    .csv("/content/drive/MyDrive/Datasets/CLIENTES.csv")

df_vendas_transacoes = spark.read \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .option("delimiter", ";") \
    .csv("/content/drive/MyDrive/Datasets/TRANSACOES.csv")

df_vendas_lojas = spark.read \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .option("delimiter", ";") \
    .csv("/content/drive/MyDrive/Datasets/LOJAS.csv")

Testando se todos os dataframes foram criados corretamente

In [None]:
df_vendas_cliente.show(5, truncate = False)
df_vendas_transacoes.show(5, truncate = False)
df_vendas_lojas.show(5, truncate = False)

+---+-------------+-----+------+---------+
|ID |NOME         |ATIVO|GENERO|CITY     |
+---+-------------+-----+------+---------+
|0  |Laura        |1    |M     |Curitiba |
|1  |Luiza        |1    |F     |Curitiba |
|2  |Maria Eduarda|1    |M     |Araucária|
|3  |Mariana      |1    |M     |Curitiba |
|4  |Ana Clara    |1    |M     |Curitiba |
+---+-------------+-----+------+---------+
only showing top 5 rows

+---+----+-------+------+----------+
|ID |LOJA|CLIENTE|VALOR |DATA      |
+---+----+-------+------+----------+
|1  |3188|1207   |124,00|17/01/2023|
|2  |3338|1291   |84,00 |31/05/2023|
|3  |1010|1306   |12,00 |03/01/2023|
|4  |1292|1792   |56,00 |09/06/2023|
|5  |1014|2268   |32,00 |04/03/2023|
+---+----+-------+------+----------+
only showing top 5 rows

+----+-----+--------+---------------+----------------+
|ID  |ATIVO|CIDADE  |DATA_INSTALACAO|DATA_DESATIVACAO|
+----+-----+--------+---------------+----------------+
|1000|1    |Curitiba|14/02/2020     |0               |
|1001|1   

Visualizando a estrutura de dados (schema) dos dataframes criados

In [None]:
df_vendas_cliente.printSchema()
df_vendas_transacoes.printSchema()
df_vendas_lojas.printSchema()

root
 |-- ID: integer (nullable = true)
 |-- NOME: string (nullable = true)
 |-- ATIVO: integer (nullable = true)
 |-- GENERO: string (nullable = true)
 |-- CITY: string (nullable = true)

root
 |-- ID: integer (nullable = true)
 |-- LOJA: string (nullable = true)
 |-- CLIENTE: integer (nullable = true)
 |-- VALOR: string (nullable = true)
 |-- DATA: string (nullable = true)

root
 |-- ID: integer (nullable = true)
 |-- ATIVO: integer (nullable = true)
 |-- CIDADE: string (nullable = true)
 |-- DATA_INSTALACAO: string (nullable = true)
 |-- DATA_DESATIVACAO: string (nullable = true)



Importando algumas bibliotecas necessárias para criar consultas usando o PySpark SQL

In [None]:
from pyspark.sql import functions as F
from pyspark.sql.functions import col, count, sum, count_distinct, date_format, avg, max
from pyspark.sql.functions import regexp_replace

Precisei alterar o tipo de dado que estava como String e substitui a "," por "." e exibi o schema do dataframe

In [None]:
df_vendas_transacoes = df_vendas_transacoes.withColumn("VALOR", regexp_replace("VALOR", ",", ".").cast("int"))
df_vendas_transacoes.printSchema()

root
 |-- ID: integer (nullable = true)
 |-- LOJA: string (nullable = true)
 |-- CLIENTE: integer (nullable = true)
 |-- VALOR: integer (nullable = true)
 |-- DATA: string (nullable = true)



---
**Database Netflix**

Criando os dataframes através dos arquivos no Google Drive:

1. df_netflix_movie - Possui os registros dos filmes
2. df_netflix_rating - Possui os registros de avaliações dos filmes


In [None]:
df_netflix_movie = spark.read.csv(path="/content/drive/MyDrive/Datasets/Dataset Netflix/Netflix_Dataset_Movie.csv", header=True, inferSchema=True)
df_netflix_rating = spark.read.csv(path="/content/drive/MyDrive/Datasets/Dataset Netflix/Netflix_Dataset_Rating.csv", header=True, inferSchema=True)

Testando se todos os dataframes foram criados corretamente

In [None]:
df_netflix_movie.show(5, truncate = False)
df_netflix_rating.show(5, truncate = False)

+--------+----+----------------------------+
|Movie_ID|Year|Name                        |
+--------+----+----------------------------+
|1       |2003|Dinosaur Planet             |
|2       |2004|Isle of Man TT 2004 Review  |
|3       |1997|Character                   |
|4       |1994|Paula Abdul's Get Up & Dance|
|5       |2004|The Rise and Fall of ECW    |
+--------+----+----------------------------+
only showing top 5 rows

+-------+------+--------+
|User_ID|Rating|Movie_ID|
+-------+------+--------+
|712664 |5     |3       |
|1331154|4     |3       |
|2632461|3     |3       |
|44937  |5     |3       |
|656399 |4     |3       |
+-------+------+--------+
only showing top 5 rows



Visualizando a estrutura de dados (schema) dos dataframes criados

In [None]:
df_netflix_movie.printSchema()
df_netflix_rating.printSchema()

root
 |-- Movie_ID: integer (nullable = true)
 |-- Year: integer (nullable = true)
 |-- Name: string (nullable = true)

root
 |-- User_ID: integer (nullable = true)
 |-- Rating: integer (nullable = true)
 |-- Movie_ID: integer (nullable = true)



---
# Início das consultas e análise de dados utilizando PySpark SQL Functions


**Dataframes Vendas**

O objetivo dessa consulta é avaliar o total de transações que cada cliente já executou e, consequentemente, os clientes mais ativos. Usando a função de agragação count()


In [None]:
consulta01 = df_vendas_cliente.join(
            df_vendas_transacoes,
            df_vendas_cliente.ID == df_vendas_transacoes.CLIENTE,
            "left") \
            .where(col("ID").isNotNull()) \
            .groupBy("id", "nome") \
            .agg({"*": "count"}) \
            .withColumnRenamed("count(1)", "total_transacoes") \
            .orderBy(col("total_transacoes").desc()) \
            .limit(20)

Exibindo o resultado do dataframe usando a função .show(), o cliente que mais comprou foi o Gabriel.

In [None]:
consulta01.show()

+------+---------+----------------+
|    id|     nome|total_transacoes|
+------+---------+----------------+
|450405|  Gabriel|            2182|
|505132|  Manuela|            1097|
|444612|  Manuela|            1007|
|405123|   Afonso|             786|
|432171|    Pedro|             747|
|450426|    Alice|             716|
|419959|    Lucas|             664|
|525734|Guilherme|             605|
|559536|    Laura|             585|
|601902|   Marina|             538|
|438969|  Gabriel|             456|
|498439|     Caio|             435|
|512916|   Muriel|             340|
|280302|   Bianca|             316|
|455609|    Isaac|             253|
|513277|   Miguel|             247|
|284187|  Gabriel|             224|
|517632|  Eduarda|             212|
|405468|    Alice|             206|
|462861|   Felipe|             204|
+------+---------+----------------+



O objetivo dessa consulta é entender quais são as lojas mais relevantes e possuem um maior volume de vendas

In [None]:
consulta02 = df_vendas_lojas.join(
            df_vendas_transacoes,
            df_vendas_lojas.ID == df_vendas_transacoes.LOJA, 'left') \
            .groupBy('cidade') \
            .agg(F.count('id').alias('total_vendas')) \
            .orderBy(F.col('total_vendas').desc())


Exibindo o resultado do dataframe percebemos que a cidade que possui mais vendas é São Paulo, seguida de Curitiba.

In [None]:
consulta02.show()

+-------------------+------------+
|             cidade|total_vendas|
+-------------------+------------+
|          São Paulo|      346733|
|           Curitiba|      113611|
|     Rio de Janeiro|       35828|
|     Belo Horizonte|       26897|
|          Guarulhos|       26082|
|           Blumenau|       23605|
|           Brasília|       22414|
|           Salvador|       18845|
|       Porto Alegre|       18038|
|           Londrina|       16362|
|             Maceió|       13878|
|            Jundiaí|       12943|
|            Vitória|       12398|
|             Osasco|       11630|
|        Santo André|       10930|
|São José dos Campos|       10568|
|             Cuiabá|       10128|
|       Campo Grande|       10028|
|             Santos|        9837|
|           Teresina|        8535|
+-------------------+------------+
only showing top 20 rows



Entendemos qual o cliente que comprou mais vezes, agora a ideia é avaliar qual foi o cliente que mais gastou. Usando a função de agragação sum()

In [None]:
df_vendas_transacoes = df_vendas_transacoes.withColumnRenamed("ID", "transacao_id")

consulta03 = df_vendas_cliente.join(
    df_vendas_transacoes,
    df_vendas_cliente.ID == df_vendas_transacoes.CLIENTE,
    "left") \
    .groupBy("id", "nome") \
    .agg(sum("VALOR").alias("valor_total_compras")) \
    .orderBy(col("valor_total_compras").desc()) \
    .limit(20)

O cliente com mais transações (Gabriel) também é o cliente com maior valor gasto

In [None]:
consulta03.show()

+------+---------+-------------------+
|    id|     nome|valor_total_compras|
+------+---------+-------------------+
|450405|  Gabriel|             194545|
|505132|  Manuela|              99883|
|444612|  Manuela|              88969|
|405123|   Afonso|              68857|
|432171|    Pedro|              63592|
|450426|    Alice|              61619|
|419959|    Lucas|              59134|
|525734|Guilherme|              55120|
|559536|    Laura|              53434|
|601902|   Marina|              49801|
|438969|  Gabriel|              40300|
|498439|     Caio|              37255|
|512916|   Muriel|              30425|
|280302|   Bianca|              27993|
|455609|    Isaac|              22594|
|513277|   Miguel|              20546|
|284187|  Gabriel|              19302|
|405468|    Alice|              18211|
|462861|   Felipe|              17911|
|517632|  Eduarda|              17306|
+------+---------+-------------------+



Nessa consulta o objetivo é entender quantos clientes ativos cada loja possui, ordenado pelas lojas com maior número. Usando a função count_distinct()


In [None]:
consulta04 = df_vendas_lojas.join(
    df_vendas_transacoes,
    df_vendas_lojas.ID == df_vendas_transacoes.LOJA,
    "left") \
    .join(df_vendas_cliente, df_vendas_transacoes.CLIENTE == df_vendas_cliente.ID, "left") \
    .filter(df_vendas_cliente.ATIVO == 1) \
    .groupBy(df_vendas_lojas.ID, df_vendas_lojas.CIDADE) \
    .agg(count_distinct(df_vendas_cliente.ID).alias("clientes_ativos")) \
    .orderBy(col("clientes_ativos").desc())

Ao visualizar o resultado, percebemos que a loja 3225, que fica em São Paulo, é a loja com maior número de clientes ativos

In [None]:
consulta04.show()

+----+--------------+---------------+
|  ID|        CIDADE|clientes_ativos|
+----+--------------+---------------+
|3225|     São Paulo|           1263|
|1555|     Guarulhos|            819|
|2245|        Recife|            801|
|1821|      São José|            764|
|1001|      Curitiba|            740|
|1741|        Santos|            732|
|1707|      Salvador|            696|
|1823|      Londrina|            660|
|2432|     São Paulo|            641|
|2655|     São Paulo|            638|
|1043|      Curitiba|            599|
|1112|  Campo Grande|            589|
|1411|       Jundiaí|            589|
|3252|      Curitiba|            588|
|2565|     São Paulo|            563|
|2868|     São Paulo|            547|
|3212|      Brasília|            540|
|1039|      Curitiba|            519|
|1014|      Curitiba|            516|
|1231|Belo Horizonte|            514|
+----+--------------+---------------+
only showing top 20 rows



Agora a ideia é saber a quantidade de clientes ativos por cidade

In [None]:
consulta05 = df_vendas_lojas.join(df_vendas_transacoes, df_vendas_lojas.ID == df_vendas_transacoes.LOJA, "left") \
            .join(df_vendas_cliente, df_vendas_cliente.ID == df_vendas_transacoes.CLIENTE) \
            .filter(df_vendas_cliente.ATIVO == 1) \
            .groupBy("cidade") \
            .agg(count_distinct(df_vendas_cliente.ID).alias("clientes_ativos")) \
            .orderBy(col("clientes_ativos").desc())


São Paulo é a cidade com maior número de clientes ativos

In [None]:
consulta05.show()

+-------------------+---------------+
|             cidade|clientes_ativos|
+-------------------+---------------+
|          São Paulo|          61377|
|           Curitiba|          22951|
|     Rio de Janeiro|           6145|
|          Guarulhos|           5520|
|     Belo Horizonte|           5433|
|           Brasília|           5390|
|           Salvador|           4718|
|           Blumenau|           3380|
|           Londrina|           3248|
|             Santos|           2846|
|             Cuiabá|           2796|
|       Porto Alegre|           2694|
|             Maceió|           2686|
|            Jundiaí|           2594|
|        Santo André|           2518|
|            Vitória|           2335|
|             Osasco|           2316|
|       Campo Grande|           2273|
|           Teresina|           2142|
|São José dos Campos|           1898|
+-------------------+---------------+
only showing top 20 rows



Aqui a ideia é saber quais são as lojas com o maior valor de venda

In [None]:
consulta06 = df_vendas_lojas.join(df_vendas_transacoes, df_vendas_lojas.ID == df_vendas_transacoes.LOJA, "left") \
            .filter(df_vendas_lojas.ID.isNotNull()) \
            .groupBy(df_vendas_lojas.ID, df_vendas_lojas.CIDADE) \
            .agg(sum("VALOR").alias("total_vendas")) \
            .orderBy(col("total_vendas").desc())


A loja com maior faturamento é a loja 3248, localizada em São Paulo. Percebemos também com o resultado que das 20 lojas com maior faturamento São Paulo representa quase metade

In [None]:
consulta06.show()

+----+--------------+------------+
|  ID|        CIDADE|total_vendas|
+----+--------------+------------+
|3248|     São Paulo|      405074|
|1821|      São José|      385808|
|1555|     Guarulhos|      381139|
|2432|     São Paulo|      369673|
|2767|     São Paulo|      364937|
|2209|     São Paulo|      342659|
|1411|       Jundiaí|      334621|
|1001|      Curitiba|      311426|
|2968|       Vitória|      306488|
|2200|      Blumenau|      289802|
|1043|      Curitiba|      286940|
|2655|     São Paulo|      283105|
|2909|     São Paulo|      279164|
|2549|     Joinville|      277094|
|3225|     São Paulo|      275934|
|1974|     São Paulo|      274063|
|2245|        Recife|      271236|
|1231|Belo Horizonte|      268544|
|2132|  Porto Alegre|      266450|
|2953|Rio de Janeiro|      265218|
+----+--------------+------------+
only showing top 20 rows



Nessa consulta o objetivo é entender a quantidade de clientes do sexo feminino e masculino em cada cidade, por ordem alfabética

In [None]:
consulta07 = df_vendas_lojas.join(df_vendas_transacoes, df_vendas_lojas.ID == df_vendas_transacoes.LOJA, "left") \
            .join(df_vendas_cliente, df_vendas_cliente.ID == df_vendas_transacoes.CLIENTE, "left") \
            .where(df_vendas_cliente.GENERO.isin("F", "M")) \
            .groupBy(df_vendas_lojas.CIDADE, df_vendas_cliente.GENERO) \
            .agg(count_distinct(df_vendas_cliente.ID).alias("total_clientes")) \
            .orderBy(df_vendas_lojas.CIDADE)

In [None]:
consulta07.show()

+------------------+------+--------------+
|            CIDADE|GENERO|total_clientes|
+------------------+------+--------------+
|            Agudos|     F|            30|
|            Agudos|     M|            39|
|            Amparo|     M|           293|
|            Amparo|     F|           190|
|        Ananindeua|     F|            44|
|        Ananindeua|     M|            44|
|          Anápolis|     M|            88|
|          Anápolis|     F|            46|
|            Apiúna|     M|            79|
|            Apiúna|     F|            86|
|           Aracaju|     F|             1|
|        Araraquara|     M|             3|
|        Araraquara|     F|             2|
|            Araras|     F|            96|
|            Araras|     M|            86|
|         Araucária|     F|             1|
|         Araçatuba|     F|           597|
|         Araçatuba|     M|           605|
|Balneário Camboriú|     M|             3|
|           Barueri|     M|           777|
+----------

**Dataframes Netflix**

Nessa primeira consulta queremos saber qual a média de avaliação de cada filme. Usando a função de agragação avg()

In [None]:
consulta01_nx = df_netflix_movie.join(df_netflix_rating, df_netflix_movie.Movie_ID == df_netflix_rating.Movie_ID, "left") \
                .filter(df_netflix_rating.Rating.isNotNull()) \
                .groupBy(df_netflix_movie.Name) \
                .agg(avg(col=df_netflix_rating.Rating).alias("media_avaliacao")) \
                .orderBy(col("media_avaliacao").desc())

O filme com a melhor média é **Lost: Season 1**

In [None]:
consulta01_nx.show()

+--------------------+------------------+
|                Name|   media_avaliacao|
+--------------------+------------------+
|      Lost: Season 1| 4.665432098765432|
|The Simpsons: Sea...| 4.589824034920202|
|Family Guy: Freak...| 4.520766378244747|
|Six Feet Under: S...| 4.461601211979955|
|           Inu-Yasha| 4.457773512476008|
|Stargate SG-1: Se...| 4.456026058631922|
|The Best of Frien...| 4.449167996352861|
|The West Wing: Se...|  4.43625843780135|
|Lord of the Rings...|  4.43148917942777|
|Gilmore Girls: Se...| 4.428942582488959|
|             Firefly| 4.410771903698188|
|The Simpsons: Sea...| 4.408041422306757|
|Finding Nemo (Wid...| 4.395903857377832|
|    Samurai Champloo| 4.395629238884703|
|The Simpsons: Tre...| 4.395329752312742|
|       The Godfather| 4.392642600755082|
|       CSI: Season 1| 4.375887066005341|
|Buffy the Vampire...|  4.37184159378037|
|Stargate SG-1: Se...|4.3612002264578225|
|   Friends: Season 6| 4.359458908299912|
+--------------------+------------

Aqui a ideia é saber quais são os filmes com a classificação acima de 4,5

In [None]:
consulta02_nx = df_netflix_movie.join(
                df_netflix_rating,
                df_netflix_movie.Movie_ID == df_netflix_rating.Movie_ID,
                "left") \
                .groupBy(df_netflix_movie.Name) \
                .agg(F.avg(df_netflix_rating.Rating).alias("media_avaliacao")).filter(col("media_avaliacao") >= 4.5) \
                .orderBy(col("media_avaliacao").desc())

Somente 3 filmes possuem avaliação maior que 4,5:

In [None]:
consulta02_nx.show()

+--------------------+-----------------+
|                Name|  media_avaliacao|
+--------------------+-----------------+
|      Lost: Season 1|4.665432098765432|
|The Simpsons: Sea...|4.589824034920202|
|Family Guy: Freak...|4.520766378244747|
+--------------------+-----------------+



Considerando apenas filmes lançados em 2005, quais são os com maior avaliação? Usando a função de agragação max()

In [None]:
consulta03_nx = df_netflix_movie.join(
                df_netflix_rating,
                df_netflix_movie.Movie_ID == df_netflix_rating.Movie_ID,
                "left") \
                .groupBy(df_netflix_movie.Name, df_netflix_movie.Year) \
                .agg(F.max(df_netflix_rating.Rating).alias("max_rating")) \
                .filter(df_netflix_movie.Year == 2005) \
                .orderBy(col("max_rating").desc())

In [None]:
consulta03_nx.show()

+--------------------+----+----------+
|                Name|Year|max_rating|
+--------------------+----+----------+
|Pooh's Heffalump ...|2005|         5|
|The Hitchhiker's ...|2005|         5|
|        Coach Carter|2005|         5|
| Kicking & Screaming|2005|         5|
|        Nobody Knows|2005|         5|
|           7 Seconds|2005|         5|
|The Ballad of Jac...|2005|         5|
|       The Sandlot 2|2005|         5|
|       Batman Begins|2005|         5|
|     Alias: Season 4|2005|         5|
|       King's Ransom|2005|         5|
|           Unleashed|2005|         5|
|        Empire Falls|2005|         5|
|         Beauty Shop|2005|         5|
|         Saving Face|2005|         5|
|               11:14|2005|         5|
|        The Pacifier|2005|         5|
|The Amityville Ho...|2005|         5|
|          Look at Me|2005|         5|
|          Dead Birds|2005|         5|
+--------------------+----+----------+
only showing top 20 rows



Nessa consulta o objetivo é saber a quantidade de avaliações de cada filme, considerando apenas os que tiveram pelo menos uma avaliação

In [None]:
consulta04_nx = df_netflix_movie.join(
                df_netflix_rating,
                df_netflix_movie.Movie_ID == df_netflix_rating.Movie_ID,
                "left") \
                .groupBy(df_netflix_movie.Name.alias("filme")) \
                .agg(F.count(df_netflix_rating.Rating).alias("num_avaliacoes")) \
                .filter(col("num_avaliacoes") > 0) \
                .orderBy(col("num_avaliacoes").desc())


In [None]:
consulta04_nx.show()

+--------------------+--------------+
|               filme|num_avaliacoes|
+--------------------+--------------+
|Pirates of the Ca...|        117075|
|Lord of the Rings...|        102721|
|     The Sixth Sense|        102376|
|     American Beauty|        101450|
|      Bruce Almighty|         98545|
|The Silence of th...|         95053|
|Finding Nemo (Wid...|         94235|
|     The Italian Job|         93886|
|             Shrek 2|         92893|
|          Braveheart|         91502|
|               Ghost|         87082|
|     What Women Want|         86756|
|    The Last Samurai|         86354|
|      50 First Dates|         85605|
|The Bourne Supremacy|         85247|
|    A Beautiful Mind|         82347|
|     Men in Black II|         81371|
|The Matrix: Reloaded|         79504|
|               Speed|         79476|
|Sleepless in Seattle|         78996|
+--------------------+--------------+
only showing top 20 rows



Por último, o objetivo é saber a média de avaliação por ano

In [None]:
consulta05_nx = df_netflix_movie.join(
                df_netflix_rating,
                df_netflix_movie.Movie_ID == df_netflix_rating.Movie_ID,
                "left") \
                .groupBy(df_netflix_movie.Year.alias("ano")) \
                .agg(F.avg(df_netflix_rating.Rating).alias("avaliacoes")) \
                .filter(col("avaliacoes").isNotNull()) \
                .orderBy(col("avaliacoes").desc())

Os filmes de 1974 são os que possuem maior média de avaliação:

In [None]:
consulta05_nx.show()

+----+------------------+
| ano|        avaliacoes|
+----+------------------+
|1974| 4.109570377896572|
|1939| 4.107672595089205|
|1954| 4.082166977493708|
|1938| 4.065483476132191|
|1959|  4.02670545071843|
|1952| 3.972993883126617|
|1946|3.9582454192115493|
|1949| 3.956489275047516|
|1941|3.9408571751667987|
|1935| 3.927168416958382|
|1961|3.9251369757796097|
|1934| 3.917944578961528|
|1936| 3.916519347868788|
|1962|3.8925190194420964|
|1965| 3.892512491894572|
|1955| 3.865171413951902|
|1963|3.8642983664632946|
|1973|3.8636710308885216|
|1964|3.8438571973065683|
|1925|3.8184647302904566|
+----+------------------+
only showing top 20 rows

