In [1]:
# instalar pyspark
!pip install pyspark

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [2]:
# importar bibliotecas necessárias
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

In [3]:
# configurar spark session
spark = (
    SparkSession.builder
                .master('local')
                .appName('data-frames')
                .config('spark.ui.port', '4050')
                .getOrCreate()
)

In [4]:
spark

In [5]:
# trabalhar com os dataframes
df = (
    spark.read
         .format('csv')
         .option('header', 'true')
         .option('inferschema', 'true')
         .option('delimiter', ';')
         .load('/content/drive/MyDrive/Datasets/compras.csv')
)

In [6]:
df.printSchema()

root
 |-- Username: string (nullable = true)
 |-- Nome: string (nullable = true)
 |-- Sexo: string (nullable = true)
 |-- Data_Nascimento: string (nullable = true)
 |-- Ocupação: string (nullable = true)
 |-- Assinatura: string (nullable = true)
 |-- Total_Gasto : double (nullable = true)



In [7]:
df.show(truncate=False)

+-------------+-------------------------+---------+---------------+-----------------------------------+----------+------------+
|Username     |Nome                     |Sexo     |Data_Nascimento|Ocupação                           |Assinatura|Total_Gasto |
+-------------+-------------------------+---------+---------------+-----------------------------------+----------+------------+
|Neaude1978   |  Mr \tbailey Glover     |masculino|01/12/1979     |Analista de Inteligência de Mercado|01/10/2021|1257.45     |
|Maress39     |Mrs  \t isabella   Fowler|feminino |04/08/1960     |Arquiteto de Dados                 |24/03/2020|771.99      |
|Kehonell     | Mrs Chloe \tKirby       |feminino |28/06/1949     |Analista de RH                     |07/06/2020|1021.77     |
|Thimpay      | Mrs louise \tClark      |feminino |07/01/1995     |Arquiteto de Dados                 |03/11/2020|234.76      |
|Giall1985    |Mr Harrison \t Bowen     |feminino |04/04/1987     |Engenheiro de Dados                |2

In [8]:
# mostrar apenas Username, Sexo, Ocupação e Total Gasto
#df.select(F.col('Username'), F.col('Sexo'), F.col('Ocupação'), F.col('Total_Gasto ')).show()
df.select('Username', 'Sexo', 'Ocupação', 'Total_Gasto ').show(truncate=False)

+-------------+---------+-----------------------------------+------------+
|Username     |Sexo     |Ocupação                           |Total_Gasto |
+-------------+---------+-----------------------------------+------------+
|Neaude1978   |masculino|Analista de Inteligência de Mercado|1257.45     |
|Maress39     |feminino |Arquiteto de Dados                 |771.99      |
|Kehonell     |feminino |Analista de RH                     |1021.77     |
|Thimpay      |feminino |Arquiteto de Dados                 |234.76      |
|Giall1985    |feminino |Engenheiro de Dados                |628.07      |
|Neave1959    |feminino |Engenheiro de Dados                |140.04      |
|Nicterims1993|masculino|Engenheiro de Dados                |2417.81     |
|Fouldlairity |masculino|Analista Financeiro                |51.95       |
|Ancomettiody |feminino |Estatístico                        |130.73      |
|Onswis       |feminino |Engenheiro de Machine Learning     |1778.72     |
|Majeappre    |feminino |

In [9]:
# mostrar apenas Username, Sexo, Ocupação e Total Gasto apenas quando o Total for maior que 1000
df.select(F.col('Username'), F.col('Sexo'), F.col('Ocupação'), F.col('Total_Gasto ')).filter(F.col('Total_Gasto ') > 1000).show(truncate=False)

+-------------+---------+-----------------------------------+------------+
|Username     |Sexo     |Ocupação                           |Total_Gasto |
+-------------+---------+-----------------------------------+------------+
|Neaude1978   |masculino|Analista de Inteligência de Mercado|1257.45     |
|Kehonell     |feminino |Analista de RH                     |1021.77     |
|Nicterims1993|masculino|Engenheiro de Dados                |2417.81     |
|Onswis       |feminino |Engenheiro de Machine Learning     |1778.72     |
|Majeappre    |feminino |Gerente de Tecnologia              |1034.74     |
|Theired      |masculino|Analista de Inteligência de Mercado|1320.04     |
|Botter       |feminino |Web Designer                       |3464.72     |
+-------------+---------+-----------------------------------+------------+



In [10]:
# mostrar apenas Username, Sexo, Ocupação e Total Gasto apenas quando o Total for menor que 2000
df.select(F.col('Username'), F.col('Sexo'), F.col('Ocupação'), F.col('Total_Gasto ')).filter(F.col('Total_Gasto ') < 2000).show(truncate=False)

+------------+---------+-----------------------------------+------------+
|Username    |Sexo     |Ocupação                           |Total_Gasto |
+------------+---------+-----------------------------------+------------+
|Neaude1978  |masculino|Analista de Inteligência de Mercado|1257.45     |
|Maress39    |feminino |Arquiteto de Dados                 |771.99      |
|Kehonell    |feminino |Analista de RH                     |1021.77     |
|Thimpay     |feminino |Arquiteto de Dados                 |234.76      |
|Giall1985   |feminino |Engenheiro de Dados                |628.07      |
|Neave1959   |feminino |Engenheiro de Dados                |140.04      |
|Fouldlairity|masculino|Analista Financeiro                |51.95       |
|Ancomettiody|feminino |Estatístico                        |130.73      |
|Onswis      |feminino |Engenheiro de Machine Learning     |1778.72     |
|Majeappre   |feminino |Gerente de Tecnologia              |1034.74     |
|Theired     |masculino|Analista de In

In [11]:
# mostrar apenas Username, Sexo, Ocupação e Total Gasto apenas quando o Total for maior que 1000 e menor que 2000
df2 = ( df.select(F.col('Username'), F.col('Sexo'), F.col('Ocupação'), F.col('Total_Gasto '))
         .filter(F.col('Total_Gasto ') > 1000)
         .filter(F.col('Total_Gasto ') < 2000)
)

In [12]:
df2.show(truncate=False)

+----------+---------+-----------------------------------+------------+
|Username  |Sexo     |Ocupação                           |Total_Gasto |
+----------+---------+-----------------------------------+------------+
|Neaude1978|masculino|Analista de Inteligência de Mercado|1257.45     |
|Kehonell  |feminino |Analista de RH                     |1021.77     |
|Onswis    |feminino |Engenheiro de Machine Learning     |1778.72     |
|Majeappre |feminino |Gerente de Tecnologia              |1034.74     |
|Theired   |masculino|Analista de Inteligência de Mercado|1320.04     |
+----------+---------+-----------------------------------+------------+



In [13]:
# mostrar apenas Username, Sexo, Ocupação e Total Gasto apenas quando o Total for maior que 1000 e menor que 2000
df3 = ( df.select(F.col('Username'), F.col('Sexo'), F.col('Ocupação'), F.col('Total_Gasto '))
         .filter((F.col('Total_Gasto ') > 1000) & (F.col('Total_Gasto ') < 2000))
)

In [14]:
df3.show(truncate=False)

+----------+---------+-----------------------------------+------------+
|Username  |Sexo     |Ocupação                           |Total_Gasto |
+----------+---------+-----------------------------------+------------+
|Neaude1978|masculino|Analista de Inteligência de Mercado|1257.45     |
|Kehonell  |feminino |Analista de RH                     |1021.77     |
|Onswis    |feminino |Engenheiro de Machine Learning     |1778.72     |
|Majeappre |feminino |Gerente de Tecnologia              |1034.74     |
|Theired   |masculino|Analista de Inteligência de Mercado|1320.04     |
+----------+---------+-----------------------------------+------------+



In [15]:
# outra forma de aplicar filtros - função where
df.where(F.col('Total_Gasto ') > 1000).show()

+-------------+--------------------+---------+---------------+--------------------+----------+------------+
|     Username|                Nome|     Sexo|Data_Nascimento|            Ocupação|Assinatura|Total_Gasto |
+-------------+--------------------+---------+---------------+--------------------+----------+------------+
|   Neaude1978|  Mr \tbailey Glo...|masculino|     01/12/1979|Analista de Intel...|01/10/2021|     1257.45|
|     Kehonell| Mrs Chloe \tKirby  | feminino|     28/06/1949|      Analista de RH|07/06/2020|     1021.77|
|Nicterims1993|  Mrs \tDaisy And...|masculino|     05/07/1985| Engenheiro de Dados|29/01/2021|     2417.81|
|       Onswis| Ms Katie \tMmtcalfe| feminino|     01/07/1983|Engenheiro de Mac...|27/02/2021|     1778.72|
|    Majeappre|   Mr Luca \tVaughan| feminino|     03/01/1971|Gerente de Tecnol...|15/07/2022|     1034.74|
|      Theired|   Mr Henry \tHaynes|masculino|     06/09/1951|Analista de Intel...|23/12/2022|     1320.04|
|       Botter|    Mr Noah \

In [16]:
# renomear coluna no PySpark
df2 = (df.withColumnRenamed('Ocupação', 'ocupacao')
         .withColumnRenamed('Username', 'usuario')
         .withColumnRenamed('Total_Gasto ', 'total_gasto')
)

In [17]:
df2.show()

+-------------+--------------------+---------+---------------+--------------------+----------+-----------+
|      usuario|                Nome|     Sexo|Data_Nascimento|            ocupacao|Assinatura|total_gasto|
+-------------+--------------------+---------+---------------+--------------------+----------+-----------+
|   Neaude1978|  Mr \tbailey Glo...|masculino|     01/12/1979|Analista de Intel...|01/10/2021|    1257.45|
|     Maress39|Mrs  \t isabella ...| feminino|     04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|
|     Kehonell| Mrs Chloe \tKirby  | feminino|     28/06/1949|      Analista de RH|07/06/2020|    1021.77|
|      Thimpay| Mrs louise \tCla...| feminino|     07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|
|    Giall1985|Mr Harrison \t Bowen| feminino|     04/04/1987| Engenheiro de Dados|25/03/2020|     628.07|
|    Neave1959|Mrs anna \t     S...| feminino|     02/02/1970| Engenheiro de Dados|18/09/2020|     140.04|
|Nicterims1993|  Mrs \tDaisy And...|m

In [18]:
# filtrar por ocupação que comece com analista
df2.filter('ocupacao like "Analista%"').show()

+------------+--------------------+---------+---------------+--------------------+----------+-----------+
|     usuario|                Nome|     Sexo|Data_Nascimento|            ocupacao|Assinatura|total_gasto|
+------------+--------------------+---------+---------------+--------------------+----------+-----------+
|  Neaude1978|  Mr \tbailey Glo...|masculino|     01/12/1979|Analista de Intel...|01/10/2021|    1257.45|
|    Kehonell| Mrs Chloe \tKirby  | feminino|     28/06/1949|      Analista de RH|07/06/2020|    1021.77|
|Fouldlairity|    Ms zoe \tPeacock|masculino|     03/06/1964| Analista Financeiro|04/12/2020|      51.95|
|     Theired|   Mr Henry \tHaynes|masculino|     06/09/1951|Analista de Intel...|23/12/2022|    1320.04|
+------------+--------------------+---------+---------------+--------------------+----------+-----------+



In [19]:
# busca por ocupação que comece com analista
df2.filter(F.col('ocupacao').startswith('Analista')).show(truncate=False)

+------------+----------------------+---------+---------------+-----------------------------------+----------+-----------+
|usuario     |Nome                  |Sexo     |Data_Nascimento|ocupacao                           |Assinatura|total_gasto|
+------------+----------------------+---------+---------------+-----------------------------------+----------+-----------+
|Neaude1978  |  Mr \tbailey Glover  |masculino|01/12/1979     |Analista de Inteligência de Mercado|01/10/2021|1257.45    |
|Kehonell    | Mrs Chloe \tKirby    |feminino |28/06/1949     |Analista de RH                     |07/06/2020|1021.77    |
|Fouldlairity|Ms zoe \tPeacock      |masculino|03/06/1964     |Analista Financeiro                |04/12/2020|51.95      |
|Theired     |Mr Henry \tHaynes     |masculino|06/09/1951     |Analista de Inteligência de Mercado|23/12/2022|1320.04    |
+------------+----------------------+---------+---------------+-----------------------------------+----------+-----------+



In [20]:
# busca por ocupação que termine com mercado
df2.filter(F.col('ocupacao').endswith('Mercado')).show(truncate=False)

+----------+----------------------+---------+---------------+-----------------------------------+----------+-----------+
|usuario   |Nome                  |Sexo     |Data_Nascimento|ocupacao                           |Assinatura|total_gasto|
+----------+----------------------+---------+---------------+-----------------------------------+----------+-----------+
|Neaude1978|  Mr \tbailey Glover  |masculino|01/12/1979     |Analista de Inteligência de Mercado|01/10/2021|1257.45    |
|Theired   |Mr Henry \tHaynes     |masculino|06/09/1951     |Analista de Inteligência de Mercado|23/12/2022|1320.04    |
+----------+----------------------+---------+---------------+-----------------------------------+----------+-----------+



In [21]:
# busca por ocupação usando contains
df2.filter(F.col('ocupacao').contains('Inteligência')).show(truncate=False)

+----------+----------------------+---------+---------------+-----------------------------------+----------+-----------+
|usuario   |Nome                  |Sexo     |Data_Nascimento|ocupacao                           |Assinatura|total_gasto|
+----------+----------------------+---------+---------------+-----------------------------------+----------+-----------+
|Neaude1978|  Mr \tbailey Glover  |masculino|01/12/1979     |Analista de Inteligência de Mercado|01/10/2021|1257.45    |
|Theired   |Mr Henry \tHaynes     |masculino|06/09/1951     |Analista de Inteligência de Mercado|23/12/2022|1320.04    |
+----------+----------------------+---------+---------------+-----------------------------------+----------+-----------+



In [22]:
# busca por ocupação usando like
df2.filter(F.col('ocupacao').like('Analista%')).show(truncate=False)

+------------+----------------------+---------+---------------+-----------------------------------+----------+-----------+
|usuario     |Nome                  |Sexo     |Data_Nascimento|ocupacao                           |Assinatura|total_gasto|
+------------+----------------------+---------+---------------+-----------------------------------+----------+-----------+
|Neaude1978  |  Mr \tbailey Glover  |masculino|01/12/1979     |Analista de Inteligência de Mercado|01/10/2021|1257.45    |
|Kehonell    | Mrs Chloe \tKirby    |feminino |28/06/1949     |Analista de RH                     |07/06/2020|1021.77    |
|Fouldlairity|Ms zoe \tPeacock      |masculino|03/06/1964     |Analista Financeiro                |04/12/2020|51.95      |
|Theired     |Mr Henry \tHaynes     |masculino|06/09/1951     |Analista de Inteligência de Mercado|23/12/2022|1320.04    |
+------------+----------------------+---------+---------------+-----------------------------------+----------+-----------+



In [23]:
# verificar quantidade de linhas do df
df2.count()

13

In [24]:
# criar uma nova coluna contendo 10% sobre o valor total gasto
df3 = df2.withColumn('total_de_desconto', F.lit('Nova Coluna Criada'))

In [25]:
df3.show()

+-------------+--------------------+---------+---------------+--------------------+----------+-----------+------------------+
|      usuario|                Nome|     Sexo|Data_Nascimento|            ocupacao|Assinatura|total_gasto| total_de_desconto|
+-------------+--------------------+---------+---------------+--------------------+----------+-----------+------------------+
|   Neaude1978|  Mr \tbailey Glo...|masculino|     01/12/1979|Analista de Intel...|01/10/2021|    1257.45|Nova Coluna Criada|
|     Maress39|Mrs  \t isabella ...| feminino|     04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|Nova Coluna Criada|
|     Kehonell| Mrs Chloe \tKirby  | feminino|     28/06/1949|      Analista de RH|07/06/2020|    1021.77|Nova Coluna Criada|
|      Thimpay| Mrs louise \tCla...| feminino|     07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|Nova Coluna Criada|
|    Giall1985|Mr Harrison \t Bowen| feminino|     04/04/1987| Engenheiro de Dados|25/03/2020|     628.07|Nova Coluna 

In [26]:
df3 = df3.withColumn('total_de_desconto', F.round(df3.total_gasto*0.1, 2))

In [27]:
df3.show()

+-------------+--------------------+---------+---------------+--------------------+----------+-----------+-----------------+
|      usuario|                Nome|     Sexo|Data_Nascimento|            ocupacao|Assinatura|total_gasto|total_de_desconto|
+-------------+--------------------+---------+---------------+--------------------+----------+-----------+-----------------+
|   Neaude1978|  Mr \tbailey Glo...|masculino|     01/12/1979|Analista de Intel...|01/10/2021|    1257.45|           125.75|
|     Maress39|Mrs  \t isabella ...| feminino|     04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|             77.2|
|     Kehonell| Mrs Chloe \tKirby  | feminino|     28/06/1949|      Analista de RH|07/06/2020|    1021.77|           102.18|
|      Thimpay| Mrs louise \tCla...| feminino|     07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|            23.48|
|    Giall1985|Mr Harrison \t Bowen| feminino|     04/04/1987| Engenheiro de Dados|25/03/2020|     628.07|            62.81|


In [28]:
# criar uma nova coluna contendo o valor gasto - o desconto
df3 = df3.withColumn('total_com_desconto', F.lit('Nova Coluna Criada'))

In [29]:
df3.show()

+-------------+--------------------+---------+---------------+--------------------+----------+-----------+-----------------+------------------+
|      usuario|                Nome|     Sexo|Data_Nascimento|            ocupacao|Assinatura|total_gasto|total_de_desconto|total_com_desconto|
+-------------+--------------------+---------+---------------+--------------------+----------+-----------+-----------------+------------------+
|   Neaude1978|  Mr \tbailey Glo...|masculino|     01/12/1979|Analista de Intel...|01/10/2021|    1257.45|           125.75|Nova Coluna Criada|
|     Maress39|Mrs  \t isabella ...| feminino|     04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|             77.2|Nova Coluna Criada|
|     Kehonell| Mrs Chloe \tKirby  | feminino|     28/06/1949|      Analista de RH|07/06/2020|    1021.77|           102.18|Nova Coluna Criada|
|      Thimpay| Mrs louise \tCla...| feminino|     07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|            23.48|Nova Coluna 

In [30]:
df3 = df3.withColumn('total_com_desconto', F.round((F.col('total_gasto') - F.col('total_de_desconto')), 2))

In [31]:
df3.show()

+-------------+--------------------+---------+---------------+--------------------+----------+-----------+-----------------+------------------+
|      usuario|                Nome|     Sexo|Data_Nascimento|            ocupacao|Assinatura|total_gasto|total_de_desconto|total_com_desconto|
+-------------+--------------------+---------+---------------+--------------------+----------+-----------+-----------------+------------------+
|   Neaude1978|  Mr \tbailey Glo...|masculino|     01/12/1979|Analista de Intel...|01/10/2021|    1257.45|           125.75|            1131.7|
|     Maress39|Mrs  \t isabella ...| feminino|     04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|             77.2|            694.79|
|     Kehonell| Mrs Chloe \tKirby  | feminino|     28/06/1949|      Analista de RH|07/06/2020|    1021.77|           102.18|            919.59|
|      Thimpay| Mrs louise \tCla...| feminino|     07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|            23.48|            

In [32]:
# criar uma nova coluna contendo o valor total - 10% de desconto sobre o valor total gasto
df4 = df2.withColumn('total_com_desconto', F.round((F.col('total_gasto') - F.col('total_gasto') * 0.1),2))

In [33]:
df4.show()

+-------------+--------------------+---------+---------------+--------------------+----------+-----------+------------------+
|      usuario|                Nome|     Sexo|Data_Nascimento|            ocupacao|Assinatura|total_gasto|total_com_desconto|
+-------------+--------------------+---------+---------------+--------------------+----------+-----------+------------------+
|   Neaude1978|  Mr \tbailey Glo...|masculino|     01/12/1979|Analista de Intel...|01/10/2021|    1257.45|           1131.71|
|     Maress39|Mrs  \t isabella ...| feminino|     04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|            694.79|
|     Kehonell| Mrs Chloe \tKirby  | feminino|     28/06/1949|      Analista de RH|07/06/2020|    1021.77|            919.59|
|      Thimpay| Mrs louise \tCla...| feminino|     07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|            211.28|
|    Giall1985|Mr Harrison \t Bowen| feminino|     04/04/1987| Engenheiro de Dados|25/03/2020|     628.07|            

In [34]:
# retornar as ocupações existentes, cada uma apareendo uma única vez
df4.select('ocupacao').distinct().show(truncate=False)

+-----------------------------------+
|ocupacao                           |
+-----------------------------------+
|Engenheiro de Machine Learning     |
|Arquiteto de Dados                 |
|Estatístico                        |
|Analista de RH                     |
|Engenheiro de Dados                |
|Analista Financeiro                |
|Gerente de Tecnologia              |
|Web Designer                       |
|Analista de Inteligência de Mercado|
+-----------------------------------+



In [44]:
#RETORNAR usuário, data de nascimento e ocupação ordenado pelo usuário em ordem crescente (A-Z)
df4.select(F.col('usuario'), F.col('Data_Nascimento'), F.col('ocupacao')).orderBy(F.col('usuario').asc()).show(truncate=False)

+-------------+---------------+-----------------------------------+
|usuario      |Data_Nascimento|ocupacao                           |
+-------------+---------------+-----------------------------------+
|Ancomettiody |04/09/1974     |Estatístico                        |
|Botter       |09/03/1991     |Web Designer                       |
|Fouldlairity |03/06/1964     |Analista Financeiro                |
|Giall1985    |04/04/1987     |Engenheiro de Dados                |
|Kehonell     |28/06/1949     |Analista de RH                     |
|Majeappre    |03/01/1971     |Gerente de Tecnologia              |
|Maress39     |04/08/1960     |Arquiteto de Dados                 |
|Neaude1978   |01/12/1979     |Analista de Inteligência de Mercado|
|Neave1959    |02/02/1970     |Engenheiro de Dados                |
|Nicterims1993|05/07/1985     |Engenheiro de Dados                |
|Onswis       |01/07/1983     |Engenheiro de Machine Learning     |
|Theired      |06/09/1951     |Analista de Intel

In [46]:
df4.select(F.col('Nome'), F.col('Data_Nascimento'), F.col('total_gasto')).orderBy(F.col('Nome').asc(), F.col('Data_Nascimento').asc(), F.col('total_gasto').desc()).show(truncate=False)

+-------------------------+---------------+-----------+
|Nome                     |Data_Nascimento|total_gasto|
+-------------------------+---------------+-----------+
|  Mr \tbailey Glover     |01/12/1979     |1257.45    |
|  Mrs \tDaisy Anderson   |05/07/1985     |2417.81    |
| Mrs Chloe \tKirby       |28/06/1949     |1021.77    |
| Mrs Libby \tWilliams    |04/09/1974     |130.73     |
| Mrs louise \tClark      |07/01/1995     |234.76     |
|Mr Harrison \t Bowen     |04/04/1987     |628.07     |
|Mr Henry \tHaynes        |06/09/1951     |1320.04    |
|Mr Luca \tVaughan        |03/01/1971     |1034.74    |
|Mr Noah \tWalton         |09/03/1991     |3464.72    |
|Mrs  \t isabella   Fowler|04/08/1960     |771.99     |
|Mrs anna \t     Sharp    |02/02/1970     |140.04     |
|Ms Katie \tMmtcalfe      |01/07/1983     |1778.72    |
|Ms zoe \tPeacock         |03/06/1964     |51.95      |
+-------------------------+---------------+-----------+



In [47]:
#Retornar nome, ocupação e total gasto ordenado pelo total gasto do menor para o maior
df4.select(F.col('Nome'), F.col('ocupacao'), F.col('total_gasto')).orderBy(F.col('total_gasto')).show(truncate=False)

+-------------------------+-----------------------------------+-----------+
|Nome                     |ocupacao                           |total_gasto|
+-------------------------+-----------------------------------+-----------+
|Ms zoe \tPeacock         |Analista Financeiro                |51.95      |
| Mrs Libby \tWilliams    |Estatístico                        |130.73     |
|Mrs anna \t     Sharp    |Engenheiro de Dados                |140.04     |
| Mrs louise \tClark      |Arquiteto de Dados                 |234.76     |
|Mr Harrison \t Bowen     |Engenheiro de Dados                |628.07     |
|Mrs  \t isabella   Fowler|Arquiteto de Dados                 |771.99     |
| Mrs Chloe \tKirby       |Analista de RH                     |1021.77    |
|Mr Luca \tVaughan        |Gerente de Tecnologia              |1034.74    |
|  Mr \tbailey Glover     |Analista de Inteligência de Mercado|1257.45    |
|Mr Henry \tHaynes        |Analista de Inteligência de Mercado|1320.04    |
|Ms Katie \t

In [48]:
#Retornar nome, ocupação e total gasto ordenado pelo total gasto do maior para o menor
df4.select(F.col('Nome'), F.col('ocupacao'), F.col('total_gasto')).orderBy(F.col('total_gasto').desc()).show(truncate=False)

+-------------------------+-----------------------------------+-----------+
|Nome                     |ocupacao                           |total_gasto|
+-------------------------+-----------------------------------+-----------+
|Mr Noah \tWalton         |Web Designer                       |3464.72    |
|  Mrs \tDaisy Anderson   |Engenheiro de Dados                |2417.81    |
|Ms Katie \tMmtcalfe      |Engenheiro de Machine Learning     |1778.72    |
|Mr Henry \tHaynes        |Analista de Inteligência de Mercado|1320.04    |
|  Mr \tbailey Glover     |Analista de Inteligência de Mercado|1257.45    |
|Mr Luca \tVaughan        |Gerente de Tecnologia              |1034.74    |
| Mrs Chloe \tKirby       |Analista de RH                     |1021.77    |
|Mrs  \t isabella   Fowler|Arquiteto de Dados                 |771.99     |
|Mr Harrison \t Bowen     |Engenheiro de Dados                |628.07     |
| Mrs louise \tClark      |Arquiteto de Dados                 |234.76     |
|Mrs anna \t

In [49]:
df4.orderBy('usuario', ascending=True).show()

+-------------+--------------------+---------+---------------+--------------------+----------+-----------+------------------+
|      usuario|                Nome|     Sexo|Data_Nascimento|            ocupacao|Assinatura|total_gasto|total_com_desconto|
+-------------+--------------------+---------+---------------+--------------------+----------+-----------+------------------+
| Ancomettiody| Mrs Libby \tWill...| feminino|     04/09/1974|         Estatístico|21/11/2020|     130.73|            117.66|
|       Botter|    Mr Noah \tWalton| feminino|     09/03/1991|        Web Designer|26/07/2022|    3464.72|           3118.25|
| Fouldlairity|    Ms zoe \tPeacock|masculino|     03/06/1964| Analista Financeiro|04/12/2020|      51.95|             46.76|
|    Giall1985|Mr Harrison \t Bowen| feminino|     04/04/1987| Engenheiro de Dados|25/03/2020|     628.07|            565.26|
|     Kehonell| Mrs Chloe \tKirby  | feminino|     28/06/1949|      Analista de RH|07/06/2020|    1021.77|            

In [50]:
# podemos utilizar sort para ordenação que terá o mesmo resultado
df4.sort(F.col('usuario').desc()).show()

+-------------+--------------------+---------+---------------+--------------------+----------+-----------+------------------+
|      usuario|                Nome|     Sexo|Data_Nascimento|            ocupacao|Assinatura|total_gasto|total_com_desconto|
+-------------+--------------------+---------+---------------+--------------------+----------+-----------+------------------+
|      Thimpay| Mrs louise \tCla...| feminino|     07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|            211.28|
|      Theired|   Mr Henry \tHaynes|masculino|     06/09/1951|Analista de Intel...|23/12/2022|    1320.04|           1188.04|
|       Onswis| Ms Katie \tMmtcalfe| feminino|     01/07/1983|Engenheiro de Mac...|27/02/2021|    1778.72|           1600.85|
|Nicterims1993|  Mrs \tDaisy And...|masculino|     05/07/1985| Engenheiro de Dados|29/01/2021|    2417.81|           2176.03|
|    Neave1959|Mrs anna \t     S...| feminino|     02/02/1970| Engenheiro de Dados|18/09/2020|     140.04|            

In [60]:
# retornar quantidade de pessoas por ocupação
df4.groupBy('ocupacao').count().show(truncate=False)

+-----------------------------------+-----+
|ocupacao                           |count|
+-----------------------------------+-----+
|Engenheiro de Machine Learning     |1    |
|Arquiteto de Dados                 |2    |
|Estatístico                        |1    |
|Analista de RH                     |1    |
|Engenheiro de Dados                |3    |
|Analista Financeiro                |1    |
|Gerente de Tecnologia              |1    |
|Web Designer                       |1    |
|Analista de Inteligência de Mercado|2    |
+-----------------------------------+-----+



In [58]:
# retornar quantidade de pessoas por sexo
df4.groupBy('sexo').count().show()

+---------+-----+
|     sexo|count|
+---------+-----+
|masculino|    4|
| feminino|    9|
+---------+-----+



In [62]:
# retornar valor total gasto por ocupação
df4.groupBy('ocupacao').sum('total_gasto').show(truncate=False)

+-----------------------------------+----------------+
|ocupacao                           |sum(total_gasto)|
+-----------------------------------+----------------+
|Engenheiro de Machine Learning     |1778.72         |
|Arquiteto de Dados                 |1006.75         |
|Estatístico                        |130.73          |
|Analista de RH                     |1021.77         |
|Engenheiro de Dados                |3185.92         |
|Analista Financeiro                |51.95           |
|Gerente de Tecnologia              |1034.74         |
|Web Designer                       |3464.72         |
|Analista de Inteligência de Mercado|2577.49         |
+-----------------------------------+----------------+



In [76]:
# retornar valor total gasto por sexo
df4.groupBy(F.col('sexo')).sum('total_gasto').show(truncate=False)

+---------+-----------------+
|sexo     |sum(total_gasto) |
+---------+-----------------+
|masculino|5047.25          |
|feminino |9205.539999999999|
+---------+-----------------+



In [81]:
df4.groupBy(F.col('sexo')).avg('total_gasto').show(truncate=False)

+---------+------------------+
|sexo     |avg(total_gasto)  |
+---------+------------------+
|masculino|1261.8125         |
|feminino |1022.8377777777777|
+---------+------------------+



In [82]:
# função de agregação para usar com group by - agg
df4.groupBy('sexo').agg(F.round(F.sum('total_gasto'),2), F.round(F.avg('total_gasto'),2)).show()

+---------+--------------------------+--------------------------+
|     sexo|round(sum(total_gasto), 2)|round(avg(total_gasto), 2)|
+---------+--------------------------+--------------------------+
|masculino|                   5047.25|                   1261.81|
| feminino|                   9205.54|                   1022.84|
+---------+--------------------------+--------------------------+



In [87]:
# retornar o valor total gasto por sexo e o valor mínimo e máximo gasto por cada sexo
df5 = df4.select(F.col('sexo'), F.col('total_gasto')).groupBy('sexo').agg(F.round(F.sum('total_gasto'),2).alias('Total por Sexo'),
                                              F.min('total_gasto').alias('Valor mínimo'),
                                              F.max('total_gasto').alias('Valor máximo')
                                              )

In [88]:
df5.show()

+---------+--------------+------------+------------+
|     sexo|Total por Sexo|Valor mínimo|Valor máximo|
+---------+--------------+------------+------------+
|masculino|       5047.25|       51.95|     2417.81|
| feminino|       9205.54|      130.73|     3464.72|
+---------+--------------+------------+------------+



In [90]:
# criar uma nova coluna contendo nº 1 para sexo masculino e 2 para sexo feminino
# função when - otherwise
df4.select('sexo').withColumn('id_sexo', F.when(F.col('sexo') == 'masculino', F.lit(1)).otherwise(F.lit(2))).show()

+---------+-------+
|     sexo|id_sexo|
+---------+-------+
|masculino|      1|
| feminino|      2|
| feminino|      2|
| feminino|      2|
| feminino|      2|
| feminino|      2|
|masculino|      1|
|masculino|      1|
| feminino|      2|
| feminino|      2|
| feminino|      2|
|masculino|      1|
| feminino|      2|
+---------+-------+



In [92]:
df4.select('data_nascimento').show()

+---------------+
|data_nascimento|
+---------------+
|     01/12/1979|
|     04/08/1960|
|     28/06/1949|
|     07/01/1995|
|     04/04/1987|
|     02/02/1970|
|     05/07/1985|
|     03/06/1964|
|     04/09/1974|
|     01/07/1983|
|     03/01/1971|
|     06/09/1951|
|     09/03/1991|
+---------------+



In [98]:
# separar o dia, mês e ano em 3 variáveis diferentes
# ano
df4.select(F.substring(F.col('data_nascimento'),7,4).alias('ano')).show()

+----+
| ano|
+----+
|1979|
|1960|
|1949|
|1995|
|1987|
|1970|
|1985|
|1964|
|1974|
|1983|
|1971|
|1951|
|1991|
+----+



In [99]:
#mes
df4.select(F.substring(F.col('data_nascimento'),4,2).alias('mes')).show()

+---+
|mes|
+---+
| 12|
| 08|
| 06|
| 01|
| 04|
| 02|
| 07|
| 06|
| 09|
| 07|
| 01|
| 09|
| 03|
+---+



In [100]:
# dia
df4.select(F.substring(F.col('data_nascimento'),1,2).alias('dia')).show()

+---+
|dia|
+---+
| 01|
| 04|
| 28|
| 07|
| 04|
| 02|
| 05|
| 03|
| 04|
| 01|
| 03|
| 06|
| 09|
+---+



In [113]:
# separar o dia, mês e ano em 3 colunas diferentes
df_data_separada = ( df4.select('data_nascimento')
     .withColumn('dia', F.substring(F.col('data_nascimento'),1,2))
     .withColumn('mes', F.substring(F.col('data_nascimento'),4,2))
     .withColumn('ano', F.substring(F.col('data_nascimento'),7,4))  
)

In [114]:
df_data_separada.show(2)

+---------------+---+---+----+
|data_nascimento|dia|mes| ano|
+---------------+---+---+----+
|     01/12/1979| 01| 12|1979|
|     04/08/1960| 04| 08|1960|
+---------------+---+---+----+
only showing top 2 rows



In [115]:
df_data_separada.printSchema()

root
 |-- data_nascimento: string (nullable = true)
 |-- dia: string (nullable = true)
 |-- mes: string (nullable = true)
 |-- ano: string (nullable = true)



In [116]:
df4.show()

+-------------+--------------------+---------+---------------+--------------------+----------+-----------+------------------+
|      usuario|                Nome|     Sexo|Data_Nascimento|            ocupacao|Assinatura|total_gasto|total_com_desconto|
+-------------+--------------------+---------+---------------+--------------------+----------+-----------+------------------+
|   Neaude1978|  Mr \tbailey Glo...|masculino|     01/12/1979|Analista de Intel...|01/10/2021|    1257.45|           1131.71|
|     Maress39|Mrs  \t isabella ...| feminino|     04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|            694.79|
|     Kehonell| Mrs Chloe \tKirby  | feminino|     28/06/1949|      Analista de RH|07/06/2020|    1021.77|            919.59|
|      Thimpay| Mrs louise \tCla...| feminino|     07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|            211.28|
|    Giall1985|Mr Harrison \t Bowen| feminino|     04/04/1987| Engenheiro de Dados|25/03/2020|     628.07|            

In [125]:
# função para alterar valores dentro de uma coluna 
df5 = ( df4.withColumn('sexo', F.when(F.col('sexo') == 'masculino', F.regexp_replace(F.col('sexo'), 'masculino', 'm'))
                                .when(F.col('sexo') == 'feminino', F.regexp_replace(F.col('sexo'), 'feminino', 'f'))
                                .otherwise('Não informado')
                      )
)

In [126]:
df5.show()

+-------------+--------------------+----+---------------+--------------------+----------+-----------+------------------+
|      usuario|                Nome|sexo|Data_Nascimento|            ocupacao|Assinatura|total_gasto|total_com_desconto|
+-------------+--------------------+----+---------------+--------------------+----------+-----------+------------------+
|   Neaude1978|  Mr \tbailey Glo...|   m|     01/12/1979|Analista de Intel...|01/10/2021|    1257.45|           1131.71|
|     Maress39|Mrs  \t isabella ...|   f|     04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|            694.79|
|     Kehonell| Mrs Chloe \tKirby  |   f|     28/06/1949|      Analista de RH|07/06/2020|    1021.77|            919.59|
|      Thimpay| Mrs louise \tCla...|   f|     07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|            211.28|
|    Giall1985|Mr Harrison \t Bowen|   f|     04/04/1987| Engenheiro de Dados|25/03/2020|     628.07|            565.26|
|    Neave1959|Mrs anna \t     S

In [128]:
# alterar linhas duplicadas no dataframe
df5.dropDuplicates()
df5.distinct()

total_linhas = df5.count()
total_linhas_distintas = df5.distinct().count()

print(total_linhas - total_linhas_distintas)

0


In [129]:
# equivalente ao describe do prandas
df5.summary().show()

+-------+------------+--------------------+----+---------------+-------------------+----------+------------------+------------------+
|summary|     usuario|                Nome|sexo|Data_Nascimento|           ocupacao|Assinatura|       total_gasto|total_com_desconto|
+-------+------------+--------------------+----+---------------+-------------------+----------+------------------+------------------+
|  count|          13|                  13|  13|             13|                 13|        13|                13|                13|
|   mean|        null|                null|null|           null|               null|      null|1096.3684615384614| 986.7330769230771|
| stddev|        null|                null|null|           null|               null|      null| 996.2833119553741| 896.6551757911606|
|    min|Ancomettiody|  Mr \tbailey Glo...|   f|     01/07/1983|Analista Financeiro|01/10/2021|             51.95|             46.76|
|    25%|        null|                null|null|           nul

In [127]:
# remover uma coluna no dataframe
df5.drop(F.col('usuario')).show()

+--------------------+----+---------------+--------------------+----------+-----------+------------------+
|                Nome|sexo|Data_Nascimento|            ocupacao|Assinatura|total_gasto|total_com_desconto|
+--------------------+----+---------------+--------------------+----------+-----------+------------------+
|  Mr \tbailey Glo...|   m|     01/12/1979|Analista de Intel...|01/10/2021|    1257.45|           1131.71|
|Mrs  \t isabella ...|   f|     04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|            694.79|
| Mrs Chloe \tKirby  |   f|     28/06/1949|      Analista de RH|07/06/2020|    1021.77|            919.59|
| Mrs louise \tCla...|   f|     07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|            211.28|
|Mr Harrison \t Bowen|   f|     04/04/1987| Engenheiro de Dados|25/03/2020|     628.07|            565.26|
|Mrs anna \t     S...|   f|     02/02/1970| Engenheiro de Dados|18/09/2020|     140.04|            126.04|
|  Mrs \tDaisy And...|   m|     05/07

In [None]:
# substituição de valores nulos
# sem subset ele procura no df todo
df5.fillna('NA', subset=['Nome', 'sexo', 'data_nascimento'])

In [130]:
import pandas as pd

In [131]:
#REMOVER UMA COLUNA NO DATAFRAME
df5.drop(F.col('usuario')).show()

df_pandas = df5.toPandas()

df_pandas.head(10)

+--------------------+----+---------------+--------------------+----------+-----------+------------------+
|                Nome|sexo|Data_Nascimento|            ocupacao|Assinatura|total_gasto|total_com_desconto|
+--------------------+----+---------------+--------------------+----------+-----------+------------------+
|  Mr \tbailey Glo...|   m|     01/12/1979|Analista de Intel...|01/10/2021|    1257.45|           1131.71|
|Mrs  \t isabella ...|   f|     04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|            694.79|
| Mrs Chloe \tKirby  |   f|     28/06/1949|      Analista de RH|07/06/2020|    1021.77|            919.59|
| Mrs louise \tCla...|   f|     07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|            211.28|
|Mr Harrison \t Bowen|   f|     04/04/1987| Engenheiro de Dados|25/03/2020|     628.07|            565.26|
|Mrs anna \t     S...|   f|     02/02/1970| Engenheiro de Dados|18/09/2020|     140.04|            126.04|
|  Mrs \tDaisy And...|   m|     05/07

Unnamed: 0,usuario,Nome,sexo,Data_Nascimento,ocupacao,Assinatura,total_gasto,total_com_desconto
0,Neaude1978,Mr \tbailey Glover,m,01/12/1979,Analista de Inteligência de Mercado,01/10/2021,1257.45,1131.71
1,Maress39,Mrs \t isabella Fowler,f,04/08/1960,Arquiteto de Dados,24/03/2020,771.99,694.79
2,Kehonell,Mrs Chloe \tKirby,f,28/06/1949,Analista de RH,07/06/2020,1021.77,919.59
3,Thimpay,Mrs louise \tClark,f,07/01/1995,Arquiteto de Dados,03/11/2020,234.76,211.28
4,Giall1985,Mr Harrison \t Bowen,f,04/04/1987,Engenheiro de Dados,25/03/2020,628.07,565.26
5,Neave1959,Mrs anna \t Sharp,f,02/02/1970,Engenheiro de Dados,18/09/2020,140.04,126.04
6,Nicterims1993,Mrs \tDaisy Anderson,m,05/07/1985,Engenheiro de Dados,29/01/2021,2417.81,2176.03
7,Fouldlairity,Ms zoe \tPeacock,m,03/06/1964,Analista Financeiro,04/12/2020,51.95,46.76
8,Ancomettiody,Mrs Libby \tWilliams,f,04/09/1974,Estatístico,21/11/2020,130.73,117.66
9,Onswis,Ms Katie \tMmtcalfe,f,01/07/1983,Engenheiro de Machine Learning,27/02/2021,1778.72,1600.85
