<a href="https://colab.research.google.com/github/AndersonGabrielCalasans/BootCamp-SoulCode-Engenharia-Dados/blob/main/SoulCode/Introdu%C3%A7%C3%A3o_PySpark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Configurando ambiente e importando as bibliotecas

In [None]:
# Instalação da biblioteca PySpark
!pip install pyspark

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
# Importando a SparkSession
from pyspark.sql import SparkSession

# Import as functions
import pyspark.sql.functions as F

In [None]:
# Configurando a variável de ambiente (sessão) Spark 
spark = (SparkSession.builder
                    .master('local')
                    .appName('Intro-pyspark')
                    .config('spark.ui.port', '4050')
                    .getOrCreate()
)

# master: a máquina principal para execução
# appname: nome da aplicação
# config: porta local
# getorcreate: retorna ou cria caso não exista

In [None]:
# Testando se iniciou a variável
spark

# Primeiros comandos com Spark

In [None]:
# Como funciona os DataFrames no Spark
schema = ['id', 'nome', 'cpf', 'celular']

dados = [
    (1, 'Anderson Gabriel', '999.999.999-99','(81)9.9999-9999'),
    (2, 'Ligia Paula', '111.111.111-11','(81)9.1111-1111'),
    (3, 'Tales Paulo', '222.222.222-22', '(82)9.8888-8888'),
    (4, 'Maria das Gracas', '333.333.333-33', '(21)9.8585-8585')
]

# Gerando o DataFrame
df = spark.createDataFrame(dados, schema)

In [None]:
# Mostrando o DataFrame
df.show()

+---+----------------+--------------+---------------+
| id|            nome|           cpf|        celular|
+---+----------------+--------------+---------------+
|  1|Anderson Gabriel|999.999.999-99|(81)9.9999-9999|
|  2|     Ligia Paula|111.111.111-11|(81)9.1111-1111|
|  3|     Tales Paulo|222.222.222-22|(82)9.8888-8888|
|  4|Maria das Gracas|333.333.333-33|(21)9.8585-8585|
+---+----------------+--------------+---------------+



No spark caso você não defina os tipos das variáveis, ele infere por si só.

In [None]:
# Schema do DataFrame
df.printSchema()

root
 |-- id: long (nullable = true)
 |-- nome: string (nullable = true)
 |-- cpf: string (nullable = true)
 |-- celular: string (nullable = true)



In [None]:
schema2 = 'id INT, nome STRING, cpf STRING, celular STRING, cidade STRING'

dados2 = [
    (1, 'Anderson Gabriel', '999.999.999-99','(81)9.9999-9999', 'Recife'),
    (2, 'Ligia Paula', '111.111.111-11','(81)9.1111-1111', 'Jaboatao'),
    (3, 'Tales Paulo', '222.222.222-22', '(82)9.8888-8888', 'Escada'),
    (4, 'Maria das Gracas', '333.333.333-33', '(21)9.8585-8585','Escada')
]

# Gerando o DataFrame
df2 = spark.createDataFrame(dados2, schema2)

Ao realizar a inferência do schema manualmente você ganha em relação ao processamento (pois o spark não necessita percorrer a coluna para verificar o tipo dos dados) e evita a tipagem errada dos mesmo.

In [None]:
# Schema do DataFrame
df2.printSchema()

root
 |-- id: integer (nullable = true)
 |-- nome: string (nullable = true)
 |-- cpf: string (nullable = true)
 |-- celular: string (nullable = true)
 |-- cidade: string (nullable = true)



In [None]:
# verificar quantidade de linhas do DataFrame
df2.count()

4

In [None]:
# Visualizar colunas
df2.columns

['id', 'nome', 'cpf', 'celular', 'cidade']

Os DataFrames são imutáveis. O comando SELECT não altera o DataFrame, apenas mostra em tempo de execução

In [None]:
# 1º transformação dos dados - SELECT
df2.select('nome', 'cpf').show()

+----------------+--------------+
|            nome|           cpf|
+----------------+--------------+
|Anderson Gabriel|999.999.999-99|
|     Ligia Paula|111.111.111-11|
|     Tales Paulo|222.222.222-22|
|Maria das Gracas|333.333.333-33|
+----------------+--------------+



In [None]:
# Outra forma de fazer SELECT (com F.col)
df2.select(F.col('nome'), F.col('cpf')).show()

+----------------+--------------+
|            nome|           cpf|
+----------------+--------------+
|Anderson Gabriel|999.999.999-99|
|     Ligia Paula|111.111.111-11|
|     Tales Paulo|222.222.222-22|
|Maria das Gracas|333.333.333-33|
+----------------+--------------+



In [None]:
df2.show()

+---+----------------+--------------+---------------+--------+
| id|            nome|           cpf|        celular|  cidade|
+---+----------------+--------------+---------------+--------+
|  1|Anderson Gabriel|999.999.999-99|(81)9.9999-9999|  Recife|
|  2|     Ligia Paula|111.111.111-11|(81)9.1111-1111|Jaboatao|
|  3|     Tales Paulo|222.222.222-22|(82)9.8888-8888|  Escada|
|  4|Maria das Gracas|333.333.333-33|(21)9.8585-8585|  Escada|
+---+----------------+--------------+---------------+--------+



In [None]:
# Salvando as alterações em um novo DF
df4 = df2.select('nome', 'cpf')
df4.show()

+----------------+--------------+
|            nome|           cpf|
+----------------+--------------+
|Anderson Gabriel|999.999.999-99|
|     Ligia Paula|111.111.111-11|
|     Tales Paulo|222.222.222-22|
|Maria das Gracas|333.333.333-33|
+----------------+--------------+



In [None]:
# Verificando o tipo do objeto
type(df4)

pyspark.sql.dataframe.DataFrame

In [None]:
# Aplicando um filtro para apenas cidade = Escada
df2.filter(F.col('cidade')=='Escada').show()

+---+----------------+--------------+---------------+------+
| id|            nome|           cpf|        celular|cidade|
+---+----------------+--------------+---------------+------+
|  3|     Tales Paulo|222.222.222-22|(82)9.8888-8888|Escada|
|  4|Maria das Gracas|333.333.333-33|(21)9.8585-8585|Escada|
+---+----------------+--------------+---------------+------+



In [None]:
# Filtrando e mostrando apenas colunas nome e cpf onde cidade = Escada
df2.select(F.col('nome'), F.col('cpf')).filter(F.col('cidade')=='Escada').show()

+----------------+--------------+
|            nome|           cpf|
+----------------+--------------+
|     Tales Paulo|222.222.222-22|
|Maria das Gracas|333.333.333-33|
+----------------+--------------+



In [None]:
# Filtrando e mostrando apenas colunas nome e cpf onde cidade = Escada ou Recife
df2.select(F.col('nome'), F.col('cpf')).filter("cidade='Escada' or cidade='Recife'").show()

+----------------+--------------+
|            nome|           cpf|
+----------------+--------------+
|Anderson Gabriel|999.999.999-99|
|     Tales Paulo|222.222.222-22|
|Maria das Gracas|333.333.333-33|
+----------------+--------------+



In [None]:
# Filtrando e mostrando apenas colunas nome e cpf onde cidade = Escada ou Recife (outra forma com | para 'or' e & para 'and')
df2.select(F.col('nome'), F.col('cpf')).filter((F.col('cidade')=='Escada') | (F.col('cidade')=='Recife')).show()

+----------------+--------------+
|            nome|           cpf|
+----------------+--------------+
|Anderson Gabriel|999.999.999-99|
|     Tales Paulo|222.222.222-22|
|Maria das Gracas|333.333.333-33|
+----------------+--------------+



In [None]:
# Filtrando e mostrando apenas colunas nome e cpf onde cidade = Escada e nome = Tales Paulo (outra forma com | para 'or' e & para 'and')
df2.select(F.col('nome'), F.col('cpf')).filter((F.col('cidade')=='Escada') & (F.col('nome')=='Tales Paulo')).show()

+-----------+--------------+
|       nome|           cpf|
+-----------+--------------+
|Tales Paulo|222.222.222-22|
+-----------+--------------+



# Segundo dia de trabalho com Spark

In [None]:
# Trabalhando com DataFrames
df = (
    spark.read
         .format('csv')
         .option('header', 'true')
         .option('inferschema', 'true')
         .option('delimiter', ';')
         .load('/content/drive/MyDrive/SoulCode/compras.csv')
)

In [None]:
# Visualizando o Schema
df.printSchema()

root
 |-- Username: string (nullable = true)
 |-- Nome: string (nullable = true)
 |-- Sexo: string (nullable = true)
 |-- Data_Nascimento: string (nullable = true)
 |-- Ocupação: string (nullable = true)
 |-- Assinatura: string (nullable = true)
 |-- Total_Gasto : double (nullable = true)



In [None]:
# Visualizando os dados
df.show(truncate=False)

+-------------+-------------------------+---------+---------------+-----------------------------------+----------+------------+
|Username     |Nome                     |Sexo     |Data_Nascimento|Ocupação                           |Assinatura|Total_Gasto |
+-------------+-------------------------+---------+---------------+-----------------------------------+----------+------------+
|Neaude1978   |  Mr \tbailey Glover     |masculino|01/12/1979     |Analista de Inteligência de Mercado|01/10/2021|1257.45     |
|Maress39     |Mrs  \t isabella   Fowler|feminino |04/08/1960     |Arquiteto de Dados                 |24/03/2020|771.99      |
|Kehonell     | Mrs Chloe \tKirby       |feminino |28/06/1949     |Analista de RH                     |07/06/2020|1021.77     |
|Thimpay      | Mrs louise \tClark      |feminino |07/01/1995     |Arquiteto de Dados                 |03/11/2020|234.76      |
|Giall1985    |Mr Harrison \t Bowen     |feminino |04/04/1987     |Engenheiro de Dados                |2

In [None]:
# Verificando o tamanho do DataFrame
df.count()

13

In [None]:
# Mostrar apenas o username, sexo, ocupação e total_gasto
df.select('Username', 'Sexo', 'Ocupação', 'Total_Gasto ').show()

+-------------+---------+--------------------+------------+
|     Username|     Sexo|            Ocupação|Total_Gasto |
+-------------+---------+--------------------+------------+
|   Neaude1978|masculino|Analista de Intel...|     1257.45|
|     Maress39| feminino|  Arquiteto de Dados|      771.99|
|     Kehonell| feminino|      Analista de RH|     1021.77|
|      Thimpay| feminino|  Arquiteto de Dados|      234.76|
|    Giall1985| feminino| Engenheiro de Dados|      628.07|
|    Neave1959| feminino| Engenheiro de Dados|      140.04|
|Nicterims1993|masculino| Engenheiro de Dados|     2417.81|
| Fouldlairity|masculino| Analista Financeiro|       51.95|
| Ancomettiody| feminino|         Estatístico|      130.73|
|       Onswis| feminino|Engenheiro de Mac...|     1778.72|
|    Majeappre| feminino|Gerente de Tecnol...|     1034.74|
|      Theired|masculino|Analista de Intel...|     1320.04|
|       Botter| feminino|        Web Designer|     3464.72|
+-------------+---------+---------------

In [None]:
# Mostrar apenas Username, Sexo, Ocupação e total gasto quando o total é maior que 1000
df.select('Username', 'Sexo', 'Ocupação', 'Total_Gasto ').filter(F.col('Total_Gasto ') > 1000).show()

+-------------+---------+--------------------+------------+
|     Username|     Sexo|            Ocupação|Total_Gasto |
+-------------+---------+--------------------+------------+
|   Neaude1978|masculino|Analista de Intel...|     1257.45|
|     Kehonell| feminino|      Analista de RH|     1021.77|
|Nicterims1993|masculino| Engenheiro de Dados|     2417.81|
|       Onswis| feminino|Engenheiro de Mac...|     1778.72|
|    Majeappre| feminino|Gerente de Tecnol...|     1034.74|
|      Theired|masculino|Analista de Intel...|     1320.04|
|       Botter| feminino|        Web Designer|     3464.72|
+-------------+---------+--------------------+------------+



In [None]:
# Mostrar apenas Username, Sexo, Ocupação e total gasto quando o total é maior que 1000 e menor que 2000
df2 = (df.select('Username', 'Sexo', 'Ocupação', 'Total_Gasto ')
        .filter((F.col('Total_Gasto ') > 1000) & (F.col('Total_Gasto ') < 2000))
        )
df2.show(truncate=False)

+----------+---------+-----------------------------------+------------+
|Username  |Sexo     |Ocupação                           |Total_Gasto |
+----------+---------+-----------------------------------+------------+
|Neaude1978|masculino|Analista de Inteligência de Mercado|1257.45     |
|Kehonell  |feminino |Analista de RH                     |1021.77     |
|Onswis    |feminino |Engenheiro de Machine Learning     |1778.72     |
|Majeappre |feminino |Gerente de Tecnologia              |1034.74     |
|Theired   |masculino|Analista de Inteligência de Mercado|1320.04     |
+----------+---------+-----------------------------------+------------+



In [None]:
# Outra forma de usar filtro (WHERE)
df.where(F.col('Total_Gasto ') > 1000).show()

+-------------+--------------------+---------+---------------+--------------------+----------+------------+
|     Username|                Nome|     Sexo|Data_Nascimento|            Ocupação|Assinatura|Total_Gasto |
+-------------+--------------------+---------+---------------+--------------------+----------+------------+
|   Neaude1978|  Mr \tbailey Glo...|masculino|     01/12/1979|Analista de Intel...|01/10/2021|     1257.45|
|     Kehonell| Mrs Chloe \tKirby  | feminino|     28/06/1949|      Analista de RH|07/06/2020|     1021.77|
|Nicterims1993|  Mrs \tDaisy And...|masculino|     05/07/1985| Engenheiro de Dados|29/01/2021|     2417.81|
|       Onswis| Ms Katie \tMmtcalfe| feminino|     01/07/1983|Engenheiro de Mac...|27/02/2021|     1778.72|
|    Majeappre|   Mr Luca \tVaughan| feminino|     03/01/1971|Gerente de Tecnol...|15/07/2022|     1034.74|
|      Theired|   Mr Henry \tHaynes|masculino|     06/09/1951|Analista de Intel...|23/12/2022|     1320.04|
|       Botter|    Mr Noah \

In [None]:
# Renomeando nome das colunas
df2 = (df
       .withColumnRenamed('Username', 'username')
       .withColumnRenamed('Nome', 'nome')
       .withColumnRenamed('Sexo', 'sexo')
       .withColumnRenamed('Data_Nascimento', 'data_nasc')
       .withColumnRenamed('Ocupação', 'ocupacao')
       .withColumnRenamed('Assinatura', 'assinatura')
       .withColumnRenamed('Total_Gasto ', 'total_gasto')
)

In [None]:
df2.show(truncate=False)

+-------------+-------------------------+---------+----------+-----------------------------------+----------+-----------+
|username     |nome                     |sexo     |data_nasc |ocupacao                           |assinatura|total_gasto|
+-------------+-------------------------+---------+----------+-----------------------------------+----------+-----------+
|Neaude1978   |  Mr \tbailey Glover     |masculino|01/12/1979|Analista de Inteligência de Mercado|01/10/2021|1257.45    |
|Maress39     |Mrs  \t isabella   Fowler|feminino |04/08/1960|Arquiteto de Dados                 |24/03/2020|771.99     |
|Kehonell     | Mrs Chloe \tKirby       |feminino |28/06/1949|Analista de RH                     |07/06/2020|1021.77    |
|Thimpay      | Mrs louise \tClark      |feminino |07/01/1995|Arquiteto de Dados                 |03/11/2020|234.76     |
|Giall1985    |Mr Harrison \t Bowen     |feminino |04/04/1987|Engenheiro de Dados                |25/03/2020|628.07     |
|Neave1959    |Mrs anna 

In [None]:
# FILTRAR POR OCUPAÇÃO QUE COMECE COM 'Analista'
df2.filter('ocupacao like "Analista%"').show(truncate=False)

+------------+----------------------+---------+----------+-----------------------------------+----------+-----------+
|username    |nome                  |sexo     |data_nasc |ocupacao                           |assinatura|total_gasto|
+------------+----------------------+---------+----------+-----------------------------------+----------+-----------+
|Neaude1978  |  Mr \tbailey Glover  |masculino|01/12/1979|Analista de Inteligência de Mercado|01/10/2021|1257.45    |
|Kehonell    | Mrs Chloe \tKirby    |feminino |28/06/1949|Analista de RH                     |07/06/2020|1021.77    |
|Fouldlairity|Ms zoe \tPeacock      |masculino|03/06/1964|Analista Financeiro                |04/12/2020|51.95      |
|Theired     |Mr Henry \tHaynes     |masculino|06/09/1951|Analista de Inteligência de Mercado|23/12/2022|1320.04    |
+------------+----------------------+---------+----------+-----------------------------------+----------+-----------+



In [None]:
df2.filter(F.col('ocupacao').like('Analista%')).show(truncate=False)

+------------+----------------------+---------+----------+-----------------------------------+----------+-----------+
|username    |nome                  |sexo     |data_nasc |ocupacao                           |assinatura|total_gasto|
+------------+----------------------+---------+----------+-----------------------------------+----------+-----------+
|Neaude1978  |  Mr \tbailey Glover  |masculino|01/12/1979|Analista de Inteligência de Mercado|01/10/2021|1257.45    |
|Kehonell    | Mrs Chloe \tKirby    |feminino |28/06/1949|Analista de RH                     |07/06/2020|1021.77    |
|Fouldlairity|Ms zoe \tPeacock      |masculino|03/06/1964|Analista Financeiro                |04/12/2020|51.95      |
|Theired     |Mr Henry \tHaynes     |masculino|06/09/1951|Analista de Inteligência de Mercado|23/12/2022|1320.04    |
+------------+----------------------+---------+----------+-----------------------------------+----------+-----------+



In [None]:
# FILTRAR POR OCUPAÇÃO QUE COMECE COM 'Analista'
df2.filter(F.col('ocupacao').startswith('Analista')).show(truncate=False)

+------------+----------------------+---------+----------+-----------------------------------+----------+-----------+
|username    |nome                  |sexo     |data_nasc |ocupacao                           |assinatura|total_gasto|
+------------+----------------------+---------+----------+-----------------------------------+----------+-----------+
|Neaude1978  |  Mr \tbailey Glover  |masculino|01/12/1979|Analista de Inteligência de Mercado|01/10/2021|1257.45    |
|Kehonell    | Mrs Chloe \tKirby    |feminino |28/06/1949|Analista de RH                     |07/06/2020|1021.77    |
|Fouldlairity|Ms zoe \tPeacock      |masculino|03/06/1964|Analista Financeiro                |04/12/2020|51.95      |
|Theired     |Mr Henry \tHaynes     |masculino|06/09/1951|Analista de Inteligência de Mercado|23/12/2022|1320.04    |
+------------+----------------------+---------+----------+-----------------------------------+----------+-----------+



In [None]:
#BUSCA POR OCUPAÇÃO QUE TERMINE COM A PALAVRA Mercado
df2.filter(F.col('ocupacao').endswith('Mercado')).show(truncate=False)

+----------+----------------------+---------+----------+-----------------------------------+----------+-----------+
|username  |nome                  |sexo     |data_nasc |ocupacao                           |assinatura|total_gasto|
+----------+----------------------+---------+----------+-----------------------------------+----------+-----------+
|Neaude1978|  Mr \tbailey Glover  |masculino|01/12/1979|Analista de Inteligência de Mercado|01/10/2021|1257.45    |
|Theired   |Mr Henry \tHaynes     |masculino|06/09/1951|Analista de Inteligência de Mercado|23/12/2022|1320.04    |
+----------+----------------------+---------+----------+-----------------------------------+----------+-----------+



In [None]:
#BUSCA POR OCUPAÇÃO QUE TENHA A PALAVRA Inteligência
df2.filter(F.col('ocupacao').contains('Inteligência')).show()

+----------+--------------------+---------+----------+--------------------+----------+-----------+
|  username|                nome|     sexo| data_nasc|            ocupacao|assinatura|total_gasto|
+----------+--------------------+---------+----------+--------------------+----------+-----------+
|Neaude1978|  Mr \tbailey Glo...|masculino|01/12/1979|Analista de Intel...|01/10/2021|    1257.45|
|   Theired|   Mr Henry \tHaynes|masculino|06/09/1951|Analista de Intel...|23/12/2022|    1320.04|
+----------+--------------------+---------+----------+--------------------+----------+-----------+



In [None]:
#Criar uma nova coluna contendo 10% de desconto sobre o valor total gasto
df3 = df2.withColumn('desconto', F.round((F.col('total_gasto')*0.1),2))
df3.show()

+-------------+--------------------+---------+----------+--------------------+----------+-----------+--------+
|     username|                nome|     sexo| data_nasc|            ocupacao|assinatura|total_gasto|desconto|
+-------------+--------------------+---------+----------+--------------------+----------+-----------+--------+
|   Neaude1978|  Mr \tbailey Glo...|masculino|01/12/1979|Analista de Intel...|01/10/2021|    1257.45|  125.75|
|     Maress39|Mrs  \t isabella ...| feminino|04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|    77.2|
|     Kehonell| Mrs Chloe \tKirby  | feminino|28/06/1949|      Analista de RH|07/06/2020|    1021.77|  102.18|
|      Thimpay| Mrs louise \tCla...| feminino|07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|   23.48|
|    Giall1985|Mr Harrison \t Bowen| feminino|04/04/1987| Engenheiro de Dados|25/03/2020|     628.07|   62.81|
|    Neave1959|Mrs anna \t     S...| feminino|02/02/1970| Engenheiro de Dados|18/09/2020|     140.04|    14.0|
|

In [None]:
#Criar uma nova coluna contendo o valor total gasto - o desconto
df3 = df3.withColumn('valor_final', F.round(F.col('total_gasto')-F.col('desconto'), 2))
df3.show()

+-------------+--------------------+---------+----------+--------------------+----------+-----------+--------+-----------+
|     username|                nome|     sexo| data_nasc|            ocupacao|assinatura|total_gasto|desconto|valor_final|
+-------------+--------------------+---------+----------+--------------------+----------+-----------+--------+-----------+
|   Neaude1978|  Mr \tbailey Glo...|masculino|01/12/1979|Analista de Intel...|01/10/2021|    1257.45|  125.75|     1131.7|
|     Maress39|Mrs  \t isabella ...| feminino|04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|    77.2|     694.79|
|     Kehonell| Mrs Chloe \tKirby  | feminino|28/06/1949|      Analista de RH|07/06/2020|    1021.77|  102.18|     919.59|
|      Thimpay| Mrs louise \tCla...| feminino|07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|   23.48|     211.28|
|    Giall1985|Mr Harrison \t Bowen| feminino|04/04/1987| Engenheiro de Dados|25/03/2020|     628.07|   62.81|     565.26|
|    Neave1959|M

In [None]:
#Criar uma nova coluna contendo o valor total - 10% de desconto sobre o valor total gasto

In [None]:
df4 = df2.withColumn('valor_com_desc', F.round((F.col('total_gasto')*0.9),2))
df4.show()

+-------------+--------------------+---------+----------+--------------------+----------+-----------+--------------+
|     username|                nome|     sexo| data_nasc|            ocupacao|assinatura|total_gasto|valor_com_desc|
+-------------+--------------------+---------+----------+--------------------+----------+-----------+--------------+
|   Neaude1978|  Mr \tbailey Glo...|masculino|01/12/1979|Analista de Intel...|01/10/2021|    1257.45|       1131.71|
|     Maress39|Mrs  \t isabella ...| feminino|04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|        694.79|
|     Kehonell| Mrs Chloe \tKirby  | feminino|28/06/1949|      Analista de RH|07/06/2020|    1021.77|        919.59|
|      Thimpay| Mrs louise \tCla...| feminino|07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|        211.28|
|    Giall1985|Mr Harrison \t Bowen| feminino|04/04/1987| Engenheiro de Dados|25/03/2020|     628.07|        565.26|
|    Neave1959|Mrs anna \t     S...| feminino|02/02/1970| Engenh

In [None]:
#Retornar todas as ocupações existentes 
df4.select('ocupacao').distinct().show(truncate = False)

+-----------------------------------+
|ocupacao                           |
+-----------------------------------+
|Engenheiro de Machine Learning     |
|Arquiteto de Dados                 |
|Estatístico                        |
|Analista de RH                     |
|Engenheiro de Dados                |
|Analista Financeiro                |
|Gerente de Tecnologia              |
|Web Designer                       |
|Analista de Inteligência de Mercado|
+-----------------------------------+



In [None]:
# retornar usuario, data_nasc e ocupacao, ordenado pelo usuário em ordem crescente (A-Z)
df4.select('username','data_nasc','ocupacao').orderBy(F.col('username')).show()

+-------------+----------+--------------------+
|     username| data_nasc|            ocupacao|
+-------------+----------+--------------------+
| Ancomettiody|04/09/1974|         Estatístico|
|       Botter|09/03/1991|        Web Designer|
| Fouldlairity|03/06/1964| Analista Financeiro|
|    Giall1985|04/04/1987| Engenheiro de Dados|
|     Kehonell|28/06/1949|      Analista de RH|
|    Majeappre|03/01/1971|Gerente de Tecnol...|
|     Maress39|04/08/1960|  Arquiteto de Dados|
|   Neaude1978|01/12/1979|Analista de Intel...|
|    Neave1959|02/02/1970| Engenheiro de Dados|
|Nicterims1993|05/07/1985| Engenheiro de Dados|
|       Onswis|01/07/1983|Engenheiro de Mac...|
|      Theired|06/09/1951|Analista de Intel...|
|      Thimpay|07/01/1995|  Arquiteto de Dados|
+-------------+----------+--------------------+



In [None]:
# Retornar nome, ocupacao e total_gasto ordenado por total_gasto do maior ao menor
# O .sort(F.col('total_gasto').desc()) tem o mesmo resultado
df4.select('nome','ocupacao','total_gasto').orderBy(F.col('total_gasto').desc()).show(truncate = False)

+-------------------------+-----------------------------------+-----------+
|nome                     |ocupacao                           |total_gasto|
+-------------------------+-----------------------------------+-----------+
|Mr Noah \tWalton         |Web Designer                       |3464.72    |
|  Mrs \tDaisy Anderson   |Engenheiro de Dados                |2417.81    |
|Ms Katie \tMmtcalfe      |Engenheiro de Machine Learning     |1778.72    |
|Mr Henry \tHaynes        |Analista de Inteligência de Mercado|1320.04    |
|  Mr \tbailey Glover     |Analista de Inteligência de Mercado|1257.45    |
|Mr Luca \tVaughan        |Gerente de Tecnologia              |1034.74    |
| Mrs Chloe \tKirby       |Analista de RH                     |1021.77    |
|Mrs  \t isabella   Fowler|Arquiteto de Dados                 |771.99     |
|Mr Harrison \t Bowen     |Engenheiro de Dados                |628.07     |
| Mrs louise \tClark      |Arquiteto de Dados                 |234.76     |
|Mrs anna \t

In [None]:
#RETORNAR A QUANTIDADE DE PESSOAS POR SEXO
df4.groupBy('sexo').count().orderBy(F.col('count').desc()).show()

+---------+-----+
|     sexo|count|
+---------+-----+
| feminino|    9|
|masculino|    4|
+---------+-----+



In [None]:
#RETORNAR A QUANTIDADE DE PESSOAS POR OCUPAÇÃO
df4.groupBy('ocupacao').count().orderBy(F.col('count').desc()).show()

+--------------------+-----+
|            ocupacao|count|
+--------------------+-----+
| Engenheiro de Dados|    3|
|  Arquiteto de Dados|    2|
|Analista de Intel...|    2|
|Engenheiro de Mac...|    1|
|         Estatístico|    1|
|      Analista de RH|    1|
|Gerente de Tecnol...|    1|
| Analista Financeiro|    1|
|        Web Designer|    1|
+--------------------+-----+



In [None]:
#RETORNAR O VALOR TOTAL GASTO POR OCUPAÇÃO
df4.groupBy('ocupacao').sum('total_gasto').show(truncate = False)

+-----------------------------------+----------------+
|ocupacao                           |sum(total_gasto)|
+-----------------------------------+----------------+
|Engenheiro de Machine Learning     |1778.72         |
|Arquiteto de Dados                 |1006.75         |
|Estatístico                        |130.73          |
|Analista de RH                     |1021.77         |
|Engenheiro de Dados                |3185.92         |
|Analista Financeiro                |51.95           |
|Gerente de Tecnologia              |1034.74         |
|Web Designer                       |3464.72         |
|Analista de Inteligência de Mercado|2577.49         |
+-----------------------------------+----------------+



In [None]:
#RETORNAR O VALOR TOTAL GASTO POR SEXO
df4.groupBy('sexo').sum().show()

+---------+-----------------+-------------------+
|     sexo| sum(total_gasto)|sum(valor_com_desc)|
+---------+-----------------+-------------------+
|masculino|          5047.25|  4542.540000000001|
| feminino|9205.539999999999|            8284.99|
+---------+-----------------+-------------------+



In [None]:
#RETORNAR O VALOR TOTAL GASTO POR SEXO e o min e max por cada sexo
#Usando agregação de funções
df4.groupBy('sexo').agg(
    F.round(F.sum('total_gasto'),2).alias('total_gasto'), 
    F.min('total_gasto').alias('valor_min'),
    F.max('total_gasto').alias('valor_max')
    ).show()

+---------+-----------+---------+---------+
|     sexo|total_gasto|valor_min|valor_max|
+---------+-----------+---------+---------+
|masculino|    5047.25|    51.95|  2417.81|
| feminino|    9205.54|   130.73|  3464.72|
+---------+-----------+---------+---------+



In [None]:
# Criar uma nova coluna com 1 para masculino e 0 para feminino
# Usando estruturas de condições
df5 = (df4
      .withColumn('id_sexo', F.when(F.col('sexo')=='masculino',F.lit(1))
      .otherwise(F.lit(0)))
)
df5.show(truncate = False)

+-------------+-------------------------+---------+----------+-----------------------------------+----------+-----------+--------------+-------+
|username     |nome                     |sexo     |data_nasc |ocupacao                           |assinatura|total_gasto|valor_com_desc|id_sexo|
+-------------+-------------------------+---------+----------+-----------------------------------+----------+-----------+--------------+-------+
|Neaude1978   |  Mr \tbailey Glover     |masculino|01/12/1979|Analista de Inteligência de Mercado|01/10/2021|1257.45    |1131.71       |1      |
|Maress39     |Mrs  \t isabella   Fowler|feminino |04/08/1960|Arquiteto de Dados                 |24/03/2020|771.99     |694.79        |0      |
|Kehonell     | Mrs Chloe \tKirby       |feminino |28/06/1949|Analista de RH                     |07/06/2020|1021.77    |919.59        |0      |
|Thimpay      | Mrs louise \tClark      |feminino |07/01/1995|Arquiteto de Dados                 |03/11/2020|234.76     |211.28   

In [None]:
# Separar Dia, mês e ano em cada coluna

df5 = (df5
            .withColumn('ano', F.substring(F.col('data_nasc'),7,4))
            .withColumn('mes', F.substring(F.col('data_nasc'),4,2))
            .withColumn('dia', F.substring(F.col('data_nasc'),1,2))
)
df5.show()

+-------------+--------------------+---------+----------+--------------------+----------+-----------+--------------+-------+----+---+---+
|     username|                nome|     sexo| data_nasc|            ocupacao|assinatura|total_gasto|valor_com_desc|id_sexo| ano|mes|dia|
+-------------+--------------------+---------+----------+--------------------+----------+-----------+--------------+-------+----+---+---+
|   Neaude1978|  Mr \tbailey Glo...|masculino|01/12/1979|Analista de Intel...|01/10/2021|    1257.45|       1131.71|      1|1979| 12| 01|
|     Maress39|Mrs  \t isabella ...| feminino|04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|        694.79|      0|1960| 08| 04|
|     Kehonell| Mrs Chloe \tKirby  | feminino|28/06/1949|      Analista de RH|07/06/2020|    1021.77|        919.59|      0|1949| 06| 28|
|      Thimpay| Mrs louise \tCla...| feminino|07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|        211.28|      0|1995| 01| 07|
|    Giall1985|Mr Harrison \t Bowe

In [None]:
# Separar Dia, mês e ano em cada coluna com split

split_cols = F.split(F.col('data_nasc'), '/')
(
    df4.withColumn('dia_nasc', split_cols.getItem(0))
       .withColumn('mes_nasc', split_cols.getItem(1))
       .withColumn('ano_nasc', split_cols.getItem(2))
       .show()
)

+-------------+--------------------+---------+----------+--------------------+----------+-----------+--------------+--------+--------+--------+
|     username|                nome|     sexo| data_nasc|            ocupacao|assinatura|total_gasto|valor_com_desc|dia_nasc|mes_nasc|ano_nasc|
+-------------+--------------------+---------+----------+--------------------+----------+-----------+--------------+--------+--------+--------+
|   Neaude1978|  Mr \tbailey Glo...|masculino|01/12/1979|Analista de Intel...|01/10/2021|    1257.45|       1131.71|      01|      12|    1979|
|     Maress39|Mrs  \t isabella ...| feminino|04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|        694.79|      04|      08|    1960|
|     Kehonell| Mrs Chloe \tKirby  | feminino|28/06/1949|      Analista de RH|07/06/2020|    1021.77|        919.59|      28|      06|    1949|
|      Thimpay| Mrs louise \tCla...| feminino|07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|        211.28|      07|      01|  

In [None]:
#FUNÇÃO PARA ALTERAR VALORES DENTRO DE UMA COLUNA
df4.withColumn('sexo', F.regexp_replace(F.col('sexo'), 'masculino', 'm')).show()

+-------------+--------------------+--------+----------+--------------------+----------+-----------+--------------+
|     username|                nome|    sexo| data_nasc|            ocupacao|assinatura|total_gasto|valor_com_desc|
+-------------+--------------------+--------+----------+--------------------+----------+-----------+--------------+
|   Neaude1978|  Mr \tbailey Glo...|       m|01/12/1979|Analista de Intel...|01/10/2021|    1257.45|       1131.71|
|     Maress39|Mrs  \t isabella ...|feminino|04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|        694.79|
|     Kehonell| Mrs Chloe \tKirby  |feminino|28/06/1949|      Analista de RH|07/06/2020|    1021.77|        919.59|
|      Thimpay| Mrs louise \tCla...|feminino|07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|        211.28|
|    Giall1985|Mr Harrison \t Bowen|feminino|04/04/1987| Engenheiro de Dados|25/03/2020|     628.07|        565.26|
|    Neave1959|Mrs anna \t     S...|feminino|02/02/1970| Engenheiro de D

In [None]:
# Substituir masculino por m e feminino por f
df6 = ( df5.withColumn('sexo', F.when(F.col('sexo') == 'masculino', F.regexp_replace(F.col('sexo'), 'masculino', 'm'))
                                .when(F.col('sexo') == 'feminino', F.regexp_replace(F.col('sexo'), 'feminino', 'f'))
                                .otherwise('Nao informado')    
                       )
)
df5.show()

+-------------+--------------------+----+----------+--------------------+----------+-----------+--------------+-------+----+---+---+
|     username|                nome|sexo| data_nasc|            ocupacao|assinatura|total_gasto|valor_com_desc|id_sexo| ano|mes|dia|
+-------------+--------------------+----+----------+--------------------+----------+-----------+--------------+-------+----+---+---+
|   Neaude1978|  Mr \tbailey Glo...|   m|01/12/1979|Analista de Intel...|01/10/2021|    1257.45|       1131.71|      1|1979| 12| 01|
|     Maress39|Mrs  \t isabella ...|   f|04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|        694.79|      0|1960| 08| 04|
|     Kehonell| Mrs Chloe \tKirby  |   f|28/06/1949|      Analista de RH|07/06/2020|    1021.77|        919.59|      0|1949| 06| 28|
|      Thimpay| Mrs louise \tCla...|   f|07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|        211.28|      0|1995| 01| 07|
|    Giall1985|Mr Harrison \t Bowen|   f|04/04/1987| Engenheiro de Da

In [None]:
# REMOVER LINHAS DUPLICADAS
df6.dropDuplicates()
df6.distinct()

DataFrame[username: string, nome: string, sexo: string, data_nasc: string, ocupacao: string, assinatura: string, total_gasto: double, valor_com_desc: double, id_sexo: int, ano: string, mes: string, dia: string]

In [None]:
# REMOVER COLUNA NO DATAFRAME
df6.drop('id_sexo').show()

+-------------+--------------------+-------------+----------+--------------------+----------+-----------+--------------+----+---+---+
|     username|                nome|         sexo| data_nasc|            ocupacao|assinatura|total_gasto|valor_com_desc| ano|mes|dia|
+-------------+--------------------+-------------+----------+--------------------+----------+-----------+--------------+----+---+---+
|   Neaude1978|  Mr \tbailey Glo...|Nao informado|01/12/1979|Analista de Intel...|01/10/2021|    1257.45|       1131.71|1979| 12| 01|
|     Maress39|Mrs  \t isabella ...|Nao informado|04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|        694.79|1960| 08| 04|
|     Kehonell| Mrs Chloe \tKirby  |Nao informado|28/06/1949|      Analista de RH|07/06/2020|    1021.77|        919.59|1949| 06| 28|
|      Thimpay| Mrs louise \tCla...|Nao informado|07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|        211.28|1995| 01| 07|
|    Giall1985|Mr Harrison \t Bowen|Nao informado|04/04/1987| 

In [None]:
# SUBSTITUIR VALORES NULOS
df6.fillna('NA', subset=['nome', 'sexo', 'data_nasc']).show()

+-------------+--------------------+-------------+----------+--------------------+----------+-----------+--------------+-------+----+---+---+
|     username|                nome|         sexo| data_nasc|            ocupacao|assinatura|total_gasto|valor_com_desc|id_sexo| ano|mes|dia|
+-------------+--------------------+-------------+----------+--------------------+----------+-----------+--------------+-------+----+---+---+
|   Neaude1978|  Mr \tbailey Glo...|Nao informado|01/12/1979|Analista de Intel...|01/10/2021|    1257.45|       1131.71|      1|1979| 12| 01|
|     Maress39|Mrs  \t isabella ...|Nao informado|04/08/1960|  Arquiteto de Dados|24/03/2020|     771.99|        694.79|      0|1960| 08| 04|
|     Kehonell| Mrs Chloe \tKirby  |Nao informado|28/06/1949|      Analista de RH|07/06/2020|    1021.77|        919.59|      0|1949| 06| 28|
|      Thimpay| Mrs louise \tCla...|Nao informado|07/01/1995|  Arquiteto de Dados|03/11/2020|     234.76|        211.28|      0|1995| 01| 07|
|    G