#**Instalando a biblioteca PySpark**

Obs: Toda vez que for trabalhar com o PySpark no Colab tem que fazer a instalação do PySpark

In [1]:
pip install pyspark

Collecting pyspark
  Downloading pyspark-3.2.0.tar.gz (281.3 MB)
[K     |████████████████████████████████| 281.3 MB 35 kB/s 
[?25hCollecting py4j==0.10.9.2
  Downloading py4j-0.10.9.2-py2.py3-none-any.whl (198 kB)
[K     |████████████████████████████████| 198 kB 61.1 MB/s 
[?25hBuilding wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.2.0-py2.py3-none-any.whl size=281805912 sha256=2addf9499c8adaef334ab196daec5515e786403472a9b52007d59d5255881f84
  Stored in directory: /root/.cache/pip/wheels/0b/de/d2/9be5d59d7331c6c2a7c1b6d1a4f463ce107332b1ecd4e80718
Successfully built pyspark
Installing collected packages: py4j, pyspark
Successfully installed py4j-0.10.9.2 pyspark-3.2.0


#**Importando Bibliotecas**

In [2]:
from pyspark.sql import SparkSession

#**Configurando a SparkSession**

In [3]:
spark = (SparkSession.builder\
        .master("local")\
        .appName("mini_projeto_final")\
        .config("spark.ui.port", "4050")\
        .getOrCreate())

spark

#**Importando o arquivo .csv**

In [7]:
df = (spark.read.format("csv")
  .option("inferSchema", "true")
  .option("header", "true")
  .option("sep", ",")
  .load("/content/drive/MyDrive/dados/df_pyspark_campanhaMKT.csv")
  .createOrReplaceTempView("campanha_mkt")
     )

# **Fazendo consultas utilizando o SparkSQL**

In [8]:
# Consulta feita para visualizar todos os dados

spark.sql("SELECT * FROM campanha_mkt").show()

+----+-----------------+-----------------+-------------+-----------+----------------+--------------------+------------+----------------------+----------+----------+------------------+------------------+------------------+-----------------+--------------------+---------------+--------------------+----------------+-------------------+---------+---------+---------+---------+---------+-----------+-------------+-----------------+-------------+
|  id|ano_de_nascimento|        graduacao| estado_civil|renda_anual|criancas_em_casa|adolescentes_em_casa|data_cliente|qtd_dias_ultima_compra|qts_vinhos|qts_frutas|qts_produtos_carne|qts_produtos_peixe|qts_produtos_doces|qts_produtos_ouro|num_compras_desconto|num_compras_web|num_compras_catalogo|num_compras_loja|num_visitas_web_mes|campanha3|campanha4|campanha5|campanha1|campanha2|reclamacoes|resposta_alvo|soma_qtd_produtos|idade_cliente|
+----+-----------------+-----------------+-------------+-----------+----------------+--------------------+--------

In [10]:
# Consulta realizada para fazer comparação entre graduacao, estado_civil e renda

spark.sql("SELECT graduacao, estado_civil, renda_anual FROM campanha_mkt").show()

+-----------------+-------------+-----------+
|        graduacao| estado_civil|renda_anual|
+-----------------+-------------+-----------+
|  Ensino Superior|  Solteiro(a)|    58138.0|
|  Ensino Superior|  Solteiro(a)|    46344.0|
|  Ensino Superior|União Estável|    71613.0|
|  Ensino Superior|União Estável|    26646.0|
|              PhD|    Casado(a)|    58293.0|
|         Mestrado|União Estável|    62513.0|
|  Ensino Superior|Divorciado(a)|    55635.0|
|              PhD|    Casado(a)|    33454.0|
|              PhD|União Estável|    30351.0|
|              PhD|União Estável|     5648.0|
|     Ensino Médio|    Casado(a)|     7500.0|
|  Ensino Superior|Divorciado(a)|    63033.0|
|         Mestrado|Divorciado(a)|    59354.0|
|  Ensino Superior|    Casado(a)|    17323.0|
|              PhD|  Solteiro(a)|    82800.0|
|  Ensino Superior|    Casado(a)|    41850.0|
|  Ensino Superior|União Estável|    37760.0|
|         Mestrado|    Casado(a)|    76995.0|
|Cursando Mestrado|  Solteiro(a)| 

In [11]:
# Consulta realizada para saber a quantidade de filhos contidos por cada estado civil

spark.sql("SELECT estado_civil, COUNT(criancas_em_casa, adolescentes_em_casa) AS qtd_filhos FROM campanha_mkt GROUP BY estado_civil").show()

+-------------------+----------+
|       estado_civil|qtd_filhos|
+-------------------+----------+
|           Viúvo(a)|        76|
|      Divorciado(a)|       231|
|          Casado(a)|       857|
|         Sozinho(a)|         3|
|Aproveitando a vida|         2|
|      União Estável|       572|
|        Solteiro(a)|       470|
+-------------------+----------+



In [13]:
# Consulta realizada para saber a quantidade de consumo anual com idade > 30

spark.sql("SELECT idade_cliente, COUNT(soma_qtd_produtos) AS consumo_idade FROM campanha_mkt GROUP BY idade_cliente HAVING idade_cliente > 30").show()

+-------------+-------------+
|idade_cliente|consumo_idade|
+-------------+-------------+
|           31|           18|
|           65|           55|
|           53|           51|
|           78|            6|
|           34|           27|
|           81|            1|
|           76|            8|
|           44|           52|
|           47|           69|
|           52|           70|
|           40|           38|
|           57|           41|
|           54|           44|
|           48|           72|
|           64|           40|
|           41|           39|
|           43|           76|
|           37|           38|
|           61|           49|
|           72|           30|
+-------------+-------------+
only showing top 20 rows



In [17]:
# Consulta realizada para saber a somatória, o mínimo, o máximo e a média do consumo de vinhos por renda anual

spark.sql("SELECT idade_cliente, SUM(qts_vinhos) AS soma_qts_vinhos, MIN(qts_vinhos) AS min_qts_vinhos, MAX(qts_vinhos) AS max_qts_vinhos, AVG(qts_vinhos) AS media_qts_vinhos FROM campanha_mkt GROUP BY idade_cliente ORDER BY idade_cliente").show()

+-------------+---------------+--------------+--------------+------------------+
|idade_cliente|soma_qts_vinhos|min_qts_vinhos|max_qts_vinhos|  media_qts_vinhos|
+-------------+---------------+--------------+--------------+------------------+
|           25|              3|             0|             3|               1.5|
|           26|           1421|             4|           594|             284.2|
|           27|           1977|           241|           966|             659.0|
|           28|           1485|           315|           420|            371.25|
|           29|           3289|             1|           962|             253.0|
|           30|           8238|             0|          1332|             549.2|
|           31|           3435|             1|           863|190.83333333333334|
|           32|           5376|             0|           957| 185.3793103448276|
|           33|           8742|             2|          1259|301.44827586206895|
|           34|           78

In [26]:
# Consulta realizada para saber quantas visitas na web tiveram por idade

spark.sql("SELECT idade_cliente, COUNT(num_visitas_web_mes) AS visitas_web FROM campanha_mkt GROUP BY idade_cliente ORDER BY idade_cliente").show()

+-------------+-----------+
|idade_cliente|visitas_web|
+-------------+-----------+
|           25|          2|
|           26|          5|
|           27|          3|
|           28|          4|
|           29|         13|
|           30|         15|
|           31|         18|
|           32|         29|
|           33|         29|
|           34|         27|
|           35|         41|
|           36|         32|
|           37|         38|
|           38|         41|
|           39|         44|
|           40|         38|
|           41|         39|
|           42|         53|
|           43|         76|
|           44|         52|
+-------------+-----------+
only showing top 20 rows



In [31]:
# Consulta realizada para saber a idade, a graduação, a renda anual e o consumo de carne

spark.sql("SELECT idade_cliente, graduacao, renda_anual, qts_produtos_carne FROM campanha_mkt").show()

+-------------+-----------------+-----------+------------------+
|idade_cliente|        graduacao|renda_anual|qts_produtos_carne|
+-------------+-----------------+-----------+------------------+
|           64|  Ensino Superior|    58138.0|               546|
|           67|  Ensino Superior|    46344.0|                 6|
|           56|  Ensino Superior|    71613.0|               127|
|           37|  Ensino Superior|    26646.0|                20|
|           40|              PhD|    58293.0|               118|
|           54|         Mestrado|    62513.0|                98|
|           50|  Ensino Superior|    55635.0|               164|
|           36|              PhD|    33454.0|                56|
|           47|              PhD|    30351.0|                24|
|           71|              PhD|     5648.0|                 6|
|           45|     Ensino Médio|     7500.0|                11|
|           62|  Ensino Superior|    63033.0|               480|
|           69|         M

In [43]:
# Consulta realizada para saber o consumo de doces e quantas crianças tem em casa

spark.sql("SELECT qts_produtos_doces, SUM(criancas_em_casa) AS qts_filhos FROM campanha_mkt GROUP BY qts_produtos_doces").show()

+------------------+----------+
|qts_produtos_doces|qts_filhos|
+------------------+----------+
|               148|         0|
|                31|         0|
|               137|         0|
|                85|         0|
|                65|         0|
|                53|         0|
|               133|         0|
|                78|         1|
|               108|         0|
|                34|         2|
|               115|         0|
|               101|         0|
|               126|         2|
|                81|         0|
|                28|         2|
|                76|         0|
|                27|         4|
|                26|         3|
|                44|         1|
|               192|         0|
+------------------+----------+
only showing top 20 rows



In [44]:
# Consulta realizada para saber o nível de escolaridade que aceitaram a campanha de mkt

spark.sql("SELECT graduacao, SUM(resposta_alvo) AS aceitaram_campanha FROM campanha_mkt GROUP BY graduacao").show()

+-----------------+------------------+
|        graduacao|aceitaram_campanha|
+-----------------+------------------+
|  Ensino Superior|               151|
|              PhD|               101|
|Cursando Mestrado|                22|
|     Ensino Médio|                 2|
|         Mestrado|                56|
+-----------------+------------------+



In [45]:
# Consulta realizada para saber a idade do cliente e o consumo de peixe

spark.sql("SELECT idade_cliente, qts_produtos_peixe FROM campanha_mkt").show()

+-------------+------------------+
|idade_cliente|qts_produtos_peixe|
+-------------+------------------+
|           64|               172|
|           67|                 2|
|           56|               111|
|           37|                10|
|           40|                46|
|           54|                 0|
|           50|                50|
|           36|                 3|
|           47|                 3|
|           71|                 1|
|           45|                11|
|           62|               225|
|           69|                 3|
|           34|                 6|
|           75|                59|
|           41|                 2|
|           75|               150|
|           72|                 0|
|           36|                30|
|           39|                69|
+-------------+------------------+
only showing top 20 rows

