In [0]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

In [0]:
df = spark.read.format("csv") \
  .option("inferSchema", "true") \
  .option("header", "true") \
  .option("sep", ",") \
  .load("/FileStore/tables/marketing_campaign_tratado_pyspark.csv") \
  .createOrReplaceTempView("marketing_campaign")

In [0]:
%sql
SELECT * FROM marketing_campaign;

identificacao,ano_nasc,educacao,status_civil,salario_anual,qtd_crianca,qtd_adolescente,data_primeira_compra,dias_ultima_compra,gasto_em_vinhos,gasto_em_frutas,gasto_em_carnes,gasto_em_peixes,gasto_em_doces,gasto_em_ouro,num_compras_desconto,num_compras_online,num_compras_catalogo,num_compras_loja,num_visitas_online_mensal,oferta_aceito3,oferta_aceito4,oferta_aceito5,oferta_aceito1,oferta_aceito2,reclamacoes,resposta,total_de_filhos,total_gasto_2anos
5524,1957,graduacao,solteiro,58138.0,0,0,2012-04-09,58,635,88,546,172,88,88,3,8,10,4,7,nao,nao,nao,nao,nao,nao,sim,0,1617
2174,1954,graduacao,solteiro,46344.0,1,1,2014-08-03,38,11,1,6,2,1,6,2,1,1,2,5,nao,nao,nao,nao,nao,nao,nao,2,27
4141,1965,graduacao,uniao_estavel,71613.0,0,0,2013-08-21,26,426,49,127,111,21,42,1,8,2,10,4,nao,nao,nao,nao,nao,nao,nao,0,776
6182,1984,graduacao,uniao_estavel,26646.0,1,0,2014-10-02,26,11,4,20,10,3,5,2,2,0,4,6,nao,nao,nao,nao,nao,nao,nao,1,53
5324,1981,doutorado,casado,58293.0,1,0,2014-01-19,94,173,43,118,46,27,15,5,5,3,6,5,nao,nao,nao,nao,nao,nao,nao,1,422
7446,1967,mestrado,uniao_estavel,62513.0,0,1,2013-09-09,16,520,42,98,0,42,14,2,6,4,10,6,nao,nao,nao,nao,nao,nao,nao,1,716
965,1971,graduacao,divorciado,55635.0,0,1,2012-11-13,34,235,65,164,50,49,27,4,7,3,7,6,nao,nao,nao,nao,nao,nao,nao,1,590
6177,1985,doutorado,casado,33454.0,1,0,2013-08-05,32,76,10,56,3,1,23,2,4,0,4,8,nao,nao,nao,nao,nao,nao,nao,1,169
4855,1974,doutorado,uniao_estavel,30351.0,1,0,2013-06-06,19,14,0,24,3,3,2,1,3,0,2,9,nao,nao,nao,nao,nao,nao,sim,1,46
5899,1950,doutorado,uniao_estavel,5648.0,1,1,2014-03-13,68,28,0,6,1,1,13,1,1,0,0,20,sim,nao,nao,nao,nao,nao,nao,2,49


**1ª Consulta**

Número de Divorciados por status civil

In [0]:
%sql
SELECT educacao, COUNT(status_civil) AS divorciado
FROM marketing_campaign
WHERE status_civil = 'divorciado'
GROUP BY educacao

educacao,divorciado
doutorado,52
mestrado,37
ensino_medio,22
graduacao,119
ensino_fundamental,1


**2ª Consulta**

Consumo de vinho por status civil

In [0]:
%sql
SELECT status_civil, SUM(gasto_em_vinhos) AS gasto_com_vinho
FROM marketing_campaign
GROUP BY status_civil
ORDER BY gasto_com_vinho DESC

status_civil,gasto_com_vinho
casado,256976
uniao_estavel,175960
solteiro,137209
divorciado,75349
viuvo,27902


**3ª Consulta**

Gastos totais por escolaridade

In [0]:
%sql
SELECT educacao, SUM(total_gasto_2anos) AS soma_gastos_totais
FROM marketing_campaign
GROUP BY educacao
ORDER BY soma_gastos_totais DESC

educacao,soma_gastos_totais
graduacao,692497
doutorado,322759
mestrado,220764
ensino_medio,98899
ensino_fundamental,4417


**4ª Consulta**

Quantidade de pessoas por grau de escolaridade e a proporção de filhos por faixa

In [0]:
%sql
SELECT educacao, COUNT(educacao) AS qtd_escolaridade, SUM(total_de_filhos) AS somatorio_filhos, ROUND(SUM(total_de_filhos)/COUNT(educacao), 4) AS proporcao_filhos_escolaridade
FROM marketing_campaign
GROUP BY educacao
ORDER BY proporcao_filhos_escolaridade DESC

educacao,qtd_escolaridade,somatorio_filhos,proporcao_filhos_escolaridade
doutorado,477,476,0.9979
mestrado,363,360,0.9917
graduacao,1114,1040,0.9336
ensino_medio,198,175,0.8838
ensino_fundamental,54,39,0.7222


**5ª Consulta**

Gasto proporcional de vinho por status civil

In [0]:
%sql
SELECT status_civil, SUM(gasto_em_vinhos) AS gasto_com_vinho, ROUND(SUM(gasto_em_vinhos)/COUNT(educacao), 2) AS gasto_proporcional
FROM marketing_campaign
GROUP BY status_civil
ORDER BY gasto_proporcional DESC

status_civil,gasto_com_vinho,gasto_proporcional
viuvo,27902,367.13
divorciado,75349,326.19
uniao_estavel,175960,307.62
casado,256976,299.86
solteiro,137209,291.93


**6ª Consulta**

Gasto com carne de pessoas casadas com a partir de um filho

In [0]:
%sql
SELECT status_civil, SUM(gasto_em_carnes)+SUM(gasto_em_peixes) AS gasto_proteina
FROM marketing_campaign
GROUP BY status_civil
HAVING status_civil = 'casado'

status_civil,gasto_proteina
casado,168283


**7ª Consulta**

Pessoas solteiras com pelo menos um filho que recebem salario anual inferior a 15000

In [0]:
%sql
SELECT * FROM marketing_campaign WHERE (status_civil = 'solteiro' AND qtd_crianca >= 1 AND salario_anual < 15000)

identificacao,ano_nasc,educacao,status_civil,salario_anual,qtd_crianca,qtd_adolescente,data_primeira_compra,dias_ultima_compra,gasto_em_vinhos,gasto_em_frutas,gasto_em_carnes,gasto_em_peixes,gasto_em_doces,gasto_em_ouro,num_compras_desconto,num_compras_online,num_compras_catalogo,num_compras_loja,num_visitas_online_mensal,oferta_aceito3,oferta_aceito4,oferta_aceito5,oferta_aceito1,oferta_aceito2,reclamacoes,resposta,total_de_filhos,total_gasto_2anos
7297,1973,graduacao,solteiro,7500.0,1,0,2013-12-26,54,5,3,10,12,7,20,4,3,1,3,7,nao,nao,nao,nao,nao,nao,nao,1,57
948,1971,graduacao,solteiro,10245.0,1,0,2013-05-15,32,4,7,7,6,4,13,3,1,2,2,5,nao,nao,nao,nao,nao,nao,nao,1,41
10395,1986,ensino_fundamental,solteiro,8940.0,1,0,2012-08-22,25,1,45,3,4,6,42,3,3,1,3,8,nao,nao,nao,nao,nao,nao,nao,1,101
4136,1992,ensino_fundamental,solteiro,7500.0,1,0,2012-03-12,63,10,17,18,8,26,40,4,3,2,2,9,nao,nao,nao,nao,nao,nao,nao,1,119
10641,1978,graduacao,solteiro,7500.0,1,1,2012-12-27,5,6,5,4,13,4,25,4,2,1,3,6,nao,nao,nao,nao,nao,nao,nao,2,57
11110,1973,graduacao,solteiro,3502.0,1,0,2013-04-13,56,2,1,1,0,0,1,0,0,0,0,14,nao,nao,nao,nao,nao,nao,nao,1,5
451,1989,graduacao,solteiro,9255.0,1,0,2013-12-20,91,9,0,7,2,0,4,1,1,1,2,8,nao,nao,nao,nao,nao,nao,nao,1,22
2980,1952,mestrado,solteiro,8820.0,1,1,2013-03-22,52,12,0,13,4,2,4,4,3,0,3,8,nao,nao,nao,nao,nao,nao,nao,2,35
7004,1984,graduacao,solteiro,11012.0,1,0,2013-03-16,82,24,3,26,7,1,23,3,3,1,2,9,sim,nao,nao,nao,nao,nao,nao,1,84


**8ª Consulta**

Pessoas viuvas com sem filhos que nasceram após 1960

In [0]:
%sql
SELECT * FROM marketing_campaign WHERE (status_civil = 'viuvo' AND total_de_filhos == 0 AND ano_nasc > 1960) ORDER BY ano_nasc

identificacao,ano_nasc,educacao,status_civil,salario_anual,qtd_crianca,qtd_adolescente,data_primeira_compra,dias_ultima_compra,gasto_em_vinhos,gasto_em_frutas,gasto_em_carnes,gasto_em_peixes,gasto_em_doces,gasto_em_ouro,num_compras_desconto,num_compras_online,num_compras_catalogo,num_compras_loja,num_visitas_online_mensal,oferta_aceito3,oferta_aceito4,oferta_aceito5,oferta_aceito1,oferta_aceito2,reclamacoes,resposta,total_de_filhos,total_gasto_2anos
3009,1962,doutorado,viuvo,71670.0,0,0,2013-09-07,8,1462,16,128,0,0,160,1,5,3,6,6,nao,sim,sim,nao,sim,nao,sim,0,1766
4686,1962,doutorado,viuvo,82571.0,0,0,2014-02-04,28,861,31,558,62,95,79,0,6,5,13,2,nao,nao,sim,nao,nao,nao,nao,0,1686
10955,1964,graduacao,viuvo,85620.0,0,0,2014-07-01,68,416,46,925,60,107,46,1,3,6,4,1,nao,nao,nao,nao,nao,nao,sim,0,1600
6609,1966,graduacao,viuvo,27038.0,0,0,2012-09-18,64,1,26,25,17,23,15,1,3,0,3,9,nao,nao,nao,nao,nao,nao,sim,0,107
10102,1966,graduacao,viuvo,79946.0,0,0,2014-12-05,19,395,183,565,166,141,28,1,5,11,5,3,nao,nao,nao,nao,nao,nao,nao,0,1478
313,1968,graduacao,viuvo,73455.0,0,0,2013-10-28,98,901,61,757,186,163,20,1,6,5,10,3,nao,sim,nao,nao,nao,nao,nao,0,2088


**9ª Consulta**

Pessoas que fizeram mais de dez compras online e aceitaram pelo menos uma oferta da ultima campanha

In [0]:
%sql
SELECT * FROM marketing_campaign WHERE (num_compras_online > 10 AND resposta == 'sim')

identificacao,ano_nasc,educacao,status_civil,salario_anual,qtd_crianca,qtd_adolescente,data_primeira_compra,dias_ultima_compra,gasto_em_vinhos,gasto_em_frutas,gasto_em_carnes,gasto_em_peixes,gasto_em_doces,gasto_em_ouro,num_compras_desconto,num_compras_online,num_compras_catalogo,num_compras_loja,num_visitas_online_mensal,oferta_aceito3,oferta_aceito4,oferta_aceito5,oferta_aceito1,oferta_aceito2,reclamacoes,resposta,total_de_filhos,total_gasto_2anos
9369,1979,ensino_medio,solteiro,88194.0,0,1,2014-03-19,19,688,14,309,201,24,38,1,11,10,10,5,sim,nao,nao,sim,nao,nao,sim,1,1274
380,1954,graduacao,divorciado,64497.0,0,1,2012-10-09,17,1170,48,320,42,32,192,5,11,4,9,8,sim,nao,nao,nao,nao,nao,sim,1,1804
7381,1968,graduacao,divorciado,75693.0,0,0,2012-06-12,10,797,153,293,72,97,30,1,11,4,6,4,nao,sim,sim,sim,nao,nao,sim,0,1442
4299,1960,graduacao,uniao_estavel,70971.0,0,1,2012-09-21,28,1001,17,572,93,125,17,7,11,11,5,7,nao,nao,nao,nao,nao,nao,sim,1,1825
6059,1953,doutorado,uniao_estavel,64504.0,1,2,2013-04-03,81,986,36,168,16,0,108,7,11,3,4,7,nao,nao,nao,nao,nao,nao,sim,3,1314
5153,1967,doutorado,casado,77766.0,0,1,2013-02-22,97,1004,59,265,115,59,27,2,11,10,11,6,sim,nao,nao,nao,nao,nao,sim,1,1529
10478,1950,doutorado,casado,55517.0,1,1,2012-09-27,53,483,0,108,0,6,36,5,11,1,6,9,nao,nao,nao,nao,nao,nao,sim,2,633
4127,1967,doutorado,casado,77766.0,0,1,2013-02-22,97,1004,59,265,115,59,27,2,11,10,11,6,sim,nao,nao,nao,nao,nao,sim,1,1529
6250,1949,doutorado,viuvo,54356.0,0,1,2012-11-19,62,710,15,30,20,0,0,3,11,2,8,8,nao,nao,nao,nao,nao,nao,sim,1,775
3945,1947,doutorado,viuvo,68117.0,0,1,2013-10-03,80,618,44,215,0,17,36,2,11,8,4,6,sim,nao,nao,nao,nao,nao,sim,1,930


**10ª Consulta**

Pessoas divorciadas que tem doutorado e gastaram mais de 70 em ouro

In [0]:
%sql
SELECT * FROM marketing_campaign WHERE (status_civil == 'divorciado' AND educacao == 'doutorado' AND gasto_em_ouro > 70)

identificacao,ano_nasc,educacao,status_civil,salario_anual,qtd_crianca,qtd_adolescente,data_primeira_compra,dias_ultima_compra,gasto_em_vinhos,gasto_em_frutas,gasto_em_carnes,gasto_em_peixes,gasto_em_doces,gasto_em_ouro,num_compras_desconto,num_compras_online,num_compras_catalogo,num_compras_loja,num_visitas_online_mensal,oferta_aceito3,oferta_aceito4,oferta_aceito5,oferta_aceito1,oferta_aceito2,reclamacoes,resposta,total_de_filhos,total_gasto_2anos
9750,1961,doutorado,divorciado,64325.0,0,1,2013-07-02,41,731,60,353,78,12,73,5,10,3,5,7,nao,nao,nao,nao,nao,nao,nao,1,1307
9799,1968,doutorado,divorciado,83664.0,1,1,2013-08-05,57,866,21,151,28,21,86,3,2,2,12,5,nao,nao,nao,nao,nao,nao,nao,2,1173
10142,1976,doutorado,divorciado,66476.0,0,1,2013-07-03,99,372,18,126,47,48,78,2,5,2,11,4,nao,nao,nao,nao,nao,nao,nao,1,689
6299,1968,doutorado,divorciado,42564.0,0,1,2013-02-01,28,324,48,186,39,18,198,6,6,8,4,7,sim,nao,nao,nao,nao,nao,sim,1,813
2793,1976,doutorado,divorciado,70179.0,0,1,2013-07-21,10,532,88,168,69,44,133,3,7,3,13,5,nao,nao,nao,nao,nao,nao,nao,1,1034
252,1963,doutorado,divorciado,41003.0,0,0,2013-03-17,11,123,133,142,71,44,88,1,6,2,8,6,nao,nao,nao,nao,nao,nao,nao,0,601
1665,1964,doutorado,divorciado,64140.0,0,2,2013-09-23,71,1459,0,61,0,15,215,5,2,5,6,5,sim,nao,sim,nao,sim,nao,sim,2,1750
531,1954,doutorado,divorciado,57333.0,0,1,2012-09-22,55,941,14,397,76,58,176,11,8,5,9,6,nao,nao,nao,nao,nao,nao,sim,1,1662
1071,1976,doutorado,divorciado,70179.0,0,1,2013-07-21,10,532,88,168,69,44,133,3,7,3,13,5,nao,nao,nao,nao,nao,nao,nao,1,1034
