In [3]:
%run 2_dados.ipynb

#### Cria sessão Pyspark

In [4]:
spark = (SparkSession.builder
        .master("local")
        .appName("projetosoulcode")
        .config('spark.jars','gcs-connector-hadoop3-latest.jar' )
        .config('spark.hadoop.fs.gs.impl','com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem')
        .config('spark.hadoop.fs.gs.auth.service.account.enable', 'true')
        .config("spark.hadoop.google.cloud.auth.service.account.json.keyfile",'soulcodeproject-44ce61622773.json')
        .config('spark.hadoop.fs.gs.project.id','soulcodeproject')
        .getOrCreate())
spark.conf.set("spark.sql.caseSensitive", "true")

#### Novo header traduzido

In [5]:
schema = (
    StructType([
        StructField("ID",IntegerType(), False),
        StructField("AnoNascimento", IntegerType(), False),
        StructField("GrauInstrucao", StringType(), True),
        StructField("EstadoCivil", StringType(), True),
        StructField("Renda", DoubleType(), True),
        StructField("NumCrianca", IntegerType(), True),
        StructField("NumAdolescente", IntegerType(), True),
        StructField("DataConta", StringType(), True),
        StructField("UltimaCompra", IntegerType(), True),
        StructField("QtdVinho", IntegerType(), True),
        StructField("QtdFrutas", IntegerType(), True),
        StructField("QtdCarne", IntegerType(), True),
        StructField("QtdPeixe", IntegerType(), True),
        StructField("QtdDoces", IntegerType(), True),
        StructField("QtdOuro", IntegerType(), True),
        StructField("QtdComprasDesconto", IntegerType(), True),
        StructField("QtdComprasWeb", IntegerType(), True),
        StructField("QtdCompraCatalogo", IntegerType(), True),
        StructField("QtdCompraLoja", IntegerType(), True),
        StructField("NumVisitasSite", IntegerType(), True),
        StructField("AceitouCam3", IntegerType(), True),
        StructField("AceitouCam4", IntegerType(), True),
        StructField("AceitouCam5", IntegerType(), True),
        StructField("AceitouCam1", IntegerType(), True),
        StructField("AceitouCam2", IntegerType(), True),
        StructField("Reclamacao", IntegerType(), True),
        StructField("CustoContato", IntegerType(), True),
        StructField("Receita", IntegerType(), True),
        StructField("UltimaCampanha", IntegerType(), True),
    ])
)

#### Leitura do arquivo CSV que está na Bucket GCS

In [6]:
df2= (
    spark
       .read
       .format("csv")
       .option("header", "true")
       .option("delimiter", ",")
       .load('gs://soulcodeprojeto/marketing_campaign.csv',schema=schema)
)
df2.show()

+----+-------------+-------------+-----------+-------+----------+--------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-----------+-----------+-----------+----------+------------+-------+--------------+
|  ID|AnoNascimento|GrauInstrucao|EstadoCivil|  Renda|NumCrianca|NumAdolescente| DataConta|UltimaCompra|QtdVinho|QtdFrutas|QtdCarne|QtdPeixe|QtdDoces|QtdOuro|QtdComprasDesconto|QtdComprasWeb|QtdCompraCatalogo|QtdCompraLoja|NumVisitasSite|AceitouCam3|AceitouCam4|AceitouCam5|AceitouCam1|AceitouCam2|Reclamacao|CustoContato|Receita|UltimaCampanha|
+----+-------------+-------------+-----------+-------+----------+--------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-----------+-----------+-----------+----------

#### Verifica tamanho do dataframe

In [7]:
print('Quantidade de linhas:',df2.count(),'\nQuantidade de colunas:',len(df2.columns))

Quantidade de linhas: 2240 
Quantidade de colunas: 29


#### Tradução das informações sobre o Grau de Instrução dos clientes

In [8]:
a=[x[0] for x in df2.select('GrauInstrucao').distinct().collect()]
df2=df2.replace(a, ['Segundo Ciclo', 'PhD', 'Mestrado', 'Graduado', 'Básico'])
df2.select('GrauInstrucao').distinct().show()
df2.show()

+-------------+
|GrauInstrucao|
+-------------+
|Segundo Ciclo|
|          PhD|
|     Graduado|
|     Mestrado|
|       Básico|
+-------------+

+----+-------------+-------------+-----------+-------+----------+--------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-----------+-----------+-----------+----------+------------+-------+--------------+
|  ID|AnoNascimento|GrauInstrucao|EstadoCivil|  Renda|NumCrianca|NumAdolescente| DataConta|UltimaCompra|QtdVinho|QtdFrutas|QtdCarne|QtdPeixe|QtdDoces|QtdOuro|QtdComprasDesconto|QtdComprasWeb|QtdCompraCatalogo|QtdCompraLoja|NumVisitasSite|AceitouCam3|AceitouCam4|AceitouCam5|AceitouCam1|AceitouCam2|Reclamacao|CustoContato|Receita|UltimaCampanha|
+----+-------------+-------------+-----------+-------+----------+--------------+----------+------------+--------+---------+--------+--------+--------+-------+-----

#### Tradução dos dados relativos ao Estado Civil

In [9]:
b=[x[0] for x in df2.select('EstadoCivil').distinct().collect()]
df2=df2.replace(b,['Só se vive uma vez', 'Juntado', 'Casado', 'Absurdo', 'Viúvo','Divorciado', 'Sozinho', 'Solteiro'])
df2.select('EstadoCivil').distinct().show()
df2.show()

+------------------+
|       EstadoCivil|
+------------------+
|             Viúvo|
|        Divorciado|
|           Sozinho|
|          Solteiro|
|           Absurdo|
|Só se vive uma vez|
|            Casado|
|           Juntado|
+------------------+

+----+-------------+-------------+-----------+-------+----------+--------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-----------+-----------+-----------+----------+------------+-------+--------------+
|  ID|AnoNascimento|GrauInstrucao|EstadoCivil|  Renda|NumCrianca|NumAdolescente| DataConta|UltimaCompra|QtdVinho|QtdFrutas|QtdCarne|QtdPeixe|QtdDoces|QtdOuro|QtdComprasDesconto|QtdComprasWeb|QtdCompraCatalogo|QtdCompraLoja|NumVisitasSite|AceitouCam3|AceitouCam4|AceitouCam5|AceitouCam1|AceitouCam2|Reclamacao|CustoContato|Receita|UltimaCampanha|
+----+-------------+-------------+-----------+-------+-

#### Verificação das Informções sobre as colunas

In [10]:
df2.printSchema()

root
 |-- ID: integer (nullable = true)
 |-- AnoNascimento: integer (nullable = true)
 |-- GrauInstrucao: string (nullable = true)
 |-- EstadoCivil: string (nullable = true)
 |-- Renda: double (nullable = true)
 |-- NumCrianca: integer (nullable = true)
 |-- NumAdolescente: integer (nullable = true)
 |-- DataConta: string (nullable = true)
 |-- UltimaCompra: integer (nullable = true)
 |-- QtdVinho: integer (nullable = true)
 |-- QtdFrutas: integer (nullable = true)
 |-- QtdCarne: integer (nullable = true)
 |-- QtdPeixe: integer (nullable = true)
 |-- QtdDoces: integer (nullable = true)
 |-- QtdOuro: integer (nullable = true)
 |-- QtdComprasDesconto: integer (nullable = true)
 |-- QtdComprasWeb: integer (nullable = true)
 |-- QtdCompraCatalogo: integer (nullable = true)
 |-- QtdCompraLoja: integer (nullable = true)
 |-- NumVisitasSite: integer (nullable = true)
 |-- AceitouCam3: integer (nullable = true)
 |-- AceitouCam4: integer (nullable = true)
 |-- AceitouCam5: integer (nullable = t

#### Procura de valores nulos, usadas tanto as funções Isnan quanto IsNULL

In [11]:
df2.select([count(when(isnan(c), c)).alias(c) for c in df2.columns]).show(vertical=True)

-RECORD 0-----------------
 ID                 | 0   
 AnoNascimento      | 0   
 GrauInstrucao      | 0   
 EstadoCivil        | 0   
 Renda              | 0   
 NumCrianca         | 0   
 NumAdolescente     | 0   
 DataConta          | 0   
 UltimaCompra       | 0   
 QtdVinho           | 0   
 QtdFrutas          | 0   
 QtdCarne           | 0   
 QtdPeixe           | 0   
 QtdDoces           | 0   
 QtdOuro            | 0   
 QtdComprasDesconto | 0   
 QtdComprasWeb      | 0   
 QtdCompraCatalogo  | 0   
 QtdCompraLoja      | 0   
 NumVisitasSite     | 0   
 AceitouCam3        | 0   
 AceitouCam4        | 0   
 AceitouCam5        | 0   
 AceitouCam1        | 0   
 AceitouCam2        | 0   
 Reclamacao         | 0   
 CustoContato       | 0   
 Receita            | 0   
 UltimaCampanha     | 0   



In [12]:
df2.select([count(when(col(c).isNull(), c)).alias(c) for c in df2.columns]).show(vertical=True)

-RECORD 0-----------------
 ID                 | 0   
 AnoNascimento      | 0   
 GrauInstrucao      | 0   
 EstadoCivil        | 0   
 Renda              | 24  
 NumCrianca         | 0   
 NumAdolescente     | 0   
 DataConta          | 0   
 UltimaCompra       | 0   
 QtdVinho           | 0   
 QtdFrutas          | 0   
 QtdCarne           | 0   
 QtdPeixe           | 0   
 QtdDoces           | 0   
 QtdOuro            | 0   
 QtdComprasDesconto | 0   
 QtdComprasWeb      | 0   
 QtdCompraCatalogo  | 0   
 QtdCompraLoja      | 0   
 NumVisitasSite     | 0   
 AceitouCam3        | 0   
 AceitouCam4        | 0   
 AceitouCam5        | 0   
 AceitouCam1        | 0   
 AceitouCam2        | 0   
 Reclamacao         | 0   
 CustoContato       | 0   
 Receita            | 0   
 UltimaCampanha     | 0   



#### Encontrados 24 valores nulos na Renda dos clientes, linhas foram excluídas, ficando assim 2216 linhas

In [13]:
df2=df2.dropna()

In [14]:
df2.describe().show()

+-------+----------------+------------------+-------------+-----------+------------------+------------------+------------------+----------+-----------------+------------------+------------------+------------------+-----------------+------------------+-----------------+------------------+------------------+------------------+-----------------+-----------------+-------------------+------------------+-------------------+-------------------+--------------------+-------------------+------------+-------+-------------------+
|summary|              ID|     AnoNascimento|GrauInstrucao|EstadoCivil|             Renda|        NumCrianca|    NumAdolescente| DataConta|     UltimaCompra|          QtdVinho|         QtdFrutas|          QtdCarne|         QtdPeixe|          QtdDoces|          QtdOuro|QtdComprasDesconto|     QtdComprasWeb| QtdCompraCatalogo|    QtdCompraLoja|   NumVisitasSite|        AceitouCam3|       AceitouCam4|        AceitouCam5|        AceitouCam1|         AceitouCam2|         Recla

#### As colunas Receita e CustoContato foram descartadas por apenas repetirem os valores 3 e 11 respectivamente e não trazerem informações úteis para a analise

In [15]:
df2=df2.drop('Receita', 'CustoContato')

In [16]:
df2.summary().show()

+-------+----------------+------------------+-------------+-----------+------------------+------------------+------------------+----------+-----------------+------------------+------------------+------------------+-----------------+------------------+-----------------+------------------+------------------+------------------+-----------------+-----------------+-------------------+------------------+-------------------+-------------------+--------------------+-------------------+-------------------+
|summary|              ID|     AnoNascimento|GrauInstrucao|EstadoCivil|             Renda|        NumCrianca|    NumAdolescente| DataConta|     UltimaCompra|          QtdVinho|         QtdFrutas|          QtdCarne|         QtdPeixe|          QtdDoces|          QtdOuro|QtdComprasDesconto|     QtdComprasWeb| QtdCompraCatalogo|    QtdCompraLoja|   NumVisitasSite|        AceitouCam3|       AceitouCam4|        AceitouCam5|        AceitouCam1|         AceitouCam2|         Reclamacao|     UltimaCamp

In [17]:
print(df2.count(), len(df2.columns))

2216 27


In [18]:
df2=df2.withColumnRenamed('NumCrianca','QtdCriancas').withColumnRenamed('NumAdolescente', 'QtdAdolescentes')
df2.show()

+----+-------------+-------------+-----------+-------+-----------+---------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-----------+-----------+-----------+----------+--------------+
|  ID|AnoNascimento|GrauInstrucao|EstadoCivil|  Renda|QtdCriancas|QtdAdolescentes| DataConta|UltimaCompra|QtdVinho|QtdFrutas|QtdCarne|QtdPeixe|QtdDoces|QtdOuro|QtdComprasDesconto|QtdComprasWeb|QtdCompraCatalogo|QtdCompraLoja|NumVisitasSite|AceitouCam3|AceitouCam4|AceitouCam5|AceitouCam1|AceitouCam2|Reclamacao|UltimaCampanha|
+----+-------------+-------------+-----------+-------+-----------+---------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-----------+-----------+-----------+----------+--------------+
|5524|         1957

In [19]:
df2=df2.withColumn('TotalGasto', F.col('QtdVinho')+F.col('QtdFrutas')+F.col('QtdCarne')+F.col('QtdPeixe')+F.col('QtdOuro')).orderBy('TotalGasto', ascending=False)

In [20]:
df2=df2.withColumn('Filhos', F.col('QtdCriancas')+F.col('QtdAdolescentes')).orderBy('Filhos', ascending=False)
df2.show()

+-----+-------------+-------------+-----------+-------+-----------+---------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-----------+-----------+-----------+----------+--------------+----------+------+
|   ID|AnoNascimento|GrauInstrucao|EstadoCivil|  Renda|QtdCriancas|QtdAdolescentes| DataConta|UltimaCompra|QtdVinho|QtdFrutas|QtdCarne|QtdPeixe|QtdDoces|QtdOuro|QtdComprasDesconto|QtdComprasWeb|QtdCompraCatalogo|QtdCompraLoja|NumVisitasSite|AceitouCam3|AceitouCam4|AceitouCam5|AceitouCam1|AceitouCam2|Reclamacao|UltimaCampanha|TotalGasto|Filhos|
+-----+-------------+-------------+-----------+-------+-----------+---------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-----------+-----------+-----------+-------

#### Média de compra de vinho e doces de acordo com o Estado Civil

In [21]:
df2.groupBy("EstadoCivil").agg({'QtdVinho':'mean','QtdDoces':'mean' }).show()

+------------------+------------------+------------------+
|       EstadoCivil|     avg(QtdVinho)|     avg(QtdDoces)|
+------------------+------------------+------------------+
|             Viúvo|367.13157894736844| 37.86842105263158|
|        Divorciado| 324.8448275862069| 26.81896551724138|
|           Sozinho|184.66666666666666|               7.0|
|          Solteiro| 291.3312101910828|27.072186836518046|
|           Absurdo|             355.5|              30.5|
|Só se vive uma vez|             322.0|               3.0|
|            Casado|299.85530921820305|26.751458576429403|
|           Juntado|308.40314136125653|26.232111692844676|
+------------------+------------------+------------------+



#### Definindo nova coluna com o status se cliente tem crianças e adolescentes em casa

In [57]:
df3 = (df2.withColumn("Status", F.when((F.col('Filhos') >0), F.lit("Filhos em casa")).otherwise(F.lit('Sem Filhos'))))

In [23]:
df3.filter(df3['Status']=='Sem Filhos').show()

+-----+-------------+-------------+-----------+-------+-----------+---------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-----------+-----------+-----------+----------+--------------+----------+------+----------+
|   ID|AnoNascimento|GrauInstrucao|EstadoCivil|  Renda|QtdCriancas|QtdAdolescentes| DataConta|UltimaCompra|QtdVinho|QtdFrutas|QtdCarne|QtdPeixe|QtdDoces|QtdOuro|QtdComprasDesconto|QtdComprasWeb|QtdCompraCatalogo|QtdCompraLoja|NumVisitasSite|AceitouCam3|AceitouCam4|AceitouCam5|AceitouCam1|AceitouCam2|Reclamacao|UltimaCampanha|TotalGasto|Filhos|    Status|
+-----+-------------+-------------+-----------+-------+-----------+---------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-----------+---------

#### Pesquisa de quantidade de clientes por estado civil e grau de instrução

In [24]:
df3.groupBy('EstadoCivil').count().orderBy('count', ascending=False).show()

+------------------+-----+
|       EstadoCivil|count|
+------------------+-----+
|            Casado|  857|
|           Juntado|  573|
|          Solteiro|  471|
|        Divorciado|  232|
|             Viúvo|   76|
|           Sozinho|    3|
|           Absurdo|    2|
|Só se vive uma vez|    2|
+------------------+-----+



In [25]:
df3.groupBy('GrauInstrucao').count().show()

+-------------+-----+
|GrauInstrucao|count|
+-------------+-----+
|Segundo Ciclo|  200|
|          PhD|  481|
|     Graduado| 1116|
|     Mestrado|  365|
|       Básico|   54|
+-------------+-----+



#### Cálculo da Renda Média dos clientes de acordo com o Estado Civil

In [26]:
df3.groupBy('EstadoCivil').agg(F.mean('Renda').alias('RendaMédia')).orderBy('RendaMédia', ascending=False).withColumn("RendaMédia",round(col('RendaMédia'),2)).show()

+------------------+----------+
|       EstadoCivil|RendaMédia|
+------------------+----------+
|           Absurdo|   72365.5|
|             Viúvo|  56481.55|
|           Juntado|  53245.53|
|        Divorciado|  52834.23|
|            Casado|  51724.98|
|          Solteiro|  50995.35|
|Só se vive uma vez|   48432.0|
|           Sozinho|   43789.0|
+------------------+----------+



#### Calculo dos gastos por cliente de acordo com o estado civil

In [27]:
df3.groupBy('EstadoCivil').agg(F.mean('Renda').alias('RendaMédia'), F.mean('TotalGasto').alias('GastoMedia')).orderBy('GastoMedia', ascending=False).withColumn("RendaMédia",round(col('RendaMédia'),2)).withColumn("GastoMedia",round(col('GastoMedia'),2)).show()

+------------------+----------+----------+
|       EstadoCivil|RendaMédia|GastoMedia|
+------------------+----------+----------+
|           Absurdo|   72365.5|    1162.0|
|             Viúvo|  56481.55|    690.09|
|          Solteiro|  50995.35|    585.52|
|        Divorciado|  52834.23|    583.81|
|           Juntado|  53245.53|    582.61|
|            Casado|  51724.98|    564.71|
|Só se vive uma vez|   48432.0|     421.0|
|           Sozinho|   43789.0|    249.67|
+------------------+----------+----------+



#### Busca das idades dos clientes e foram encontrados valores destoantes como 129, 123 e 122 anos

In [58]:
df3=df3.withColumn('Idade', year(current_date())-F.col('AnoNascimento'))

In [29]:
df3.groupBy('Idade').count().orderBy('Idade', ascending=False).show(100)

+-----+-----+
|Idade|count|
+-----+-----+
|  129|    1|
|  123|    1|
|  122|    1|
|   82|    1|
|   81|    1|
|   79|    6|
|   78|    7|
|   77|    8|
|   76|   16|
|   75|   16|
|   74|   21|
|   73|   30|
|   72|   29|
|   71|   42|
|   70|   52|
|   69|   35|
|   68|   49|
|   67|   48|
|   66|   55|
|   65|   41|
|   64|   52|
|   63|   50|
|   62|   49|
|   61|   35|
|   60|   44|
|   59|   44|
|   58|   41|
|   57|   74|
|   56|   50|
|   55|   44|
|   54|   51|
|   53|   70|
|   52|   75|
|   51|   86|
|   50|   78|
|   49|   72|
|   48|   69|
|   47|   83|
|   46|   89|
|   45|   52|
|   44|   76|
|   43|   53|
|   42|   39|
|   41|   38|
|   40|   44|
|   39|   41|
|   38|   38|
|   37|   32|
|   36|   41|
|   35|   27|
|   34|   29|
|   33|   29|
|   32|   18|
|   31|   15|
|   30|   13|
|   29|    5|
|   28|    3|
|   27|    5|
|   26|    2|
+-----+-----+



#### Definição de Faixas de Idades e Criação de um novo dataframe que só tem a Renda Grau de Instrução e Idade

In [30]:
df4=df3.select('ID','GrauInstrucao', 'Idade', 'Renda').withColumn('FaixaIdade', F.when((col('Idade')>70), lit('>70'))
                                                   .when((col('Idade')>60), lit('60-70'))
                                                   .when((col('Idade')>50), lit('50-60'))
                                                   .when((col('Idade')>40), lit('40-50'))
                                                   .when((col('Idade')>30), lit('30-40'))
                                                   .when((col('Idade')>20), lit('>20')))
df4.show()

+-----+-------------+-----+-------+----------+
|   ID|GrauInstrucao|Idade|  Renda|FaixaIdade|
+-----+-------------+-----+-------+----------+
| 9283|     Graduado|   44|60199.0|     40-50|
| 9499|     Graduado|   68|93404.0|     60-70|
| 2795|     Mestrado|   64|30523.0|     60-70|
| 1357|     Graduado|   52|74854.0|     50-60|
| 4370|     Graduado|   56|43482.0|     50-60|
| 7284|     Graduado|   69|48686.0|     60-70|
| 4148|     Graduado|   50|38988.0|     40-50|
| 5885|Segundo Ciclo|   49|35688.0|     40-50|
| 8477|     Graduado|   66|26150.0|     60-70|
|10492|     Graduado|   63|38285.0|     60-70|
| 6222|     Graduado|   55|22574.0|     50-60|
| 3153|          PhD|   65|40737.0|     60-70|
| 8953|     Mestrado|   57|35791.0|     50-60|
|10350|          PhD|   72|54432.0|       >70|
| 8461|     Graduado|   60|46102.0|     50-60|
| 2552|          PhD|   67|55521.0|     60-70|
| 6940|          PhD|   56|46734.0|     50-60|
| 9579|          PhD|   63|33762.0|     60-70|
|11171|     M

#### Tabela com a renda dos clientes de acordo com a Faixa de Idade e o Grau de instrução

In [31]:
df5=df4.groupBy('GrauInstrucao').pivot('FaixaIdade').mean('Renda').fillna(0)
df5.select(['GrauInstrucao','>20','30-40','40-50','50-60','60-70','>70' ]).show()

+-------------+-------+------------------+------------------+------------------+-----------------+------------------+
|GrauInstrucao|    >20|             30-40|             40-50|             50-60|            60-70|               >70|
+-------------+-------+------------------+------------------+------------------+-----------------+------------------+
|Segundo Ciclo|64593.5| 39176.28947368421|           41534.7| 53663.17647058824|58657.27027027027| 65988.85714285714|
|          PhD|    0.0|58421.519230769234|         53095.352|53702.156028368794|58119.43010752688| 62199.24285714285|
|     Graduado|65198.0| 45467.30357142857| 52055.64652567976| 52530.02380952381|56757.25306122449|57529.360655737706|
|     Mestrado|67764.5| 45843.53658536585|49641.868131868134| 52108.31428571429|57171.58139534884|         59856.175|
|       Básico|14635.2|           19429.2|           21076.0|           21221.0|          21352.2|           27693.0|
+-------------+-------+------------------+--------------

#### Numero de compras pelo website, catalogo e loja conforme o estado civil

In [32]:
w0=Window.partitionBy(F.col('EstadoCivil'))
w1=Window.partitionBy(F.col('EstadoCivil')).orderBy('ID')
a=df3.withColumn('rank', F.rank().over(w1)).withColumn('Web',F.sum('QtdComprasWeb').over(w0)).withColumn('Catalogo', F.sum('QtdCompraCatalogo').over(w0)).withColumn('Loja', F.sum('QtdCompraLoja').over(w0)).where(F.col('rank')==1).select('EstadoCivil', 'Web', 'Catalogo', 'Loja')
a.sort('Web').show()

+------------------+----+--------+----+
|       EstadoCivil| Web|Catalogo|Loja|
+------------------+----+--------+----+
|           Absurdo|   7|      15|  13|
|Só se vive uma vez|  14|       2|  12|
|           Sozinho|  15|       2|  12|
|             Viúvo| 351|     251| 483|
|        Divorciado|1000|     620|1350|
|          Solteiro|1814|    1240|2674|
|           Juntado|2351|    1535|3298|
|            Casado|3501|    2254|5013|
+------------------+----+--------+----+



#### Definição de outro dataframe com a faixa etária que tenha o número de reclamações para verificação de qual grupo etário mais fez reclamações

In [33]:
df6=df3.select('GrauInstrucao', 'Idade', 'Renda', 'Reclamacao').withColumn('FaixaIdade', F.when((col('Idade')>70), lit('>70'))
                                                   .when((col('Idade')>60), lit('60-70'))
                                                   .when((col('Idade')>50), lit('50-60'))
                                                   .when((col('Idade')>40), lit('40-50'))
                                                   .when((col('Idade')>30), lit('30-40'))
                                                   .when((col('Idade')>20), lit('>20')))

In [34]:
win0=Window.partitionBy(F.col('FaixaIdade'))
win1=Window.partitionBy(F.col('FaixaIdade')).orderBy('Reclamacao')
df7=df6.withColumn('rank', F.row_number().over(win1)).withColumn('TotalReclamação',sum('Reclamacao').over(win0)).where(F.col('rank') == 1).select('FaixaIdade', 'TotalReclamação')
df7.orderBy('TotalReclamação', ascending=False).show()

+----------+---------------+
|FaixaIdade|TotalReclamação|
+----------+---------------+
|     60-70|              6|
|     40-50|              6|
|       >70|              4|
|     30-40|              3|
|     50-60|              1|
|       >20|              1|
+----------+---------------+



In [35]:
df6.groupBy('FaixaIdade').agg(sum('Reclamacao').alias('TotalReclamação')).orderBy('TotalReclamação', ascending=False).show()

+----------+---------------+
|FaixaIdade|TotalReclamação|
+----------+---------------+
|     60-70|              6|
|     40-50|              6|
|       >70|              4|
|     30-40|              3|
|       >20|              1|
|     50-60|              1|
+----------+---------------+



---
## SparkSQL
---

### Definição da Tabelas que serão usadas nas queries

In [36]:
df2.createOrReplaceTempView("clientes")

In [37]:
###SQL
df3=df3.withColumn('DataConta', F.to_date(F.col('DataConta'), 'dd-mm-yyyy'))
df3.createOrReplaceTempView('clientes')
df4.createOrReplaceTempView('clientesFaixa')
spark.sql("SELECT * FROM clientes").show()

+-----+-------------+-------------+-----------+-------+-----------+---------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-----------+-----------+-----------+----------+--------------+----------+------+--------------+-----+
|   ID|AnoNascimento|GrauInstrucao|EstadoCivil|  Renda|QtdCriancas|QtdAdolescentes| DataConta|UltimaCompra|QtdVinho|QtdFrutas|QtdCarne|QtdPeixe|QtdDoces|QtdOuro|QtdComprasDesconto|QtdComprasWeb|QtdCompraCatalogo|QtdCompraLoja|NumVisitasSite|AceitouCam3|AceitouCam4|AceitouCam5|AceitouCam1|AceitouCam2|Reclamacao|UltimaCampanha|TotalGasto|Filhos|        Status|Idade|
+-----+-------------+-------------+-----------+-------+-----------+---------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-

#### Verificação da quantidade de clientes com renda superior a 50000

In [38]:
spark.sql("SELECT count(Renda) from clientes\
          where Renda>50000").show()

+------------+
|count(Renda)|
+------------+
|        1156|
+------------+



#### Quantidade de clientes que não fizeram compras nos ultimos 2 meses

In [39]:
spark.sql("SELECT * FROM clientes\
        WHERE UltimaCompra>60\
        order by UltimaCompra DESC").show()

+-----+-------------+-------------+-----------+-------+-----------+---------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-----------+-----------+-----------+----------+--------------+----------+------+--------------+-----+
|   ID|AnoNascimento|GrauInstrucao|EstadoCivil|  Renda|QtdCriancas|QtdAdolescentes| DataConta|UltimaCompra|QtdVinho|QtdFrutas|QtdCarne|QtdPeixe|QtdDoces|QtdOuro|QtdComprasDesconto|QtdComprasWeb|QtdCompraCatalogo|QtdCompraLoja|NumVisitasSite|AceitouCam3|AceitouCam4|AceitouCam5|AceitouCam1|AceitouCam2|Reclamacao|UltimaCampanha|TotalGasto|Filhos|        Status|Idade|
+-----+-------------+-------------+-----------+-------+-----------+---------------+----------+------------+--------+---------+--------+--------+--------+-------+------------------+-------------+-----------------+-------------+--------------+-----------+-----------+-

#### Quantidade de clientes que abriram a conta por ano e quanto foi gasto

In [40]:
spark.sql('SELECT EXTRACT(year FROM DataConta) AS ano,\
           SUM(TotalGasto) as TotalPorAnoConta,\
           COUNT(ID) as TotalClienteAbriuConta\
           FROM clientes\
           GROUP BY EXTRACT(year FROM DataConta)\
           ORDER BY TotalPorAnoConta').show()

+----+----------------+----------------------+
| ano|TotalPorAnoConta|TotalClienteAbriuConta|
+----+----------------+----------------------+
|2014|          260252|                   553|
|2012|          350096|                   490|
|2013|          675035|                  1173|
+----+----------------+----------------------+



#### Média de compras com desconto e pela internet por Grau de Instrução

In [41]:
spark.sql('SELECT GrauInstrucao, MEAN(QtdComprasDesconto),MEAN(QtdComprasWeb), COUNT(ID) \
        FROM clientes\
        GROUP BY GrauInstrucao\
        ORDER BY MEAN(QtdComprasWeb) ').show()

+-------------+------------------------+-------------------+---------+
|GrauInstrucao|mean(QtdComprasDesconto)|mean(QtdComprasWeb)|count(ID)|
+-------------+------------------------+-------------------+---------+
|       Básico|      1.7962962962962963| 1.8888888888888888|       54|
|Segundo Ciclo|                    2.26|              3.765|      200|
|     Mestrado|      2.4246575342465753|  4.035616438356165|      365|
|     Graduado|      2.3118279569892475|  4.115591397849462|     1116|
|          PhD|        2.35966735966736| 4.4324324324324325|      481|
+-------------+------------------------+-------------------+---------+



#### Gastos por faixa de idade

In [42]:
spark.sql('SELECT FaixaIdade, mean(TotalGasto) \
from clientes, clientesFaixa \
where clientes.ID=clientesFaixa.ID \
group by FaixaIdade' ).show()

+----------+-----------------+
|FaixaIdade| mean(TotalGasto)|
+----------+-----------------+
|     40-50|476.1648690292758|
|       >20|788.1785714285714|
|       >70|            750.3|
|     60-70|667.2317596566523|
|     50-60|583.6303972366148|
|     30-40|542.6019108280254|
+----------+-----------------+

