In [36]:
from pyspark import	SparkConf, SparkContext
from pyspark.sql import SparkSession
import pandas as pd
import numpy as np

## Adicionando os Dados

In [37]:
# iniciando uma sessão 
ssql = SparkSession.builder.appName("Client").getOrCreate()

In [38]:
# Carregando o dataset utilizado
data = ssql.read.csv('Data.csv', header=True)

# Carregando o dataset utilizado
ssql.read.csv('Data.csv', header=True).createOrReplaceTempView("Data")

In [39]:
data.show()

+---+--------------------+---------+---------+------+-------------+--------+---------+-----+--------------------+------+---------------+---------------+---------+--------------------+------+-------------+--------------------+--------------------+
|_c0|              artist|     auth|firstName|gender|itemInSession|lastName|   length|level|            location|method|           page|   registration|sessionId|                song|status|           ts|           userAgent|              userId|
+---+--------------------+---------+---------+------+-------------+--------+---------+-----+--------------------+------+---------------+---------------+---------+--------------------+------+-------------+--------------------+--------------------+
|  0|      Martha Tilston|Logged In|    Colin|     M|           50| Freeman|277.89016| paid|     Bakersfield, CA|   PUT|       NextSong|1538173362000.0|       29|           Rockpools|   200|1538352117000|Mozilla/5.0 (Wind...|                  30|
|  1|    Fiv

In [40]:
print(f'O data-set possui {data.count()} fileiras')
print(f'e {len(data.columns)} colunas')

O data-set possui 286500 fileiras
e 19 colunas


In [41]:
data.printSchema()

root
 |-- _c0: string (nullable = true)
 |-- artist: string (nullable = true)
 |-- auth: string (nullable = true)
 |-- firstName: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- itemInSession: string (nullable = true)
 |-- lastName: string (nullable = true)
 |-- length: string (nullable = true)
 |-- level: string (nullable = true)
 |-- location: string (nullable = true)
 |-- method: string (nullable = true)
 |-- page: string (nullable = true)
 |-- registration: string (nullable = true)
 |-- sessionId: string (nullable = true)
 |-- song: string (nullable = true)
 |-- status: string (nullable = true)
 |-- ts: string (nullable = true)
 |-- userAgent: string (nullable = true)
 |-- userId: string (nullable = true)



## EDA

Temos as informações de quais foram as movimentações no site. Sendo a de nosso interesse "Cancellation Confirmation" que foram as contas encerradas pelos clientes

In [43]:
ssql.sql("select page, count(page) page "+
         "from data "+
         "group by page "+
         "order by count(page) desc").show(truncate=False)

+-------------------------+------+
|page                     |page  |
+-------------------------+------+
|NextSong                 |228108|
|Home                     |14457 |
|Thumbs Up                |12551 |
|Add to Playlist          |6526  |
|Add Friend               |4277  |
|Roll Advert              |3933  |
|Login                    |3241  |
|Logout                   |3226  |
|Thumbs Down              |2546  |
|Downgrade                |2055  |
|Help                     |1726  |
|Settings                 |1514  |
|About                    |924   |
|Upgrade                  |499   |
|Save Settings            |310   |
|Error                    |258   |
|Submit Upgrade           |159   |
|Submit Downgrade         |63    |
|Cancel                   |52    |
|Cancellation Confirmation|52    |
+-------------------------+------+
only showing top 20 rows



Podemos perceper que há grande quantia de nulls, e que há pelo menos 3 colunas com as mesmas quantias, provavelmente se uma determinada coluna estiver com null as outras também estarão

In [None]:
# Loop para contabilizar quantia de nulls em cada coluna
for i in data.columns[1:]:
    nulls = data.filter(f'{i} is NULL').count()
    print(f'Quantia de Nulls na coluna {i} ', nulls)

Quantia de Nulls na coluna artist  58392
Quantia de Nulls na coluna auth  0
Quantia de Nulls na coluna firstName  8346
Quantia de Nulls na coluna gender  8346
Quantia de Nulls na coluna itemInSession  0
Quantia de Nulls na coluna lastName  8346
Quantia de Nulls na coluna length  58392
Quantia de Nulls na coluna level  0
Quantia de Nulls na coluna location  8346
Quantia de Nulls na coluna method  0
Quantia de Nulls na coluna page  0
Quantia de Nulls na coluna registration  8346
Quantia de Nulls na coluna sessionId  0
Quantia de Nulls na coluna song  58392
Quantia de Nulls na coluna status  0
Quantia de Nulls na coluna ts  0
Quantia de Nulls na coluna userAgent  8346
Quantia de Nulls na coluna userId  8346


Os valores que faltam podem seguir um certo padrão já que seguem uma sequência, esse problema será resolvido nas seguintes partes levando essa informação em conta, pois irei usar uma forma específica para lidar com os valores faltantes

In [44]:
# Quando um das 3 colunas é null as outras duas também serão
ssql.sql("select artist, length, song "+
         "from data "+
         "where artist is null and "+
         "length is null and "+
         "song is null").count()

58392

In [46]:
# Quando um das 7 colunas é null as outras seis também serão
ssql.sql("select firstName, gender, lastName, location, registration, userAgent, userID "+
         "from data "+
         "where gender is null and firstName is null and lastName is null and registration is null and "+
         "userAgent is null and userID is null").count()

8346

In [47]:
# Quantia de usuarios do aplicativo, separados por sexo
ssql.sql("select gender,count(distinct userID) as num_userID "+
         "from data "+
         "group by gender "+
         "order by count(distinct userID) desc").show()

+------+----------+
|gender|num_userID|
+------+----------+
|     M|        46|
|     F|        43|
|  null|         0|
+------+----------+

