# Desafio PySpark - Análise de dados do Spotify

No desafio proposto, foi fornecido um conjunto de dados relacionados ao Spotify, expostos em uma planilha estruturada contendo uma variedade significativa de informações passíveis de análise. O objetivo central do desafio consiste na realização de um processo ETL (Extração, Transformação e Carga) desses dados, utilizando preferencialmente as plataformas Google Colab ou Jupyter Notebook. Foi ressaltado a necessidade de compartilhar detalhadamente o procedimento adotado para o desafio.

Na execução do ETL, foi dada a tarefa de se apronfudar no módulo PySpark, módulo muito utilizado para extrair dados de maneira eficiente. Este módulo é utilizado para aplicar transformações pertinentes que aprimorem a qualidade e a utilidade das informações, e, por fim, temos que carregar os dados transformados de volta ao ambiente de análise. Foi observado para destacar de maneira clara os métodos utilizados para cada etapa do processo ETL, evidenciando as escolhas feitas e a lógica por trás delas.

Ao organizar os dados, foi expresso escolher de nossa preferência quanto à estruturação dos dados e a necessidade de justificar as escolhas, visando uma apresentação clara e compreensível. Para surpreender e agregar valor ao desafio, foi considerado a criação de uma dashboard utilizando alguma ferramenta da escolha do programador, destacando visualmente insights e padrões relevantes identificados nos dados.

Como requisito adicional, é solicitado que você finalize todo o processo até 10/12/2023, demonstrando comprometimento com o prazo estipulado.

Ao preparar o matérial para a apresentação, elaborei alguns tópicos para me manter organizado. 

1. **Valores do desenvolvimento**
   - Tendo em vista a possibilidade de se realizar um dashboard interativo de forma totalmente automatizada, há a necessidade de se pensar primeiro no foco em resultado. Não adianta de nada um dashboard bonito se ele pode quebrar com um simples erro. Então optei por utilizar uma abordagem mais simples, comecei desenvolvendo o código pensando na módulariedade, tornando a manutenção do software muito mais rápida e robusta.

2. **Configuração do projeto**
   - Tendo em vista ser um projeto simples focado em desenvolver habilidades na biblioteca PySpark, optei primeiro por configurar todo meu projeto em um único bloco de código para não atrapalhar nas exeções e testes que irão ser realizados.
   - Como forma de desenvolver um software robusto, utilizei de diversos exemplos e exercícios disponibilizados para servirem como um bom conteúdo de introdução geral.

2. **Dados a serem analisados**
   - A escolha dos dados analisados foi uma escolha própria onde optei por destacar os pontos mais importantes e avaliar de forma estatística. Outros dados que não tiveram tanta relevancia foram demonstrados os mótivos e destacados.
   - Para uma análise mais abrangente, foi explicado a relevância dos dados filtrados para a proposta.

3. **Quantos Dados?**
   - Os dados medidos foram relevantes para a análise, há um enorme conjunto de dados relacionados a artistas, músicas e outros tipos de dados que vamos abordar no nosso jupyter notebook.
   - Os dados serão apresentados utilizando métricas relevantes, como número de registros, variáveis analisadas, entre outras.

Ao seguir essas diretrizes, busquei surpreender pela excelência na execução técnica, clareza na comunicação e profundidade na análise realizada.


## Requisitos de projeto

Como primeiro código vamos definir quais são os requisitos necessários pro nosso projeto.
Todas as importações necessárias que serão utilizadas durante o código vão ser inicializadas nesse primeiro bloco. Esse tipo de estruturação é essencial para se ter maior fluides na execução dos códigos. Poís se fosse necessário executar uma verificação de todas as bibliotecas necessárias durante o código, você vai perder um bom tempo. (Principalmente bibliotecas pesadas como Ultralytics ou OpenCV)


Eu dividi o inicializador de requisitos de duas formas.

Quando você executar o bloco de códigos de requisitos, o código vai verificar se você está utilizando o google colab ou um jupyter notebook no seu computador local.
Esse tipo de definição é importante para se manter maior compatibilidade. Além disso há um arquivo chamado 'requirements.py', é um arquivo que vai instalar as bibliotecas necessárias caso você não tenha instalados no seu computador ou nuvem.

In [2]:
from IPython.display import clear_output
from pyspark.sql import SparkSession
import os

try:
    import google.colab
    IN_COLAB = True
    from google.colab import drive
    drive.mount('/content/drive')
    !pip install -r requirements.txt
    print('Você está rodando no Google Colab')
except:
    IN_COLAB = False
    from requirements import check_and_install_requirements
    check_and_install_requirements()
    print('Você está rodando localmente')

Bibliotecas ausentes:  ['excel']
Instalando bibliotecas ausentes via pip...
Bibliotecas instaladas com sucesso.
Bibliotecas ausentes:  ['excel']
Instalando bibliotecas ausentes via pip...
Bibliotecas instaladas com sucesso.
Você está rodando localmente


## Códigos de desenvolvimento passo a passo

Como qualquer outra nova tecnologia que não temos conhecimento sobre, vamos pesquisar na [documentação](https://spark.apache.org/docs/latest/api/python/getting_started/index.html) do PySpark para entedermos o funcionamento essêncial e vamos realizar algumas experimentações com os exemplos dados neste tópico.

Vamos abrir nosso arquivo CSV utilizando a biblioteca PySpark e visualizar os dados gerais dos mesmos

In [52]:
spark = SparkSession.builder.appName("Spotify").getOrCreate()

path_directory = os.path.join(os.getcwd(), 'spotify.csv')

df = spark.read.csv(path_directory, header=True, inferSchema=True)
df.show()

+----------+--------------------+--------------------+--------------------+--------------------+----------+-----------+--------+------------+------+---+--------+----+-----------+------------+----------------+--------+-------+-------+--------------+-----------+
|Unnamed: 0|            track_id|             artists|          album_name|          track_name|popularity|duration_ms|explicit|danceability|energy|key|loudness|mode|speechiness|acousticness|instrumentalness|liveness|valence|  tempo|time_signature|track_genre|
+----------+--------------------+--------------------+--------------------+--------------------+----------+-----------+--------+------------+------+---+--------+----+-----------+------------+----------------+--------+-------+-------+--------------+-----------+
|         0|5SuOikwiRyPMVoIQD...|         Gen Hoshino|              Comedy|              Comedy|        73|     230666|   False|       0.676| 0.461|  1|  -6.746|   0|      0.143|      0.0322|         1.01E-6|   0.358|

In [48]:
type(df)

pyspark.sql.dataframe.DataFrame

Agora vamos testar utilizando a biblioteca pandas

In [44]:
import pandas as pd
pd.read_csv('spotify.csv')

Unnamed: 0.1,Unnamed: 0,track_id,artists,album_name,track_name,popularity,duration_ms,explicit,danceability,energy,...,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,time_signature,track_genre
0,0,5SuOikwiRyPMVoIQDJUgSV,Gen Hoshino,Comedy,Comedy,73,230666,False,0.676,0.4610,...,-6.746,0,0.1430,0.0322,0.000001,0.3580,0.7150,87.917,4,acoustic
1,1,4qPNDBW1i3p13qLCt0Ki3A,Ben Woodward,Ghost (Acoustic),Ghost - Acoustic,55,149610,False,0.420,0.1660,...,-17.235,1,0.0763,0.9240,0.000006,0.1010,0.2670,77.489,4,acoustic
2,2,1iJBSr7s7jYXzM8EGcbK5b,Ingrid Michaelson;ZAYN,To Begin Again,To Begin Again,57,210826,False,0.438,0.3590,...,-9.734,1,0.0557,0.2100,0.000000,0.1170,0.1200,76.332,4,acoustic
3,3,6lfxq3CG4xtTiEg7opyCyx,Kina Grannis,Crazy Rich Asians (Original Motion Picture Sou...,Can't Help Falling In Love,71,201933,False,0.266,0.0596,...,-18.515,1,0.0363,0.9050,0.000071,0.1320,0.1430,181.740,3,acoustic
4,4,5vjLSffimiIP26QG5WcN2K,Chord Overstreet,Hold On,Hold On,82,198853,False,0.618,0.4430,...,-9.681,1,0.0526,0.4690,0.000000,0.0829,0.1670,119.949,4,acoustic
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
113995,113995,2C3TZjDRiAzdyViavDJ217,Rainy Lullaby,#mindfulness - Soft Rain for Mindful Meditatio...,Sleep My Little Boy,21,384999,False,0.172,0.2350,...,-16.393,1,0.0422,0.6400,0.928000,0.0863,0.0339,125.995,5,world-music
113996,113996,1hIz5L4IB9hN3WRYPOCGPw,Rainy Lullaby,#mindfulness - Soft Rain for Mindful Meditatio...,Water Into Light,22,385000,False,0.174,0.1170,...,-18.318,0,0.0401,0.9940,0.976000,0.1050,0.0350,85.239,4,world-music
113997,113997,6x8ZfSoqDjuNa5SVP5QjvX,Cesária Evora,Best Of,Miss Perfumado,22,271466,False,0.629,0.3290,...,-10.895,0,0.0420,0.8670,0.000000,0.0839,0.7430,132.378,4,world-music
113998,113998,2e6sXL2bYv4bSz6VTdnfLs,Michael W. Smith,Change Your World,Friends,41,283893,False,0.587,0.5060,...,-10.889,1,0.0297,0.3810,0.000000,0.2700,0.4130,135.960,4,world-music


In [45]:
type(pd.read_csv('spotify.csv'))

pandas.core.frame.DataFrame

In [50]:
df.printSchema()

root
 |-- Unnamed: 0: integer (nullable = true)
 |-- track_id: string (nullable = true)
 |-- artists: string (nullable = true)
 |-- album_name: string (nullable = true)
 |-- track_name: string (nullable = true)
 |-- popularity: string (nullable = true)
 |-- duration_ms: string (nullable = true)
 |-- explicit: string (nullable = true)
 |-- danceability: string (nullable = true)
 |-- energy: string (nullable = true)
 |-- key: string (nullable = true)
 |-- loudness: string (nullable = true)
 |-- mode: string (nullable = true)
 |-- speechiness: string (nullable = true)
 |-- acousticness: string (nullable = true)
 |-- instrumentalness: double (nullable = true)
 |-- liveness: string (nullable = true)
 |-- valence: string (nullable = true)
 |-- tempo: double (nullable = true)
 |-- time_signature: double (nullable = true)
 |-- track_genre: string (nullable = true)



In [51]:
df.columns

['Unnamed: 0',
 'track_id',
 'artists',
 'album_name',
 'track_name',
 'popularity',
 'duration_ms',
 'explicit',
 'danceability',
 'energy',
 'key',
 'loudness',
 'mode',
 'speechiness',
 'acousticness',
 'instrumentalness',
 'liveness',
 'valence',
 'tempo',
 'time_signature',
 'track_genre']

In [73]:
df.dtypes

[('Unnamed: 0', 'int'),
 ('track_id', 'string'),
 ('artists', 'string'),
 ('album_name', 'string'),
 ('track_name', 'string'),
 ('popularity', 'string'),
 ('duration_ms', 'string'),
 ('explicit', 'string'),
 ('danceability', 'string'),
 ('energy', 'string'),
 ('key', 'string'),
 ('loudness', 'string'),
 ('mode', 'string'),
 ('speechiness', 'string'),
 ('acousticness', 'string'),
 ('instrumentalness', 'double'),
 ('liveness', 'string'),
 ('valence', 'string'),
 ('tempo', 'double'),
 ('time_signature', 'double'),
 ('track_genre', 'string')]

In [54]:
df.head(3)

[Row(Unnamed: 0=0, track_id='5SuOikwiRyPMVoIQDJUgSV', artists='Gen Hoshino', album_name='Comedy', track_name='Comedy', popularity='73', duration_ms='230666', explicit='False', danceability='0.676', energy='0.461', key='1', loudness='-6.746', mode='0', speechiness='0.143', acousticness='0.0322', instrumentalness=1.01e-06, liveness='0.358', valence='0.715', tempo=87.917, time_signature=4.0, track_genre='acoustic'),
 Row(Unnamed: 0=1, track_id='4qPNDBW1i3p13qLCt0Ki3A', artists='Ben Woodward', album_name='Ghost (Acoustic)', track_name='Ghost - Acoustic', popularity='55', duration_ms='149610', explicit='False', danceability='0.42', energy='0.166', key='1', loudness='-17.235', mode='1', speechiness='0.0763', acousticness='0.924', instrumentalness=5.56e-06, liveness='0.101', valence='0.267', tempo=77.489, time_signature=4.0, track_genre='acoustic'),
 Row(Unnamed: 0=2, track_id='1iJBSr7s7jYXzM8EGcbK5b', artists='Ingrid Michaelson;ZAYN', album_name='To Begin Again', track_name='To Begin Again',

In [58]:
df.show(3)

+----------+--------------------+--------------------+----------------+----------------+----------+-----------+--------+------------+------+---+--------+----+-----------+------------+----------------+--------+-------+------+--------------+-----------+
|Unnamed: 0|            track_id|             artists|      album_name|      track_name|popularity|duration_ms|explicit|danceability|energy|key|loudness|mode|speechiness|acousticness|instrumentalness|liveness|valence| tempo|time_signature|track_genre|
+----------+--------------------+--------------------+----------------+----------------+----------+-----------+--------+------------+------+---+--------+----+-----------+------------+----------------+--------+-------+------+--------------+-----------+
|         0|5SuOikwiRyPMVoIQD...|         Gen Hoshino|          Comedy|          Comedy|        73|     230666|   False|       0.676| 0.461|  1|  -6.746|   0|      0.143|      0.0322|         1.01E-6|   0.358|  0.715|87.917|           4.0|   ac

In [75]:
df.select(['artists','album_name','track_name', 'popularity']).show(4)

+--------------------+--------------------+--------------------+----------+
|             artists|          album_name|          track_name|popularity|
+--------------------+--------------------+--------------------+----------+
|         Gen Hoshino|              Comedy|              Comedy|        73|
|        Ben Woodward|    Ghost (Acoustic)|    Ghost - Acoustic|        55|
|Ingrid Michaelson...|      To Begin Again|      To Begin Again|        57|
|        Kina Grannis|Crazy Rich Asians...|Can't Help Fallin...|        71|
+--------------------+--------------------+--------------------+----------+
only showing top 4 rows



In [78]:
df.describe().show()

+-------+-----------------+--------------------+-----------------+----------------------------+--------------+------------------+--------------------+------------------+------------------+--------------------+------------------+-------------------+-----------------+------------------+-------------------+------------------+-----------------+-------------------+------------------+------------------+------------------+
|summary|       Unnamed: 0|            track_id|          artists|                  album_name|    track_name|        popularity|         duration_ms|          explicit|      danceability|              energy|               key|           loudness|             mode|       speechiness|       acousticness|  instrumentalness|         liveness|            valence|             tempo|    time_signature|       track_genre|
+-------+-----------------+--------------------+-----------------+----------------------------+--------------+------------------+--------------------+----------

Podemos notar que a biblioteca pandas deixa muito mais harmônico e de fácil na visualização dos dados.

## Código do desafio para visualizar tabelas filtradas

In [4]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from IPython.display import clear_output
from time import sleep

class opcoes:
    @staticmethod
    def filtro_ordenar(df):
        print("Filtros disponíveis:")
        print("Quantos dados deseja ver?")
        
        try:
            num_rows = int(input("Digite o número de dados que deseja ver: "))
        except ValueError:
            print("Por favor, digite um número válido.")
            return

        print("Ordenar por: Crescente (c) ou Decrescente (d)")
        order_type = input("Digite c ou d: ")

        if order_type == "c":
            df_top = df.orderBy(col('popularity').asc()).limit(num_rows)
        elif order_type == "d":
            df_top = df.orderBy(col('popularity').desc()).limit(num_rows)
        else:
            print("Opção inválida. Digite 'c' ou 'd'.")
            return

        df_top.show()
        raise Exception("Opção inválida. Digite 'c' ou 'd'.")

    @staticmethod
    def filtro_limite(df):
        coluna = input("Qual coluna deseja ver? ")
        
        if coluna == "exit":
            return
        try:
            num_rows = int(input("Quantos dados deseja ver? "))
        except ValueError:
            print("Por favor, digite um número válido.")
            return

        df.select(coluna).show(num_rows)
        
        filtro = input("Deseja filtrar? (s/n) ")

        if filtro == "s":
            Filtros.filtro_limite(df)
        else:
            return

    @staticmethod
    def filtro_coluna(df):
        clear_output()
        print("Colunas disponíveis: " + str(df.columns))
        coluna = input("Escreva o nome da coluna")
        try:
            df.columns.index(coluna)
            input("Pressione qualquer tecla para continuar")
            Menu.menu()
            # se a coluna não existir
        except ValueError:
            print("Por favor, digite um número válido.")
            clear_output()
            return opcoes.filtro_coluna(df)

        df.select(coluna).show(num_rows)

    @staticmethod
    def filtro_ambiguidade(df):
        return Menu.menu()

    @staticmethod
    def show_csv(df):
        clear_output()
        df.show()
        return Menu.menu()


class Menu:
    @staticmethod
    def menu():
        print("Bem vindo ao banco de dados do Spotify!")
        print("Selecione uma opção:")
        print("1 - Ver todos os dados")
        print("2 - Ver colunas")
        print("3 - Filtrar")
        print("4 - Sair")
        opcao = input("Digite a opção desejada: ")
        if opcao == "1":
            opcoes.show_csv(df)
        elif opcao == "2":
            opcoes.filtro_coluna(df)
        elif opcao == "3":
            opcoes.filtro_limite(df)
        elif opcao == "4":
            clear_output()
            print("Obrigado por usar o Spotify!")
            return
        else:
            clear_output()
            print("Opção inválida, tente novamente.")
            Menu.menu()

df = spark.read.csv(path_directory, header=True, inferSchema=True)
# Show.show_column(df)
Menu.menu()


Opção inválida, tente novamente.
Bem vindo ao banco de dados do Spotify!
Selecione uma opção:
1 - Ver todos os dados
2 - Ver colunas
3 - Filtrar
4 - Sair


KeyboardInterrupt: Interrupted by user

In [8]:
class show:
    def show_column(coluna):
        print("Starting show_column with coluna = " + coluna)
        coluna = input("Qual coluna quer ver? ")
        clear_output()
        if coluna == "exit":
            return
        try:
            print("Trying to show " + coluna)
            df.select(coluna).show().limit(10)
            filtro = input("Deseja filtrar? (s/n) ")
            if filtro == "s":
                return show_column(coluna)
        except:
            print("Erro ao mostrar a coluna")
            return show_column(coluna)

if __name__ == "__main__":
    show_column(coluna)

NameError: name 'show_column' is not defined