In [None]:
! pip install numpy
! pip install pandas
! pip install matplotlib



### 1. Carregamento dos Dados:
Usando Python, utilize bibliotecas como Pandas para carregar o arquivo `spotify_songs.parquet`.

### 2. Análise Exploratória dos Dados (EDA):
- **Examine os Dados:** Utilize `head()`, `info()`, `describe()` para entender a estrutura e os tipos de dados.
- **Trate Dados Ausentes:** Identifique e lide com valores nulos, se houver.
- **Verifique Estatísticas Básicas:** Analise estatísticas descritivas das colunas numéricas e categóricas.
- **Visualizações:** Plote gráficos para entender a distribuição de cada atributo, como histogramas para variáveis numéricas e contagens para variáveis categóricas.

### 3. Seleção de Características Relevantes:
Para prever a popularidade da música, pode-se considerar:
- **Correlações:** Calcule a matriz de correlação para entender as relações entre variáveis e a popularidade.
- **Análise de Importância:** Utilize métodos como árvores de decisão, Random Forest ou Gradient Boosting para identificar a importância das features.
- **Descarte de Features Irrelevantes:** Elimine colunas que tenham baixa correlação ou importância para a previsão.

### 4. Engenharia de Recursos (se necessário):
- **Criação de Novas Features:** Se existir conhecimento de domínio, crie novas features derivadas das existentes que possam ter relação com a popularidade.
- **Normalização/Padronização:** Prepare os dados para o modelo, aplicando normalização/escalonamento em variáveis numéricas, se necessário.

### 5. Preparação para Modelagem:
- **Separar Dados:** Divida o conjunto em dados de treino e teste.
- **Codificação de Variáveis Categóricas:** Converta variáveis categóricas em formato numérico, se aplicável.
- **Balanceamento de Dados (se necessário):** Se houver desbalanceamento na distribuição de classes, aplique técnicas de balanceamento.

### 6. Modelo de Machine Learning:
Escolha um modelo adequado (regressão, árvores de decisão, random forest, redes neurais) e treine-o utilizando os dados de treino.

### 7. Avaliação do Modelo:
- **Métricas de Avaliação:** Utilize métricas como R², MSE, RMSE para avaliar o desempenho do modelo.
- **Validação Cruzada:** Realize validação cruzada para verificar a estabilidade do modelo.

### 8. Ajustes e Otimizações:
- **Ajuste de Hiperparâmetros:** Utilize técnicas como Grid Search ou Random Search para otimizar os hiperparâmetros do modelo.
- **Feature Engineering Iterativo:** Refine a seleção de características com base nos resultados do modelo.

Este processo ajudará a identificar as colunas mais relevantes para prever a popularidade das músicas e a construir um modelo de machine learning eficaz.

In [12]:
from tabulate import tabulate
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import matplotlib as mpl

df = pd.read_parquet('spotify_songs.parquet')


# Mostrar as primeiras linhas do DataFrame
print("Primeiras linhas do DataFrame:")
print(tabulate(df.head(), headers='keys', tablefmt='pretty'))


# Obter os nomes de todas as colunas
colunas = df.columns.tolist()
print("Nomes de todas as colunas:")
print(colunas)


# Estatísticas descritivas das colunas numéricas
print("\nEstatísticas descritivas:")
print(tabulate(df.describe(), headers='keys', tablefmt='pretty'))



Primeiras linhas do DataFrame:
+------------------------+-------------------------------------------------------+------------------+------------------+------------------------+-------------------------------------------------------+--------------------------+---------------+------------------------+----------------+-------------------+--------------+--------+-----+----------+------+-------------+--------------+------------------+----------+---------+---------+-------------+
|        track_id        |                      track_name                       |   track_artist   | track_popularity |     track_album_id     |                   track_album_name                    | track_album_release_date | playlist_name |      playlist_id       | playlist_genre | playlist_subgenre | danceability | energy | key | loudness | mode | speechiness | acousticness | instrumentalness | liveness | valence |  tempo  | duration_ms |
+------------------------+-----------------------------------------------