## Extração e Limpeza de Dados

#### Base de dados: spotify

In [None]:
import pandas as pd #importando a biblioteca que usaremos para realizar as nossas mudanças
import numpy as np

### Observar e avaliar erros

In [None]:

df = pd.read_csv('../bases/spotify.csv') #Definindo que o arquivo ficará guardado no nome "df"
df.sort_values('song_popularity', ascending=False, inplace=True) #Deixando musicas em ordem de popularidade
df.head(15) #Com esta função apenas as primeiras linhas aparecerão, começando pelo 0


Após observar o retorno, é possível ver diversos erros:

1. música ‘I love it’ aparece várias vezes
2. música classificada como ‘não_sei’
3. colunas com unidades de medida como ‘mol’ ou ‘kg’


### Checando as informações

In [None]:
df.head(15) # vizualizar o começo do dataframe


In [None]:
df.info() #obter informações do seu dataframe


In [None]:
df.describe() #para ver uma descrição mais detalhada

### Corrigindo Inconsistências

In [None]:
#Removendo unidades de medidas inadequadas ‘mol/L’ E ‘kg’

def remove_units(DataFrame, columns, what):
    for col in columns:
        DataFrame[col] = DataFrame[col].str.strip(what)

remove_units(df,['acousticness','danceability'],'mol/L')
remove_units(df,['song_duration_ms','acousticness'],'kg')

#testando
df.head(15)

In [None]:
#Trocando dados faltantes sem uma formatação (‘nao_sei’) e outros valores que não fazem sentido para nossa análise por um valor float

df.replace(['nao_sei'], np.nan)
df['song_popularity'] = df['song_popularity'].replace(['nao_sei'], np.nan)
df['song_duration_ms'] = df['song_duration_ms'].replace(['0.8220000000000001'], np.nan)
df['key'] = df['key'].replace([0.177], np.nan)
df['audio_mode'] = df['audio_mode'].replace(['0.105'],np.nan)
df['speechiness'] = df['speechiness'].replace(['0.nao_sei'], np.nan)
df['time_signature'] = df['time_signature'].replace(['0.7', '2800000000'], np.nan)

#testando
df.head(15)

In [None]:
#Ajustando os tipos das nossas variáveis
#grande parte das nossas informações numéricas estão sendo tratadas como strings, vamos então construir uma função para arrumar

numerical_cols = ['song_duration_ms', 'acousticness', 'danceability',
                  'energy', 'instrumentalness', 'liveness', 'loudness',
                  'speechiness', 'tempo', 'audio_valence']

categorical_cols = ['song_popularity', 'key', 'audio_mode', 'time_signature']

def convert_types(dataframe, columns, new_type):
    for col in columns:
        if col in dataframe.columns:  # Verifica se a coluna está no DataFrame
            dataframe[col] = pd.to_numeric(dataframe[col], errors='coerce')  # Substitui não numéricos por NaN
            dataframe[col] = dataframe[col].astype(new_type)

# Chamando a função para corrigir os tipos
convert_types(df, numerical_cols, 'float')
convert_types(df, categorical_cols, 'category')

# Verificando as mudanças nos tipos das colunas
print(df.info())

#### Retirando colunas e linhas



In [None]:
df = df.drop("Unnamed: 0", axis=1) #Retirando coluna
print(df.info())

In [None]:
# deletando as linhas vazias
df = df.dropna(how="any", axis=0)
print(df.info())


### Corrigindo Duplicatas

In [None]:
df.head(15)

In [None]:
df['song_name'].unique() #verificando valores uniques da coluna 'song_name'

In [None]:
#Verificando duplicados
duplicados = df[df.duplicated(keep='first')]
#duplicados_coluna = df[df.duplicated(subset='song_name')] #duplicatas por coluna
print(duplicados)

In [None]:
df.drop_duplicates(keep='first', inplace=True) 

In [None]:
df.shape #conferindo retorno de linhas após remoção das duplicatas