A base possui as seguintes colunas, após a tranformação:

| Atributo                   | Descrição                                                                               | Escala                  | Tipo                  |
|----------------------------|-----------------------------------------------------------------------------------------|-------------------------|-----------------------|
| timedelta                  | Dias entre a publicação do artigo e a aquisição do conjunto de dados                    | Intervalar              | Quantitativo - Discreto |
| n_tokens_title             | Número de palavras no título                                                            | Racional                | Quantitativo - Discreto |
| n_tokens_content           | Número de palavras no conteúdo                                                          | Racional                | Quantitativo - Discreto |
| n_unique_tokens            | Taxa de palavras únicas no conteúdo                                                     | Racional                |
| num_hrefs                  | Número de links                                                                         | Racional                |
| num_self_hrefs             | Número de links para outros artigos publicados pela Mashable                            | Racional                |
| num_imgs                   | Número de imagens                                                                       | Racional                |
| num_videos                 | Número de vídeos                                                                        | Racional                |
| num_keywords               | Número de palavras chave nos metadados                                                  | Racional                |
| channel                    | Canal de publicação: Lifestyle, Entertainment, Business, Social Media, Tech, World.     | Nominal                 |
| weekday                    | Dia da semana de publicação: Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, Sunday. | Nominal            |
| global_subjectivity        | Subjetividade de texto                                                                  | Racional                |
| global_sentiment_polarity  | Polaridade do sentimento de texto                                                       | Racional                |
| global_rate_positive_words | Taxa de palavras positivas no conteúdo                                                  | Racional                |
| global_rate_negative_words | Taxa de palavras negativas no conteúdo                                                  | Racional                |
| title_subjectivity         | Subjetividade do título                                                                 | Racional                |
| title_sentiment_polarity   | Polaridade do título                                                                    | Racional                |
| shares                     | Number of shares (target)                                                               | Racional                |

In [2]:
# Importação de pacotes necessários para este laboratório

import seaborn as sns #Visualização
import matplotlib.pyplot as plt #Visualização
import pandas as pd #Biblioteca Pandas para os dados

In [28]:
#Preparando os dados
data_pop = pd.read_csv("../datasets/OnlineNewsPopularity.csv")
data_pop.columns = [column.strip() for column in data_pop.columns] # corrige o problema de ter espaço nos nomes das colunas 
data_pop = transform_data(data_pop)
data_pop.head() #teste

data_pop.timedelta

0        731.0
1        731.0
2        731.0
3        731.0
4        731.0
         ...  
33505     11.0
33506     11.0
33507     11.0
33508     11.0
33509     11.0
Name: timedelta, Length: 33510, dtype: float64

In [20]:
#Análise

data_pop.shape #Obter Atributos e instâncias


(33510, 18)

In [17]:
def transform_data(dataset):
    
    # Colunas com informações de Channel 

    melt_columns_channel = [
        'data_channel_is_lifestyle', 'data_channel_is_entertainment', 'data_channel_is_bus', 'data_channel_is_socmed',
        'data_channel_is_tech', 'data_channel_is_world'
    ]

    # Demais colunas do dataset

    all_columns_channel = [column for column in dataset.columns if column not in melt_columns_channel]

    # Transformação da base de dados 

    data_final = pd.melt(dataset, id_vars=all_columns_channel, value_vars=melt_columns_channel, var_name='channel', value_name='channel_value')
    data_final = data_final[data_final['channel_value'] != 0]
    data_final['channel'] =data_final['channel'].str.split("_").str[-1]
    data_final.drop(columns=['channel_value'], inplace=True)
    data_final.reset_index(inplace=True)
    
    
    # Colunas com informações do weekday 
    melt_columns_weekday = ['weekday_is_monday', 'weekday_is_tuesday', 
        'weekday_is_wednesday', 'weekday_is_thursday', 'weekday_is_friday', 'weekday_is_saturday', 'weekday_is_sunday'
    ]

    # Demais colunas do dataset
    all_columns_weekday = [column for column in data_final.columns if column not in melt_columns_weekday]


    data_final = pd.melt(data_final, id_vars=all_columns_weekday, value_vars=melt_columns_weekday, var_name='weekday', value_name='weekday_value')
    data_final = data_final[data_final['weekday_value'] != 0]
    data_final['weekday'] =data_final['weekday'].str.split("_").str[-1]
    data_final.drop(columns=['weekday_value'], inplace=True)
    data_final.reset_index(inplace=True)

    # Selecionando colunas de interesse 

    data_final = data_final[['timedelta', 'n_tokens_title',
       'n_tokens_content', 'n_unique_tokens','num_hrefs', 'num_self_hrefs', 'num_imgs',
       'num_videos', 'num_keywords', 'channel', 'weekday', 'global_subjectivity',
       'global_sentiment_polarity', 'global_rate_positive_words',
       'global_rate_negative_words', 'title_subjectivity',
       'title_sentiment_polarity', 'shares']]
    

    return data_final



