<a href="https://colab.research.google.com/github/mariaiteixeira/desafio_dados/blob/desenvolvimento/Desafio_Data_Science.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analisando avaliações de estudantes

In [1]:
import pandas as pd

## Fazendo upload dos dados

In [2]:
url = 'https://raw.githubusercontent.com/mariaiteixeira/desafio_dados/main/desafio_dados.json'

In [3]:
dados = pd.read_json(url)
dados.head()

Unnamed: 0,id,conteúdo,data de criação,usuario,tempo_na_plataforma,curso,área
0,1,Gostei muito do curso! 😄,2024-05-15,aluno1,3 meses,Introdução ao Python,Programação
1,2,Este curso é uma perda de tempo! 😡,2024-05-16,aluno2,1 mês,Redes de Computadores,Infraestrutura
2,3,Adorei!!! https://cursoexcelente.com,2024-05-17,aluno3,6 meses,Data Science,Dados
3,4,NAO RECOMENDO!!!!!! PESSIMO CURSO,2024-05-18,aluno4,2 meses,Docker para Iniciantes,DevOps
4,5,aBCDefGHijklMNop,2024-05-19,aluno5,4 meses,Kubernetes Avançado,DevOps


In [4]:
dados.set_index('id', inplace=True)

In [5]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 60 entries, 1 to 60
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   conteúdo             60 non-null     object
 1   data de criação      60 non-null     object
 2   usuario              60 non-null     object
 3   tempo_na_plataforma  60 non-null     object
 4   curso                60 non-null     object
 5   área                 60 non-null     object
dtypes: object(6)
memory usage: 3.3+ KB


## Tratamento dos dados


#### Vamos começar tratando a coluna de tempo. A unidade de medida padrão será meses. Isso vai nos possibilitar lidar com esses dados de forma mais organizada.

In [6]:
unidade_tempo_para_meses = {
    "1 semana": 0.25,
    "2 semanas": 0.5,
    "3 semanas": 0.75,
    "4 semanas": 1,
    "1 mês": 1,
    "2 meses": 2,
    "3 meses": 3,
    "4 meses": 4,
    "5 meses": 5,
    "6 meses": 6,
    "7 meses": 7,
    "8 meses": 8,
    "9 meses": 9,
    "10 meses": 10,
    "11 meses": 11,
    "1 ano": 12,
}


In [7]:
dados["tempo_na_plataforma_em_meses"] = dados["tempo_na_plataforma"].map(unidade_tempo_para_meses)

In [8]:
import re
dados["tempo_na_plataforma_meses_sem_zeros"] = dados["tempo_na_plataforma_em_meses"].apply(lambda x: re.sub(r"\.[0]*$", "", str(x)))

In [9]:
dados.drop("tempo_na_plataforma", axis=1, inplace=True)

In [10]:
dados.drop("tempo_na_plataforma_em_meses", axis=1, inplace=True)

In [11]:
dados["tempo_na_plataforma_meses_sem_zeros"] = pd.to_numeric(dados["tempo_na_plataforma_meses_sem_zeros"], errors='coerce')

Temos uma nova coluna com a conversão realizada.

In [12]:
dados.head()

Unnamed: 0_level_0,conteúdo,data de criação,usuario,curso,área,tempo_na_plataforma_meses_sem_zeros
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Gostei muito do curso! 😄,2024-05-15,aluno1,Introdução ao Python,Programação,3.0
2,Este curso é uma perda de tempo! 😡,2024-05-16,aluno2,Redes de Computadores,Infraestrutura,1.0
3,Adorei!!! https://cursoexcelente.com,2024-05-17,aluno3,Data Science,Dados,6.0
4,NAO RECOMENDO!!!!!! PESSIMO CURSO,2024-05-18,aluno4,Docker para Iniciantes,DevOps,2.0
5,aBCDefGHijklMNop,2024-05-19,aluno5,Kubernetes Avançado,DevOps,4.0


#### Agora, vamos alterar a coluna "usuário" para retirar a palavra "aluno" e manter apenas o número do ID

In [13]:
# Extrair o número de cada valor da coluna "aluno" usando uma expressão regular
dados["id_usuario"] = dados["usuario"].str.extract("(\d+)")


In [14]:
# Converter a coluna "id_usuario" para tipo inteiro
dados["id_usuario"] = pd.to_numeric(dados["id_usuario"], errors='coerce')

In [15]:
#remover a coluna inicial "usuario"
dados.drop("usuario", axis=1, inplace=True)

In [16]:
#verificando
dados.head()

Unnamed: 0_level_0,conteúdo,data de criação,curso,área,tempo_na_plataforma_meses_sem_zeros,id_usuario
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Gostei muito do curso! 😄,2024-05-15,Introdução ao Python,Programação,3.0,1
2,Este curso é uma perda de tempo! 😡,2024-05-16,Redes de Computadores,Infraestrutura,1.0,2
3,Adorei!!! https://cursoexcelente.com,2024-05-17,Data Science,Dados,6.0,3
4,NAO RECOMENDO!!!!!! PESSIMO CURSO,2024-05-18,Docker para Iniciantes,DevOps,2.0,4
5,aBCDefGHijklMNop,2024-05-19,Kubernetes Avançado,DevOps,4.0,5


In [17]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 60 entries, 1 to 60
Data columns (total 6 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   conteúdo                             60 non-null     object 
 1   data de criação                      60 non-null     object 
 2   curso                                60 non-null     object 
 3   área                                 60 non-null     object 
 4   tempo_na_plataforma_meses_sem_zeros  59 non-null     float64
 5   id_usuario                           60 non-null     int64  
dtypes: float64(1), int64(1), object(4)
memory usage: 3.3+ KB


#### Alterando o formato das datas da coluna 'data de criação' para D-M-Y

In [18]:
dados['data de criação'] = dados['data de criação'].astype(object)
dados['data de criação'] = pd.to_datetime(dados['data de criação'], format='%Y-%m-%d').dt.strftime('%d-%m-%Y')
dados.head()

Unnamed: 0_level_0,conteúdo,data de criação,curso,área,tempo_na_plataforma_meses_sem_zeros,id_usuario
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Gostei muito do curso! 😄,15-05-2024,Introdução ao Python,Programação,3.0,1
2,Este curso é uma perda de tempo! 😡,16-05-2024,Redes de Computadores,Infraestrutura,1.0,2
3,Adorei!!! https://cursoexcelente.com,17-05-2024,Data Science,Dados,6.0,3
4,NAO RECOMENDO!!!!!! PESSIMO CURSO,18-05-2024,Docker para Iniciantes,DevOps,2.0,4
5,aBCDefGHijklMNop,19-05-2024,Kubernetes Avançado,DevOps,4.0,5


Alterando o nome da coluna data de criação para data_de_criação

In [19]:
dados.rename(columns={'data de criação': 'data_de_criacao'}, inplace=True)
dados.head()

Unnamed: 0_level_0,conteúdo,data_de_criacao,curso,área,tempo_na_plataforma_meses_sem_zeros,id_usuario
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Gostei muito do curso! 😄,15-05-2024,Introdução ao Python,Programação,3.0,1
2,Este curso é uma perda de tempo! 😡,16-05-2024,Redes de Computadores,Infraestrutura,1.0,2
3,Adorei!!! https://cursoexcelente.com,17-05-2024,Data Science,Dados,6.0,3
4,NAO RECOMENDO!!!!!! PESSIMO CURSO,18-05-2024,Docker para Iniciantes,DevOps,2.0,4
5,aBCDefGHijklMNop,19-05-2024,Kubernetes Avançado,DevOps,4.0,5


Renomeado a coluna tempo_na_plataforma_meses_sem_zeros para ficar menos verbosa

In [20]:
dados.rename(columns={'tempo_na_plataforma_meses_sem_zeros': 'meses_plataforma'}, inplace=True)
dados.head()

Unnamed: 0_level_0,conteúdo,data_de_criacao,curso,área,meses_plataforma,id_usuario
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Gostei muito do curso! 😄,15-05-2024,Introdução ao Python,Programação,3.0,1
2,Este curso é uma perda de tempo! 😡,16-05-2024,Redes de Computadores,Infraestrutura,1.0,2
3,Adorei!!! https://cursoexcelente.com,17-05-2024,Data Science,Dados,6.0,3
4,NAO RECOMENDO!!!!!! PESSIMO CURSO,18-05-2024,Docker para Iniciantes,DevOps,2.0,4
5,aBCDefGHijklMNop,19-05-2024,Kubernetes Avançado,DevOps,4.0,5


## Limpeza do texto

In [21]:
def clean_text(text):
    """Limpa o texto removendo links, pontuação, convertendo para minúsculo."""
    # Extrai apenas o nome do site a partir de URLs que seguem o padrão especificado
    text = re.sub(r'https?://(?:www\.)?([\w\-]+)\.com', r'\1', text)

    # Remove pontuação
    text = re.sub(r'[^\w\s]', '', text)

    # Converte para minúsculo
    text = text.lower()

    return text

In [22]:
dados['conteúdo'] = dados['conteúdo'].apply(clean_text)
dados.head()

Unnamed: 0_level_0,conteúdo,data_de_criacao,curso,área,meses_plataforma,id_usuario
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,gostei muito do curso,15-05-2024,Introdução ao Python,Programação,3.0,1
2,este curso é uma perda de tempo,16-05-2024,Redes de Computadores,Infraestrutura,1.0,2
3,adorei cursoexcelente,17-05-2024,Data Science,Dados,6.0,3
4,nao recomendo pessimo curso,18-05-2024,Docker para Iniciantes,DevOps,2.0,4
5,abcdefghijklmnop,19-05-2024,Kubernetes Avançado,DevOps,4.0,5


In [23]:
def remove_spam(df):
    # Definir uma expressão regular para detectar spam como letras aleatórias
    # e textos que começam com "lorem ipsum"
    spam_pattern = re.compile(r'(^[a-zA-Z]{10,}$|^lorem ipsum)')

    # Filtrar linhas que não correspondem ao padrão de spam
    df_cleaned = df[~df['conteúdo'].str.contains(spam_pattern, na=False)]

    return df_cleaned

dados_limpos = remove_spam(dados)
dados_limpos.head()

  df_cleaned = df[~df['conteúdo'].str.contains(spam_pattern, na=False)]


Unnamed: 0_level_0,conteúdo,data_de_criacao,curso,área,meses_plataforma,id_usuario
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,gostei muito do curso,15-05-2024,Introdução ao Python,Programação,3.0,1
2,este curso é uma perda de tempo,16-05-2024,Redes de Computadores,Infraestrutura,1.0,2
3,adorei cursoexcelente,17-05-2024,Data Science,Dados,6.0,3
4,nao recomendo pessimo curso,18-05-2024,Docker para Iniciantes,DevOps,2.0,4
6,o conteudo é bom mas o professor fala mto rápido,20-05-2024,Introdução ao SQL,Dados,12.0,6


## Análise de sentimento

In [24]:
from transformers import pipeline

In [25]:
# Inicializando o pipeline de análise de sentimentos com o modelo BERT multilíngue
sentiment_pipeline = pipeline('sentiment-analysis', model='nlptown/bert-base-multilingual-uncased-sentiment')

# Função para calcular o sentimento
def pegar_sentimento(texto):
    result = sentiment_pipeline(texto)
    return result[0]['label']

# Aplicando a função ao DataFrame
dados_analise_sentimento = dados_limpos.copy()
dados_analise_sentimento['classificacao'] = dados_analise_sentimento['conteúdo'].apply(lambda x: pd.Series(pegar_sentimento(x)))

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/669M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/872k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [26]:
dados_analise_sentimento.head()

Unnamed: 0_level_0,conteúdo,data_de_criacao,curso,área,meses_plataforma,id_usuario,classificacao
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,gostei muito do curso,15-05-2024,Introdução ao Python,Programação,3.0,1,5 stars
2,este curso é uma perda de tempo,16-05-2024,Redes de Computadores,Infraestrutura,1.0,2,1 star
3,adorei cursoexcelente,17-05-2024,Data Science,Dados,6.0,3,5 stars
4,nao recomendo pessimo curso,18-05-2024,Docker para Iniciantes,DevOps,2.0,4,1 star
6,o conteudo é bom mas o professor fala mto rápido,20-05-2024,Introdução ao SQL,Dados,12.0,6,3 stars


In [27]:
dados_analise_sentimento.reset_index(drop=True, inplace=True)

In [28]:
dados_analise_sentimento.head()

Unnamed: 0,conteúdo,data_de_criacao,curso,área,meses_plataforma,id_usuario,classificacao
0,gostei muito do curso,15-05-2024,Introdução ao Python,Programação,3.0,1,5 stars
1,este curso é uma perda de tempo,16-05-2024,Redes de Computadores,Infraestrutura,1.0,2,1 star
2,adorei cursoexcelente,17-05-2024,Data Science,Dados,6.0,3,5 stars
3,nao recomendo pessimo curso,18-05-2024,Docker para Iniciantes,DevOps,2.0,4,1 star
4,o conteudo é bom mas o professor fala mto rápido,20-05-2024,Introdução ao SQL,Dados,12.0,6,3 stars
