## [**ChatGPT Classification - Kaggle**](https://www.kaggle.com/datasets/mahdimaktabdar/chatgpt-classification-dataset)

### Contexto e Conjunto de Dados

O conjunto de dados foi compilado com artigos textuais que contêm terminologia, conceitos e definições nas áreas de ciência da computação, inteligência artificial e cibersegurança. <br>
Ele inclui textos **gerados por humanos** e pelo **ChatGPT da OpenAI**.<br>
Os textos humanos foram extraídos de dicionários e enciclopédias, como The Encyclopedia of Computer Science and Technology e Encyclopedia of Human-Computer Interaction. Já os textos gerados por IA foram obtidos a partir de respostas do ChatGPT. <br>

Para fins de classificação binária, as 7344 sentenças foram divididas da seguinte forma:

- **4008 sentenças de IA, identificados na coluna `class` igual a 0**
- **3336 setenças de humanos, identificados na coluna `class` igual a 1**
- **Biologia**

<br> 


### ATENÇÃO: <br> $\quad$* Como você está em um grupo com no MÁXIMO DOIS alunos, este Jupyter irá fornecer um arquivo contendo uma amostra de sentenças de acordo com seu username.  <br>  $\quad$* Basta um arquivo por grupo.

<br>

### Referência Bibliográfica
Maktab Dar Oghaz, M., Dhame, K., Singaram, G., & Babu Saheer, L. (2023). Detection and Classification of ChatGPT Generated Contents Using Deep Transformer Models. IEEEAccess.
https://www.techrxiv.org/articles/preprint/Detection_and_Classification_of_ChatGPT_Generated_Contents_Using_Deep_Transformer_Models/23895951

In [2]:
import pandas as pd
import random
import os
from sklearn.model_selection import train_test_split

In [4]:
# Transforma string em inteiro
def nome_para_inteiro(nome):
    nome = nome.upper()  # Converter para maiúsculas para tratar maiúsculas e minúsculas da mesma forma
    valor_inteiro = 0
    
    for letra in nome:
        # Verificar se a letra está no alfabeto (A a Z)
        if 'A' <= letra <= 'Z':
            valor_inteiro += ord(letra) - ord('A') + 1  # Valor de 'A' é 1, 'B' é 2, ..., 'Z' é 26
    
    return valor_inteiro

In [5]:
os.listdir()

['.ipynb_checkpoints',
 'Cria base de dados Treino e Teste - DUPLA.ipynb',
 'sentence_level_data.csv']

In [6]:
# Ler o arquivo de dados 
dados = pd.read_csv('sentence_level_data.csv', encoding='utf-8-sig').iloc[:,1:]

#Human-generated = 0 and AI-generated = 1
dados.loc[dados['class']==0,'target'] = 'HG'
dados.loc[dados['class']==1,'target'] = 'AI'
dados.drop(columns=['class'], inplace=True)

# Visualização dos dados
dados.head()

Unnamed: 0,sentence,target
0,NLP is a multidisciplinary field that draws fr...,HG
1,"In terms of linguistics, a program must be abl...",HG
2,Of course each language has its own forms of a...,HG
3,Programs can use several strategies for dealin...,HG
4,As formidable as the task of extracting the co...,HG


In [7]:
print("\n",
      "Frequências de cada rótulo nos DADOS COMPLETO: \n",
      dados.target.value_counts())


 Frequências de cada rótulo nos DADOS COMPLETO: 
 target
AI    4008
HG    3336
Name: count, dtype: int64


--------
### ATENÇÃO: <p> Aqui você deverá colocar seu username para construção da sua base de dados a ser usada no Projeto 1

In [9]:
nome = input("Digite seu username do Insper: ")
valor_inteiro = nome_para_inteiro(nome)

Digite seu username do Insper:  joaovca3


In [10]:
# Separar as classes
dados_hg = dados[dados['target'] == 'HG'].sample(n=1200, random_state=valor_inteiro)  # 1200 amostras de HG
dados_ai = dados[dados['target'] == 'AI'].sample(n=1200, random_state=valor_inteiro)  # 1200 amostras de AI

# Combinar as amostras e embaralhar
dados_amostrados = pd.concat([dados_hg, dados_ai]).sample(frac=1, random_state=valor_inteiro).reset_index(drop=True)  # Embaralhar

# Exibir as primeiras linhas
dados_amostrados.head()

Unnamed: 0,sentence,target
0,It is the use and management of cryptographic ...,HG
1,"ASCII defines a set of 128 characters, includi...",AI
2,Load balancing can help ensure that a system r...,AI
3,The 32-bit color system provides the same numb...,HG
4,", A bulletin board where users can share solut...",HG


In [16]:
# Separar os dados de treino e teste 
X = dados_amostrados.sentence
y = dados_amostrados.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=valor_inteiro)

dados_treino = pd.concat([X_train, y_train],axis=1)
dados_treino.columns = ['sentence', 'target']
dados_teste = pd.concat([X_test, y_test],axis=1)
dados_teste.columns = ['sentence', 'target']
   

In [17]:
print("\n",
      "Frequências de cada rótulo nos DADOS TREINAMENTO: \n",
      dados_treino.target.value_counts(sort=False), "\n\nsort=False",
      "Frequências de cada rótulo nos DADOS TESTE: \n",
      dados_teste.target.value_counts(sort=False))


 Frequências de cada rótulo nos DADOS TREINAMENTO: 
 target
HG    837
AI    843
Name: count, dtype: int64 

sort=False Frequências de cada rótulo nos DADOS TESTE: 
 target
HG    363
AI    357
Name: count, dtype: int64


In [18]:
# Salvar os dados de treino e teste em arquivos CSV
nome_arquivo_treino = 'dados_treino_so_DUPLA_'+nome+'.csv'
nome_arquivo_teste = 'dados_teste_so_DUPLA_'+nome+'.csv'

dados_treino.to_csv(nome_arquivo_treino,index = False, header=True)
dados_teste.to_csv(nome_arquivo_teste, index=False)#, engine='xlsxwriter')

print(f"Dados de treino e teste foram salvos em '{nome_arquivo_treino}' e '{nome_arquivo_teste}'.")

Dados de treino e teste foram salvos em 'dados_treino_so_DUPLA_joaovca3.csv' e 'dados_teste_so_DUPLA_joaovca3.csv'.


In [19]:
# COMANDO QUE DEVE COLOCAR NO TEMPLATE Projeto1_Template.ipynb para LER a base de dados TREINO
# Faça adaptações digitando o nome (username) considerado
pd.read_csv('dados_treino_so_DUPLA_'+nome+'.csv')

Unnamed: 0,sentence,target
0,(This is an ad hoc connection that differs fro...,HG
1,Online advertising allows businesses to reach ...,AI
2,Here are some of the common security and priva...,AI
3,(In many ways Forth anticipated the principles...,HG
4,is a method used for dynamic web sites/pages t...,HG
...,...,...
1675,This step involves using ontology editors or m...,AI
1676,1.,HG
1677,The open-source software movement also played ...,AI
1678,"For example, if a coin is flipped, the probabi...",AI


In [20]:
# COMANDO QUE DEVE COLOCAR NO TEMPLATE Projeto1_Template.ipynb para LER a base de dados TESTE
# Faça adaptações digitando o nome (username) considerado
pd.read_csv('dados_teste_so_DUPLA_'+nome+'.csv')

Unnamed: 0,sentence,target
0,Today Java applets rep-resent the most widespr...,HG
1,The authentication can occur between client an...,HG
2,These early systems were limited in their accu...,AI
3,BAT extension.,HG
4,Advertisers can track and measure the performa...,AI
...,...,...
715,The disc is coated with a thin layer of alumin...,AI
716,"When the IDS detects a signature match, it gen...",AI
717,The Forth system con-sists of a collecti...,HG
718,This can be useful for understanding how a pro...,AI
