### Install

In [5]:
! pip install -qq datasets==2.16.1 tiktoken langchain langchain_openai==0.0.7 requests==2.28.2 transformers==4.41.2 tqdm

### Imports

In [4]:
import json
import os
import getpass
import tiktoken
import pandas as pd
from datasets import Dataset, load_dataset
from tqdm import tqdm
from langchain.chains import LLMChain
from langchain_core.prompts import PromptTemplate
from langchain_openai import OpenAI
from langchain_core.pydantic_v1 import BaseModel, Field
from langchain_core.output_parsers import JsonOutputParser

### Load dataset

In [2]:
dataset = load_dataset("wikimedia/wikipedia", "20231101.en")

Resolving data files:   0%|          | 0/41 [00:00<?, ?it/s]

### Selecting subset

In [6]:
len(dataset["train"])

6407814

In [68]:
NUM_SAMPLES = 10000
articles = dataset["train"][:NUM_SAMPLES]["text"]
articles = [x.split("\n")[0] for x in articles]

### Initialize OpenAI Environment

In [8]:
os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter your OpenAI API key: ")

Enter your OpenAI API key: ········


In [9]:
llm = OpenAI()

### Set the output parser

In [12]:
class Classification(BaseModel):
    category: str = Field(description="Category of the article", default="Others")
parser = JsonOutputParser(pydantic_object=Classification)

### Create classification prompt

In [13]:
template = """Your task is to assess the article and categorize the article into one of the following predfined categories:
'History', 'Geography', 'Science', 'Technology', 'Mathematics', 'Literature', 'Art', 'Music', 'Film', 'Television', 'Sports', 'Politics', 'Philosophy', 'Religion', 'Sociology', 'Psychology', 'Economics', 'Business', 'Medicine', 'Biology', 'Chemistry', 'Physics', 'Astronomy', 'Environmental Science', 'Engineering', 'Computer Science', 'Linguistics', 'Anthropology', 'Archaeology', 'Education', 'Law', 'Military', 'Architecture', 'Fashion', 'Cuisine', 'Travel', 'Mythology', 'Folklore', 'Biography', 'Mythology', 'Social Issues', 'Human Rights', 'Technology Ethics', 'Climate Change', 'Conservation', 'Urban Studies', 'Demographics', 'Journalism', 'Cryptocurrency', 'Artificial Intelligence'
you will output a json object containing the following information:

{{
    "category": string // category name based on the article,
}}

Keep category names simple and use only lower case letters.
Articles can have only one category.
Article: {article}
    """

print(template)

Your task is to assess the article and categorize the article into one of the following predfined categories:
'History', 'Geography', 'Science', 'Technology', 'Mathematics', 'Literature', 'Art', 'Music', 'Film', 'Television', 'Sports', 'Politics', 'Philosophy', 'Religion', 'Sociology', 'Psychology', 'Economics', 'Business', 'Medicine', 'Biology', 'Chemistry', 'Physics', 'Astronomy', 'Environmental Science', 'Engineering', 'Computer Science', 'Linguistics', 'Anthropology', 'Archaeology', 'Education', 'Law', 'Military', 'Architecture', 'Fashion', 'Cuisine', 'Travel', 'Mythology', 'Folklore', 'Biography', 'Mythology', 'Social Issues', 'Human Rights', 'Technology Ethics', 'Climate Change', 'Conservation', 'Urban Studies', 'Demographics', 'Journalism', 'Cryptocurrency', 'Artificial Intelligence'
you will output a json object containing the following information:

{{
    "category": string // category name based on the article,
}}

Keep category names simple and use only lower case letters.


In [15]:
prompt = PromptTemplate(
    template=template,
    input_variables=["article"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

### Build llm chain

In [16]:
chain = prompt | llm | parser

### Cost estimation

In [69]:
encoding = tiktoken.encoding_for_model("gpt-3.5-turbo")
system_prompt_token_count = len(encoding.encode(template))
system_prompt_token_count

266

In [70]:
system_prompt_token_count *= len(articles)
system_prompt_token_count

2660000

In [71]:
user_prompt_token_count = 0
for article in articles:
    user_prompt_token_count += len(encoding.encode(article))
user_prompt_token_count

739532

In [72]:
total_tokens = system_prompt_token_count + user_prompt_token_count
total_tokens

3399532

In [73]:
GPT4o_COST = 5
GPT4_COST = 10
GPT3_5_COST = 1.5

print("GPT4o Cost: ", (total_tokens * GPT4o_COST ) / 1000000)
print("GPT4 Cost: ", (total_tokens * GPT4_COST ) / 1000000)
print("GPT3.5 Cost: ", (total_tokens * GPT3_5_COST ) / 1000000)

GPT4o Cost:  16.99766
GPT4 Cost:  33.99532
GPT3.5 Cost:  5.099298


### Run inference

In [23]:
results = []
for article in tqdm(articles):
    try:
        result = chain.invoke({"article": article})
        print(result)
        if "Category" in result:
            results.append(result["Category"])
        elif "category" in result:
            results.append(result["category"])
        else:
            results.append("")
    except Exception as e:
        print("Exception Occured", e)
        results.append("")

  1%|█▋                                                                                                                                                                           | 1/100 [00:00<01:23,  1.19it/s]

{'category': 'politics'}



  2%|███▍                                                                                                                                                                         | 2/100 [00:01<01:07,  1.46it/s]

{'category': 'physics'}



  3%|█████▏                                                                                                                                                                       | 3/100 [00:02<01:03,  1.53it/s]

{'category': 'Linguistics'}



  4%|██████▉                                                                                                                                                                      | 4/100 [00:02<01:01,  1.56it/s]

{'category': 'geography'}



  5%|████████▋                                                                                                                                                                    | 5/100 [00:03<00:58,  1.61it/s]

{'category': 'mythology'}



  6%|██████████▍                                                                                                                                                                  | 6/100 [00:03<00:57,  1.65it/s]

{'category': 'history'}



  7%|████████████                                                                                                                                                                 | 7/100 [00:05<01:14,  1.25it/s]

{'category': 'philosophy'}



  8%|█████████████▊                                                                                                                                                               | 8/100 [00:05<01:11,  1.29it/s]

{'category': 'music'}



  9%|███████████████▌                                                                                                                                                             | 9/100 [00:06<01:04,  1.40it/s]

{'category': 'Film'}



 10%|█████████████████▏                                                                                                                                                          | 10/100 [00:06<00:59,  1.52it/s]

{'category': 'film'}



 11%|██████████████████▉                                                                                                                                                         | 11/100 [00:07<00:55,  1.60it/s]

{'category': 'Film'}



 12%|████████████████████▋                                                                                                                                                       | 12/100 [00:08<00:56,  1.55it/s]

{'category': 'Literature'}



 13%|██████████████████████▎                                                                                                                                                     | 13/100 [00:08<00:54,  1.59it/s]

{'category': 'Physics'}



 14%|████████████████████████                                                                                                                                                    | 14/100 [00:09<00:51,  1.65it/s]

{'category': 'philosophy'}



 15%|█████████████████████████▊                                                                                                                                                  | 15/100 [00:09<00:50,  1.69it/s]

{'category': 'philosophy'}



 16%|███████████████████████████▌                                                                                                                                                | 16/100 [00:10<00:48,  1.72it/s]

{'category': 'mathematics'}



 17%|█████████████████████████████▏                                                                                                                                              | 17/100 [00:10<00:47,  1.75it/s]

{'category': 'film'}



 18%|██████████████████████████████▉                                                                                                                                             | 18/100 [00:11<00:46,  1.76it/s]

{'category': 'Geography'}



 19%|████████████████████████████████▋                                                                                                                                           | 19/100 [00:12<01:01,  1.32it/s]

{'category': 'literature'}



 20%|██████████████████████████████████▍                                                                                                                                         | 20/100 [00:13<01:10,  1.13it/s]

{'category': 'anthropology'}



 21%|████████████████████████████████████                                                                                                                                        | 21/100 [00:14<01:10,  1.11it/s]

{'category': 'science'}



 22%|█████████████████████████████████████▊                                                                                                                                      | 22/100 [00:15<01:11,  1.09it/s]

{'category': 'science'}



 23%|███████████████████████████████████████▌                                                                                                                                    | 23/100 [00:16<00:59,  1.30it/s]

Exception Occured Invalid json output: 



 24%|█████████████████████████████████████████▎                                                                                                                                  | 24/100 [00:16<00:54,  1.39it/s]

{'category': 'astronomy'}



 25%|███████████████████████████████████████████                                                                                                                                 | 25/100 [00:17<00:50,  1.47it/s]

{'category': 'computer science'}



 26%|████████████████████████████████████████████▋                                                                                                                               | 26/100 [00:17<00:47,  1.56it/s]

{'category': 'geography'}



 27%|██████████████████████████████████████████████▍                                                                                                                             | 27/100 [00:18<00:44,  1.65it/s]

{'category': 'film'}



 28%|████████████████████████████████████████████████▏                                                                                                                           | 28/100 [00:19<00:58,  1.23it/s]

{'category': 'mythology'}



 29%|█████████████████████████████████████████████████▉                                                                                                                          | 29/100 [00:20<01:00,  1.17it/s]

{'category': 'sports'}



 30%|███████████████████████████████████████████████████▌                                                                                                                        | 30/100 [00:21<00:53,  1.30it/s]

{'category': 'Linguistics'}



 31%|█████████████████████████████████████████████████████▎                                                                                                                      | 31/100 [00:21<00:49,  1.39it/s]

{'category': 'Linguistics'}



 32%|███████████████████████████████████████████████████████                                                                                                                     | 32/100 [00:22<00:46,  1.48it/s]

{'category': 'geography'}



 33%|████████████████████████████████████████████████████████▊                                                                                                                   | 33/100 [00:22<00:42,  1.57it/s]

{'category': 'mathematics'}



 34%|██████████████████████████████████████████████████████████▍                                                                                                                 | 34/100 [00:23<00:39,  1.65it/s]

{'category': 'Sports'}



 35%|████████████████████████████████████████████████████████████▏                                                                                                               | 35/100 [00:24<00:38,  1.68it/s]

{'category': 'literature'}



 36%|█████████████████████████████████████████████████████████████▉                                                                                                              | 36/100 [00:24<00:36,  1.75it/s]

Exception Occured Invalid json output: category: biology



 37%|███████████████████████████████████████████████████████████████▋                                                                                                            | 37/100 [00:25<00:45,  1.40it/s]

{'category': 'geography'}



 38%|█████████████████████████████████████████████████████████████████▎                                                                                                          | 38/100 [00:26<00:41,  1.50it/s]

{'category': 'agriculture'}



 39%|███████████████████████████████████████████████████████████████████                                                                                                         | 39/100 [00:26<00:38,  1.58it/s]

{'category': 'literature'}



 40%|████████████████████████████████████████████████████████████████████▊                                                                                                       | 40/100 [00:27<00:43,  1.38it/s]

{'category': 'Biography'}



 41%|██████████████████████████████████████████████████████████████████████▌                                                                                                     | 41/100 [00:28<00:39,  1.49it/s]

{'category': 'geography'}



 42%|████████████████████████████████████████████████████████████████████████▏                                                                                                   | 42/100 [00:28<00:38,  1.49it/s]

{'category': 'Biology'}



 43%|█████████████████████████████████████████████████████████████████████████▉                                                                                                  | 43/100 [00:29<00:37,  1.53it/s]

{'category': 'mathematics'}



 44%|███████████████████████████████████████████████████████████████████████████▋                                                                                                | 44/100 [00:30<00:35,  1.59it/s]

{'category': 'Chemistry'}



 45%|█████████████████████████████████████████████████████████████████████████████▍                                                                                              | 45/100 [00:30<00:33,  1.65it/s]

{'category': 'law'}



 46%|███████████████████████████████████████████████████████████████████████████████                                                                                             | 46/100 [00:31<00:31,  1.69it/s]

{'category': 'law'}



 47%|████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 47/100 [00:31<00:30,  1.74it/s]

{'category': 'Law'}



 48%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 48/100 [00:32<00:28,  1.80it/s]

{'category': 'Law'}



 49%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 49/100 [00:32<00:27,  1.83it/s]

{'category': 'music'}



 50%|██████████████████████████████████████████████████████████████████████████████████████                                                                                      | 50/100 [00:33<00:27,  1.80it/s]

{'category': 'Assistive Technology'}



 51%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 51/100 [00:34<00:37,  1.32it/s]

{'category': 'mathematics'}



 52%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 52/100 [00:35<00:33,  1.45it/s]

{'category': 'chemistry'}



 53%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 53/100 [00:35<00:30,  1.54it/s]

{'category': 'Chemistry'}



 54%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 54/100 [00:36<00:37,  1.21it/s]

{'category': 'technology'}



 55%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 55/100 [00:37<00:33,  1.34it/s]

{'category': 'philosophy'}



 56%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 56/100 [00:38<00:31,  1.40it/s]

{'category': 'Astronomy'}



 57%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 57/100 [00:38<00:28,  1.51it/s]

{'category': 'space exploration'}



 58%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 58/100 [00:39<00:26,  1.59it/s]

{'category': 'astronomy'}



 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 59/100 [00:39<00:25,  1.61it/s]

{'category': 'literature'}



 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 60/100 [00:40<00:28,  1.38it/s]

{'category': 'chemistry'}



 61%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                   | 61/100 [00:41<00:25,  1.53it/s]

Exception Occured Invalid json output: Category: Linguistics



 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 62/100 [00:41<00:23,  1.59it/s]

{'category': 'chemistry'}



 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 63/100 [00:42<00:22,  1.62it/s]

{'category': 'Biology'}



 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 64/100 [00:42<00:21,  1.65it/s]

{'category': 'Philosophy'}



 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 65/100 [00:43<00:20,  1.72it/s]

{'category': 'film'}



 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 66/100 [00:44<00:19,  1.75it/s]

{'category': 'linguistics'}



 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 67/100 [00:44<00:18,  1.75it/s]

{'category': 'religion'}



 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 68/100 [00:45<00:18,  1.75it/s]

{'category': 'biology'}



 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 69/100 [00:46<00:21,  1.45it/s]

{'category': 'biology'}



 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 70/100 [00:47<00:23,  1.30it/s]

{'category': 'biology'}



 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 71/100 [00:47<00:20,  1.44it/s]

{'category': 'architecture'}



 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 72/100 [00:48<00:18,  1.54it/s]

{'category': 'Sports'}



 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 73/100 [00:48<00:16,  1.60it/s]

{'category': 'geography'}



 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 74/100 [00:49<00:15,  1.66it/s]

{'category': 'Geography'}



 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 75/100 [00:49<00:14,  1.71it/s]

{'category': 'History'}



 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 76/100 [00:50<00:13,  1.74it/s]

{'category': 'geography'}



 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 77/100 [00:50<00:12,  1.79it/s]

{'category': 'Geography'}



 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 78/100 [00:51<00:12,  1.76it/s]

{'category': 'philosophy'}



 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 79/100 [00:52<00:11,  1.79it/s]

{'category': 'Geography'}



 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 80/100 [00:52<00:11,  1.78it/s]

{'category': 'demographics'}



 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 81/100 [00:53<00:10,  1.78it/s]

{'category': 'Politics'}



 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 82/100 [00:54<00:12,  1.45it/s]

{'category': 'Economics'}



 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 83/100 [00:54<00:11,  1.48it/s]

{'category': 'technology'}



 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 84/100 [00:55<00:10,  1.57it/s]

{'category': 'military'}



 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 85/100 [00:55<00:09,  1.64it/s]

{'category': 'Politics'}



 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 86/100 [00:56<00:08,  1.67it/s]

{'category': 'Military'}



 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 87/100 [00:57<00:07,  1.71it/s]

{'category': 'technology'}



 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 88/100 [00:57<00:06,  1.72it/s]

{'category': 'geography'}



 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 89/100 [00:58<00:06,  1.74it/s]

{'category': 'Politics'}



 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 90/100 [00:58<00:05,  1.74it/s]

{'category': 'Biology'}



 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 91/100 [00:59<00:05,  1.78it/s]

category
Exception Occured string indices must be integers, not 'str'



 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 92/100 [00:59<00:04,  1.86it/s]

Exception Occured Invalid json output: Geography



 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 93/100 [01:00<00:03,  1.82it/s]

category
Exception Occured string indices must be integers, not 'str'



 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 94/100 [01:00<00:03,  1.78it/s]

{'category': 'religion'}



 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 95/100 [01:01<00:02,  1.75it/s]

{'category': 'mathematics'}



 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 96/100 [01:02<00:02,  1.74it/s]

{'category': 'geography'}



 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 97/100 [01:02<00:01,  1.75it/s]

{'category': 'astronomy'}



 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 98/100 [01:03<00:01,  1.30it/s]

{'category': 'Sports'}



 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 99/100 [01:04<00:00,  1.42it/s]

{'category': 'art'}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [01:04<00:00,  1.54it/s]

{'category': 'Biology'}





### Write output as huggingface dataset

In [25]:
ids = dataset["train"][:len(results)]["id"]

In [30]:
df = pd.DataFrame({"id": ids, "category": results})
df = df[df["category"] != '']
df.to_csv("wiki-category-5k.csv", index=False)

Unnamed: 0,id,category
0,12,politics
1,39,physics
2,290,Linguistics
3,303,geography
4,305,mythology
...,...,...
95,746,geography
96,748,astronomy
97,751,Sports
98,752,art


In [44]:
category_dataset = Dataset.from_csv("wiki-category-5k.csv")

In [None]:
category_dataset.push_to_hub("<HF-USERNAME>/<DATASET-NAME>", private=True)