In [1]:
# Import necessary libraries
import pandas as pd
from googletrans import Translator

In [2]:
# Step 1: Load the CSV file into a pandas DataFrame
df = pd.read_csv('Thirukural_EnglishMeaning.csv')

# Check the first few rows to ensure it's loaded properly
df.head()

Unnamed: 0,ChapterName,Kural,EnglishMeaning
0,கடவுள் வாழ்த்து,அகர முதல எழுத்தெல்லாம் ஆதி பகவன் முதற்றே உலகு,A is the first of the alphabet; God is the pri...
1,கடவுள் வாழ்த்து,கற்றதனால் ஆய பயனென்கொல் வாலறிவன் நற்றாள் தொழாஅ...,"What is the use of all your learning, if you c..."
2,கடவுள் வாழ்த்து,மலர்மிசை ஏகினான் மாணடி சேர்ந்தார் நிலமிசை நீடு...,Those who surrender themselves at feet of the ...
3,கடவுள் வாழ்த்து,வேண்டுதல் வேண்டாமை இலானடி சேர்ந்தார்க்கு யாண்ட...,"Those who surrender at the feet of the one, wh..."
4,கடவுள் வாழ்த்து,இருள்சேர் இருவினையும் சேரா இறைவன் பொருள்சேர் ப...,"Fate, which impacts those in the darkness of i..."


In [6]:
# Step 1.1: Rename the columns
df.rename(columns={
    'Kural': 'Tamil_Kural',  # Rename 'Kural' to 'Tamil_Kural'
    'EnglishMeaning': 'English_Meaning',  # Rename 'EnglishMeaning' to 'English_Meaning'
    'ChapterName': 'Tamil_Category'  # Rename 'ChapterName' to 'Tamil_Category'
}, inplace=True)

# Check the first few rows to ensure it's loaded properly
df.head()

Unnamed: 0,Tamil_Category,Tamil_Kural,English_Meaning
0,கடவுள் வாழ்த்து,அகர முதல எழுத்தெல்லாம் ஆதி பகவன் முதற்றே உலகு,A is the first of the alphabet; God is the pri...
1,கடவுள் வாழ்த்து,கற்றதனால் ஆய பயனென்கொல் வாலறிவன் நற்றாள் தொழாஅ...,"What is the use of all your learning, if you c..."
2,கடவுள் வாழ்த்து,மலர்மிசை ஏகினான் மாணடி சேர்ந்தார் நிலமிசை நீடு...,Those who surrender themselves at feet of the ...
3,கடவுள் வாழ்த்து,வேண்டுதல் வேண்டாமை இலானடி சேர்ந்தார்க்கு யாண்ட...,"Those who surrender at the feet of the one, wh..."
4,கடவுள் வாழ்த்து,இருள்சேர் இருவினையும் சேரா இறைவன் பொருள்சேர் ப...,"Fate, which impacts those in the darkness of i..."


In [3]:
# Step 2: Initialize the Google Translator
translator = Translator()


In [4]:
# Step 3: Define a function to translate Tamil text to English
def translate_text(text):
    try:
        # Translate text from Tamil to English
        translation = translator.translate(text, src='ta', dest='en')
        return translation.text
    except Exception as e:
        return str(e)  # Return the error if any

In [7]:
# Step 4: Apply the translation function to the 'Tamil_Category' column
df['English_Category'] = df['Tamil_Category'].apply(translate_text)

In [8]:
# Step 5: View the updated DataFrame
df.head()

Unnamed: 0,Tamil_Category,Tamil_Kural,English_Meaning,English_Category
0,கடவுள் வாழ்த்து,அகர முதல எழுத்தெல்லாம் ஆதி பகவன் முதற்றே உலகு,A is the first of the alphabet; God is the pri...,Greetings of God
1,கடவுள் வாழ்த்து,கற்றதனால் ஆய பயனென்கொல் வாலறிவன் நற்றாள் தொழாஅ...,"What is the use of all your learning, if you c...",Greetings of God
2,கடவுள் வாழ்த்து,மலர்மிசை ஏகினான் மாணடி சேர்ந்தார் நிலமிசை நீடு...,Those who surrender themselves at feet of the ...,Greetings of God
3,கடவுள் வாழ்த்து,வேண்டுதல் வேண்டாமை இலானடி சேர்ந்தார்க்கு யாண்ட...,"Those who surrender at the feet of the one, wh...",Greetings of God
4,கடவுள் வாழ்த்து,இருள்சேர் இருவினையும் சேரா இறைவன் பொருள்சேர் ப...,"Fate, which impacts those in the darkness of i...",Greetings of God


In [None]:
# Step 5.1 Validate the translation provided by the Google translate service
# Display unique entries in Tamil_Category and English_Category
unique_categories = df[['Tamil_Category', 'English_Category']].drop_duplicates()
pd.set_option('display.max_rows', None)  # This ensures all rows are displayed
print(unique_categories)

#spoiler alert - translation is bad as this is ancient Tamil - I went the manual labelling route for this 

              Tamil_Category  \
0            கடவுள் வாழ்த்து   
10               வான்சிறப்பு   
20           நீத்தார் பெருமை   
30         அறன் வலியுறுத்தல்   
31         அறன் வலியுறுத்தல்   
40               இல்வாழ்க்கை   
50       வாழ்க்கைத் துணைநலம்   
60        புதல்வரைப் பெறுதல்   
70                 அன்புடைமை   
80             விருந்தோம்பல்   
90               இனியவைகூறல்   
100       செய்ந்நன்றி அறிதல்   
101       செய்ந்நன்றி அறிதல்   
110             நடுவு நிலைமை   
120              அடக்கமுடைமை   
130             ஒழுக்கமுடைமை   
140         பிறனில் விழையாமை   
150               பொறையுடைமை   
160              அழுக்காறாமை   
170                  வெஃகாமை   
180              புறங்கூறாமை   
190           பயனில சொல்லாமை   
200             தீவினையச்சம்   
210             ஒப்புரவறிதல்   
220                      ஈகை   
222                      ஈகை   
230                    புகழ்   
240                அருளுடைமை   
250           புலான்மறுத்தல்   
260                     தவம்   
270     

In [19]:
# Step 6: Save the updated DataFrame to a new CSV file
df.to_csv('Thirukural_EnglishMeaning_Updated.csv', index=False, encoding='utf-8-sig')



In [None]:
# Step 7: Push this to Hugging Face Dataset repo 
# Clean your csv file prior to uploading


In [20]:
# Open the CSV file
input_file = "Thirukural_EnglishMeaning_Updated.csv"  
output_file = "cleaned_file.csv"  # Replace with the desired output file name

with open(input_file, "r", encoding="utf-8") as infile, open(output_file, "w", encoding="utf-8") as outfile:
    for line in infile:
        # Remove the starting and trailing quotes from each line
        cleaned_line = line.lstrip('"').rstrip('\n')  # Only removes quotes from the start
        outfile.write(cleaned_line + '\n')

print("Quotes removed from the beginning of each line. Saved to", output_file)


Quotes removed from the beginning of each line. Saved to cleaned_file.csv


In [22]:
import csv

# Input and output file paths
input_file = "cleaned_file.csv"  # Replace with your actual file name
output_file = "d_cleaned_file.csv"

# Open the input file and clean the data
with open(input_file, "r", encoding="utf-8") as infile, open(output_file, "w", encoding="utf-8", newline="") as outfile:
    reader = csv.reader(infile)
    writer = csv.writer(outfile)

    for row in reader:
        # Ensure there are at least 4 columns
        if len(row) > 4:
            # Combine all columns after the 3rd into the 4th column
            row = row[:3] + [",".join(row[3:])]
        elif len(row) < 4:
            # Pad with empty strings if fewer than 4 columns
            row += [""] * (4 - len(row))
        
        writer.writerow(row)

print(f"Cleaned file saved to: {output_file}")


Cleaned file saved to: d_cleaned_file.csv
