In [1]:
import pandas as pd
import re

# Load the CSV file
input_csv_path = 'gujarati_wiki_scraped.csv'  # Replace with your actual CSV file path
output_txt_path = 'preprocessed_gujarati_wiki_data.txt'


# Preprocess the text data
def preprocess_text(text):
    # Remove English characters and special symbols but keep Gujarati characters, numbers, and basic punctuation
    cleaned_text = re.sub(r'[^\u0A80-\u0AFF0-9\s.,!?]', '', str(text))
    return cleaned_text.strip()


In [2]:
# Read the CSV file
df = pd.read_csv(input_csv_path)


In [3]:
# Apply preprocessing to the DATA column
preprocessed_text = df['DATA'].apply(preprocess_text)

In [7]:
preprocessed_text

0        પાયથોન એક સામાન્ય હેતુ ઈન્ટરપ્રીટેડ ઉચ્ચ સ્તરન...
1        ઉચ્ચાર સી પ્લસ પ્લસએ મલ્ટી પેરાડિગમ, સરળ, આધુન...
2        એ સામાન્ય હેતુ તેમજ સીસ્ટમ પ્રોગ્રામિંગ માટે વ...
3        આ લેખનું સાચુ શિર્ષક  પ્રોગ્રામિંગ ભાષા છે, પર...
4        ઈન્ટરનેટ પ્રોટોકોલ એડ્રેસ  એડ્રેસ એક સંખ્યાત્મ...
                               ...                        
14906    ચમનપુરા તા. દિયોદર ભારત દેશના પશ્ચિમ ભાગમાં આવ...
14907    ચાવળા તા. દિયોદર ભારત દેશના પશ્ચિમ ભાગમાં આવેલ...
14908    ચીભડા તા. દિયોદર ભારત દેશના પશ્ચિમ ભાગમાં આવેલ...
14909    જડા તા. દિયોદર ભારત દેશના પશ્ચિમ ભાગમાં આવેલા ...
14910    જલોધા તા. દિયોદર ભારત દેશના પશ્ચિમ ભાગમાં આવેલ...
Name: DATA, Length: 14911, dtype: object

In [8]:
# Write the preprocessed text to a single .txt file
with open(output_txt_path, 'w', encoding='utf-8') as out_file:
    for line in preprocessed_text:
        if line:  # Skip empty lines
            out_file.write(line + '\n')

print(f"Preprocessed data has been written to {output_txt_path}")


Preprocessed data has been written to preprocessed_gujarati_wiki_data.txt


In [9]:
import os

def merge_text_files(input_folder, output_folder, output_filename="merged_gujarati_texts.txt"):
    # Create the output folder if it doesn't exist
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    # Path to the output file
    output_path = os.path.join(output_folder, output_filename)

    with open(output_path, 'w', encoding='utf-8') as outfile:
        # Iterate through all files in the input folder
        for filename in os.listdir(input_folder):
            file_path = os.path.join(input_folder, filename)
            # Check if the file is a text file
            if os.path.isfile(file_path) and filename.endswith('.txt'):
                with open(file_path, 'r', encoding='utf-8') as infile:
                    # Read and write each file's content to the output file
                    outfile.write(infile.read() + '\n')

    print(f"All text files have been merged into {output_path}")

In [10]:
input_folder = 'gujarati_texts'  # Replace with the path to your gujarati_texts folder
output_folder = 'merged_txt'  # The folder where the merged file will be saved

# Run the function to merge text files
merge_text_files(input_folder, output_folder)


All text files have been merged into merged_txt/merged_gujarati_texts.txt


In [None]:
from datasets import load_dataset

ds = load_dataset(
    "ai4bharat/sangraha",
    data_files="verified/guj/*.parquet",  # Specify the path to the subdirectory with parquet files
    split="[:2]"  # Adjust to limit the number of files/rows
)

Resolving data files:   0%|          | 0/27 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/27 [00:00<?, ?it/s]

Downloading data:   0%|          | 0/27 [00:00<?, ?files/s]

data-4.parquet:   0%|          | 0.00/374M [00:00<?, ?B/s]

data-5.parquet:   0%|          | 0.00/376M [00:00<?, ?B/s]

data-6.parquet:   0%|          | 0.00/344M [00:00<?, ?B/s]