In [2]:
import pandas as pd

In [8]:
import pandas as pd

def count_items_in_range(csv_file_path, min_words=50, max_words=700):
    """
    Count items with word counts between specified range
    """
    try:
        # Read the CSV file
        df = pd.read_csv(csv_file_path)
        
        # Check if 'Content' column exists
        if 'Content' not in df.columns:
            print("Error: 'Content' column not found in the CSV file")
            return
        
        # Function to count words
        def count_words(text):
            if pd.isna(text):
                return 0
            return len(str(text).split())
        
        # Add word count column
        df['Word_Count'] = df['Content'].apply(count_words)
        
        # Filter items in range
        items_in_range = df[(df['Word_Count'] >= min_words) & (df['Word_Count'] <= max_words)]
        count_in_range = len(items_in_range)
        total_items = len(df)
        
        # Display results
        print("=" * 60)
        print(f"ITEMS WITH WORD COUNT BETWEEN {min_words} AND {max_words}")
        print("=" * 60)
        print(f"Total items: {total_items:,}")
        print(f"Items in range {min_words}-{max_words}: {count_in_range:,}")
        print(f"Percentage: {count_in_range/total_items*100:.1f}%")
        print("=" * 60)
        
        if count_in_range > 0:
            # Show some examples
            print(f"\nExamples from the range:")
            print("-" * 60)
            sample_items = items_in_range.sample(min(5, count_in_range))  # Show up to 5 random examples
            
            for index, row in sample_items.iterrows():
                print(f"{row['Word_Count']} words:")
                preview = str(row['Content'])[:100] + "..." if len(str(row['Content'])) > 100 else str(row['Content'])
                print(f"  {preview}")
                print()
        
        return items_in_range, count_in_range, total_items
        
    except FileNotFoundError:
        print(f"Error: File '{csv_file_path}' not found")
    except Exception as e:
        print(f"Error: {e}")

# Usage
items_in_range, count, total = count_items_in_range("/Users/prottasha/GitHub/CSE-498R/poemsH.csv", 50, 700)

ITEMS WITH WORD COUNT BETWEEN 50 AND 700
Total items: 3,000
Items in range 50-700: 1,966
Percentage: 65.5%

Examples from the range:
------------------------------------------------------------
56 words:
  হে মোর প্রিয়,
হে মোর   নিশীথ-রাতের গোপন সাথি!
মোদের   দুইজনারেই জনম ভরে কাঁদতে হবে গো –
শুধু   এমনি ...

308 words:
  ওরে   ভয় নাই আর, দুলিয়া উঠেছে হিমালয়-চাপা প্রাচী,
গৌরশিখরে তুহিন ভেদিয়া জাগিছে সব্যসাচী!
দ্বাপর যুগে...

72 words:
  যাদুরে আমার আদুরে গোপাল, নাকটি নাদুস থোপ্‌না গাল,
ঝিকিমিকি চোখ মিট্‌মিটি চায়, ঠোঁট দুটি তায় টাট্‌ক...

326 words:
  ঢাল্‌! ঢাল্‌ চাঁদ! আরো আরো ঢাল্!
সুনীল আকাশে রজতধারা!
হৃদয় আজিকে উঠেছে মাতিয়া
পরাণ হয়েছে পাগলপারা...

57 words:
  মানসকৈলাসশৃঙ্গে নির্জন ভুবনে
ছিলে তুমি মহেশের মন্দিরপ্রাঙ্গণে
তাঁহার আপন কবি, কবি কালিদাস।
নীলকণ্ঠদ্...



In [7]:
import pandas as pd
import numpy as np

def analyze_word_count_range(csv_file_path, min_words=100, max_words=600):
    """
    Detailed analysis of items in specific word count range
    """
    try:
        df = pd.read_csv(csv_file_path)
        
        if 'Content' not in df.columns:
            print("Error: 'Content' column not found")
            return
        
        # Count words
        df['Word_Count'] = df['Content'].apply(lambda x: len(str(x).split()) if pd.notna(x) else 0)
        
        # Filter items in range
        items_in_range = df[(df['Word_Count'] >= min_words) & (df['Word_Count'] <= max_words)]
        count_in_range = len(items_in_range)
        total_items = len(df)
        
        # Statistics for items in range
        if count_in_range > 0:
            avg_in_range = items_in_range['Word_Count'].mean()
            median_in_range = items_in_range['Word_Count'].median()
            min_in_range = items_in_range['Word_Count'].min()
            max_in_range = items_in_range['Word_Count'].max()
        
        # Display comprehensive results
        print("=" * 70)
        print(f"ANALYSIS: ITEMS WITH {min_words}-{max_words} WORDS")
        print("=" * 70)
        print(f"Total items in dataset: {total_items:,}")
        print(f"Items in range: {count_in_range:,}")
        print(f"Percentage of total: {count_in_range/total_items*100:.1f}%")
        print("=" * 70)
        
        if count_in_range > 0:
            print(f"Statistics for items in range:")
            print(f"  Average word count: {avg_in_range:.1f}")
            print(f"  Median word count: {median_in_range}")
            print(f"  Minimum in range: {min_in_range}")
            print(f"  Maximum in range: {max_in_range}")
            print("=" * 70)
            
            # Show distribution within the range
            print("Distribution within range:")
            ranges = [
                (140, 200),
                (201, 300),
                (301, 400),
                (600, 730)
            ]
            
            for low, high in ranges:
                count = len(items_in_range[(items_in_range['Word_Count'] >= low) & (items_in_range['Word_Count'] <= high)])
                if count > 0:
                    print(f"  {low}-{high} words: {count} items ({count/count_in_range*100:.1f}% of range)")
            
        else:
            print("No items found in the specified range.")
        
        return items_in_range
        
    except Exception as e:
        print(f"Error: {e}")

# Usage
analyze_word_count_range("/Users/prottasha/GitHub/CSE-498R/poemsH.csv", 100, 600)

ANALYSIS: ITEMS WITH 100-600 WORDS
Total items in dataset: 3,000
Items in range: 1,110
Percentage of total: 37.0%
Statistics for items in range:
  Average word count: 212.4
  Median word count: 176.0
  Minimum in range: 100
  Maximum in range: 600
Distribution within range:
  140-200 words: 341 items (30.7% of range)
  201-300 words: 255 items (23.0% of range)
  301-400 words: 92 items (8.3% of range)
  600-730 words: 1 items (0.1% of range)


Unnamed: 0.1,Unnamed: 0,Poem Name,Content,Poet,Word_Count
3,3,অবুঝ,"চুপ করে থাক্, তর্ক করার বদভ্যাসটি ভাল না,\nএক্...",সুকুমার রায়,134
4,4,অসম্ভব নয়,"এক যে ছিল সাহেব, তাহার\nগুণের মধ্যে নাকের বাহা...",সুকুমার রায়,103
11,11,আবোল তাবোল - ২,"মেঘ মুলুকে ঝাপ‌্সা রাতে,\nরামধনুকের আব্ছায়াতে...",সুকুমার রায়,139
12,12,আবোল তাবোল - ৩,"এক যে ছিল রাজা- (থুড়ি,\nরাজা নয় সে ডাইনি বুড...",সুকুমার রায়,118
17,17,একুশে আইন,"শিবঠাকুরের আপন দেশে,\nআইন কানুন সর্বনেশে!\nকেউ...",সুকুমার রায়,144
...,...,...,...,...,...
2990,3580,ঝর্নার গান,"চপল পায় কেবল ধাই,\nকেবল গাই পরীর গান,\nপুলক মো...",সত্যেন্দ্রনাথ দত্ত,181
2991,3581,দূরের পাল্লা,ছিপখান তিন-দাঁড় -\nতিনজন মাল্লা\nচৌপর দিন-ভোর...,সত্যেন্দ্রনাথ দত্ত,157
2995,3585,* * * *,"কেবল তারা! কেবল তারা!\nশেষের শিরে মানিক পারা,\...",সত্যেন্দ্রনাথ দত্ত,302
2996,3586,পদ্মার প্রতি,হে পদ্মা! প্রলয়ংকরী! হে ভীষণা! ভৈরবী সুন্দরী!...,সত্যেন্দ্রনাথ দত্ত,224


In [4]:
import pandas as pd

INPUT_CSV  = "/Users/prottasha/GitHub/CSE-498R/RESEARCH_SHADHU_CHOLITO/NewPoem/bengali_peoms_dataset.csv"
OUTPUT_CSV = "poemsH.csv"
TEXT_COL   = "Content"   # column with the text

df = pd.read_csv(INPUT_CSV)

# Word counts for the text column (robust to NaNs)
word_count = df[TEXT_COL].fillna("").astype(str).str.split().str.len()

# Find rows with <150 words
lt150_mask = word_count < 150
n_lt150 = int(lt150_mask.sum())

if n_lt150 < 592:
    raise ValueError(f"Only {n_lt150} items have <150 words—can't remove 592 from this subset.")

idx_to_drop = df.index[lt150_mask].to_series().sample(n=592, random_state=42).index

# Drop and save
df_out = df.drop(index=idx_to_drop)
assert len(df) - len(df_out) == 592, "The new dataset must be exactly 592 rows smaller."

df_out.to_csv(OUTPUT_CSV, index=False)

print(f"Original rows: {len(df)}")
print(f"<150-word items available: {n_lt150}")
print(f"Dropped: {len(idx_to_drop)}")
print(f"New dataset rows: {len(df_out)}")
print(f"Saved to: {OUTPUT_CSV}")

Original rows: 3592
<150-word items available: 2781
Dropped: 592
New dataset rows: 3000
Saved to: poemsH.csv
