In [10]:
import random
from datetime import datetime, timedelta
import pandas as pd

def generate_dummy_data_dict_format(num_records=50):
    """
    ডেটা ইনকনসিস্টেন্সি অনুশীলনের জন্য ডিকশনারি ফরম্যাটে ডামি ডেটা তৈরি করে।

    এখানে ডেটা একটি ডিকশনারি আকারে থাকবে যেখানে কলামের নামগুলো key
    এবং তাদের সংশ্লিষ্ট ডেটাগুলো list আকারে value হবে।

    Args:
        num_records (int): তৈরি করা রেকর্ডের সংখ্যা।

    Returns:
        dict: কলামের নাম (str) key এবং ডেটার লিস্ট (list) value সহ একটি ডিকশনারি।
    """
    data = {
        "order_id": [],
        "product_name": [],
        "quantity": [],
        "price": [],
        "order_date": [],
        "customer_email": [],
        "city": []
    }

    product_names = ["ল্যাপটপ", "স্মার্টফোন", "কীবোর্ড", "মাউস", "মনিটর", "প্রিন্টার", "হার্ড ড্রাইভ", "এসএসডি", "রাউটার", "ওয়েবক্যাম"]
    cities = ["dhaka", "Dhaka", "DHaka", "Rajshahi", "rajshahi", "RajSsahi", "rangpur", "Rangpur", "Chittagong", "chittagong", "Sylhet", "sylhet"]

    for i in range(num_records):
        # --- order_id ---
        if i % 7 == 0 and i > 0: # প্রায়শই সদৃশ আইডি
            data["order_id"].append(data["order_id"][i-1])
        elif i % 10 == 0: # কিছু অনুপস্থিত আইডি
            data["order_id"].append(None)
        else:
            data["order_id"].append(f"ORD{1000 + i:04d}")

        # --- product_name ---
        product = random.choice(product_names)
        if random.random() < 0.15: # 15% সুযোগ বানান ভুল বা কেস অসঙ্গতি
            if random.random() < 0.5:
                data["product_name"].append(product.upper()) # আপারকেস
            else:
                data["product_name"].append(product[:-1] + random.choice("xyz") if len(product) > 2 else product) # বানান ভুল
        elif random.random() < 0.05: # 5% সুযোগ অনুপস্থিত
            data["product_name"].append("")
        else:
            data["product_name"].append(product)

        # --- quantity ---
        quantity = random.randint(1, 10)
        if random.random() < 0.1: # 10% সুযোগ ভুল টাইপ বা সীমার বাইরে
            if random.random() < 0.5:
                data["quantity"].append(str(quantity)) # স্ট্রিং হিসাবে পরিমাণ
            else:
                data["quantity"].append(-random.randint(1, 5)) # নেগেটিভ পরিমাণ
        else:
            data["quantity"].append(quantity)

        # --- price ---
        price = round(random.uniform(50.0, 1000.0), 2)
        if random.random() < 0.08: # 8% সুযোগ ভুল টাইপ বা অনুপস্থিত
            if random.random() < 0.5:
                data["price"].append("N/A") # স্ট্রিং হিসাবে মূল্য
            else:
                data["price"].append(None)
        else:
            data["price"].append(price)

        # --- order_date ---
        start_date = datetime(2023, 1, 1)
        end_date = datetime(2024, 12, 31)
        random_date = start_date + timedelta(days=random.randint(0, (end_date - start_date).days))

        inconsistency_type = random.random()

        if inconsistency_type < 0.15: # 15% সুযোগ: ভুল ফর্ম্যাট বা অবৈধ তারিখ
            if random.random() < 0.5:
                data["order_date"].append(random_date.strftime("%d/%m/%Y")) # DD/MM/YYYY
            else:
                data["order_date"].append("2023-13-40") # অবৈধ তারিখ
        elif inconsistency_type < 0.20: # 5% সুযোগ: ভবিষ্যৎ তারিখ
            future_date = datetime.now() + timedelta(days=random.randint(1, 365))
            data["order_date"].append(future_date.strftime("%Y-%m-%d"))
        elif inconsistency_type < 0.25: # 5% সুযোগ: অনুপস্থিত
            data["order_date"].append(None)
        else:
            data["order_date"].append(random_date.strftime("%Y-%m-%d")) # YYYY-MM-DD (সাধারণ ফর্ম্যাট)

        # --- customer_email ---
        customer_email = f"customer{i}@example.com"
        if random.random() < 0.1: # 10% সুযোগ ভুল ফর্ম্যাট বা অনুপস্থিত
            if random.random() < 0.5:
                data["customer_email"].append(f"customer{i}example.com") # @ অনুপস্থিত
            else:
                data["customer_email"].append(None)
        else:
            data["customer_email"].append(customer_email)

        # --- city ---
        city = random.choice(cities)
        if random.random() < 0.1: # 10% সুযোগ বানান ভুল বা কেস অসঙ্গতি
            if random.random() < 0.5:
                data["city"].append(city.lower()) # লোয়ারকেস
            else:
                data["city"].append(city + " ") # অতিরিক্ত স্পেস
        else:
            data["city"].append(city)

    # কিছু সম্পূর্ণ সদৃশ রেকর্ড যোগ করুন (যদি num_records যথেষ্ট হয়)
    if num_records > 5:
        # একটি র্যান্ডম রেকর্ড বেছে নিন এবং তার সব কলামের ডেটা ডুপ্লিকেট করুন
        idx_to_duplicate = random.randint(0, num_records - 1)
        for col in data.keys():
            data[col].append(data[col][idx_to_duplicate])
        
        # আরেকটি ডুপ্লিকেট রেকর্ড
        idx_to_duplicate = random.randint(0, num_records - 1)
        for col in data.keys():
            data[col].append(data[col][idx_to_duplicate])


    return data

# ডামি ডেটা তৈরি করুন (যেমন 100টি রেকর্ড)
dummy_data_dict = generate_dummy_data_dict_format(num_records=100)

# ডেটার প্রথম কয়েকটি এন্ট্রি প্রিন্ট করুন (উদাহরণস্বরূপ)
print("তৈরি করা ডামি ডেটা (ডিকশনারি ফরম্যাটে):")
# প্রতিটি কলামের প্রথম 5টি মান দেখান
for col, values in dummy_data_dict.items():
    print(f"'{col}': {values[:5]} ... (মোট {len(values)}টি এন্ট্রি)")

print(f"\nমোট কলামের সংখ্যা: {len(dummy_data_dict)}")
print(f"প্রতিটি কলামে রেকর্ডের সংখ্যা (একটি কলামের দৈর্ঘ্য): {len(dummy_data_dict['order_id'])}")

তৈরি করা ডামি ডেটা (ডিকশনারি ফরম্যাটে):
'order_id': [None, 'ORD1001', 'ORD1002', 'ORD1003', 'ORD1004'] ... (মোট 102টি এন্ট্রি)
'product_name': ['ওয়েবক্যাম', 'ওয়েবক্যাম', 'রাউটার', 'রাউটার', 'মাউস'] ... (মোট 102টি এন্ট্রি)
'quantity': [3, 2, '10', 6, 1] ... (মোট 102টি এন্ট্রি)
'price': [836.57, 346.87, 415.62, 271.05, 498.61] ... (মোট 102টি এন্ট্রি)
'order_date': ['2024-11-16', '2024-09-08', '2024-03-03', '2023-09-02', '2023-06-18'] ... (মোট 102টি এন্ট্রি)
'customer_email': ['customer0@example.com', 'customer1@example.com', 'customer2example.com', 'customer3@example.com', 'customer4@example.com'] ... (মোট 102টি এন্ট্রি)
'city': ['DHaka', 'dhaka', 'DHaka', 'Dhaka', 'rangpur'] ... (মোট 102টি এন্ট্রি)

মোট কলামের সংখ্যা: 7
প্রতিটি কলামে রেকর্ডের সংখ্যা (একটি কলামের দৈর্ঘ্য): 102


In [11]:
df=pd.DataFrame(dummy_data_dict)    

In [12]:
df.head()

Unnamed: 0,order_id,product_name,quantity,price,order_date,customer_email,city
0,,ওয়েবক্যাম,3,836.57,2024-11-16,customer0@example.com,DHaka
1,ORD1001,ওয়েবক্যাম,2,346.87,2024-09-08,customer1@example.com,dhaka
2,ORD1002,রাউটার,10,415.62,2024-03-03,customer2example.com,DHaka
3,ORD1003,রাউটার,6,271.05,2023-09-02,customer3@example.com,Dhaka
4,ORD1004,মাউস,1,498.61,2023-06-18,customer4@example.com,rangpur


In [13]:
df['city'].head()

0      DHaka
1      dhaka
2      DHaka
3      Dhaka
4    rangpur
Name: city, dtype: object

In [None]:
df['city'] = df['city'].str.strip()  # অতিরিক্ত স্পেস সরান
df['city']= df['city'].str.capitalize()  


In [17]:
df['city'].head()

0      Dhaka
1      Dhaka
2      Dhaka
3      Dhaka
4    Rangpur
Name: city, dtype: object

In [4]:
df['order_date'] = pd.to_datetime(df['order_date'], errors='coerce')
df['order_date'] = df['order_date'].dt.strftime('%Y-%m-%d')

  df['order_date'] = pd.to_datetime(df['order_date'], errors='coerce')


In [7]:
import pandas as pd

# আপনার ইনকনসিস্টেন্ট তারিখের ডেটা (উদাহরণস্বরূপ)
inconsistent_dates = ['14/09/2023', '2023-13-40', '2023-06-08', '2024-02-03', '2023-05-02', None, '2025-01-01', 'তারিখ নেই']

# একটি Pandas Series তৈরি করা হলো অনুশীলনের জন্য
df = pd.DataFrame({'order_date': inconsistent_dates})

print("আসল 'order_date' কলাম:")
print(df['order_date'])
print("-" * 30)

# ১. pd.to_datetime ব্যবহার করে তারিখ ডেটাটাইপ রূপান্তর
# errors='coerce' ব্যবহার করলে, যদি কোনো তারিখ অবৈধ হয়, সেটি NaT হয়ে যাবে।
df['order_date'] = pd.to_datetime(df['order_date'], errors='coerce')

print("\npd.to_datetime এর পর 'order_date' কলাম:")
print(df['order_date'])
print("-" * 30)

# ২. dt.strftime ব্যবহার করে নির্দিষ্ট ফরম্যাটে আনা
# NaT মানগুলো এক্ষেত্রে NaN বা None হিসাবে থাকবে, যা সাধারণত আপনার ডেটা ক্লিনিং এর জন্য ভালো।
df['order_date'] = df['order_date'].dt.strftime('%Y-%m-%d')

print("\nচূড়ান্ত সামঞ্জস্যপূর্ণ 'order_date' কলাম (YYYY-MM-DD ফরম্যাটে):")
print(df['order_date'])

আসল 'order_date' কলাম:
0    14/09/2023
1    2023-13-40
2    2023-06-08
3    2024-02-03
4    2023-05-02
5          None
6    2025-01-01
7     তারিখ নেই
Name: order_date, dtype: object
------------------------------

pd.to_datetime এর পর 'order_date' কলাম:
0   2023-09-14
1          NaT
2          NaT
3          NaT
4          NaT
5          NaT
6          NaT
7          NaT
Name: order_date, dtype: datetime64[ns]
------------------------------

চূড়ান্ত সামঞ্জস্যপূর্ণ 'order_date' কলাম (YYYY-MM-DD ফরম্যাটে):
0    2023-09-14
1           NaN
2           NaN
3           NaN
4           NaN
5           NaN
6           NaN
7           NaN
Name: order_date, dtype: object


  df['order_date'] = pd.to_datetime(df['order_date'], errors='coerce')


In [5]:
df['order_date'].head()

0    2023-09-14
1           NaN
2           NaN
3           NaN
4           NaN
Name: order_date, dtype: object

In [6]:
# impute fill the data and try another methon to complete the data 
df['order_date'] = df['order_date'].fillna('2023-01-01')
df['order_date'].head()



0    2023-09-14
1    2023-01-01
2    2023-01-01
3    2023-01-01
4    2023-01-01
Name: order_date, dtype: object

In [8]:
import pandas as pd
from datetime import datetime
import numpy as np

# আপনার ডামি ডেটা
inconsistent_dates_complex = [
    '14/09/2023',
    '2023-13-40',
    '2023-06-08',
    '2024-02-03',
    '05-02-2023',
    '2023/05/02',
    'September 14, 2023',
    'Feb 10 2022',      # নতুন ফরম্যাট
    'Dec. 25, 2021',    # আরও একটি নতুন ফরম্যাট
    None,
    'তারিখ নেই',
    '2025-01-01',
    '23/04/2024',
    '2024-04-23',
    '23-APR-2024'
]

df_complex = pd.DataFrame({'order_date': inconsistent_dates_complex})

print("--- শুরুর দিকের ডেটা (জটিল) ---")
print(df_complex)

def parse_flexible_date(date_str):
    """
    বিভিন্ন সম্ভাব্য ফরম্যাটের তারিখ স্ট্রিং পার্স করার চেষ্টা করে।
    সফল হলে datetime অবজেক্ট, না হলে NaT রিটার্ন করে।
    """
    if pd.isna(date_str): # numpy.nan, None, pd.NaT ইত্যাদি হ্যান্ডেল করে
        return pd.NaT
    
    # নিশ্চিত করুন যে এটি একটি স্ট্রিং
    date_str = str(date_str).strip()
    
    # সম্ভাব্য ফরম্যাটগুলোর একটি তালিকা
    formats = [
        '%Y-%m-%d', '%d/%m/%Y', '%Y/%m/%d', '%d-%m-%Y',
        '%B %d, %Y', '%b %d %Y', '%b. %d, %Y', # Month formats
        '%d-%b-%Y', '%d-%b-%y'
    ]
    
    for fmt in formats:
        try:
            return datetime.strptime(date_str, fmt)
        except ValueError:
            continue # এই ফরম্যাট না মিললে পরেরটি চেষ্টা করুন
            
    return pd.NaT # কোনো ফরম্যাট না মিললে NaT রিটার্ন করুন

# apply() ফাংশন ব্যবহার করে প্রতিটি রো-তে কাস্টম ফাংশনটি চালান
df_complex['order_date_parsed'] = df_complex['order_date'].apply(parse_flexible_date)

# এখন এটি একটি datetime সিরিজ, এটিকে আবার পছন্দের স্ট্রিং ফরম্যাটে আনুন
df_complex['order_date'] = df_complex['order_date_parsed'].dt.strftime('%Y-%m-%d')

# অতিরিক্ত কলামটি সরিয়ে দিন
del df_complex['order_date_parsed']

print("\n--- রূপান্তরিত ডেটা (কাস্টম পার্সিং এর পর) ---")
print(df_complex)

--- শুরুর দিকের ডেটা (জটিল) ---
            order_date
0           14/09/2023
1           2023-13-40
2           2023-06-08
3           2024-02-03
4           05-02-2023
5           2023/05/02
6   September 14, 2023
7          Feb 10 2022
8        Dec. 25, 2021
9                 None
10           তারিখ নেই
11          2025-01-01
12          23/04/2024
13          2024-04-23
14         23-APR-2024

--- রূপান্তরিত ডেটা (কাস্টম পার্সিং এর পর) ---
    order_date
0   2023-09-14
1          NaN
2   2023-06-08
3   2024-02-03
4   2023-02-05
5   2023-05-02
6   2023-09-14
7   2022-02-10
8   2021-12-25
9          NaN
10         NaN
11  2025-01-01
12  2024-04-23
13  2024-04-23
14  2024-04-23


In [9]:
df_complex

Unnamed: 0,order_date
0,2023-09-14
1,
2,2023-06-08
3,2024-02-03
4,2023-02-05
5,2023-05-02
6,2023-09-14
7,2022-02-10
8,2021-12-25
9,
