In [1]:
!pip install pandas jdatetime openpyxl



In [2]:
import pandas as pd
from jdatetime import datetime as jdatetime

# Read the Excel file
file_path = "basqul.xlsx"
sheet_name = "Sheet"  # Replace with the actual sheet name
df = pd.read_excel(file_path, sheet_name=sheet_name)


In [3]:
from jdatetime import date as jdate

# Function to convert Shamsi to Gregorian
def shamsi_to_gregorian(shamsi_date):
    year, month, day = map(int, shamsi_date.split('/'))
    gregorian_date = jdate(year, month, day).togregorian()
    return gregorian_date.strftime("%Y-%m-%d")

# Apply the conversion to the تاریخ column
df['تاریخ'] = df['تاریخ'].apply(shamsi_to_gregorian)

# Display the updated DataFrame
print(df.head())

   سریال  شماره قبض       تاریخ     شماره پلاک             نام کالا  \
0   3973       3973  2025-01-19  52-186- ع -38  بارخروجی سیمانی10-0   
1   3972       3972  2025-01-19  52-965- ع -44  بارخروجی سیمانی10-0   
2   3968       3968  2025-01-18  52-498- ع -42  بارخروجی سیمانی10-0   
3   3932       3932  2025-01-15  36-726- ع -45  بارخروجی سیمانی10-0   
4   3931       3931  2025-01-15  52-818- ع -33  بارخروجی سیمانی10-0   

          فروشنده      خریدار  وزن خالص  وزن اول تاریخ توزین اول  ...  \
0  کاوش گستر امین  اقای قاسمی     26160    15475      1403/10/30  ...   
1  کاوش گستر امین  اقای قاسمی     27565    14545      1403/10/30  ...   
2  کاوش گستر امین  اقای قاسمی     26365    15435      1403/10/29  ...   
3  کاوش گستر امین  اقای قاسمی     24865    17175      1403/10/26  ...   
4  کاوش گستر امین  اقای قاسمی     24725    17340      1403/10/26  ...   

  تعرفه توزین دوم جمع تعرفه توزین  کد وارده/صادره وارده/صادره توضیحات  \
0               0               0           False       صادره

In [4]:
from jdatetime import datetime as jdatetime

# Function to convert Shamsi datetime to Gregorian datetime
def shamsi_to_gregorian_datetime(shamsi_date, shamsi_time):
    year, month, day = map(int, shamsi_date.split('/'))
    hour, minute, second = map(int, shamsi_time.split(':'))
    jdt = jdatetime(year, month, day, hour, minute, second)
    return jdt.togregorian()

# Combine تاریخ توزین اول and ساعت توزین اول into a new column
df['tarekh_tozin_aval'] = df.apply(
    lambda row: shamsi_to_gregorian_datetime(row['تاریخ توزین اول'], row['ساعت توزین اول']), axis=1
)

# Combine تاریخ توزین دوم and ساعت توزین دوم into a new column
df['tarekh_tozin_dovom'] = df.apply(
    lambda row: shamsi_to_gregorian_datetime(row['تاریخ توزین دوم'], row['ساعت توزین دوم']), axis=1
)

# Drop the old columns
df.drop(columns=['تاریخ توزین اول', 'ساعت توزین اول', 'تاریخ توزین دوم', 'ساعت توزین دوم'], inplace=True)

# Display the updated DataFrame
print(df.head())

   سریال  شماره قبض       تاریخ     شماره پلاک             نام کالا  \
0   3973       3973  2025-01-19  52-186- ع -38  بارخروجی سیمانی10-0   
1   3972       3972  2025-01-19  52-965- ع -44  بارخروجی سیمانی10-0   
2   3968       3968  2025-01-18  52-498- ع -42  بارخروجی سیمانی10-0   
3   3932       3932  2025-01-15  36-726- ع -45  بارخروجی سیمانی10-0   
4   3931       3931  2025-01-15  52-818- ع -33  بارخروجی سیمانی10-0   

          فروشنده      خریدار  وزن خالص  وزن اول روش ثبت توزین اول  ...  \
0  کاوش گستر امین  اقای قاسمی     26160    15475          ثبت نشده  ...   
1  کاوش گستر امین  اقای قاسمی     27565    14545          ثبت نشده  ...   
2  کاوش گستر امین  اقای قاسمی     26365    15435          ثبت نشده  ...   
3  کاوش گستر امین  اقای قاسمی     24865    17175          ثبت نشده  ...   
4  کاوش گستر امین  اقای قاسمی     24725    17340          ثبت نشده  ...   

   کد وارده/صادره وارده/صادره  توضیحات کد وضعیت قبض وضعیت قبض  کد کاربر  \
0           False       صادره      NaN         

In [5]:
# Save to a new Excel file
df.to_excel("processed_basqul.xlsx", index=False)



In [6]:
column_mapping = {
    "سریال": "serial",
    "شماره قبض": "shomareh_ghabz",
    "تاریخ": "tarikh",
    "شماره پلاک": "shomareh_pelak",
    "نام کالا": "name_kala",
    "فروشنده": "forooshande",
    "خریدار": "kharidar",
    "وزن خالص": "vazn_khales",
    "وزن اول": "vazn_aval",
    "روش ثبت توزین اول": "ravesh_sabt_tozin_aval",
    "وزن دوم": "vazn_dovom",
    "روش ثبت توزین دوم": "ravesh_sabt_tozin_dovom",
    "کد کالا": "kod_kala",
    "کد انحصاری": "kod_enhesari",
    "واحد کالا": "vahed_kala",
    "توضیح کالا": "tozih_kala",
    "کد فروشنده": "kod_forooshande",
    "کد خریدار": "kod_kharidar",
    "کد راننده": "kod_ranande",
    "راننده": "ranande",
    "کد خودرو": "kod_khodro",
    "نام خودرو": "name_khodro",
    "کد مبدا": "kod_mabda",
    "مبدا": "mabda",
    "کد مقصد": "kod_maghsad",
    "مقصد": "maghsad",
    "تاریخ قبض مبدا": "tarikh_ghabz_mabda",
    "شماره قبض مبدا": "shomareh_ghabz_mabda",
    "وزن مبدا": "vazn_mabda",
    "قیمت کالا": "gheymat_kala",
    "افت وزن": "oft_vazn",
    "درصد افت وزن": "darsad_oft_vazn",
    "وزن نهایی": "vazn_nahaee",
    "قیمت خالص": "gheymat_khales",
    "مالیات": "maliat",
    "درصد مالیات": "darsad_maliat",
    "تخفیف": "takhfif",
    "درصد تخفیف": "darsad_takhfif",
    "قیمت نهایی": "gheymat_nahaee",
    "تعرفه توزین اول": "taarofeh_tozin_aval",
    "تعرفه توزین دوم": "taarofeh_tozin_dovom",
    "جمع تعرفه توزین": "jam_taarofeh_tozin",
    "کد وارده/صادره": "kod_varede_sadere",
    "وارده/صادره": "varede_sadere",
    "توضیحات": "tozihat",
    "کد وضعیت قبض": "kod_vaziyat_ghabz",
    "وضعیت قبض": "vaziyat_ghabz",
    "کد کاربر": "kod_karbar",
    "نام کاربر": "name_karbar",
    "ارزیابی کالا": "arzyabi_kala"
}

In [7]:
# Rename the columns
df.rename(columns=column_mapping, inplace=True)

# Display the updated DataFrame with new column names
print(df.head())

   serial  shomareh_ghabz      tarikh shomareh_pelak            name_kala  \
0    3973            3973  2025-01-19  52-186- ع -38  بارخروجی سیمانی10-0   
1    3972            3972  2025-01-19  52-965- ع -44  بارخروجی سیمانی10-0   
2    3968            3968  2025-01-18  52-498- ع -42  بارخروجی سیمانی10-0   
3    3932            3932  2025-01-15  36-726- ع -45  بارخروجی سیمانی10-0   
4    3931            3931  2025-01-15  52-818- ع -33  بارخروجی سیمانی10-0   

      forooshande    kharidar  vazn_khales  vazn_aval ravesh_sabt_tozin_aval  \
0  کاوش گستر امین  اقای قاسمی        26160      15475               ثبت نشده   
1  کاوش گستر امین  اقای قاسمی        27565      14545               ثبت نشده   
2  کاوش گستر امین  اقای قاسمی        26365      15435               ثبت نشده   
3  کاوش گستر امین  اقای قاسمی        24865      17175               ثبت نشده   
4  کاوش گستر امین  اقای قاسمی        24725      17340               ثبت نشده   

   ...  kod_varede_sadere varede_sadere  tozihat kod_vaz

In [8]:
df.to_excel("processed_gareguri_basqul.xlsx", index=False)

In [11]:
file_path = "processed_gareguri_basqul.xlsx"
sheet_name = "Sheet1"  # Replace with the actual sheet name
df = pd.read_excel(file_path, sheet_name=sheet_name)

In [12]:
# List of columns to drop
columns_to_drop = [
    "serial", "vahed_kala", "tozih_kala", "tarikh_ghabz_mabda", "shomareh_ghabz_mabda", 
    "vazn_mabda", "gheymat_kala", "oft_vazn", "darsad_oft_vazn", "gheymat_khales", 
    "maliat", "darsad_maliat", "takhfif", "darsad_takhfif", "gheymat_nahaee", 
    "taarofeh_tozin_aval", "taarofeh_tozin_dovom", "jam_taarofeh_tozin", 
    "kod_varede_sadere", "varede_sadere", "tozihat", "kod_vaziyat_ghabz", "arzyabi_kala"
]

# Drop the columns
df.drop(columns=columns_to_drop, inplace=True)

# Display the updated DataFrame
print(df.head())

   shomareh_ghabz      tarikh shomareh_pelak            name_kala  \
0            3973  2025-01-19  52-186- ع -38  بارخروجی سیمانی10-0   
1            3972  2025-01-19  52-965- ع -44  بارخروجی سیمانی10-0   
2            3968  2025-01-18  52-498- ع -42  بارخروجی سیمانی10-0   
3            3932  2025-01-15  36-726- ع -45  بارخروجی سیمانی10-0   
4            3931  2025-01-15  52-818- ع -33  بارخروجی سیمانی10-0   

      forooshande    kharidar  vazn_khales  vazn_aval ravesh_sabt_tozin_aval  \
0  کاوش گستر امین  اقای قاسمی        26160      15475               ثبت نشده   
1  کاوش گستر امین  اقای قاسمی        27565      14545               ثبت نشده   
2  کاوش گستر امین  اقای قاسمی        26365      15435               ثبت نشده   
3  کاوش گستر امین  اقای قاسمی        24865      17175               ثبت نشده   
4  کاوش گستر امین  اقای قاسمی        24725      17340               ثبت نشده   

   vazn_dovom  ... kod_mabda        mabda kod_maghsad               maghsad  \
0       41635  ...       

In [13]:
df.to_excel("processed_gareguri_basqul_rmBadCols.xlsx", index=False)

In [14]:
import pandas as pd

# Read the Excel file
file_path = "processed_gareguri_basqul_rmBadCols.xlsx"
sheet_name = "Sheet1"  # Replace with the actual sheet name
df = pd.read_excel(file_path, sheet_name=sheet_name)

# Replace invalid dates with NULL (or a valid placeholder)
df['tarikh'] = pd.to_datetime(df['tarikh'], errors='coerce')  # Coerce invalid dates to NaT (Not a Time)
df['tarikh'] = df['tarikh'].dt.strftime('%Y-%m-%d')  # Convert valid dates to YYYY-MM-DD format

# Save the cleaned data to a new file
df.to_excel("cleaned_basqul.xlsx", index=False)

In [15]:

# Convert the tarikh column to datetime (coerce invalid dates to NaT)
df['tarikh'] = pd.to_datetime(df['tarikh'], errors='coerce')

# Check for invalid dates
invalid_dates = df[df['tarikh'].isna()]
if not invalid_dates.empty:
    print("Invalid dates found:")
    print(invalid_dates)

