**Md. Khadem Ali**  
Student, Dept. of Geography & Environment  
Shahid M. Mansur Ali College (Affiliated with National University of Bangladesh)  

[Portfolio: www.khademali.com](http://www.khademali.com)

## পর্ব ২: Data Preprocessing

এই নোটবুকে আমরা শিখব:
1. ভেক্টর ও রাষ্টারের ডেটা ক্লিনিং
2. CRS পরিবর্তন
3. Missing data হ্যান্ডেল
4. Normalization / Scaling
5. Train-test split

## 1. CRS পরিবর্তন (Coordinate Reference System)

GeoDataFrame এর CRS চেক ও পরিবর্তন করা।

In [None]:
import geopandas as gpd

# উদাহরণ শেপফাইল লোড
gdf = gpd.read_file('data/sample_shapefile.shp')

# CRS চেক করা
print(gdf.crs)

# CRS পরিবর্তন করা (EPSG:4326)
gdf = gdf.to_crs(epsg=4326)
print(gdf.crs)

## 2. Missing Data Handling

GeoDataFrame এ missing values চেক এবং পূরণ।

In [None]:
# Missing data চেক করা
print(gdf.isnull().sum())

# Missing values পূরণ (যদি থাকে)
gdf['column_name'] = gdf['column_name'].fillna(0)

## 3. Raster ডেটা থেকে pixel value extract করা

Rasterio ব্যবহার করে pixel values GeoDataFrame এর সাথে merge করা।

In [None]:
import rasterio
import numpy as np

raster = rasterio.open('data/sample_raster.tif')

# GeoDataFrame থেকে coordinates নিয়ে pixel values extract
coords = [(x, y) for x, y in zip(gdf.geometry.x, gdf.geometry.y)]
pixel_values = [val[0] for val in raster.sample(coords)]

# GeoDataFrame এ যোগ করা
gdf['pixel_value'] = pixel_values
gdf.head()

## 4. Normalization / Scaling

Scikit-learn ব্যবহার করে feature scaling।

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
gdf[['pixel_value_scaled']] = scaler.fit_transform(gdf[['pixel_value']])
gdf.head()

## 5. Train-Test Split

ডেটা মেশিন লার্নিং মডেলের জন্য train এবং test এ ভাগ করা।

In [None]:
from sklearn.model_selection import train_test_split

X = gdf[['pixel_value_scaled']]
y = gdf['target_column']  # উদাহরণ target column

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
print(X_train.shape, X_test.shape)

**পরের পর্বে আমরা জানবো:**  
Basic machine learning models: Linear Regression, Logistic Regression, Decision Tree, এবং Random Forest ব্যবহার করে কিভাবে প্রজেক্ট শুরু করতে হয়।