# ডেটা প্রস্তুতি

[মূল নোটবুক উৎস *ডেটা সায়েন্স: ডেটা সায়েন্সের জন্য মেশিন লার্নিং পরিচিতি, পাইথন এবং মেশিন লার্নিং স্টুডিও - লি স্টট*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame` তথ্য অনুসন্ধান

> **শিক্ষার লক্ষ্য:** এই উপ-অধ্যায়ের শেষে, আপনি pandas DataFrame-এ সংরক্ষিত ডেটার সাধারণ তথ্য খুঁজে বের করতে স্বাচ্ছন্দ্যবোধ করবেন।

যখন আপনি pandas-এ আপনার ডেটা লোড করবেন, এটি সম্ভবত `DataFrame` আকারে থাকবে। তবে, যদি আপনার `DataFrame`-এ থাকা ডেটাসেটে ৬০,০০০ সারি এবং ৪০০ কলাম থাকে, তাহলে আপনি কীভাবে কাজ শুরু করবেন? সৌভাগ্যক্রমে, pandas কিছু সুবিধাজনক টুল সরবরাহ করে যা `DataFrame`-এর সামগ্রিক তথ্য এবং প্রথম কয়েকটি ও শেষ কয়েকটি সারি দ্রুত দেখার সুযোগ দেয়।

এই কার্যকারিতা অনুসন্ধানের জন্য, আমরা Python-এর scikit-learn লাইব্রেরি আমদানি করব এবং একটি আইকনিক ডেটাসেট ব্যবহার করব যা প্রতিটি ডেটা বিজ্ঞানী শত শত বার দেখেছেন: ব্রিটিশ জীববিজ্ঞানী রোনাল্ড ফিশারের *আইরিস* ডেটাসেট, যা তিনি ১৯৩৬ সালে তার "ট্যাক্সোনমিক সমস্যায় একাধিক পরিমাপের ব্যবহার" শীর্ষক গবেষণাপত্রে ব্যবহার করেছিলেন:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
আমরা `iris_df` ভেরিয়েবলে আইরিস ডেটাসেট লোড করেছি। ডেটাতে গভীরভাবে যাওয়ার আগে, আমাদের কাছে কতগুলো ডেটাপয়েন্ট আছে এবং ডেটাসেটের সামগ্রিক আকার জানা গুরুত্বপূর্ণ। আমরা যে ডেটার পরিমাণ নিয়ে কাজ করছি তা বোঝার জন্য এটি উপকারী।


In [2]:
iris_df.shape

(150, 4)

আমরা এখানে ১৫০টি সারি এবং ৪টি কলামের ডেটা নিয়ে কাজ করছি। প্রতিটি সারি একটি ডেটাপয়েন্টকে উপস্থাপন করে এবং প্রতিটি কলাম ডেটা ফ্রেমের সাথে সম্পর্কিত একটি বৈশিষ্ট্যকে উপস্থাপন করে। অর্থাৎ, এখানে মোট ১৫০টি ডেটাপয়েন্ট রয়েছে, প্রতিটি ডেটাপয়েন্টে ৪টি বৈশিষ্ট্য রয়েছে।

`shape` এখানে ডেটা ফ্রেমের একটি অ্যাট্রিবিউট এবং এটি কোনো ফাংশন নয়, এজন্য এটি একটি জোড়া বন্ধনী দিয়ে শেষ হয় না।


### `DataFrame.columns`
এখন আমরা ডেটার ৪টি কলামে প্রবেশ করব। প্রতিটি কলাম ঠিক কী উপস্থাপন করে? `columns` অ্যাট্রিবিউট আমাদের ডেটাফ্রেমের কলামের নামগুলি প্রদান করবে।


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

যেমন আমরা দেখতে পাচ্ছি, এখানে চার(৪)টি কলাম রয়েছে। `columns` অ্যাট্রিবিউট আমাদের কলামগুলোর নাম জানায় এবং মূলত আর কিছুই নয়। এই অ্যাট্রিবিউট গুরুত্বপূর্ণ হয়ে ওঠে যখন আমরা কোনো ডেটাসেটে থাকা বৈশিষ্ট্যগুলো চিহ্নিত করতে চাই।


### `DataFrame.info`
ডেটার পরিমাণ (`shape` attribute দ্বারা প্রদত্ত) এবং বৈশিষ্ট্য বা কলামের নাম (`columns` attribute দ্বারা প্রদত্ত) আমাদের ডেটাসেট সম্পর্কে কিছু তথ্য দেয়। এখন, আমরা ডেটাসেটটি আরও গভীরভাবে বিশ্লেষণ করতে চাই। `DataFrame.info()` ফাংশন এই ক্ষেত্রে বেশ কার্যকর।


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


এখান থেকে আমরা কয়েকটি পর্যবেক্ষণ করতে পারি:
1. প্রতিটি কলামের DataType: এই ডেটাসেটে, সমস্ত ডেটা 64-বিট ফ্লোটিং-পয়েন্ট সংখ্যার আকারে সংরক্ষিত।
2. Non-Null মানের সংখ্যা: null মানগুলোর সাথে কাজ করা ডেটা প্রস্তুতির একটি গুরুত্বপূর্ণ ধাপ। এটি পরে নোটবুকে আলোচনা করা হবে।


### DataFrame.describe()
ধরুন আমাদের ডেটাসেটে অনেক সংখ্যাগত ডেটা রয়েছে। একক পরিবর্তনশীল পরিসংখ্যানগত হিসাব যেমন গড়, মধ্যমা, চতুর্থাংশ ইত্যাদি প্রতিটি কলামের উপর আলাদাভাবে করা যেতে পারে। `DataFrame.describe()` ফাংশন আমাদের ডেটাসেটের সংখ্যাগত কলামগুলোর একটি পরিসংখ্যানগত সারসংক্ষেপ প্রদান করে।


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


উপরে প্রদর্শিত আউটপুটটি প্রতিটি কলামের মোট ডেটা পয়েন্টের সংখ্যা, গড়, মানদণ্ড বিচ্যুতি, সর্বনিম্ন, নিম্ন চতুর্থাংশ (২৫%), মধ্যম (৫০%), উপরের চতুর্থাংশ (৭৫%) এবং সর্বোচ্চ মান দেখায়।


### `DataFrame.head`
উপরের সমস্ত ফাংশন এবং অ্যাট্রিবিউট ব্যবহার করে আমরা ডেটাসেটের একটি শীর্ষ স্তরের ধারণা পেয়েছি। আমরা জানি এখানে কতগুলো ডেটা পয়েন্ট আছে, কতগুলো বৈশিষ্ট্য আছে, প্রতিটি বৈশিষ্ট্যের ডেটা টাইপ কী এবং প্রতিটি বৈশিষ্ট্যের জন্য কতগুলো নন-নাল মান রয়েছে।

এখন সময় এসেছে ডেটা নিজেই দেখার। চলুন দেখি আমাদের `DataFrame`-এর প্রথম কয়েকটি সারি (প্রথম কয়েকটি ডেটা পয়েন্ট) দেখতে কেমন:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


আউটপুটে, আমরা দেখতে পাচ্ছি যে ডেটাসেটের পাঁচ(৫)টি এন্ট্রি রয়েছে। যদি আমরা বাম দিকে থাকা সূচকের দিকে তাকাই, তাহলে দেখতে পাই যে এগুলো প্রথম পাঁচটি সারি।


### অনুশীলন:

উপরের উদাহরণ থেকে এটি স্পষ্ট যে, ডিফল্টভাবে `DataFrame.head` একটি `DataFrame`-এর প্রথম পাঁচটি সারি ফেরত দেয়। নিচের কোড সেলে, আপনি কি এমন একটি উপায় বের করতে পারেন যাতে পাঁচটির বেশি সারি প্রদর্শন করা যায়?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
ডেটা দেখার আরেকটি উপায় হতে পারে শেষ থেকে (শুরুর পরিবর্তে)। `DataFrame.head`-এর বিপরীত হলো `DataFrame.tail`, যা একটি `DataFrame`-এর শেষ পাঁচটি সারি ফেরত দেয়:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


প্রকৃতপক্ষে, একটি `DataFrame`-এর প্রথম কয়েকটি সারি বা শেষ কয়েকটি সারি সহজে পরীক্ষা করা খুবই উপকারী, বিশেষত যখন আপনি ক্রমানুসারে সাজানো ডেটাসেটে অস্বাভাবিক মান খুঁজছেন।

উপরে প্রদর্শিত কোড উদাহরণগুলোর সাহায্যে দেখানো সমস্ত ফাংশন এবং অ্যাট্রিবিউট আমাদের ডেটার একটি সামগ্রিক ধারণা পেতে সাহায্য করে।

> **মূল কথা:** শুধুমাত্র একটি DataFrame-এর তথ্য সম্পর্কিত মেটাডেটা বা এর প্রথম এবং শেষ কয়েকটি মান দেখেই আপনি ডেটার আকার, আকৃতি এবং বিষয়বস্তু সম্পর্কে তাত্ক্ষণিক ধারণা পেতে পারেন।


### অনুপস্থিত ডেটা
চলুন অনুপস্থিত ডেটা নিয়ে আলোচনা করি। অনুপস্থিত ডেটা তখন ঘটে, যখন কিছু কলামে কোনো মান সংরক্ষিত থাকে না।

একটি উদাহরণ নেওয়া যাক: ধরুন কেউ তার ওজন নিয়ে সচেতন এবং একটি জরিপে ওজনের ঘরটি পূরণ করেনি। তাহলে, সেই ব্যক্তির জন্য ওজনের মান অনুপস্থিত থাকবে।

বাস্তব জীবনের ডেটাসেটে বেশিরভাগ সময়েই অনুপস্থিত মান দেখা যায়।

**Pandas কীভাবে অনুপস্থিত ডেটা পরিচালনা করে**

Pandas দুটি উপায়ে অনুপস্থিত মান পরিচালনা করে। প্রথমটি আপনি আগের অংশগুলোতে দেখেছেন: `NaN`, বা Not a Number। এটি আসলে IEEE floating-point স্পেসিফিকেশনের একটি বিশেষ মান এবং এটি শুধুমাত্র অনুপস্থিত floating-point মান নির্দেশ করার জন্য ব্যবহৃত হয়।

ফ্লোট ছাড়া অন্যান্য অনুপস্থিত মানের জন্য, pandas Python এর `None` অবজেক্ট ব্যবহার করে। যদিও এটি বিভ্রান্তিকর মনে হতে পারে যে আপনি দুটি ভিন্ন ধরনের মানের সম্মুখীন হবেন যা মূলত একই জিনিস নির্দেশ করে, তবে এই ডিজাইন পছন্দের পেছনে যথাযথ প্রোগ্রাম্যাটিক কারণ রয়েছে এবং বাস্তবে, এই পদ্ধতি pandas-কে বেশিরভাগ ক্ষেত্রে একটি ভালো সমঝোতা প্রদান করতে সক্ষম করে। তবুও, `None` এবং `NaN` উভয়েরই কিছু সীমাবদ্ধতা রয়েছে যা তাদের ব্যবহারের ক্ষেত্রে আপনাকে সচেতন থাকতে হবে।


### `None`: অ-ফ্লোট অনুপস্থিত ডেটা
যেহেতু `None` পাইথন থেকে আসে, এটি NumPy এবং pandas এর সেই অ্যারে-তে ব্যবহার করা যায় না যেগুলোর ডেটা টাইপ `'object'` নয়। মনে রাখবেন, NumPy অ্যারে (এবং pandas এর ডেটা স্ট্রাকচারগুলো) শুধুমাত্র এক ধরনের ডেটা ধারণ করতে পারে। এটি তাদের বৃহৎ পরিসরের ডেটা এবং গণনামূলক কাজের জন্য অসাধারণ ক্ষমতা প্রদান করে, তবে এটি তাদের নমনীয়তাকে সীমিত করে। এমন অ্যারেগুলোকে "সর্বনিম্ন সাধারণ গুণ" অর্থাৎ এমন ডেটা টাইপে রূপান্তর করতে হয় যা অ্যারেতে থাকা সবকিছুকে অন্তর্ভুক্ত করতে পারে। যখন `None` অ্যারেতে থাকে, এর অর্থ আপনি পাইথন অবজেক্ট নিয়ে কাজ করছেন।

এটি বাস্তবে দেখতে, নিচের উদাহরণ অ্যারে বিবেচনা করুন (এর `dtype` লক্ষ্য করুন):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

আপকাস্ট ডেটা টাইপের বাস্তবতা দুটি পার্শ্বপ্রতিক্রিয়া নিয়ে আসে। প্রথমত, অপারেশনগুলি সংকলিত NumPy কোডের পরিবর্তে ব্যাখ্যা করা Python কোডের স্তরে সম্পন্ন হবে। মূলত, এর অর্থ হলো `Series` বা `DataFrame`-এ যদি `None` থাকে, তাহলে সংশ্লিষ্ট অপারেশনগুলি ধীরগতির হবে। যদিও আপনি সম্ভবত এই পারফরম্যান্সের প্রভাব লক্ষ্য করবেন না, বড় ডেটাসেটের ক্ষেত্রে এটি একটি সমস্যা হয়ে উঠতে পারে।

দ্বিতীয় পার্শ্বপ্রতিক্রিয়া প্রথমটির সাথে সম্পর্কিত। কারণ `None` মূলত `Series` বা `DataFrame`-কে সাধারণ Python-এর জগতে ফিরিয়ে নিয়ে যায়, তাই NumPy/pandas-এর মতো অ্যাগ্রিগেশন ফাংশন যেমন `sum()` বা `min()` ব্যবহার করে যদি অ্যারে-তে ``None`` থাকে, সাধারণত একটি ত্রুটি তৈরি হবে:


In [10]:
example1.sum()

TypeError: ignored

**মূল কথা**: পূর্ণসংখ্যা এবং `None` মানের মধ্যে যোগ (এবং অন্যান্য অপারেশন) অনির্ধারিত, যা এমন ডেটাসেটের সাথে কাজ করার সীমাবদ্ধতা তৈরি করতে পারে যেখানে এগুলো উপস্থিত।


### `NaN`: অনুপস্থিত ফ্লোট মান

`None` এর বিপরীতে, NumPy (এবং সেইসাথে pandas) তার দ্রুত, ভেক্টরাইজড অপারেশন এবং ufuncs এর জন্য `NaN` সমর্থন করে। খারাপ খবর হলো, `NaN` এর উপর যেকোনো গাণিতিক অপারেশন করলে ফলাফল সবসময় `NaN` হয়। উদাহরণস্বরূপ:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

ভালো খবর: `NaN` থাকা অ্যারেগুলিতে অ্যাগ্রিগেশন চালালে কোনো ত্রুটি দেখায় না। খারাপ খবর: ফলাফলগুলি সর্বদা উপযোগী হয় না:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### ব্যায়াম:


In [11]:
# What happens if you add np.nan and None together?


মনে রাখুন: `NaN` শুধুমাত্র অনুপস্থিত ফ্লোটিং-পয়েন্ট মানগুলির জন্য; পূর্ণসংখ্যা, স্ট্রিং বা বুলিয়ানের জন্য কোনও `NaN` সমতুল্য নেই।


### `NaN` এবং `None`: pandas-এ null মান

যদিও `NaN` এবং `None` কিছুটা ভিন্নভাবে আচরণ করতে পারে, pandas এগুলোকে একে অপরের পরিবর্তে ব্যবহার করার জন্য তৈরি করা হয়েছে। আমরা কী বোঝাতে চাই তা দেখতে, একটি পূর্ণসংখ্যার `Series` বিবেচনা করুন:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### ব্যায়াম:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


`Series` এবং `DataFrame`-এ ডেটার সামঞ্জস্যতা নিশ্চিত করার জন্য ডেটা টাইপ আপকাস্ট করার প্রক্রিয়ায়, pandas সহজেই `None` এবং `NaN` এর মধ্যে অনুপস্থিত মানগুলি পরিবর্তন করতে পারে। এই ডিজাইন বৈশিষ্ট্যের কারণে, pandas-এ `None` এবং `NaN` কে "null" এর দুটি ভিন্ন রূপ হিসেবে ভাবা সুবিধাজনক হতে পারে। প্রকৃতপক্ষে, pandas-এ অনুপস্থিত মানগুলি পরিচালনা করার জন্য আপনি যে মূল পদ্ধতিগুলি ব্যবহার করবেন, সেগুলোর নামেও এই ধারণাটি প্রতিফলিত হয়:

- `isnull()`: অনুপস্থিত মানগুলি নির্দেশ করার জন্য একটি বুলিয়ান মাস্ক তৈরি করে
- `notnull()`: `isnull()`-এর বিপরীত
- `dropna()`: ডেটার একটি ফিল্টার করা সংস্করণ প্রদান করে
- `fillna()`: অনুপস্থিত মানগুলি পূরণ বা অনুমান করে ডেটার একটি কপি প্রদান করে

এই পদ্ধতিগুলি আয়ত্ত করা এবং সেগুলোর সাথে স্বাচ্ছন্দ্য বোধ করা অত্যন্ত গুরুত্বপূর্ণ। তাই চলুন, প্রতিটি পদ্ধতি বিস্তারিতভাবে আলোচনা করি।


### নাল মান সনাক্ত করা

এখন যেহেতু আমরা অনুপস্থিত মানগুলোর গুরুত্ব বুঝেছি, আমাদের ডেটাসেটে সেগুলো মোকাবিলা করার আগে সনাক্ত করতে হবে। 
`isnull()` এবং `notnull()` উভয়ই নাল ডেটা সনাক্ত করার জন্য আপনার প্রধান পদ্ধতি। উভয়ই আপনার ডেটার উপর বুলিয়ান মাস্ক প্রদান করে।


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

আউটপুটটি ভালোভাবে দেখুন। এর মধ্যে কি কিছু আপনাকে অবাক করছে? যদিও `0` একটি গাণিতিক শূন্য, এটি তবুও একটি সম্পূর্ণ ভালো পূর্ণসংখ্যা এবং pandas এটিকে সেইভাবেই বিবেচনা করে। `''` একটু বেশি সূক্ষ্ম। আমরা এটি অধ্যায় ১-এ একটি খালি স্ট্রিং মান হিসেবে ব্যবহার করেছিলাম, তবে এটি একটি স্ট্রিং অবজেক্ট এবং pandas-এর দৃষ্টিতে এটি শূন্যের প্রতিনিধিত্ব করে না।

এখন, চলুন এই বিষয়টি উল্টে দেখি এবং এই পদ্ধতিগুলো এমনভাবে ব্যবহার করি যেভাবে আপনি বাস্তবে এগুলো ব্যবহার করবেন। আপনি Boolean মাস্কগুলো সরাসরি ``Series`` বা ``DataFrame`` ইনডেক্স হিসেবে ব্যবহার করতে পারেন, যা বিচ্ছিন্নভাবে অনুপস্থিত (বা উপস্থিত) মান নিয়ে কাজ করার সময় কার্যকর হতে পারে।

যদি আমরা অনুপস্থিত মানগুলোর মোট সংখ্যা জানতে চাই, তাহলে আমরা `isnull()` পদ্ধতির মাধ্যমে তৈরি হওয়া মাস্কের উপর একটি যোগফল করতে পারি।


In [19]:
example3.isnull().sum()

2

### ব্যায়াম:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**মূল কথা**: উভয় `isnull()` এবং `notnull()` পদ্ধতি DataFrame-এ ব্যবহার করলে একই ধরনের ফলাফল প্রদান করে: এগুলো ফলাফল এবং সেই ফলাফলের সূচক দেখায়, যা আপনার ডেটা নিয়ে কাজ করার সময় আপনাকে অত্যন্ত সাহায্য করবে।


### অনুপস্থিত ডেটা মোকাবিলা করা

> **শিক্ষার লক্ষ্য:** এই উপ-অধ্যায়ের শেষে, আপনি জানতে পারবেন কীভাবে এবং কখন DataFrames থেকে null মান প্রতিস্থাপন বা সরানো যায়।

মেশিন লার্নিং মডেলগুলো নিজেরাই অনুপস্থিত ডেটা পরিচালনা করতে পারে না। তাই, মডেলে ডেটা পাঠানোর আগে আমাদের এই অনুপস্থিত মানগুলো মোকাবিলা করতে হবে।

অনুপস্থিত ডেটা কীভাবে পরিচালনা করা হয় তা সূক্ষ্ম ভারসাম্য বহন করে, যা আপনার চূড়ান্ত বিশ্লেষণ এবং বাস্তব জীবনের ফলাফলে প্রভাব ফেলতে পারে।

অনুপস্থিত ডেটা মোকাবিলা করার প্রধানত দুটি উপায় রয়েছে:

1.   অনুপস্থিত মান থাকা সারি বাদ দেওয়া
2.   অনুপস্থিত মানকে অন্য কোনো মান দিয়ে প্রতিস্থাপন করা

আমরা এই দুটি পদ্ধতি এবং তাদের সুবিধা ও অসুবিধা বিস্তারিতভাবে আলোচনা করব।


### নাল মান বাদ দেওয়া

আমাদের মডেলে যে পরিমাণ ডেটা আমরা সরবরাহ করি, তা তার কার্যকারিতার উপর সরাসরি প্রভাব ফেলে। নাল মান বাদ দেওয়া মানে আমরা ডেটাপয়েন্টের সংখ্যা কমাচ্ছি, এবং সেইসঙ্গে ডেটাসেটের আকারও কমাচ্ছি। তাই, যখন ডেটাসেট বেশ বড় হয়, তখন নাল মানযুক্ত সারি বাদ দেওয়া পরামর্শযোগ্য।

আরেকটি উদাহরণ হতে পারে যে কোনো নির্দিষ্ট সারি বা কলামে অনেক বেশি অনুপস্থিত মান রয়েছে। সেক্ষেত্রে, সেগুলো বাদ দেওয়া যেতে পারে কারণ সেগুলো আমাদের বিশ্লেষণে খুব বেশি মূল্য যোগ করবে না যেহেতু সেই সারি/কলামের বেশিরভাগ ডেটা অনুপস্থিত।

নাল মান সনাক্ত করার বাইরে, pandas `Series` এবং `DataFrame` থেকে নাল মান সরানোর একটি সুবিধাজনক উপায় প্রদান করে। এটি বাস্তবে দেখতে, চলুন `example3`-এ ফিরে যাই। `DataFrame.dropna()` ফাংশন নাল মানযুক্ত সারি বাদ দিতে সাহায্য করে।


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

লক্ষ্য করুন যে এটি `example3[example3.notnull()]` এর আউটপুটের মতো দেখাবে। এখানে পার্থক্য হলো, শুধু মাস্ক করা মানগুলোর উপর ইনডেক্সিং করার পরিবর্তে, `dropna` `Series` `example3` থেকে সেই অনুপস্থিত মানগুলো সরিয়ে দিয়েছে।

কারণ DataFrames-এর দুটি মাত্রা থাকে, এটি ডেটা বাদ দেওয়ার জন্য আরও বিকল্প প্রদান করে।


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(আপনি কি লক্ষ্য করেছেন যে pandas দুটি কলামকে `NaN` মানগুলোর জন্য ফ্লোটে আপকাস্ট করেছে?)

আপনি `DataFrame` থেকে একটি একক মান বাদ দিতে পারবেন না, তাই আপনাকে সম্পূর্ণ সারি বা কলাম বাদ দিতে হবে। আপনি কী করছেন তার উপর নির্ভর করে, আপনি একটির পরিবর্তে অন্যটি করতে চাইতে পারেন, এবং তাই pandas আপনাকে উভয়ের জন্য বিকল্প দেয়। কারণ ডেটা সায়েন্সে, কলাম সাধারণত ভেরিয়েবল এবং সারি পর্যবেক্ষণকে উপস্থাপন করে, আপনি সম্ভবত ডেটার সারি বাদ দিতে চাইবেন; `dropna()`-এর ডিফল্ট সেটিং হল যেকোনো null মান থাকা সমস্ত সারি বাদ দেওয়া:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


যদি প্রয়োজন হয়, আপনি কলাম থেকে NA মান বাদ দিতে পারেন। এর জন্য `axis=1` ব্যবহার করুন:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


লক্ষ্য করুন যে এটি অনেক ডেটা বাদ দিতে পারে যা আপনি রাখতে চাইতে পারেন, বিশেষত ছোট ডেটাসেটে। যদি আপনি শুধুমাত্র সেই সারি বা কলাম বাদ দিতে চান যেখানে বেশ কয়েকটি বা এমনকি সব null মান রয়েছে? আপনি `dropna`-তে `how` এবং `thresh` প্যারামিটার ব্যবহার করে এই সেটিং নির্ধারণ করতে পারেন।

ডিফল্টভাবে, `how='any'` (যদি আপনি নিজে পরীক্ষা করতে চান বা দেখতে চান এই মেথডের অন্য কোন প্যারামিটার রয়েছে, তাহলে একটি কোড সেলে `example4.dropna?` চালান)। আপনি বিকল্পভাবে `how='all'` নির্ধারণ করতে পারেন যাতে শুধুমাত্র সেই সারি বা কলাম বাদ দেওয়া হয় যেখানে সব null মান রয়েছে। চলুন আমাদের উদাহরণ `DataFrame` প্রসারিত করি এবং পরবর্তী অনুশীলনে এটি কার্যকরভাবে দেখি।


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> মূল বিষয়সমূহ:
1. ডেটাসেট যথেষ্ট বড় হলে তবেই null মান বাদ দেওয়া ভালো।
2. সম্পূর্ণ সারি বা কলাম বাদ দেওয়া যেতে পারে যদি তাদের বেশিরভাগ ডেটা অনুপস্থিত থাকে।
3. `DataFrame.dropna(axis=)` মেথড null মান বাদ দিতে সাহায্য করে। `axis` আর্গুমেন্ট নির্দেশ করে সারি বাদ দেওয়া হবে নাকি কলাম।
4. `how` আর্গুমেন্টও ব্যবহার করা যেতে পারে। ডিফল্টভাবে এটি `any` সেট করা থাকে। তাই এটি শুধুমাত্র সেই সারি/কলাম বাদ দেয় যেখানে কোনো null মান থাকে। এটি `all` এ সেট করা যেতে পারে, যা নির্দেশ করে যে আমরা শুধুমাত্র সেই সারি/কলাম বাদ দেব যেখানে সব মান null।


### ব্যায়াম:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` প্যারামিটার আপনাকে সূক্ষ্ম-স্তরের নিয়ন্ত্রণ দেয়: আপনি সেট করেন একটি সারি বা কলামে *অ-শূন্য* মানের সংখ্যা যা থাকা প্রয়োজন যাতে তা সংরক্ষিত হয়:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


এখানে প্রথম এবং শেষ সারি বাদ দেওয়া হয়েছে, কারণ এগুলিতে শুধুমাত্র দুটি নন-নাল মান রয়েছে।


### নাল মান পূরণ করা

কখনও কখনও অনুপস্থিত মানগুলি এমন মান দিয়ে পূরণ করা যুক্তিসঙ্গত হতে পারে যা বৈধ হতে পারে। নাল মান পূরণের জন্য কয়েকটি কৌশল রয়েছে। প্রথমটি হল ডোমেইন জ্ঞান (ডেটাসেটের ভিত্তি যে বিষয়টি নিয়ে তা সম্পর্কে জ্ঞান) ব্যবহার করে অনুপস্থিত মানগুলি আনুমানিকভাবে পূরণ করা। 

আপনি `isnull` ব্যবহার করে এটি সরাসরি করতে পারেন, তবে এটি শ্রমসাধ্য হতে পারে, বিশেষত যদি আপনার অনেক মান পূরণ করতে হয়। যেহেতু এটি ডেটা সায়েন্সে একটি সাধারণ কাজ, pandas `fillna` প্রদান করে, যা একটি `Series` বা `DataFrame`-এর কপি প্রদান করে যেখানে অনুপস্থিত মানগুলি আপনার পছন্দমতো মান দিয়ে প্রতিস্থাপিত হয়। চলুন আরেকটি উদাহরণ `Series` তৈরি করি এবং দেখি এটি বাস্তবে কীভাবে কাজ করে।


### শ্রেণীবদ্ধ ডেটা (অসংখ্যিক)
প্রথমে আসুন অসংখ্যিক ডেটা নিয়ে আলোচনা করি। ডেটাসেটে, আমাদের কাছে এমন কলাম থাকে যেখানে শ্রেণীবদ্ধ ডেটা থাকে। যেমন, লিঙ্গ, সত্য বা মিথ্যা ইত্যাদি।

এই ধরনের ক্ষেত্রে, আমরা সাধারণত অনুপস্থিত মানগুলো কলামের `mode` দিয়ে পূরণ করি। ধরুন, আমাদের কাছে ১০০টি ডেটা পয়েন্ট আছে, যার মধ্যে ৯০টি "True" বলেছে, ৮টি "False" বলেছে এবং ২টি পূরণ করা হয়নি। তাহলে, আমরা পুরো কলামটি বিবেচনা করে সেই ২টি "True" দিয়ে পূরণ করতে পারি।

এখানে আবার আমরা ডোমেইন জ্ঞান ব্যবহার করতে পারি। আসুন, mode দিয়ে পূরণের একটি উদাহরণ বিবেচনা করি।


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


এখন, প্রথমে মোডটি খুঁজে বের করি তারপরে `None` মানটি মোড দিয়ে পূরণ করি।


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

তাহলে, আমরা None এর পরিবর্তে True ব্যবহার করব।


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


যেমন আমরা দেখতে পাচ্ছি, null মানটি প্রতিস্থাপিত হয়েছে। বলার অপেক্ষা রাখে না, আমরা `'True'` এর জায়গায় যেকোনো কিছু লিখতে পারতাম এবং সেটি প্রতিস্থাপিত হত।


### সংখ্যাগত ডেটা
এখন, সংখ্যাগত ডেটার ক্ষেত্রে আসা যাক। এখানে, অনুপস্থিত মান প্রতিস্থাপনের দুটি সাধারণ পদ্ধতি রয়েছে:

1. সারির মধ্যম (Median) দিয়ে প্রতিস্থাপন
2. সারির গড় (Mean) দিয়ে প্রতিস্থাপন

যখন ডেটা আউটলাইয়ারসহ বক্ররেখা (skewed) হয়, তখন আমরা মধ্যম দিয়ে প্রতিস্থাপন করি। কারণ মধ্যম আউটলাইয়ারগুলোর প্রতি সংবেদনশীল নয়।

যখন ডেটা স্বাভাবিকীকৃত হয়, তখন আমরা গড় ব্যবহার করতে পারি, কারণ সেই ক্ষেত্রে গড় এবং মধ্যম প্রায় কাছাকাছি থাকে।

প্রথমে, আমরা একটি কলাম নেব যা স্বাভাবিকভাবে বিতরণ করা হয়েছে এবং সেই কলামের অনুপস্থিত মান গড় দিয়ে পূরণ করব।


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


কলামের গড় হলো


In [33]:
np.mean(fill_with_mean[0])

0.0

মধ্যমান দিয়ে পূরণ করা


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


যেমনটি আমরা দেখতে পাচ্ছি, অনুপস্থিত মানটি তার গড় দিয়ে প্রতিস্থাপিত হয়েছে।


এবার চলুন আমরা আরেকটি ডেটাফ্রেম চেষ্টা করি, এবং এইবার আমরা None মানগুলো কলামের মধ্যম মান দিয়ে প্রতিস্থাপন করব।


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


দ্বিতীয় কলামের মধ্যম মান হল


In [36]:
fill_with_median[1].median()

4.0

মিডিয়ান দিয়ে পূরণ করা


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


যেমন আমরা দেখতে পাচ্ছি, NaN মানটি কলামের মধ্যমান দ্বারা প্রতিস্থাপিত হয়েছে।


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

আপনি সমস্ত শূন্য এন্ট্রি একটি একক মান, যেমন `0` দিয়ে পূরণ করতে পারেন:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> মূল বিষয়সমূহ:
1. অনুপস্থিত মান পূরণ করা উচিত যখন ডেটা কম থাকে বা অনুপস্থিত ডেটা পূরণের জন্য কোনো কৌশল থাকে।
2. ডোমেইন জ্ঞান ব্যবহার করে আনুমানিকভাবে অনুপস্থিত মান পূরণ করা যেতে পারে।
3. শ্রেণীবদ্ধ ডেটার ক্ষেত্রে, সাধারণত অনুপস্থিত মান কলামের মোড দিয়ে প্রতিস্থাপন করা হয়।
4. সংখ্যাসূচক ডেটার ক্ষেত্রে, অনুপস্থিত মান সাধারণত কলামের গড় (স্বাভাবিককৃত ডেটাসেটের জন্য) বা মধ্যমা দিয়ে পূরণ করা হয়।


### ব্যায়াম:


In [40]:
# What happens if you try to fill null values with a string, like ''?


আপনি **ফরওয়ার্ড-ফিল** null মানগুলি করতে পারেন, যা হল শেষ বৈধ মানটি ব্যবহার করে null পূরণ করা:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

আপনি **ব্যাক-ফিল** ব্যবহার করে null পূরণের জন্য পরবর্তী বৈধ মানকে পিছনের দিকে প্রসারিত করতে পারেন:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

আপনি যেমন অনুমান করতে পারেন, এটি DataFrames-এর ক্ষেত্রেও একইভাবে কাজ করে, তবে আপনি null মান পূরণ করার জন্য একটি `axis` নির্দিষ্ট করতে পারেন:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


যখন পূর্ববর্তী মান ফরওয়ার্ড-ফিলিংয়ের জন্য উপলব্ধ নয়, লক্ষ্য করুন যে শূন্য মানটি অপরিবর্তিত থাকে।


### ব্যায়াম:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


আপনি `fillna` ব্যবহার করার ক্ষেত্রে সৃজনশীল হতে পারেন। উদাহরণস্বরূপ, চলুন আবার `example4` এর দিকে তাকাই, তবে এবার চলুন `DataFrame`-এর সমস্ত মানের গড় দিয়ে অনুপস্থিত মানগুলি পূরণ করি:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


লক্ষ্য করুন যে কলাম ৩ এখনও খালি রয়েছে: ডিফল্ট নির্দেশনা হল সারি অনুযায়ী মান পূরণ করা।

> **মূল কথা:** আপনার ডেটাসেটে অনুপস্থিত মানগুলি মোকাবিলা করার বিভিন্ন উপায় রয়েছে। আপনি যে নির্দিষ্ট কৌশলটি ব্যবহার করবেন (সেগুলি সরানো, প্রতিস্থাপন করা, বা কীভাবে প্রতিস্থাপন করবেন) তা সেই ডেটার নির্দিষ্ট বৈশিষ্ট্যের উপর নির্ভর করবে। আপনি যত বেশি ডেটাসেট পরিচালনা করবেন এবং এর সাথে কাজ করবেন, অনুপস্থিত মানগুলি মোকাবিলা করার ক্ষেত্রে তত বেশি দক্ষতা অর্জন করবেন।


### শ্রেণীবদ্ধ ডেটা এনকোডিং

মেশিন লার্নিং মডেল শুধুমাত্র সংখ্যা এবং যেকোনো ধরনের সংখ্যাসূচক ডেটা নিয়ে কাজ করে। এটি "হ্যাঁ" এবং "না"-এর মধ্যে পার্থক্য বুঝতে পারবে না, তবে এটি 0 এবং 1-এর মধ্যে পার্থক্য করতে পারবে। তাই, অনুপস্থিত মান পূরণের পর, আমাদের শ্রেণীবদ্ধ ডেটাকে কিছু সংখ্যাসূচক রূপে এনকোড করতে হবে যাতে মডেল এটি বুঝতে পারে।

এনকোডিং দুটি উপায়ে করা যেতে পারে। আমরা পরবর্তী অংশে সেগুলো নিয়ে আলোচনা করব।


**লেবেল এনকোডিং**

লেবেল এনকোডিং মূলত প্রতিটি ক্যাটাগরিকে একটি সংখ্যা হিসেবে রূপান্তরিত করা। উদাহরণস্বরূপ, ধরুন আমাদের কাছে একটি এয়ারলাইন যাত্রীদের ডেটাসেট রয়েছে এবং সেখানে একটি কলাম আছে যা তাদের ক্লাস নির্দেশ করে ['বিজনেস ক্লাস', 'ইকোনমি ক্লাস', 'ফার্স্ট ক্লাস'] এর মধ্যে। যদি লেবেল এনকোডিং করা হয়, তাহলে এটি [0,1,2] এ রূপান্তরিত হবে। চলুন কোডের মাধ্যমে একটি উদাহরণ দেখি। যেহেতু আমরা পরবর্তী নোটবুকে `scikit-learn` শিখব, তাই এখানে এটি ব্যবহার করব না।


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


প্রথম কলামে লেবেল এনকোডিং সম্পাদন করতে, আমাদের প্রথমে প্রতিটি শ্রেণী থেকে একটি সংখ্যার জন্য একটি ম্যাপিং বর্ণনা করতে হবে, তারপরে প্রতিস্থাপন করতে হবে।


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


যেমন আমরা দেখতে পাচ্ছি, আউটপুটটি আমাদের প্রত্যাশার সাথে মিলে গেছে। তাহলে, লেবেল এনকোডিং কখন ব্যবহার করা হয়? লেবেল এনকোডিং নিম্নলিখিত যেকোনো একটি বা উভয় ক্ষেত্রে ব্যবহার করা হয়:
1. যখন ক্যাটাগরির সংখ্যা বেশি হয়
2. যখন ক্যাটাগরিগুলি ক্রমানুসারে থাকে।


**ওয়ান হট এনকোডিং**

ওয়ান হট এনকোডিং একটি ভিন্ন ধরনের এনকোডিং। এই পদ্ধতিতে, কলামের প্রতিটি ক্যাটাগরি আলাদা একটি কলাম হিসেবে যুক্ত হয় এবং প্রতিটি ডেটাপয়েন্ট 0 বা 1 পায় এই ভিত্তিতে যে সেটি সেই ক্যাটাগরি ধারণ করে কিনা। সুতরাং, যদি nটি ভিন্ন ক্যাটাগরি থাকে, তাহলে nটি কলাম ডেটাফ্রেমে যোগ করা হবে।

উদাহরণস্বরূপ, চলুন আমরা আগের বিমান শ্রেণির উদাহরণটি দেখি। ক্যাটাগরিগুলো ছিল: ['business class', 'economy class', 'first class']। সুতরাং, যদি আমরা ওয়ান হট এনকোডিং করি, তাহলে ডেটাসেটে নিম্নলিখিত তিনটি কলাম যুক্ত হবে: ['class_business class', 'class_economy class', 'class_first class']।


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


চলুন প্রথম কলামে এক হট এনকোডিং সম্পন্ন করি।


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


প্রতিটি হট এনকোডেড কলামে 0 বা 1 থাকে, যা নির্ধারণ করে যে সেই ক্যাটাগরি সেই ডেটাপয়েন্টের জন্য বিদ্যমান কিনা।


কখন আমরা ওয়ান হট এনকোডিং ব্যবহার করি? ওয়ান হট এনকোডিং নিম্নলিখিত যেকোনো একটি বা উভয় ক্ষেত্রে ব্যবহার করা হয়:

1. যখন ক্যাটাগরির সংখ্যা এবং ডেটাসেটের আকার ছোট হয়।
2. যখন ক্যাটাগরিগুলোর মধ্যে কোনো নির্দিষ্ট ক্রম থাকে না।


> মূল বিষয়সমূহ:
1. এনকোডিং ব্যবহার করা হয় অ-সংখ্যাগত ডেটাকে সংখ্যাগত ডেটায় রূপান্তর করার জন্য।
2. এনকোডিংয়ের দুটি ধরন রয়েছে: লেবেল এনকোডিং এবং ওয়ান হট এনকোডিং, যা ডেটাসেটের প্রয়োজন অনুযায়ী সম্পন্ন করা যেতে পারে।


## ডুপ্লিকেট ডেটা অপসারণ

> **শিক্ষার লক্ষ্য:** এই উপ-অংশের শেষে, আপনি DataFrames থেকে ডুপ্লিকেট মান সনাক্ত এবং অপসারণ করতে স্বাচ্ছন্দ্যবোধ করবেন।

অনুপস্থিত ডেটার পাশাপাশি, বাস্তব জীবনের ডেটাসেটে আপনি প্রায়ই ডুপ্লিকেট ডেটার সম্মুখীন হবেন। সৌভাগ্যক্রমে, pandas ডুপ্লিকেট এন্ট্রি সনাক্ত এবং অপসারণের একটি সহজ উপায় প্রদান করে।


### ডুপ্লিকেট শনাক্ত করা: `duplicated`

আপনি সহজেই ডুপ্লিকেট মানগুলো শনাক্ত করতে পারেন pandas-এর `duplicated` মেথড ব্যবহার করে, যা একটি বুলিয়ান মাস্ক প্রদান করে যা নির্দেশ করে যে একটি `DataFrame`-এর কোনো এন্ট্রি আগের একটি এন্ট্রির ডুপ্লিকেট কিনা। চলুন এটি কার্যকরভাবে দেখার জন্য আরেকটি উদাহরণ `DataFrame` তৈরি করি।


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### ডুপ্লিকেট সরানো: `drop_duplicates`
`drop_duplicates` সহজভাবে সেই ডেটার একটি কপি প্রদান করে যেখানে সমস্ত `duplicated` মান `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` এবং `drop_duplicates` ডিফল্টভাবে সমস্ত কলাম বিবেচনা করে, তবে আপনি নির্দিষ্ট করতে পারেন যে তারা আপনার `DataFrame`-এর শুধুমাত্র একটি কলামের উপসেট পরীক্ষা করবে:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **মূল কথা:** ডুপ্লিকেট ডেটা অপসারণ প্রায় প্রতিটি ডেটা-সায়েন্স প্রকল্পের একটি গুরুত্বপূর্ণ অংশ। ডুপ্লিকেট ডেটা আপনার বিশ্লেষণের ফলাফল পরিবর্তন করতে পারে এবং আপনাকে ভুল ফলাফল দিতে পারে!


## বাস্তব-জগতের ডেটা গুণগত মান যাচাই

> **শিক্ষার লক্ষ্য:** এই অংশের শেষে, আপনি বাস্তব-জগতের ডেটার সাধারণ গুণগত মানের সমস্যাগুলি সনাক্ত এবং সংশোধন করতে স্বাচ্ছন্দ্যবোধ করবেন, যার মধ্যে রয়েছে অসঙ্গতিপূর্ণ শ্রেণীবিভাগ মান, অস্বাভাবিক সংখ্যাসূচক মান (আউটলায়ার), এবং সামান্য পরিবর্তন সহ ডুপ্লিকেট সত্তা।

যদিও অনুপস্থিত মান এবং সঠিক ডুপ্লিকেট সাধারণ সমস্যা, বাস্তব-জগতের ডেটাসেটে প্রায়ই আরও সূক্ষ্ম সমস্যাগুলি থাকে:

1. **অসঙ্গতিপূর্ণ শ্রেণীবিভাগ মান**: একই শ্রেণী বিভিন্নভাবে লেখা (যেমন, "USA", "U.S.A", "United States")
2. **অস্বাভাবিক সংখ্যাসূচক মান**: চরম আউটলায়ার যা ডেটা এন্ট্রি ত্রুটি নির্দেশ করে (যেমন, বয়স = 999)
3. **প্রায়-ডুপ্লিকেট সারি**: রেকর্ড যা সামান্য পরিবর্তনের সাথে একই সত্তাকে উপস্থাপন করে

এসব সমস্যাগুলি সনাক্ত এবং পরিচালনা করার কৌশলগুলি আমরা এখন অন্বেষণ করব।


### একটি নমুনা "অগোছালো" ডেটাসেট তৈরি করা

প্রথমে, চলুন একটি নমুনা ডেটাসেট তৈরি করি যা বাস্তব জীবনের ডেটাতে আমরা সাধারণত যে ধরণের সমস্যাগুলোর সম্মুখীন হই তা ধারণ করে:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### ১. অসঙ্গত শ্রেণীবদ্ধ মান সনাক্ত করা

লক্ষ করুন যে `country` কলামে একই দেশের জন্য একাধিক উপস্থাপনা রয়েছে। চলুন এই অসঙ্গতিগুলো সনাক্ত করি:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### শ্রেণীবদ্ধ মানগুলিকে মানসম্মত করা

আমরা একটি ম্যাপিং তৈরি করে এই মানগুলোকে মানসম্মত করতে পারি। একটি সহজ পদ্ধতি হলো ছোট হাতের অক্ষরে রূপান্তর করা এবং একটি ম্যাপিং ডিকশনারি তৈরি করা:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**বিকল্প: ফাজি ম্যাচিং ব্যবহার করা**

আরও জটিল ক্ষেত্রে, আমরা `rapidfuzz` লাইব্রেরি ব্যবহার করে ফাজি স্ট্রিং ম্যাচিং করতে পারি, যা স্বয়ংক্রিয়ভাবে অনুরূপ স্ট্রিং সনাক্ত করতে সাহায্য করে:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. অস্বাভাবিক সংখ্যাগত মান (আউটলায়ার) সনাক্ত করা

`age` কলামটি দেখলে, আমরা কিছু সন্দেহজনক মান যেমন ১৯৯ এবং -৫ দেখতে পাই। চলুন এই আউটলায়ারগুলো সনাক্ত করতে পরিসংখ্যানগত পদ্ধতি ব্যবহার করি।


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### IQR (ইন্টারকোয়ার্টাইল রেঞ্জ) পদ্ধতি ব্যবহার করা

IQR পদ্ধতি একটি শক্তিশালী পরিসংখ্যানগত কৌশল যা চরম মানগুলোর প্রতি কম সংবেদনশীল এবং বহিরাগত মান সনাক্ত করতে ব্যবহৃত হয়:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Z-স্কোর পদ্ধতি ব্যবহার করা

Z-স্কোর পদ্ধতি গড় থেকে মানের মানক বিচ্যুতির উপর ভিত্তি করে অস্বাভাবিক মান নির্ধারণ করে:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### আউটলায়ার পরিচালনা

আউটলায়ার সনাক্ত করার পর, এগুলো বিভিন্নভাবে পরিচালনা করা যেতে পারে:
1. **অপসারণ**: আউটলায়ার থাকা সারি বাদ দিন (যদি এগুলো ত্রুটি হয়)
2. **সীমাবদ্ধ করা**: সীমার মান দিয়ে প্রতিস্থাপন করুন
3. **NaN দিয়ে প্রতিস্থাপন**: অনুপস্থিত ডেটা হিসেবে বিবেচনা করুন এবং ইম্পুটেশন কৌশল ব্যবহার করুন
4. **রাখা**: যদি এগুলো বৈধ চরম মান হয়


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### ৩. কাছাকাছি সদৃশ সারি শনাক্ত করা

লক্ষ্য করুন যে আমাদের ডেটাসেটে "John Smith"-এর জন্য একাধিক এন্ট্রি রয়েছে, যেগুলোর মান সামান্য ভিন্ন। চলুন নামের সাদৃশ্যের ভিত্তিতে সম্ভাব্য সদৃশগুলো শনাক্ত করি।


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### ফাজি ম্যাচিং ব্যবহার করে কাছাকাছি ডুপ্লিকেট খুঁজে বের করা

আরও উন্নত ডুপ্লিকেট শনাক্তকরণের জন্য, আমরা ফাজি ম্যাচিং ব্যবহার করে মিলের কাছাকাছি নামগুলি খুঁজে বের করতে পারি:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### ডুপ্লিকেট পরিচালনা করা

একবার ডুপ্লিকেট শনাক্ত করার পর, আপনাকে সিদ্ধান্ত নিতে হবে কীভাবে এগুলো পরিচালনা করবেন:
1. **প্রথম occurrence রাখুন**: `drop_duplicates(keep='first')` ব্যবহার করুন
2. **শেষ occurrence রাখুন**: `drop_duplicates(keep='last')` ব্যবহার করুন
3. **তথ্য একত্রিত করুন**: ডুপ্লিকেট সারি থেকে তথ্য একত্রিত করুন
4. **ম্যানুয়াল পর্যালোচনা**: মানুষের পর্যালোচনার জন্য চিহ্নিত করুন


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### সারসংক্ষেপ: সম্পূর্ণ ডেটা ক্লিনিং পাইপলাইন

চলুন সবকিছু একত্রিত করে একটি পূর্ণাঙ্গ ক্লিনিং পাইপলাইন তৈরি করি:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 চ্যালেঞ্জ অনুশীলন

এখন আপনার পালা! নিচে একটি নতুন ডেটার সারি দেওয়া হয়েছে যেখানে একাধিক গুণগত সমস্যা রয়েছে। আপনি কি পারবেন:

1. এই সারির সমস্ত সমস্যাগুলি চিহ্নিত করতে
2. প্রতিটি সমস্যার সমাধানের জন্য কোড লিখতে
3. পরিষ্কার করা সারিটি ডেটাসেটে যোগ করতে

এখানে সমস্যাযুক্ত ডেটা:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### মূল বিষয়গুলো

1. **অসংগতিপূর্ণ বিভাগ** বাস্তব জীবনের ডেটায় সাধারণ। সবসময় ইউনিক মানগুলো পরীক্ষা করুন এবং ম্যাপিং বা ফাজি ম্যাচিং ব্যবহার করে সেগুলো মানক করুন।

2. **আউটলায়ার** আপনার বিশ্লেষণে উল্লেখযোগ্য প্রভাব ফেলতে পারে। ডোমেইন জ্ঞান এবং পরিসংখ্যান পদ্ধতি (IQR, Z-score) একত্রে ব্যবহার করে সেগুলো সনাক্ত করুন।

3. **প্রায়-ডুপ্লিকেট** সনাক্ত করা সঠিক ডুপ্লিকেটের তুলনায় কঠিন। ফাজি ম্যাচিং এবং ডেটা স্বাভাবিকীকরণ (লোয়ারকেসিং, হোয়াইটস্পেস সরানো) ব্যবহার করে সেগুলো চিহ্নিত করার চেষ্টা করুন।

4. **ডেটা পরিষ্কারকরণ একটি পুনরাবৃত্তিমূলক প্রক্রিয়া**। চূড়ান্ত পরিষ্কার ডেটাসেট তৈরি করার আগে একাধিক কৌশল প্রয়োগ করতে হতে পারে এবং ফলাফল পর্যালোচনা করতে হতে পারে।

5. **আপনার সিদ্ধান্তগুলো নথিভুক্ত করুন**। কোন পরিষ্কারকরণ ধাপগুলো প্রয়োগ করেছেন এবং কেন, তা লিপিবদ্ধ করুন, কারণ এটি পুনরুত্পাদনযোগ্যতা এবং স্বচ্ছতার জন্য গুরুত্বপূর্ণ।

> **সেরা পদ্ধতি:** সবসময় আপনার মূল "ডার্টি" ডেটার একটি কপি রাখুন। কখনোই আপনার সোর্স ডেটা ফাইলগুলো ওভাররাইট করবেন না - পরিষ্কার সংস্করণ তৈরি করুন এবং স্পষ্ট নামকরণের নিয়ম অনুসরণ করুন, যেমন `data_cleaned.csv`।



---

**অস্বীকৃতি**:  
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসাধ্য সঠিকতার জন্য চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়বদ্ধ থাকব না।
