# डेटा तयारी

[मूळ नोटबुक स्रोत *डेटा सायन्स: डेटासायन्ससाठी मशीन लर्निंगसाठी परिचय - पायथन आणि मशीन लर्निंग स्टुडिओ बाय ली स्टॉट*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame` माहिती शोधणे

> **शिकण्याचे उद्दिष्ट:** या उपविभागाच्या शेवटी, तुम्हाला pandas DataFrames मध्ये संग्रहित डेटा बद्दल सामान्य माहिती शोधण्यात सोय होईल.

तुम्ही तुमचा डेटा pandas मध्ये लोड केल्यानंतर, तो बहुधा `DataFrame` स्वरूपात असेल. परंतु, जर तुमच्या `DataFrame` मध्ये 60,000 ओळी आणि 400 स्तंभ असतील, तर तुम्ही काय काम करत आहात याची कल्पना कशी कराल? सुदैवाने, pandas काही सोयीस्कर साधने प्रदान करते ज्यामुळे `DataFrame` बद्दल एकूण माहिती तसेच सुरुवातीच्या काही आणि शेवटच्या काही ओळी पटकन पाहता येतात.

या कार्यक्षमतेचा अभ्यास करण्यासाठी, आपण Python scikit-learn लायब्ररी आयात करू आणि एक प्रसिद्ध डेटासेट वापरू जो प्रत्येक डेटा सायंटिस्टने शेकडो वेळा पाहिला आहे: ब्रिटिश जीवशास्त्रज्ञ रोनाल्ड फिशर यांचा *Iris* डेटा सेट, जो त्यांच्या 1936 च्या "The use of multiple measurements in taxonomic problems" या पेपरमध्ये वापरला होता:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
आम्ही Iris Dataset `iris_df` या व्हेरिएबलमध्ये लोड केले आहे. डेटामध्ये खोलवर जाण्यापूर्वी, आपल्याकडे किती डेटा पॉइंट्स आहेत आणि डेटासेटचा एकूण आकार काय आहे हे जाणून घेणे उपयुक्त ठरेल. आपण ज्या डेटाच्या प्रमाणावर काम करत आहोत ते पाहणे उपयुक्त आहे.


In [2]:
iris_df.shape

(150, 4)

म्हणजे, आपल्याकडे 150 ओळी आणि 4 स्तंभांचा डेटा आहे. प्रत्येक ओळ एक डेटा पॉइंट दर्शवते आणि प्रत्येक स्तंभ डेटा फ्रेमशी संबंधित एक वैशिष्ट्य दर्शवतो. तर मूलतः, 150 डेटा पॉइंट्स आहेत ज्यामध्ये प्रत्येकामध्ये 4 वैशिष्ट्ये आहेत.

`shape` येथे डेटा फ्रेमचे एक गुणधर्म आहे आणि एक फंक्शन नाही, म्हणूनच ते जोडलेल्या कंसांनी संपत नाही.


### `DataFrame.columns`
आता आपण डेटा फ्रेममधील 4 स्तंभांकडे जाऊया. प्रत्येक स्तंभ नेमके काय दर्शवतो? `columns` गुणधर्म आपल्याला डेटा फ्रेममधील स्तंभांची नावे देईल.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

जसे आपण पाहू शकतो, येथे चार(4) स्तंभ आहेत. `columns` गुणधर्म आपल्याला स्तंभांची नावे सांगतो आणि मूलत: त्यापेक्षा काहीही नाही. जेव्हा आपल्याला डेटासेटमध्ये असलेल्या वैशिष्ट्यांची ओळख पटवायची असते तेव्हा हा गुणधर्म महत्त्वाचा ठरतो.


### `DataFrame.info`
डेटामधील माहिती (`shape` गुणधर्माने दिलेली) आणि वैशिष्ट्ये किंवा स्तंभांची नावे (`columns` गुणधर्माने दिलेली) आपल्याला डेटासेटबद्दल काहीतरी सांगतात. आता, आपल्याला डेटासेटमध्ये अधिक सखोल जाणून घ्यायचे आहे. `DataFrame.info()` फंक्शन यासाठी खूप उपयुक्त आहे.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


येथून, आपण काही निरीक्षणे करू शकतो:
1. प्रत्येक स्तंभाचा डेटा प्रकार: या डेटासेटमध्ये, सर्व डेटा 64-बिट फ्लोटिंग-पॉइंट संख्यांमध्ये संग्रहित केला आहे.
2. नॉन-नल मूल्यांची संख्या: नल मूल्यांशी व्यवहार करणे हा डेटा तयारीतील महत्त्वाचा टप्पा आहे. यावर नंतर नोटबुकमध्ये विचार केला जाईल.


### DataFrame.describe()
म्हणून समजा आपल्या डेटासेटमध्ये बरीच संख्यात्मक माहिती आहे. प्रत्येक स्तंभावर स्वतंत्रपणे सरासरी, मध्यक, चतुर्थांश इत्यादीसारख्या एकच चल सांख्यिकी गणना करता येतात. `DataFrame.describe()` फंक्शन आपल्याला डेटासेटमधील संख्यात्मक स्तंभांचे सांख्यिकी सारांश प्रदान करते.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


वरील आउटपुट प्रत्येक स्तंभाचा डेटा पॉइंट्सची एकूण संख्या, सरासरी, मानक विचलन, किमान, खालचा चतुर्थांश (25%), मध्यम (50%), वरचा चतुर्थांश (75%) आणि जास्तीत जास्त मूल्य दर्शवतो.


### `DataFrame.head`
वरील सर्व फंक्शन्स आणि गुणधर्मांसह, आपल्याला डेटासेटचा एक उच्चस्तरीय आढावा मिळाला आहे. आपल्याला माहित आहे की किती डेटा पॉइंट्स आहेत, किती वैशिष्ट्ये आहेत, प्रत्येक वैशिष्ट्याचा डेटा प्रकार काय आहे आणि प्रत्येक वैशिष्ट्यासाठी किती नॉन-नल मूल्ये आहेत.

आता प्रत्यक्ष डेटाकडे पाहण्याची वेळ आली आहे. आपल्या `DataFrame` च्या पहिल्या काही ओळी (पहिले काही डेटा पॉइंट्स) कशा दिसतात ते पाहूया:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


आउटपुटमध्ये, आपण डेटासेटच्या पाच(5) नोंदी पाहू शकतो. जर आपण डाव्या बाजूला असलेल्या अनुक्रमणिका पाहिल्या, तर आपल्याला कळते की या पहिल्या पाच ओळी आहेत.


### व्यायाम:

वरील उदाहरणावरून स्पष्ट होते की, `DataFrame.head` डिफॉल्टनुसार `DataFrame` च्या पहिल्या पाच ओळी परत करते. खालील कोड सेलमध्ये, तुम्ही पाचपेक्षा जास्त ओळी दाखवण्याचा मार्ग शोधू शकता का?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
डेटा पाहण्याचा आणखी एक मार्ग म्हणजे शेवटापासून (सुरुवातीऐवजी). `DataFrame.head` च्या उलट म्हणजे `DataFrame.tail`, जे `DataFrame` च्या शेवटच्या पाच ओळी परत करते:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


प्रत्यक्षात, `DataFrame` मधील पहिल्या काही ओळी किंवा शेवटच्या काही ओळी सहजपणे तपासणे उपयुक्त ठरते, विशेषतः जेव्हा तुम्ही क्रमबद्ध डेटासेटमध्ये अपवाद शोधत असता.

वरील कोड उदाहरणांच्या मदतीने दाखवलेल्या सर्व फंक्शन्स आणि गुणधर्म आपल्याला डेटाचा लुक आणि फील मिळविण्यास मदत करतात.

> **महत्त्वाचे:** फक्त `DataFrame` मधील माहितीबद्दलची मेटाडेटा किंवा त्यातील पहिल्या आणि शेवटच्या काही मूल्यांकडे पाहूनही, तुम्ही डेटाचा आकार, स्वरूप आणि सामग्रीबद्दल त्वरित कल्पना करू शकता.


### हरवलेला डेटा
चला हरवलेल्या डेटामध्ये खोलवर जाऊया. हरवलेला डेटा तेव्हा होतो, जेव्हा काही स्तंभांमध्ये कोणतीही मूल्ये संग्रहित केलेली नसतात.

उदाहरण घेऊया: एखादी व्यक्ती त्याच्या/तिच्या वजनाबद्दल जागरूक आहे आणि सर्वेक्षणामध्ये वजनाचा फील्ड भरत नाही. अशा परिस्थितीत त्या व्यक्तीसाठी वजनाचे मूल्य हरवलेले असेल.

बहुतेक वेळा, वास्तविक जगातील डेटासेट्समध्ये हरवलेली मूल्ये आढळतात.

**पांडास हरवलेल्या डेटाचा कसा सामना करतो**

पांडास हरवलेल्या मूल्यांचा दोन प्रकारे सामना करतो. पहिला प्रकार तुम्ही याआधीच्या विभागांमध्ये पाहिला आहे: `NaN`, म्हणजेच Not a Number. हे प्रत्यक्षात IEEE फ्लोटिंग-पॉइंट स्पेसिफिकेशनचा एक विशेष मूल्य आहे आणि ते फक्त हरवलेल्या फ्लोटिंग-पॉइंट मूल्ये दर्शवण्यासाठी वापरले जाते.

फ्लोट्स व्यतिरिक्त हरवलेल्या मूल्यांसाठी, पांडास Python चा `None` ऑब्जेक्ट वापरतो. दोन वेगवेगळ्या प्रकारच्या मूल्यांचा सामना करावा लागतो हे गोंधळात टाकणारे वाटू शकते, परंतु या डिझाइन निवडीसाठी ठोस प्रोग्रामिंग कारणे आहेत आणि प्रत्यक्षात, या मार्गाने जाणे पांडासला बहुतेक प्रकरणांमध्ये चांगला तडजोड देण्यास सक्षम करते. तरीही, `None` आणि `NaN` दोन्हीवर काही मर्यादा आहेत ज्यांचा वापर करताना तुम्हाला लक्षात ठेवणे आवश्यक आहे.


### `None`: नॉन-फ्लोट गहाळ डेटा
`None` हा Python मधून येतो, त्यामुळे तो NumPy आणि pandas च्या अशा arrays मध्ये वापरता येत नाही ज्यांचा डेटा प्रकार `'object'` नाही. लक्षात ठेवा, NumPy arrays (आणि pandas मधील डेटा संरचना) फक्त एकाच प्रकारचा डेटा ठेवू शकतात. यामुळेच ते मोठ्या प्रमाणावर डेटा आणि computational कामासाठी जबरदस्त शक्तिशाली ठरतात, पण त्याच वेळी त्यांची लवचिकता मर्यादित होते. अशा arrays ला “lowest common denominator” मध्ये बदलावे लागते, म्हणजेच त्या array मधील सर्व गोष्टींना सामावून घेणारा डेटा प्रकार. जेव्हा `None` array मध्ये असतो, तेव्हा तुम्ही Python objects सोबत काम करत आहात असे मानले जाते.

हे कृतीत पाहण्यासाठी, खालील उदाहरण array विचारात घ्या (त्याचा `dtype` लक्षात घ्या):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

अपकास्ट डेटा प्रकारांची वास्तविकता दोन साइड इफेक्ट्ससह येते. पहिले, ऑपरेशन्स संकलित NumPy कोडऐवजी इंटरप्रेटेड Python कोडच्या स्तरावर चालवले जातील. याचा अर्थ असा की `Series` किंवा `DataFrames` मध्ये `None` असलेल्या कोणत्याही ऑपरेशन्ससाठी गती कमी होईल. तुम्हाला कदाचित ही कार्यक्षमता कमी झाल्याची जाणीव होणार नाही, परंतु मोठ्या डेटासेटसाठी हे एक समस्या बनू शकते.

दुसरा साइड इफेक्ट पहिल्यापासून उद्भवतो. कारण `None` मुळात `Series` किंवा `DataFrame`s ला व्हॅनिला Python च्या जगात परत आणते, त्यामुळे NumPy/pandas चे `sum()` किंवा `min()` सारखे ऍग्रीगेशन फंक्शन्स अशा ऍरेवर वापरणे ज्यामध्ये ``None`` मूल्य आहे, सामान्यतः एक त्रुटी निर्माण करेल:


In [10]:
example1.sum()

TypeError: ignored

**महत्त्वाचा मुद्दा**: पूर्णांक आणि `None` मूल्यांमधील बेरीज (आणि इतर क्रिया) अनिर्दिष्ट आहे, ज्यामुळे अशा डेटासेट्ससह काय करता येईल यावर मर्यादा येऊ शकते.


### `NaN`: गहाळ फ्लोट मूल्ये

`None` च्या विरोधात, NumPy (आणि त्यामुळे pandas) त्याच्या जलद, व्हेक्टराइज्ड ऑपरेशन्स आणि ufuncs साठी `NaN` ला समर्थन देते. वाईट बातमी म्हणजे `NaN` वर केलेली कोणतीही अंकगणितीय क्रिया नेहमी `NaN` देते. उदाहरणार्थ:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

चांगली बातमी: `NaN` असलेल्या arrays वर चालणाऱ्या aggregations त्रुटी निर्माण करत नाहीत. वाईट बातमी: परिणाम सर्वत्र उपयुक्त नसतात:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### व्यायाम:


In [11]:
# What happens if you add np.nan and None together?


लक्षात ठेवा: `NaN` फक्त गहाळ फ्लोटिंग-पॉइंट मूल्यांसाठी आहे; पूर्णांक, स्ट्रिंग्स किंवा बूलियनसाठी `NaN` समानार्थी नाही.


### `NaN` आणि `None`: pandas मधील null मूल्ये

जरी `NaN` आणि `None` काही प्रमाणात वेगळ्या प्रकारे वागू शकतात, तरीही pandas त्यांना एकसारखे हाताळण्यासाठी तयार केले आहे. याचा अर्थ काय आहे हे पाहण्यासाठी, integers चा एक `Series` विचार करा:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### व्यायाम:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


`Series` आणि `DataFrame` मध्ये डेटा प्रकारांची एकसंधता स्थापित करण्यासाठी डेटा अपकास्ट करताना, pandas सहजपणे `None` आणि `NaN` दरम्यान गहाळ मूल्ये बदलतो. या डिझाइन वैशिष्ट्यामुळे, pandas मध्ये `None` आणि `NaN` हे "null" चे दोन वेगळे प्रकार म्हणून विचार करणे उपयुक्त ठरू शकते. खरंच, pandas मध्ये गहाळ मूल्यांशी व्यवहार करण्यासाठी तुम्ही वापरणाऱ्या काही मुख्य पद्धती त्यांच्या नावांमध्ये या कल्पनेचे प्रतिबिंब दाखवतात:

- `isnull()`: गहाळ मूल्ये दर्शविणारा Boolean मास्क तयार करते
- `notnull()`: `isnull()` चा उलट
- `dropna()`: डेटा फिल्टर केलेला आवृत्ती परत करते
- `fillna()`: गहाळ मूल्ये भरून किंवा अंदाज लावून डेटा कॉपी परत करते

या पद्धतींवर प्रभुत्व मिळवणे आणि त्यांचा आत्मविश्वासाने वापर करणे महत्त्वाचे आहे, त्यामुळे चला प्रत्येकावर सविस्तरपणे चर्चा करूया.


### शून्य मूल्य शोधणे

आता आपल्याला गहाळ मूल्यांचे महत्त्व समजले आहे, त्यामुळे त्यांच्याशी व्यवहार करण्यापूर्वी आपल्याला आपल्या डेटासेटमध्ये त्यांना शोधणे आवश्यक आहे. 
`isnull()` आणि `notnull()` हे शून्य डेटा शोधण्यासाठी तुमचे प्राथमिक पद्धती आहेत. दोन्ही तुमच्या डेटावर Boolean मास्क परत करतात.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

आउटपुटकडे बारकाईने पाहा. त्यात काही आश्चर्य वाटतंय का? जरी `0` हे अंकगणितीय शून्य असले तरी, ते एक पूर्णांक आहे आणि pandas त्याला तसंच मानतो. `''` थोडं अधिक सूक्ष्म आहे. जरी आपण ते विभाग 1 मध्ये रिक्त स्ट्रिंग मूल्य दर्शवण्यासाठी वापरले असले तरी, ते एक स्ट्रिंग ऑब्जेक्ट आहे आणि pandas च्या दृष्टीने null चे प्रतिनिधित्व नाही.

आता, हे उलटं करून पाहूया आणि या पद्धतींचा वापर जसा तुम्ही प्रत्यक्षात कराल तसा करूया. Boolean मास्कचा वापर थेट ``Series`` किंवा ``DataFrame`` इंडेक्स म्हणून करता येतो, जे गहाळ (किंवा विद्यमान) मूल्यांसोबत काम करताना उपयुक्त ठरू शकते.

जर आपल्याला गहाळ मूल्यांची एकूण संख्या हवी असेल, तर आपण `isnull()` पद्धतीने तयार केलेल्या मास्कवर फक्त sum करू शकतो.


In [19]:
example3.isnull().sum()

2

### व्यायाम:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**महत्त्वाचा मुद्दा**: `isnull()` आणि `notnull()` या दोन्ही पद्धती DataFrames मध्ये वापरल्यास समान परिणाम देतात: त्या परिणाम आणि त्या परिणामांचे निर्देशांक दाखवतात, जे तुम्हाला तुमच्या डेटासह काम करताना खूप मदत करतील.


### हरवलेल्या डेटाशी सामना करणे

> **शिकण्याचे उद्दिष्ट:** या उपविभागाच्या शेवटी, तुम्हाला DataFrames मधून null मूल्ये कधी आणि कशी बदलायची किंवा काढायची हे माहित असावे.

मशीन लर्निंग मॉडेल्स स्वतः हरवलेल्या डेटाशी सामना करू शकत नाहीत. त्यामुळे, डेटा मॉडेलमध्ये पाठवण्यापूर्वी, आपल्याला या हरवलेल्या मूल्यांशी सामना करावा लागतो.

हरवलेल्या डेटाशी कसे व्यवहार करायचे यामध्ये सूक्ष्म तडजोडी असतात, ज्याचा तुमच्या अंतिम विश्लेषणावर आणि वास्तविक जगातील परिणामांवर प्रभाव पडू शकतो.

हरवलेल्या डेटाशी सामना करण्याचे मुख्यतः दोन मार्ग आहेत:

1.   हरवलेल्या मूल्य असलेली पंक्ती काढून टाका
2.   हरवलेल्या मूल्याला दुसऱ्या काही मूल्याने बदला

आम्ही या दोन्ही पद्धती आणि त्यांचे फायदे व तोटे सविस्तरपणे चर्चा करू.


### शून्य मूल्य काढून टाकणे

आपण आपल्या मॉडेलला जितका डेटा पुरवतो, त्याचा त्याच्या कार्यक्षमतेवर थेट परिणाम होतो. शून्य मूल्ये काढून टाकणे म्हणजे आपण डेटापॉइंट्सची संख्या कमी करत आहोत आणि त्यामुळे डेटासेटचा आकारही कमी होत आहे. त्यामुळे, जेव्हा डेटासेट खूप मोठा असेल, तेव्हा शून्य मूल्य असलेल्या रकाने काढून टाकणे योग्य ठरते.

आणखी एक उदाहरण म्हणजे एखाद्या विशिष्ट रकान्यात किंवा स्तंभात खूप शून्य मूल्ये असणे. अशावेळी, ती रकाने किंवा स्तंभ काढून टाकले जाऊ शकतात कारण त्या रकान्यात/स्तंभात बहुतेक डेटा गहाळ असल्यामुळे ते आपल्या विश्लेषणात फारसा उपयोगी ठरणार नाहीत.

गहाळ मूल्ये ओळखण्यापलीकडे, pandas `Series` आणि `DataFrame`s मधून शून्य मूल्ये काढून टाकण्यासाठी सोयीस्कर साधन उपलब्ध करून देते. हे प्रत्यक्षात कसे कार्य करते ते पाहण्यासाठी, आपण `example3` कडे परत जाऊ. `DataFrame.dropna()` फंक्शन शून्य मूल्य असलेल्या रकाने काढून टाकण्यासाठी मदत करते.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

लक्षात घ्या की हे तुमच्या `example3[example3.notnull()]` च्या आउटपुटसारखे दिसले पाहिजे. येथे फरक असा आहे की, फक्त मास्क केलेल्या मूल्यांवर इंडेक्सिंग करण्याऐवजी, `dropna` ने `Series` `example3` मधील ती गहाळ मूल्ये काढून टाकली आहेत.

कारण DataFrames दोन परिमाण असतात, त्यामुळे डेटा काढून टाकण्यासाठी अधिक पर्याय उपलब्ध होतात.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(आपण लक्षात घेतले का की pandas ने `NaN`s accommodate करण्यासाठी दोन स्तंभ float मध्ये बदलले?)

आपण `DataFrame` मधून एकच मूल्य काढून टाकू शकत नाही, त्यामुळे आपल्याला संपूर्ण पंक्ती किंवा स्तंभ काढून टाकावे लागतील. आपण काय करत आहात यावर अवलंबून, आपल्याला एक किंवा दुसरे करायचे असू शकते, आणि म्हणून pandas आपल्याला दोन्ही पर्याय देतो. कारण डेटा सायन्समध्ये, स्तंभ सामान्यतः बदल दर्शवतात आणि पंक्ती निरीक्षणे दर्शवतात, आपण डेटा पंक्ती काढून टाकण्याची अधिक शक्यता असते; `dropna()` साठी डिफॉल्ट सेटिंग म्हणजे अशा सर्व पंक्ती काढून टाकणे ज्यामध्ये कोणतीही null मूल्ये असतात:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


जर आवश्यक असेल, तर तुम्ही स्तंभांमधून NA मूल्ये काढून टाकू शकता. असे करण्यासाठी `axis=1` वापरा:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


लक्षात घ्या की यामुळे तुम्हाला ठेवायचा असलेला डेटा, विशेषतः लहान डेटासेटमध्ये, मोठ्या प्रमाणात गमवावा लागू शकतो. जर तुम्हाला फक्त अशा पंक्ती किंवा स्तंभ काढून टाकायचे असतील ज्यामध्ये अनेक किंवा अगदी सर्व null मूल्ये असतील, तर तुम्ही `dropna` मध्ये `how` आणि `thresh` पॅरामीटर्स सेट करू शकता.

डिफॉल्टनुसार, `how='any'` असते (जर तुम्हाला स्वतः तपासायचे असेल किंवा या मेथडमध्ये कोणते इतर पॅरामीटर्स आहेत ते पाहायचे असेल, तर कोड सेलमध्ये `example4.dropna?` चालवा). पर्यायाने, तुम्ही `how='all'` असे सेट करू शकता, ज्यामुळे फक्त अशा पंक्ती किंवा स्तंभ काढून टाकले जातील ज्यामध्ये सर्व null मूल्ये असतील. पुढील व्यायामात हे प्रत्यक्षात कसे कार्य करते ते पाहण्यासाठी आपण आपले उदाहरण `DataFrame` विस्तृत करूया.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> मुख्य मुद्दे:
1. डेटासेट पुरेसा मोठा असेल तेव्हाच null मूल्ये काढून टाकणे योग्य ठरते.
2. पूर्ण रांगा किंवा स्तंभ काढून टाकता येतात जर त्यामध्ये बहुतेक डेटा गायब असेल.
3. `DataFrame.dropna(axis=)` पद्धत null मूल्ये काढून टाकण्यासाठी मदत करते. `axis` युक्तिवाद सूचित करतो की रांगा काढून टाकायच्या आहेत की स्तंभ.
4. `how` युक्तिवाद देखील वापरता येतो. डीफॉल्टनुसार ते `any` वर सेट केलेले असते. त्यामुळे, फक्त त्या रांगा/स्तंभ काढून टाकले जातात ज्यामध्ये कोणतेही null मूल्ये असतात. ते `all` वर सेट करून आपण फक्त त्या रांगा/स्तंभ काढून टाकू शकतो जिथे सर्व मूल्ये null आहेत.


### व्यायाम:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` पॅरामीटर तुम्हाला अधिक सूक्ष्म नियंत्रण देते: तुम्ही सेट करता की एखाद्या पंक्ती किंवा स्तंभामध्ये ठेवण्यासाठी किती *नॉन-नल* मूल्ये असणे आवश्यक आहे:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


येथे, पहिली आणि शेवटची ओळ वगळली गेली आहे, कारण त्यामध्ये फक्त दोन नॉन-नल मूल्ये आहेत.


### रिक्त मूल्ये भरणे

कधी कधी हरवलेल्या मूल्यांना अशा मूल्यांनी भरणे योग्य ठरते जे वैध असू शकतात. रिक्त मूल्ये भरण्यासाठी काही तंत्रे आहेत. पहिले तंत्र म्हणजे डोमेन ज्ञान (डेटासेट ज्या विषयावर आधारित आहे त्याचे ज्ञान) वापरून हरवलेल्या मूल्यांचा अंदाज लावणे.

तुम्ही `isnull` वापरून हे थेट करू शकता, परंतु जर तुम्हाला भरायची अनेक मूल्ये असतील तर ते श्रमसाध्य होऊ शकते. कारण डेटा सायन्समध्ये ही एक सामान्य प्रक्रिया आहे, pandas `fillna` प्रदान करते, जे `Series` किंवा `DataFrame` ची एक प्रत परत करते ज्यामध्ये हरवलेली मूल्ये तुमच्या निवडीच्या मूल्यांनी बदललेली असतात. हे प्रत्यक्षात कसे कार्य करते हे पाहण्यासाठी आणखी एक उदाहरण `Series` तयार करूया.


### श्रेणीसंबंधी डेटा (असंख्यात्मक)
सुरुवातीला आपण असंख्यात्मक डेटा विचारात घेऊ. डेटासेटमध्ये, आपल्याकडे श्रेणीसंबंधी डेटा असलेले स्तंभ असतात. उदा. लिंग, खरे किंवा खोटे इत्यादी.

बहुतेक वेळा, अशा परिस्थितीत, आम्ही गहाळ मूल्ये त्या स्तंभाच्या `mode` ने बदलतो. उदाहरणार्थ, आपल्याकडे 100 डेटा पॉइंट्स आहेत आणि त्यापैकी 90 जणांनी खरे म्हटले आहे, 8 जणांनी खोटे म्हटले आहे आणि 2 जणांनी काहीही भरलेले नाही. अशा वेळी, आपण त्या 2 गहाळ मूल्यांना खरेने भरू शकतो, संपूर्ण स्तंभ विचारात घेऊन.

पुन्हा, येथे आपण डोमेन ज्ञानाचा उपयोग करू शकतो. `mode` ने भरल्याचा एक उदाहरण विचार करू.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


आता, प्रथम `None` मूल्य मोडने भरून टाकण्यापूर्वी मोड शोधूया.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

म्हणून, आम्ही None च्या जागी True ठेवू.


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


जसे आपण पाहू शकतो, null मूल्य बदलले गेले आहे. निःसंशयपणे, आपण `'True'` च्या जागी काहीही लिहू शकतो आणि ते बदलले जाईल.


### संख्यात्मक डेटा
आता, संख्यात्मक डेटाकडे वळूया. येथे, गहाळ मूल्ये बदलण्यासाठी दोन सामान्य पद्धती आहेत:

1. पंक्तीच्या माध्याने बदलणे  
2. पंक्तीच्या सरासरीने बदलणे  

आम्ही माध्याने बदलतो, जेव्हा डेटा आउटलायर्ससह तिर्यक असतो. कारण माध्य आउटलायर्ससाठी मजबूत असते.

जेव्हा डेटा सामान्यीकृत (normalized) असतो, तेव्हा आपण सरासरी वापरू शकतो, कारण अशा परिस्थितीत सरासरी आणि माध्य जवळजवळ समान असतात.

सर्वप्रथम, आपण एक स्तंभ घेऊ जो सामान्य वितरणात आहे आणि त्या स्तंभाच्या सरासरीने गहाळ मूल्य भरूया.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


स्तंभाचा सरासरी आहे


In [33]:
np.mean(fill_with_mean[0])

0.0

मध्यमाने भरत आहे


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


जसे आपण पाहू शकतो, गहाळ मूल्य त्याच्या सरासरीने बदलले गेले आहे.


आता आपण दुसरा डेटा फ्रेम वापरूया, आणि यावेळी आम्ही None मूल्ये स्तंभाच्या मध्यमानाने बदलू.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


दुसऱ्या स्तंभाचा मध्यक आहे


In [36]:
fill_with_median[1].median()

4.0

मध्यक मूल्याने भरत आहे


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


जसे आपण पाहू शकतो, NaN मूल्य स्तंभाच्या मध्यमाने बदलले गेले आहे.


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

आपण सर्व रिक्त नोंदी एका मूल्याने भरू शकता, जसे की `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> मुख्य मुद्दे:
1. गहाळ मूल्ये भरताना तेव्हा करावे जेव्हा डेटा कमी असेल किंवा गहाळ डेटा भरण्याची काही रणनीती असेल.
2. गहाळ मूल्ये अंदाजे भरण्यासाठी डोमेन ज्ञानाचा उपयोग केला जाऊ शकतो.
3. श्रेणीबद्ध डेटासाठी, प्रामुख्याने, गहाळ मूल्ये स्तंभाच्या मोडने बदलली जातात.
4. संख्यात्मक डेटासाठी, गहाळ मूल्ये सामान्यतः स्तंभांच्या सरासरी (सामान्यीकृत डेटासेटसाठी) किंवा माध्याने भरली जातात.


### व्यायाम:


In [40]:
# What happens if you try to fill null values with a string, like ''?


आपण **फॉरवर्ड-फिल** शून्य मूल्ये करू शकता, म्हणजेच शेवटच्या वैध मूल्याचा वापर करून शून्य भरू शकता:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

तुम्ही null भरण्यासाठी पुढील वैध मूल्य मागे नेऊन **back-fill** देखील करू शकता:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

जसे तुम्ही अंदाज लावू शकता, हे DataFrames सोबत देखील तसेच कार्य करते, परंतु तुम्ही null मूल्ये भरण्यासाठी `axis` देखील निर्दिष्ट करू शकता:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


लक्षात घ्या की जेव्हा पूर्वीचे मूल्य पुढे भरण्यासाठी उपलब्ध नसते, तेव्हा रिक्त मूल्य तसेच राहते.


### व्यायाम:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


आपण `fillna` कसे वापरता याबद्दल सर्जनशील होऊ शकता. उदाहरणार्थ, पुन्हा `example4` पाहूया, पण यावेळी `DataFrame` मधील सर्व मूल्यांचा सरासरी वापरून गहाळ मूल्ये भरूया:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


लक्षात घ्या की स्तंभ 3 अजूनही रिक्त आहे: डीफॉल्ट दिशा म्हणजे मूल्ये पंक्तीवार भरणे.

> **महत्त्वाचे:** तुमच्या डेटासेटमधील हरवलेल्या मूल्यांशी व्यवहार करण्याचे अनेक मार्ग आहेत. तुम्ही वापरलेली विशिष्ट रणनीती (त्यांना काढून टाकणे, त्यांची जागा घेणे, किंवा त्यांना कसे बदलायचे) त्या डेटाच्या विशिष्टतेनुसार ठरवली पाहिजे. तुम्ही जितके अधिक डेटासेट हाताळाल आणि त्यांच्याशी संवाद साधाल तितके हरवलेल्या मूल्यांशी व्यवहार करण्याची चांगली समज विकसित होईल.


### श्रेणीसंबंधी डेटा एन्कोड करणे

मशीन लर्निंग मॉडेल्स फक्त संख्यात्मक डेटा आणि कोणत्याही प्रकारच्या संख्यात्मक माहितीशी व्यवहार करतात. ते "होय" आणि "नाही" यामधील फरक ओळखू शकत नाहीत, परंतु ते 0 आणि 1 मधील फरक ओळखू शकतील. त्यामुळे, गहाळ मूल्ये भरल्यानंतर, आपल्याला श्रेणीसंबंधी डेटा काही संख्यात्मक स्वरूपात एन्कोड करणे आवश्यक आहे जेणेकरून मॉडेलला ते समजेल.

एन्कोडिंग दोन प्रकारे करता येते. पुढे आपण त्याबद्दल चर्चा करू.


**लेबल एन्कोडिंग**

लेबल एन्कोडिंग म्हणजे प्रत्येक श्रेणीला एका संख्येमध्ये रूपांतरित करणे. उदाहरणार्थ, समजा आपल्याकडे विमान प्रवाशांचा डेटासेट आहे आणि त्यामध्ये त्यांच्या वर्गाची माहिती असलेला एक स्तंभ आहे ['बिझनेस क्लास', 'इकॉनॉमी क्लास', 'फर्स्ट क्लास']. जर लेबल एन्कोडिंग केले गेले, तर हे [0,1,2] मध्ये रूपांतरित होईल. चला कोडच्या माध्यमातून एक उदाहरण पाहूया. कारण आपण पुढील नोटबुक्समध्ये `scikit-learn` शिकणार आहोत, त्यामुळे येथे आपण ते वापरणार नाही.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


पहिल्या स्तंभावर लेबल एन्कोडिंग करण्यासाठी, प्रत्येक वर्गासाठी एका संख्येची मॅपिंग तयार करावी लागते, त्यानंतर बदल करावा लागतो.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


जसे आपण पाहतो, आउटपुट आपल्या अपेक्षेनुसार आहे. तर, लेबल एन्कोडिंग कधी वापरावे? लेबल एन्कोडिंग खालीलपैकी एक किंवा दोन्ही परिस्थितींमध्ये वापरले जाते:  
1. जेव्हा श्रेणींची संख्या मोठी असते  
2. जेव्हा श्रेण्या क्रमाने असतात.  


**वन हॉट एनकोडिंग**

एनकोडिंगचा आणखी एक प्रकार म्हणजे वन हॉट एनकोडिंग. या प्रकारात, कॉलममधील प्रत्येक श्रेणीसाठी स्वतंत्र कॉलम जोडला जातो आणि प्रत्येक डेटा पॉइंटमध्ये त्या श्रेणीचा समावेश आहे की नाही यावर आधारित 0 किंवा 1 दिला जातो. त्यामुळे, जर n वेगवेगळ्या श्रेण्या असतील, तर n कॉलम डेटा फ्रेममध्ये जोडले जातील.

उदाहरणार्थ, आपण पुन्हा विमानाच्या वर्गाचे उदाहरण घेऊ. श्रेण्या होत्या: ['बिझनेस क्लास', 'इकॉनॉमी क्लास', 'फर्स्ट क्लास']. त्यामुळे, जर आपण वन हॉट एनकोडिंग केले, तर खालील तीन कॉलम डेटासेटमध्ये जोडले जातील: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


चला पहिल्या स्तंभावर वन हॉट एन्कोडिंग करूया


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


प्रत्येक वन हॉट एन्कोड केलेल्या स्तंभामध्ये 0 किंवा 1 असते, जे त्या डेटापॉइंटसाठी ती श्रेणी अस्तित्वात आहे की नाही हे निर्दिष्ट करते.


आपण वन हॉट एन्कोडिंग कधी वापरतो? वन हॉट एन्कोडिंग खालीलपैकी एक किंवा दोन्ही परिस्थितींमध्ये वापरले जाते:

1. जेव्हा श्रेणींची संख्या आणि डेटासेटचा आकार लहान असतो.
2. जेव्हा श्रेणी कोणत्याही विशिष्ट क्रमाचे पालन करत नाहीत.


> मुख्य मुद्दे:
1. संख्यात्मक नसलेल्या डेटाला संख्यात्मक डेटामध्ये रूपांतरित करण्यासाठी एन्कोडिंग केले जाते.
2. एन्कोडिंगचे दोन प्रकार आहेत: लेबल एन्कोडिंग आणि वन हॉट एन्कोडिंग, जे डेटासेटच्या गरजेनुसार केले जाऊ शकते.


## डुप्लिकेट डेटा काढणे

> **शिकण्याचे उद्दिष्ट:** या उपविभागाच्या शेवटी, तुम्ही DataFrames मधून डुप्लिकेट मूल्ये ओळखण्यात आणि काढण्यात सहजतेने सक्षम असाल.

गहाळ डेटाशिवाय, तुम्हाला वास्तविक जगातील डेटासेटमध्ये अनेकदा डुप्लिकेट डेटा सापडतो. सुदैवाने, pandas डुप्लिकेट नोंदी शोधण्यासाठी आणि काढण्यासाठी सोपी पद्धत प्रदान करते.


### डुप्लिकेट ओळखणे: `duplicated`

तुम्ही pandas मधील `duplicated` पद्धतीचा वापर करून सहजपणे डुप्लिकेट मूल्ये ओळखू शकता, जी Boolean मास्क परत करते ज्यामध्ये एखादी नोंद `DataFrame` मध्ये आधीच्या नोंदीची डुप्लिकेट आहे का हे दर्शवले जाते. चला याचा उपयोग करून एक उदाहरण `DataFrame` तयार करूया.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### डुप्लिकेट्स काढणे: `drop_duplicates`
`drop_duplicates` फक्त अशा डेटाची प्रत परत करते ज्यासाठी सर्व `duplicated` मूल्ये `False` आहेत:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` आणि `drop_duplicates` डिफॉल्टनं सर्व स्तंभ विचारात घेतात, पण तुम्ही तुमच्या `DataFrame` मधील स्तंभांचा उपसंच तपासण्यासाठी त्यांना निर्दिष्ट करू शकता:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **महत्त्वाचे:** डुप्लिकेट डेटा काढून टाकणे हे जवळजवळ प्रत्येक डेटा-सायन्स प्रकल्पाचा महत्त्वाचा भाग आहे. डुप्लिकेट डेटा तुमच्या विश्लेषणाचे परिणाम बदलू शकतो आणि तुम्हाला चुकीचे परिणाम देऊ शकतो!


## वास्तविक-जगातील डेटा गुणवत्ता तपासणी

> **शिकण्याचे उद्दिष्ट:** या विभागाच्या शेवटी, तुम्हाला असंगत श्रेणीमूल्ये, असामान्य संख्यात्मक मूल्ये (अत्युच्च मूल्ये), आणि थोड्या फरकांसह पुनरावृत्ती असलेल्या घटकांसह सामान्य डेटा गुणवत्ता समस्यांचे शोध आणि सुधार करण्याची सवय होईल.

जरी गहाळ मूल्ये आणि अचूक पुनरावृत्ती सामान्य समस्या असल्या तरी, वास्तविक-जगातील डेटासेटमध्ये अधिक सूक्ष्म समस्या असतात:

1. **असंगत श्रेणीमूल्ये**: समान श्रेणी वेगवेगळ्या प्रकारे लिहिलेली (उदा., "USA", "U.S.A", "United States")
2. **असामान्य संख्यात्मक मूल्ये**: डेटा नोंदवण्याच्या त्रुटी सूचित करणारी अत्युच्च मूल्ये (उदा., वय = 999)
3. **जवळपास पुनरावृत्ती असलेल्या ओळी**: थोड्या फरकांसह समान घटकाचे प्रतिनिधित्व करणारे नोंद

या समस्यांचे शोध आणि हाताळण्यासाठी तंत्रे शोधूया.


### "डर्टी" डेटासेट तयार करणे

सुरुवातीला, आपण एक नमुना डेटासेट तयार करूया ज्यामध्ये वास्तविक जगातील डेटामध्ये सामान्यतः आढळणाऱ्या समस्या असतील:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. असंगत श्रेणीमूल्य शोधणे

`country` स्तंभामध्ये समान देशांसाठी अनेक प्रकार दिसून येतात. चला या असंगती ओळखूया:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### श्रेणीबद्ध मूल्यांचे मानकीकरण

आपण या मूल्यांचे मानकीकरण करण्यासाठी एक मॅपिंग तयार करू शकतो. एक सोपी पद्धत म्हणजे लहान अक्षरात रूपांतर करणे आणि मॅपिंग डिक्शनरी तयार करणे:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**पर्याय: अस्पष्ट जुळणीचा वापर**

अधिक जटिल प्रकरणांसाठी, आपण `rapidfuzz` लायब्ररीसह अस्पष्ट स्ट्रिंग जुळणी वापरू शकतो जेणेकरून समान स्ट्रिंग्स आपोआप ओळखता येतील:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. असामान्य संख्यात्मक मूल्य (आउटलायर्स) शोधणे

`age` स्तंभाकडे पाहताना, आपल्याला 199 आणि -5 सारखे काही संशयास्पद मूल्ये दिसतात. चल statistical पद्धतींचा वापर करून या आउटलाईर्स शोधूया.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### IQR (इंटरक्वार्टाइल रेंज) पद्धत वापरणे

IQR पद्धत ही बाह्य मूल्य शोधण्यासाठी एक मजबूत सांख्यिकीय तंत्र आहे जी अत्यंत मूल्यांबद्दल कमी संवेदनशील आहे:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Z-स्कोर पद्धत वापरणे

Z-स्कोर पद्धत सरासरीपासून मानक विचलनांवर आधारित अपवाद ओळखते:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### अपवाद हाताळणे

एकदा ओळखल्यानंतर, अपवाद अनेक प्रकारे हाताळले जाऊ शकतात:
1. **काढून टाका**: अपवाद असलेल्या पंक्ती हटवा (जर त्या चुका असतील)
2. **मर्यादा ठेवा**: सीमा मूल्यांसह बदल करा
3. **NaN ने बदला**: हरवलेला डेटा म्हणून विचार करा आणि भरपाई तंत्र वापरा
4. **ठेवा**: जर ते वैध अत्यंत मूल्ये असतील


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. जवळजवळ जुळणाऱ्या ओळी शोधणे

लक्षात घ्या की आपल्या डेटासेटमध्ये "John Smith" साठी थोड्या वेगळ्या मूल्यांसह अनेक नोंदी आहेत. नावाच्या साम्याच्या आधारे संभाव्य डुप्लिकेट्स ओळखूया.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### फझी मॅचिंगसह जवळपास डुप्लिकेट शोधणे

अधिक प्रगत डुप्लिकेट शोधण्यासाठी, आपण फझी मॅचिंग वापरून समान नाव शोधू शकतो:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### डुप्लिकेट्स हाताळणे

ओळखल्यानंतर, तुम्हाला डुप्लिकेट्स कसे हाताळायचे ते ठरवावे लागेल:
1. **पहिली नोंद ठेवा**: `drop_duplicates(keep='first')` वापरा
2. **शेवटची नोंद ठेवा**: `drop_duplicates(keep='last')` वापरा
3. **माहिती एकत्र करा**: डुप्लिकेट रकान्यांमधील माहिती एकत्र करा
4. **हस्तलिखित पुनरावलोकन**: मानवी पुनरावलोकनासाठी चिन्हांकित करा


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### सारांश: संपूर्ण डेटा स्वच्छता प्रक्रिया

चला सर्वकाही एकत्र करून एक व्यापक स्वच्छता प्रक्रिया तयार करूया:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 आव्हान व्यायाम

आता तुमची पाळी! खाली दिलेली डेटा पंक्ती अनेक गुणवत्तेच्या समस्यांसह आहे. तुम्ही करू शकता का:

1. या पंक्तीतील सर्व समस्या ओळखणे
2. प्रत्येक समस्येचे निराकरण करण्यासाठी कोड लिहिणे
3. स्वच्छ केलेली पंक्ती डेटासेटमध्ये जोडणे

येथे समस्याग्रस्त डेटा आहे:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### मुख्य मुद्दे

1. **असंगत श्रेणी** वास्तव जगातील डेटामध्ये सामान्य आहेत. नेहमी अद्वितीय मूल्ये तपासा आणि त्यांना मॅपिंग किंवा फझी मॅचिंगद्वारे प्रमाणित करा.

2. **आउटलायर्स** तुमच्या विश्लेषणावर मोठा परिणाम करू शकतात. त्यांचा शोध घेण्यासाठी डोमेन ज्ञानासह सांख्यिकीय पद्धती (IQR, Z-score) वापरा.

3. **जवळपासचे डुप्लिकेट** अचूक डुप्लिकेटपेक्षा शोधणे कठीण असते. त्यांना ओळखण्यासाठी फझी मॅचिंग आणि डेटा सामान्यीकरण (लोअरकेसिंग, व्हाइटस्पेस काढणे) विचारात घ्या.

4. **डेटा स्वच्छ करणे पुनरावृत्तीशील आहे**. स्वच्छ डेटा अंतिम करण्यापूर्वी तुम्हाला अनेक तंत्रे लागू करावी लागतील आणि परिणाम पुनरावलोकन करावे लागतील.

5. **तुमचे निर्णय दस्तऐवजीकरण करा**. तुम्ही कोणते स्वच्छता चरण लागू केले आणि का, याचा मागोवा ठेवा, कारण पुनरुत्पादकता आणि पारदर्शकतेसाठी हे महत्त्वाचे आहे.

> **सर्वोत्तम पद्धत:** तुमचा मूळ "अस्वच्छ" डेटा नेहमी जतन करा. तुमच्या स्रोत डेटा फाइल्स कधीही अधिलिखित करू नका - `data_cleaned.csv` सारख्या स्पष्ट नावाच्या पद्धतींसह स्वच्छ आवृत्त्या तयार करा.



---

**अस्वीकरण**:  
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून उद्भवलेल्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.
