# डेटा तयारी

[मूल नोटबुक स्रोत *डेटा साइन्स: डाटा साइन्सका लागि मेसिन लर्निङको परिचय, पायथन र मेसिन लर्निङ स्टुडियो, ली स्टटद्वारा*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame` जानकारी अन्वेषण गर्दै

> **शिक्षण लक्ष्य:** यो उपविभागको अन्त्यसम्ममा, तपाईं pandas DataFrames मा संग्रहित डाटाको सामान्य जानकारी पत्ता लगाउन सहज हुनु पर्नेछ।

जब तपाईंले आफ्नो डेटा pandas मा लोड गर्नुहुन्छ, यो सम्भवतः `DataFrame` मा हुनेछ। तर, यदि तपाईंको `DataFrame` मा ६०,००० पङ्क्ति र ४०० स्तम्भ छन् भने, तपाईंले काम गरिरहेको डाटाको बारेमा कसरी थाहा पाउनुहुन्छ? सौभाग्यवश, pandas ले `DataFrame` को समग्र जानकारी छिटो हेर्नका लागि केही सुविधाजनक उपकरणहरू प्रदान गर्दछ, साथै पहिलो केही र अन्तिम केही पङ्क्तिहरू पनि।

यस कार्यक्षमता अन्वेषण गर्नका लागि, हामी Python को scikit-learn लाइब्रेरी आयात गर्नेछौं र एक प्रसिद्ध डाटासेट प्रयोग गर्नेछौं जुन प्रत्येक डेटा वैज्ञानिकले सयौं पटक देखेका छन्: ब्रिटिश जीवविज्ञानी रोनाल्ड फिशरको *Iris* डाटासेट, जुन उनले १९३६ मा "The use of multiple measurements in taxonomic problems" नामक कागजमा प्रयोग गरेका थिए:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
हामीले Iris Dataset लाई `iris_df` भेरिएबलमा लोड गरेका छौं। डाटामा गहिराइमा जानु अघि, हामीसँग कति डाटापोइन्टहरू छन् र डाटासेटको कुल आकार कति छ भन्ने जान्नु महत्त्वपूर्ण हुनेछ। हामीले सामना गरिरहेको डाटाको परिमाण हेर्नु उपयोगी हुन्छ।


In [2]:
iris_df.shape

(150, 4)

त्यसैले, हामी १५० पंक्ति र ४ स्तम्भको डेटा संग काम गरिरहेका छौं। प्रत्येक पंक्ति एक डेटा बिन्दुलाई प्रतिनिधित्व गर्दछ र प्रत्येक स्तम्भ डेटा फ्रेमसँग सम्बन्धित एकल विशेषता प्रतिनिधित्व गर्दछ। त्यसैले आधारभूत रूपमा, त्यहाँ १५० डेटा बिन्दुहरू छन् जसमा प्रत्येकमा ४ विशेषताहरू छन्।

`shape` यहाँ डेटा फ्रेमको एक गुण हो र कुनै फङ्सन होइन, यही कारणले यसले जोडी कोष्ठकमा अन्त्य गर्दैन।


### `DataFrame.columns`
अब हामी डाटाका ४ स्तम्भहरूमा प्रवेश गरौं। ती प्रत्येकले वास्तवमा के प्रतिनिधित्व गर्छन्? `columns` गुणले हामीलाई डाटाफ्रेममा स्तम्भहरूको नाम दिन्छ।


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

जस्तो कि हामी देख्न सक्छौं, त्यहाँ चार(४) स्तम्भहरू छन्। `columns` विशेषताले हामीलाई स्तम्भहरूको नाम बताउँछ र आधारभूत रूपमा अरू केही बताउँदैन। यो विशेषता महत्वपूर्ण हुन्छ जब हामी कुनै डेटासेटले समावेश गर्ने विशेषताहरू पहिचान गर्न चाहन्छौं।


### `DataFrame.info`
डाटाको मात्रा (`shape` attribute ले दिएको) र विशेषता वा स्तम्भहरूको नाम (`columns` attribute ले दिएको) ले हामीलाई डेटासेटको बारेमा केही जानकारी दिन्छ। अब, हामी डेटासेटमा अझ गहिरो रूपमा जान चाहन्छौं। `DataFrame.info()` फंक्शन यसका लागि निकै उपयोगी छ।


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


यहाँबाट, हामी केही अवलोकनहरू गर्न सक्छौं:
1. प्रत्येक स्तम्भको डेटा प्रकार: यस डेटासेटमा, सबै डेटा 64-बिट फ्लोटिङ-पोइन्ट संख्याहरूको रूपमा संग्रहित गरिएको छ।
2. गैर-नल मानहरूको संख्या: नल मानहरूलाई व्यवस्थापन गर्नु डेटा तयारीको महत्त्वपूर्ण चरण हो। यसलाई पछि नोटबुकमा सम्बोधन गरिनेछ।


### DataFrame.describe()
मानौं हाम्रो डेटासेटमा धेरै संख्यात्मक डाटा छ। प्रत्येक स्तम्भमा अलग-अलग रूपमा औसत, माध्यिका, चौथाई भागहरू जस्ता एकपक्षीय सांख्यिकीय गणनाहरू गर्न सकिन्छ। `DataFrame.describe()` फङ्सनले हामीलाई डेटासेटका संख्यात्मक स्तम्भहरूको सांख्यिकीय सारांश प्रदान गर्दछ।


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


माथिको आउटपुटले प्रत्येक स्तम्भको कुल डेटा बिन्दुहरूको संख्या, औसत, मानक विचलन, न्यूनतम, तल्लो क्वार्टाइल (२५%), माध्य (५०%), माथिल्लो क्वार्टाइल (७५%) र अधिकतम मान देखाउँछ।


### `DataFrame.head`
माथिका सबै फंक्शनहरू र एट्रिब्युटहरू प्रयोग गरेर, हामीले डेटासेटको उच्च स्तरको दृष्टिकोण प्राप्त गरेका छौं। हामीलाई थाहा छ कति डेटा पोइन्टहरू छन्, कति विशेषताहरू छन्, प्रत्येक विशेषताको डेटा प्रकार के हो, र प्रत्येक विशेषताका लागि कति गैर-शून्य मानहरू छन्।

अब डेटा आफैं हेर्ने समय आएको छ। हाम्रो `DataFrame` का पहिलो केही पङ्क्तिहरू (पहिलो केही डेटा पोइन्टहरू) कस्तो देखिन्छन् हेर्नुहोस्:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


यहाँको नतिजामा, हामीले डेटासेटका पाँच(५) इन्ट्रीहरू देख्न सक्छौं। यदि हामी बायाँतिरको इन्डेक्स हेर्छौं भने, हामी पत्ता लगाउँछौं कि यी पहिलो पाँच पंक्तिहरू हुन्।


### अभ्यास:

माथि दिइएको उदाहरणबाट स्पष्ट छ कि, डिफल्ट रूपमा, `DataFrame.head` ले `DataFrame` का पहिलो पाँच पङ्क्तिहरू फिर्ता गर्छ। तलको कोड सेलमा, के तपाईं पाँचभन्दा बढी पङ्क्तिहरू प्रदर्शन गर्ने तरिका पत्ता लगाउन सक्नुहुन्छ?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
डेटा हेर्ने अर्को तरिका अन्त्यबाट (सुरुवातको सट्टा) हुन सक्छ। `DataFrame.head` को उल्टो पक्ष `DataFrame.tail` हो, जसले `DataFrame` का अन्तिम पाँच पंक्तिहरू फिर्ता गर्छ:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


व्यवहारमा, `DataFrame` का पहिलो केही पङ्क्तिहरू वा अन्तिम केही पङ्क्तिहरू सजिलैसँग जाँच गर्न सक्षम हुनु उपयोगी हुन्छ, विशेष गरी जब तपाईं क्रमबद्ध डेटासेटहरूमा असामान्य मानहरू खोज्दै हुनुहुन्छ। 

माथि कोड उदाहरणहरूको मद्दतले देखाइएका सबै कार्यहरू र विशेषताहरूले हामीलाई डेटा हेर्न र बुझ्न मद्दत गर्छ। 

> **मुख्य कुरा:** केवल `DataFrame` मा भएको जानकारीको मेटाडेटा हेरेर वा यसको पहिलो र अन्तिम केही मानहरू हेरेर पनि, तपाईंले आफूले काम गरिरहेको डेटाको आकार, संरचना, र सामग्रीको बारेमा तुरुन्तै धारणा बनाउन सक्नुहुन्छ।


### हराएको डेटा
आउनुहोस्, हराएको डेटा बारे छलफल गरौं। हराएको डेटा तब हुन्छ जब केही स्तम्भहरूमा कुनै मान राखिएको हुँदैन।

उदाहरण लिऔं: मानौं कसैलाई आफ्नो तौलको बारेमा धेरै चिन्ता छ र उसले सर्वेक्षणमा तौलको क्षेत्र भर्दैन। त्यस अवस्थामा, उक्त व्यक्तिको तौलको मान हराएको हुनेछ।

अधिकांश समय, वास्तविक संसारका डेटासेटहरूमा हराएका मानहरू देखिन्छन्।

**Pandas ले हराएको डेटा कसरी व्यवस्थापन गर्छ**

Pandas ले हराएका मानहरूलाई दुई तरिकाले व्यवस्थापन गर्छ। पहिलो तरिका तपाईंले पहिलेका खण्डहरूमा देख्नुभएको छ: `NaN`, अर्थात् Not a Number। यो वास्तवमा IEEE floating-point विशिष्टताको एक विशेष मान हो र यो केवल हराएका floating-point मानहरूलाई संकेत गर्न प्रयोग गरिन्छ।

Floating-point बाहेकका हराएका मानहरूको लागि, pandas ले Python को `None` वस्तु प्रयोग गर्छ। दुई फरक प्रकारका मानहरू देख्नुपर्दा अलि भ्रमित लाग्न सक्छ, तर यो डिजाइन विकल्पका लागि ठोस प्रोग्रामिङ कारणहरू छन्। व्यवहारमा, यसले pandas लाई अधिकांश केसहरूका लागि राम्रो सन्तुलन प्रदान गर्न सक्षम बनाउँछ। यद्यपि, `None` र `NaN` दुवैसँग केही सीमाहरू छन् जसको बारेमा तपाईं सचेत हुनुपर्छ कि तिनीहरूलाई कसरी प्रयोग गर्न सकिन्छ।


### `None`: गैर-फ्लोट हराएको डेटा
किनभने `None` Python बाट आउँछ, यसलाई NumPy र pandas का arrays मा प्रयोग गर्न सकिँदैन जुन डेटा प्रकार `'object'` होइन। सम्झनुहोस्, NumPy arrays (र pandas मा रहेका डेटा संरचनाहरू) मा केवल एक प्रकारको डेटा मात्र समावेश गर्न सकिन्छ। यही कारणले तिनीहरूलाई ठूलो-स्तरको डेटा र गणनात्मक कामको लागि अत्यधिक शक्ति दिन्छ, तर यसले तिनीहरूको लचिलोपनलाई सीमित पनि गर्छ। यस्ता arrays ले "सबभन्दा सामान्य डिनोमिनेटर," अर्थात् डेटा प्रकार जसले array मा सबै कुरा समेट्न सक्छ, मा अपकास्ट गर्नुपर्छ। जब `None` array मा हुन्छ, यसको मतलब तपाईं Python objects सँग काम गरिरहनुभएको छ।

यसलाई व्यवहारमा देख्नको लागि, निम्न उदाहरण array विचार गर्नुहोस् (यसको `dtype` मा ध्यान दिनुहोस्):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

अपकास्ट डाटा प्रकारहरूको वास्तविकताले दुई प्रकारका प्रभावहरू ल्याउँछ। पहिलो, अपरेशनहरू व्याख्या गरिएको Python कोडको स्तरमा गरिन्छ, कम्पाइल गरिएको NumPy कोडको स्तरमा होइन। यसको मतलब, `Series` वा `DataFrames` मा `None` समावेश भएका अपरेशनहरू सुस्त हुनेछन्। यद्यपि तपाईंले यो प्रदर्शनमा आएको असरलाई सायद महसुस गर्नुहुने छैन, ठूला डाटासेटहरूमा यो समस्या हुन सक्छ।

दोस्रो प्रभाव पहिलोबाट उत्पन्न हुन्छ। किनभने `None` ले `Series` वा `DataFrame`s लाई सामान्य Python को दुनियाँमा फर्काउँछ, त्यसैले NumPy/pandas को `sum()` वा `min()` जस्ता समग्र गणनाहरू प्रयोग गर्दा, यदि array मा ``None`` मान हुन्छ भने सामान्यतया त्रुटि उत्पन्न हुन्छ:


In [10]:
example1.sum()

TypeError: ignored

**मुख्य कुरा**: पूर्णांक र `None` मानहरू बीचको थप (र अन्य अपरेशनहरू) अपरिभाषित हुन्छ, जसले ती समावेश गर्ने डाटासेटहरूसँग के गर्न सकिन्छ भन्ने सीमित गर्न सक्छ।


### `NaN`: हराएको फ्लोट मानहरू

`None` को विपरीत, NumPy (र त्यसैले pandas) ले यसको छिटो, भेक्टराइज्ड अपरेशनहरू र ufuncs को लागि `NaN` समर्थन गर्दछ। नराम्रो समाचार भनेको `NaN` मा गरिने कुनै पनि अंकगणितीय कार्यले सधैं `NaN` नै परिणाम दिन्छ। उदाहरणका लागि:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

राम्रो खबर: `NaN` भएको एरेहरूमा चल्ने समग्रहरू त्रुटिहरू देखाउँदैनन्। नराम्रो खबर: परिणामहरू समान रूपमा उपयोगी हुँदैनन्:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### व्यायाम:


In [11]:
# What happens if you add np.nan and None together?


सम्झनुहोस्: `NaN` केवल हराइरहेका फ्लोटिङ-पोइन्ट मानहरूको लागि हो; पूर्णांक, स्ट्रिङ, वा बूलियनहरूको लागि `NaN` बराबर केही छैन।


### `NaN` र `None`: pandas मा null मानहरू

यद्यपि `NaN` र `None` केही हदसम्म फरक व्यवहार गर्न सक्छन्, pandas तिनीहरूलाई परस्पर रूपमा व्यवस्थापन गर्न बनाइएको छ। हामीले के भन्न खोजेका छौं बुझ्नको लागि, एक `Series` को पूर्णांकहरूको उदाहरण हेर्नुहोस्:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### व्यायाम:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


`Series` र `DataFrame` मा डाटा समानता कायम गर्न डाटा प्रकारलाई अपकास्ट गर्ने प्रक्रियामा, pandas ले हराएका मानहरूलाई `None` र `NaN` बीच सजिलै परिवर्तन गर्न सक्छ। यस डिजाइन सुविधाका कारण, pandas मा `None` र `NaN` लाई "null" का दुई फरक प्रकारका रूपमा सोच्नु उपयोगी हुन सक्छ। वास्तवमा, pandas मा हराएका मानहरूलाई व्यवस्थापन गर्न प्रयोग गरिने केही मुख्य विधिहरूले यस विचारलाई आफ्नो नाममा प्रतिबिम्बित गर्छन्:

- `isnull()`: हराएका मानहरूलाई संकेत गर्ने बूलियन मास्क उत्पन्न गर्छ
- `notnull()`: `isnull()` को विपरीत
- `dropna()`: डाटाको फिल्टर गरिएको संस्करण फर्काउँछ
- `fillna()`: हराएका मानहरू भरेर वा अनुमान गरेर डाटाको प्रतिलिपि फर्काउँछ

यी विधिहरूलाई राम्रोसँग बुझ्न र प्रयोग गर्न सिक्नु महत्त्वपूर्ण छ, त्यसैले अब हामी यी प्रत्येकलाई विस्तारमा बुझ्ने प्रयास गरौं।


### शून्य मानहरू पत्ता लगाउँदै

अब हामीले हराएका मानहरूको महत्त्व बुझिसकेपछि, तिनीहरूलाई व्यवस्थापन गर्नुअघि हाम्रो डेटासेटमा तिनीहरूलाई पत्ता लगाउन आवश्यक छ। 
`isnull()` र `notnull()` दुबै शून्य डाटा पत्ता लगाउनका लागि मुख्य विधिहरू हुन्। दुबैले तपाईंको डाटामा Boolean मास्कहरू फर्काउँछन्।


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

आउटपुटलाई ध्यानपूर्वक हेर्नुहोस्। के यसमा कुनै कुरा तपाईंलाई अचम्म लाग्छ? जबकि `0` एक गणितीय शून्य हो, यो अझै पनि एक राम्रो पूर्णांक हो र pandas ले यसलाई त्यस्तै व्यवहार गर्छ। `''` भने अलि सूक्ष्म छ। हामीले यसलाई खण्ड १ मा खाली स्ट्रिङ मानको रूपमा प्रयोग गरेका थियौं, तर pandas को दृष्टिकोणले यो खालीको प्रतिनिधित्व होइन, यो स्ट्रिङ वस्तु हो।

अब, यसलाई उल्ट्याएर यी विधिहरूलाई व्यवहारमा जस्तै प्रयोग गरिन्छ त्यसरी प्रयोग गरौं। तपाईं Boolean मास्कहरूलाई सिधै ``Series`` वा ``DataFrame`` को इन्डेक्सको रूपमा प्रयोग गर्न सक्नुहुन्छ, जुन छुट्टै हराएका (वा उपस्थित) मानहरूसँग काम गर्दा उपयोगी हुन सक्छ।

यदि हामीलाई हराएका मानहरूको कुल संख्या चाहिन्छ भने, हामी `isnull()` विधिले उत्पादन गरेको मास्कमा सिधै sum गर्न सक्छौं।


In [19]:
example3.isnull().sum()

2

### व्यायाम:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**मुख्य कुरा**: दुवै `isnull()` र `notnull()` विधिहरूले DataFrames मा प्रयोग गर्दा समान परिणामहरू उत्पादन गर्छन्: तिनीहरूले परिणामहरू र ती परिणामहरूको सूचकांक देखाउँछन्, जसले तपाईंलाई तपाईंको डाटासँग संघर्ष गर्दा अत्यधिक मद्दत गर्नेछ।


### हराएको डाटासँग व्यवहार गर्ने

> **अध्ययनको लक्ष्य:** यो उपविभागको अन्त्यसम्ममा, तपाईंले DataFrames बाट null मानहरू कहिले र कसरी प्रतिस्थापन गर्ने वा हटाउने भन्ने कुरा जान्नुपर्नेछ।

मेसिन लर्निङ मोडेलहरूले आफैं हराएको डाटासँग व्यवहार गर्न सक्दैनन्। त्यसैले, मोडेलमा डाटा पठाउनु अघि, हामीले यी हराएका मानहरूलाई व्यवस्थापन गर्नुपर्छ।

हराएको डाटालाई कसरी व्यवस्थापन गरिन्छ भन्ने कुराले सानो तर महत्वपूर्ण प्रभाव पार्छ, जसले तपाईंको अन्तिम विश्लेषण र वास्तविक संसारको परिणामलाई असर गर्न सक्छ।

हराएको डाटासँग व्यवहार गर्ने मुख्यत: दुई तरिका छन्:

1.   हराएको मान भएको पङ्क्ति हटाउनुहोस्
2.   हराएको मानलाई कुनै अन्य मानले प्रतिस्थापन गर्नुहोस्

हामी यी दुवै विधिहरू र तिनका फाइदा र बेफाइदाको विस्तृत रूपमा चर्चा गर्नेछौं।


### खाली मानहरू हटाउने

हामीले हाम्रो मोडेललाई दिने डाटाको मात्रा यसको प्रदर्शनमा सीधा प्रभाव पार्छ। खाली मानहरू हटाउनु भनेको हामीले डाटापोइन्टहरूको संख्या घटाउनु हो, जसले गर्दा डेटासेटको आकार पनि घट्छ। त्यसैले, जब डेटासेट धेरै ठूलो हुन्छ, खाली मान भएका पङ्क्तिहरू हटाउनु सल्लाहयोग्य हुन्छ।

अर्को उदाहरण हुन सक्छ कि कुनै निश्चित पङ्क्ति वा स्तम्भमा धेरै हराएका मानहरू छन्। त्यस अवस्थामा, ती हटाउन सकिन्छ किनभने ती पङ्क्ति/स्तम्भको अधिकांश डाटा हराएको हुँदा हाम्रो विश्लेषणमा धेरै मूल्य थप्दैन।

हराएका मानहरू पहिचान गर्न बाहेक, pandas ले `Series` र `DataFrame`s बाट खाली मानहरू हटाउनको लागि सुविधाजनक उपाय प्रदान गर्दछ। यसलाई व्यवहारमा देख्नको लागि, हामी `example3` मा फर्कौं। `DataFrame.dropna()` फङ्क्सनले खाली मान भएका पङ्क्तिहरू हटाउन मद्दत गर्दछ।


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

ध्यान दिनुहोस् कि यो `example3[example3.notnull()]` को नतिजा जस्तै देखिनु पर्छ। यहाँको फरक के छ भने, केवल मास्क गरिएको मानहरूमा इन्डेक्सिङ गर्ने सट्टा, `dropna` ले `Series` `example3` बाट ती हराएका मानहरू हटाएको छ।

किनभने DataFrames दुई आयामहरूमा हुन्छन्, तिनीहरूले डेटा हटाउनका लागि थप विकल्पहरू प्रदान गर्छन्।


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(के तपाईंले ध्यान दिनुभयो कि pandas ले `NaN`s समायोजन गर्न दुई स्तम्भहरूलाई floats मा परिवर्तन गर्यो?)

तपाईं `DataFrame` बाट एकल मान हटाउन सक्नुहुन्न, त्यसैले तपाईंले पूर्ण पंक्ति वा स्तम्भहरू हटाउनुपर्छ। तपाईंले के गर्दै हुनुहुन्छ भन्ने आधारमा, तपाईंले एउटा वा अर्को गर्न चाहनुहुन्छ, र त्यसैले pandas ले तपाईंलाई दुवैको विकल्प दिन्छ। किनभने डेटा विज्ञानमा, स्तम्भहरूले सामान्यतया चरहरू प्रतिनिधित्व गर्छन् र पंक्तिहरूले अवलोकनहरू प्रतिनिधित्व गर्छन्, तपाईं डेटा पंक्तिहरू हटाउन बढी सम्भावना राख्नुहुन्छ; `dropna()` को डिफल्ट सेटिङले कुनै पनि null मानहरू समावेश गर्ने सबै पंक्तिहरू हटाउँछ:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


यदि आवश्यक छ भने, तपाईं स्तम्भहरूबाट NA मानहरू हटाउन सक्नुहुन्छ। त्यसका लागि `axis=1` प्रयोग गर्नुहोस्:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


ध्यान दिनुहोस् कि यसले धेरै डाटा हटाउन सक्छ जुन तपाईं राख्न चाहनुहुन्छ, विशेष गरी साना डेटासेटहरूमा। यदि तपाईं केवल ती पङ्क्ति वा स्तम्भहरू हटाउन चाहनुहुन्छ जसमा धेरै वा सबै null मानहरू छन् भने के गर्ने? तपाईंले `dropna` मा `how` र `thresh` प्यारामिटरहरू सेट गरेर यो निर्दिष्ट गर्न सक्नुहुन्छ।

डिफल्ट रूपमा, `how='any'` हुन्छ (यदि तपाईं आफैं जाँच गर्न चाहनुहुन्छ वा यो विधिमा अन्य प्यारामिटरहरू के छन् हेर्न चाहनुहुन्छ भने, कोड सेलमा `example4.dropna?` चलाउनुहोस्)। वैकल्पिक रूपमा, तपाईं `how='all'` निर्दिष्ट गर्न सक्नुहुन्छ ताकि केवल ती पङ्क्ति वा स्तम्भहरू हटाउन सकियोस् जसमा सबै null मानहरू छन्। आउँदो अभ्यासमा यो कसरी काम गर्छ भनेर हेर्नको लागि हामी हाम्रो उदाहरण `DataFrame` विस्तार गर्नेछौं।


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> मुख्य बुँदाहरू:  
1. खाली मानहरू हटाउनु राम्रो विचार हो केवल डेटा सेट पर्याप्त ठूलो भएमा।  
2. पूर्ण पङ्क्ति वा स्तम्भहरू हटाउन सकिन्छ यदि तिनीहरूको अधिकांश डेटा हराएको छ भने।  
3. `DataFrame.dropna(axis=)` विधिले खाली मानहरू हटाउन मद्दत गर्दछ। `axis` तर्कले पङ्क्ति हटाउने वा स्तम्भ हटाउने कुरा जनाउँछ।  
4. `how` तर्क पनि प्रयोग गर्न सकिन्छ। डिफल्टमा यो `any` मा सेट गरिएको हुन्छ। त्यसैले, यो केवल ती पङ्क्ति/स्तम्भहरू हटाउँछ जसमा कुनै पनि खाली मानहरू छन्। यसलाई `all` मा सेट गर्न सकिन्छ जसले हामी केवल ती पङ्क्ति/स्तम्भहरू हटाउँछौं जहाँ सबै मानहरू खाली छन्।  


### व्यायाम:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` प्यारामिटरले तपाईंलाई सूक्ष्म नियन्त्रण दिन्छ: तपाईंले पंक्ति वा स्तम्भलाई राख्नको लागि आवश्यक *गैर-शून्य* मानहरूको संख्या सेट गर्नुहुन्छ:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


यहाँ, पहिलो र अन्तिम पंक्ति हटाइएको छ, किनभने तिनीहरूमा मात्र दुई गैर-शून्य मानहरू छन्।


### खाली मानहरू भर्ने

कहिलेकाहीँ हराएका मानहरूलाई यस्ता मानहरूद्वारा भर्नु उपयुक्त हुन्छ जुन वैध हुन सक्छ। खाली मानहरू भर्ने केही प्रविधिहरू छन्। पहिलो हो डोमेन ज्ञान (डाटासेट आधारित विषयको ज्ञान) प्रयोग गरेर हराएका मानहरूलाई कुनै प्रकारले अनुमान गर्नु।

तपाईंले `isnull` प्रयोग गरेर यो काम गर्न सक्नुहुन्छ, तर यो धेरै श्रमसाध्य हुन सक्छ, विशेष गरी यदि तपाईंले धेरै मानहरू भर्नुपर्ने छ भने। किनकि यो डाटा विज्ञानमा धेरै सामान्य कार्य हो, pandas ले `fillna` प्रदान गर्दछ, जसले `Series` वा `DataFrame` को प्रतिलिपि फर्काउँछ जहाँ हराएका मानहरू तपाईंले रोजेको मानले प्रतिस्थापन गरिएका हुन्छन्। यसलाई व्यवहारमा कसरी काम गर्छ भनेर हेर्न अर्को उदाहरण `Series` सिर्जना गरौं।


### श्रेणीगत डेटा (गैर-संख्यात्मक)
पहिले गैर-संख्यात्मक डेटा विचार गरौं। डेटासेटहरूमा, हामीसँग श्रेणीगत डेटा भएका स्तम्भहरू हुन्छन्। जस्तै, लिङ्ग, सत्य वा असत्य आदि।

यस्ता धेरै अवस्थामा, हामी हराएका मानहरूलाई स्तम्भको `mode` (सबभन्दा धेरै दोहोरिएको मान) द्वारा प्रतिस्थापन गर्छौं। मानौं, हामीसँग १०० डेटा बिन्दुहरू छन् र ९० जनाले सत्य भनेका छन्, ८ जनाले असत्य भनेका छन् र २ जनाले भरेका छैनन्। त्यस अवस्थामा, हामी ती २ लाई सत्यले भरिदिन सक्छौं, सम्पूर्ण स्तम्भलाई विचार गर्दै।

फेरि, यहाँ हामी डोमेन ज्ञान प्रयोग गर्न सक्छौं। अब, `mode` द्वारा भरिदिने उदाहरणलाई विचार गरौं।


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


अब, पहिलोमा मोड पत्ता लगाऔं त्यसपछि `None` मानलाई मोडले भरौं।


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

त्यसैले, हामी None लाई True संग बदल्नेछौं


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


जस्तो कि हामी देख्न सक्छौं, null मानलाई प्रतिस्थापन गरिएको छ। भन्नु नपर्ने कुरा हो, हामीले `'True'` को सट्टामा केही पनि लेख्न सक्थ्यौं र यो प्रतिस्थापित हुने थियो।


### संख्यात्मक डेटा
अब, संख्यात्मक डेटाको कुरा गरौं। यहाँ, हराएको मानहरूलाई प्रतिस्थापन गर्ने दुई सामान्य तरिका छन्:

1. पंक्तिको माध्यक (Median) प्रयोग गरेर प्रतिस्थापन गर्नुहोस्  
2. पंक्तिको औसत (Mean) प्रयोग गरेर प्रतिस्थापन गर्नुहोस्  

यदि डेटा असमान छ र बाहिरका मानहरू (outliers) छन् भने, हामी माध्यक प्रयोग गरेर प्रतिस्थापन गर्छौं। यसको कारण, माध्यक बाहिरका मानहरू प्रति संवेदनशील हुँदैन।

जब डेटा सामान्यीकृत (normalized) हुन्छ, हामी औसत प्रयोग गर्न सक्छौं, किनकि त्यस अवस्थामा औसत र माध्यक एकदमै नजिक हुनेछन्।

पहिला, हामी एउटा स्तम्भ लिऔं जुन सामान्य रूपमा वितरण गरिएको छ र त्यस स्तम्भको हराएको मानलाई औसत प्रयोग गरेर भर्ने प्रयास गरौं।


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


स्तम्भको औसत हो


In [33]:
np.mean(fill_with_mean[0])

0.0

माध्यमसँग भरिरहेको।


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


जस्तो कि हामी देख्न सक्छौं, हराएको मानलाई यसको औसतले प्रतिस्थापन गरिएको छ।


अब हामी अर्को डेटा फ्रेम प्रयास गरौं, र यस पटक हामी None मानहरूलाई स्तम्भको माध्यिका संग प्रतिस्थापन गर्नेछौं।


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


दोस्रो स्तम्भको मध्य मान हो


In [36]:
fill_with_median[1].median()

4.0

मध्य मानले भरिरहेको।


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


जस्तो कि हामी देख्न सक्छौं, NaN मानलाई स्तम्भको माध्यिका द्वारा प्रतिस्थापन गरिएको छ।


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

तपाईंले सबै खाली प्रविष्टिहरूलाई एउटा मात्र मान, जस्तै `0` ले भर्न सक्नुहुन्छ:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> मुख्य बुँदाहरू:
1. हराएका मानहरू भर्ने काम तब मात्र गर्नुपर्छ जब डाटा कम छ वा हराएका डाटा भर्ने कुनै रणनीति छ।  
2. डोमेन ज्ञान प्रयोग गरेर हराएका मानहरूलाई अनुमान गरेर भर्न सकिन्छ।  
3. श्रेणीगत डाटाका लागि प्रायः हराएका मानहरू स्तम्भको मोडले प्रतिस्थापन गरिन्छ।  
4. संख्यात्मक डाटाका लागि, हराएका मानहरू सामान्यत: औसत (सामान्यीकृत डाटासेटहरूका लागि) वा स्तम्भहरूको माध्यकले भर्ने गरिन्छ।  


### व्यायाम:


In [40]:
# What happens if you try to fill null values with a string, like ''?


तपाईंले शून्य मानहरूलाई **फर्वार्ड-फिल** गर्न सक्नुहुन्छ, जसले अन्तिम मान्य मानलाई शून्य भर्न प्रयोग गर्दछ:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

तपाईंले पनि **पछाडि-भर्न** गर्न सक्नुहुन्छ ताकि अर्को मान्य मानलाई पछाडि फैलाएर खाली स्थान भर्न सकिन्छ:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

जस्तो तपाईंले अनुमान गर्न सक्नुहुन्छ, यो DataFrames सँग पनि उस्तै काम गर्दछ, तर तपाईंले null मानहरू भर गर्नको लागि `axis` पनि निर्दिष्ट गर्न सक्नुहुन्छ:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


ध्यान दिनुहोस् कि जब अगाडिको-भराइको लागि अघिल्लो मान उपलब्ध छैन, खाली मान यथावत रहन्छ।


### व्यायाम:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


तपाईं `fillna` प्रयोग गर्ने तरिकामा सिर्जनशील हुन सक्नुहुन्छ। उदाहरणका लागि, फेरि `example4` हेर्नुहोस्, तर यस पटक `DataFrame` मा रहेका सबै मानहरूको औसतले हराएका मानहरू भर्न प्रयास गरौं:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


ध्यान दिनुहोस् कि स्तम्भ ३ अझै पनि खाली छ: डिफल्ट दिशा पङ्क्ति अनुसार मानहरू भर्ने हो।

> **मुख्य कुरा:** तपाईंको डाटासेटमा हराएका मानहरूलाई व्यवस्थापन गर्न धेरै तरिकाहरू छन्। तपाईंले प्रयोग गर्ने विशेष रणनीति (तिनीहरू हटाउने, तिनीहरूलाई प्रतिस्थापन गर्ने, वा कसरी प्रतिस्थापन गर्ने) उक्त डाटाको विशेषताहरूले निर्धारण गर्नुपर्छ। तपाईंले जति धेरै डाटासेटहरूलाई व्यवस्थापन र अन्तरक्रिया गर्नुहुन्छ, हराएका मानहरूलाई कसरी व्यवस्थापन गर्ने भन्ने राम्रो ज्ञान विकास हुनेछ।


### श्रेणीगत डाटा को एन्कोडिङ

मेसिन लर्निङ मोडेलहरूले मात्र संख्यात्मक डाटासँग काम गर्छन्। यसले "हो" र "होइन" बीचको भिन्नता बुझ्न सक्दैन, तर यसले 0 र 1 बीचको भिन्नता छुट्याउन सक्छ। त्यसैले, हराएका मानहरू भरेपछि, मोडेलले बुझ्न सक्ने संख्यात्मक रूपमा श्रेणीगत डाटालाई एन्कोड गर्न आवश्यक छ।

एन्कोडिङ दुई तरिकामा गर्न सकिन्छ। हामी अब ती तरिकाहरूको चर्चा गर्नेछौं।


**लेबल एनकोडिङ**

लेबल एनकोडिङ भनेको प्रत्येक श्रेणीलाई एउटा नम्बरमा परिवर्तन गर्नु हो। उदाहरणका लागि, मानौं हामीसँग एयरलाइन यात्रुहरूको डाटासेट छ र त्यहाँ एउटा स्तम्भ छ जसमा उनीहरूको वर्ग ['बिजनेस क्लास', 'इकोनोमी क्लास', 'फर्स्ट क्लास'] मध्ये छ। यदि यसमा लेबल एनकोडिङ गरिन्छ भने, यो [0,1,2] मा परिवर्तन हुनेछ। अब हामी कोडको माध्यमबाट एउटा उदाहरण हेर्छौं। किनकि हामी आगामी नोटबुकहरूमा `scikit-learn` सिक्दैछौं, हामी यसलाई यहाँ प्रयोग गर्नेछैनौं।


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


पहिलो स्तम्भमा लेबल इन्कोडिङ गर्न, प्रत्येक वर्गलाई नम्बरमा म्यापिङ गर्ने विवरण दिनुपर्छ, त्यसपछि प्रतिस्थापन गर्नुपर्छ।


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


जस्तो कि हामीले देख्न सक्छौं, नतिजा हाम्रो अपेक्षासँग मेल खान्छ। त्यसो भए, लेबल इन्कोडिङ कहिले प्रयोग गर्ने? लेबल इन्कोडिङ निम्नमध्ये कुनै एक वा दुवै अवस्थामा प्रयोग गरिन्छ:
1. जब श्रेणीहरूको संख्या धेरै हुन्छ
2. जब श्रेणीहरू क्रमबद्ध हुन्छन्।


**वन हट इनकोडिङ**

अर्को प्रकारको इनकोडिङ वन हट इनकोडिङ हो। यस प्रकारको इनकोडिङमा, स्तम्भको प्रत्येक श्रेणीलाई छुट्टै स्तम्भको रूपमा थपिन्छ र प्रत्येक डाटापोइन्टले ० वा १ प्राप्त गर्दछ, यो श्रेणी समावेश छ कि छैन भन्ने आधारमा। त्यसैले, यदि n विभिन्न श्रेणीहरू छन् भने, n स्तम्भहरू डाटाफ्रेममा थपिनेछन्।

उदाहरणका लागि, उही विमानको श्रेणीको उदाहरण लिऔं। श्रेणीहरू थिए: ['बिजनेस क्लास', 'इकोनोमी क्लास', 'फर्स्ट क्लास']। त्यसैले, यदि हामी वन हट इनकोडिङ गर्छौं भने, निम्न तीन स्तम्भहरू डेटासेटमा थपिनेछन्: ['class_business class', 'class_economy class', 'class_first class']।


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


हामी पहिलो स्तम्भमा वन हट इनकोडिङ गर्नेछौं।


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


प्रत्येक वन हट एन्कोड गरिएको स्तम्भमा 0 वा 1 हुन्छ, जसले सो डाटापोइन्टको लागि त्यो श्रेणी रहेको छ कि छैन भन्ने निर्दिष्ट गर्दछ।


हामी कहिले वन हट इनकोडिङ प्रयोग गर्छौं? वन हट इनकोडिङ निम्नमध्ये कुनै एक वा दुवै अवस्थामा प्रयोग गरिन्छ :

1. जब श्रेणीहरूको संख्या र डेटासेटको आकार सानो हुन्छ।
2. जब श्रेणीहरूले कुनै विशेष क्रम अनुसरण गर्दैनन्।


> मुख्य बुँदाहरू:
1. एनकोडिङ गैर-संख्यात्मक डाटालाई संख्यात्मक डाटामा रूपान्तरण गर्न गरिन्छ।
2. एनकोडिङका दुई प्रकार छन्: लेबल एनकोडिङ र वन हट एनकोडिङ, जसलाई डाटासेटको आवश्यकताका आधारमा प्रयोग गर्न सकिन्छ।


## डुप्लिकेट डेटा हटाउने

> **अध्ययनको लक्ष्य:** यस उपविभागको अन्त्यसम्ममा, तपाईं DataFrames बाट डुप्लिकेट मानहरू पहिचान गर्न र हटाउन सहज हुनुहुनेछ।

हराएको डेटाको अतिरिक्त, तपाईं वास्तविक-विश्वको डेटासेटहरूमा प्रायः डुप्लिकेट डेटा भेट्नुहुनेछ। सौभाग्यवश, pandas ले डुप्लिकेट प्रविष्टिहरू पत्ता लगाउन र हटाउन सजिलो उपाय प्रदान गर्दछ।


### डुप्लिकेटहरू पहिचान गर्ने: `duplicated`

तपाईंले pandas को `duplicated` विधि प्रयोग गरेर सजिलै डुप्लिकेट मानहरू पत्ता लगाउन सक्नुहुन्छ, जसले Boolean मास्क फर्काउँछ जसले देखाउँछ कि `DataFrame` मा कुनै प्रविष्टि पहिलेको प्रविष्टिको डुप्लिकेट हो कि होइन। यसलाई व्यवहारमा देख्नको लागि अर्को उदाहरण `DataFrame` बनाउँ।


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### डुप्लिकेट हटाउने: `drop_duplicates`
`drop_duplicates` ले केवल ती डाटाको प्रतिलिपि फर्काउँछ जसका लागि सबै `duplicated` मानहरू `False` छन्:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` र `drop_duplicates` दुबैले सबै स्तम्भहरूलाई विचार गर्न डिफल्ट गर्छन् तर तपाईं आफ्नो `DataFrame` मा केवल स्तम्भहरूको उपसमूहलाई जाँच गर्न निर्दिष्ट गर्न सक्नुहुन्छ:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **मुख्य कुरा:** नक्कल डेटा हटाउनु लगभग प्रत्येक डेटा-विज्ञान परियोजनाको महत्वपूर्ण भाग हो। नक्कल डेटा तपाईंको विश्लेषणको परिणाम परिवर्तन गर्न सक्छ र तपाईंलाई गलत परिणाम दिन सक्छ!


## वास्तविक-विश्व डेटा गुणस्तर जाँच

> **शिक्षण लक्ष्य:** यस खण्डको अन्त्यसम्ममा, तपाईं असंगत श्रेणीगत मानहरू, असामान्य संख्यात्मक मानहरू (अत्यधिक मानहरू), र भिन्नतासहितको दोहोरिएका इकाइहरू पत्ता लगाउन र सुधार गर्न सहज हुनुहुनेछ।

यद्यपि हराएका मानहरू र ठ्याक्कै दोहोरिएका डेटा सामान्य समस्या हुन्, वास्तविक-विश्व डेटासेटहरूमा प्रायः थप सूक्ष्म समस्याहरू हुन्छन्:

1. **असंगत श्रेणीगत मानहरू**: एउटै श्रेणी फरक-फरक तरिकाले लेखिएको (जस्तै, "USA", "U.S.A", "United States")
2. **असामान्य संख्यात्मक मानहरू**: डेटा प्रविष्टि त्रुटिहरूलाई जनाउने अत्यधिक मानहरू (जस्तै, उमेर = 999)
3. **निकट-दोहोरिएका पङ्क्तिहरू**: थोरै भिन्नतासहित एउटै इकाइलाई प्रतिनिधित्व गर्ने रेकर्डहरू

यी समस्याहरू पत्ता लगाउन र समाधान गर्नका लागि प्रविधिहरू अन्वेषण गरौं।


### "फोहोर" डाटासेट सिर्जना गर्दै

पहिले, एउटा नमूना डाटासेट सिर्जना गरौं जसमा हामीले वास्तविक संसारको डाटामा सामान्यत: सामना गर्ने समस्याहरू समावेश छन्:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### १. असंगत श्रेणीगत मानहरू पत्ता लगाउने

`country` स्तम्भमा एउटै देशको लागि विभिन्न प्रतिनिधित्वहरू छन्। आउनुहोस् यी असंगतताहरू पहिचान गरौं:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### श्रेणीगत मानहरूलाई मानकीकरण गर्दै

हामी यी मानहरूलाई मानकीकरण गर्न एक म्यापिङ बनाउन सक्छौं। एउटा सरल तरिका भनेको तिनीहरूलाई सानो अक्षरमा परिवर्तन गर्नु र म्यापिङ डिक्सनरी बनाउनु हो:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**वैकल्पिक: फजी म्याचिङ प्रयोग गर्दै**

अझ जटिल अवस्थामा, हामी `rapidfuzz` लाइब्रेरी प्रयोग गरेर फजी स्ट्रिङ म्याचिङको माध्यमबाट समान स्ट्रिङहरू स्वतः पत्ता लगाउन सक्छौं:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. असामान्य संख्यात्मक मानहरू (आउटलायर्स) पत्ता लगाउने

`age` स्तम्भलाई हेर्दा, हामीसँग १९९ र -५ जस्ता शंकास्पद मानहरू छन्। आउटलायर्स पत्ता लगाउन सांख्यिकीय विधिहरू प्रयोग गरौं।


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### IQR (इन्टरक्वार्टाइल रेन्ज) विधि प्रयोग गर्दै

IQR विधि एक बलियो सांख्यिकीय प्रविधि हो जुन बाहिरिने मानहरू पत्ता लगाउन प्रयोग गरिन्छ र यो अत्यधिक मानहरू प्रति कम संवेदनशील हुन्छ:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Z-स्कोर विधि प्रयोग गर्दै

Z-स्कोर विधिले औसतबाट मानक विचलनको आधारमा बाहिरिएका मानहरू पहिचान गर्दछ:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### बाहिरिएका डाटा (आउटलायर्स) को व्यवस्थापन

पत्ता लागेपछि, बाहिरिएका डाटालाई विभिन्न तरिकाले व्यवस्थापन गर्न सकिन्छ:
1. **हटाउनुहोस्**: बाहिरिएका डाटासहितका पङ्क्तिहरू हटाउनुहोस् (यदि ती त्रुटिहरू हुन् भने)
2. **सीमा तोक्नुहोस्**: सीमा मानहरूद्वारा प्रतिस्थापन गर्नुहोस्
3. **NaN द्वारा प्रतिस्थापन गर्नुहोस्**: हराएको डाटा रूपमा व्यवहार गर्नुहोस् र इम्पुटेसन प्रविधिहरू प्रयोग गर्नुहोस्
4. **राख्नुहोस्**: यदि ती वैध अत्यधिक मानहरू हुन् भने


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### ३. नजिकका नक्कल पङ्क्तिहरू पत्ता लगाउँदै

ध्यान दिनुहोस् कि हाम्रो डेटासेटमा "John Smith" का लागि थोरै फरक मानहरू सहित धेरै प्रविष्टिहरू छन्। नामको समानताका आधारमा सम्भावित नक्कलहरू पहिचान गरौं।


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### फजी म्याचिङको प्रयोग गरेर नजिकका डुप्लिकेटहरू पत्ता लगाउने

अधिक परिष्कृत डुप्लिकेट पहिचानको लागि, हामी फजी म्याचिङ प्रयोग गरेर मिल्दोजुल्दो नामहरू पत्ता लगाउन सक्छौं:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### डुप्लिकेटहरूलाई व्यवस्थापन गर्ने

पहिचान गरेपछि, डुप्लिकेटहरूलाई कसरी व्यवस्थापन गर्ने भन्ने निर्णय गर्नुपर्छ:
1. **पहिलो पटकको उपस्थितिलाई राख्ने**: `drop_duplicates(keep='first')` प्रयोग गर्नुहोस्
2. **अन्तिम उपस्थितिलाई राख्ने**: `drop_duplicates(keep='last')` प्रयोग गर्नुहोस्
3. **जानकारीलाई समग्र बनाउने**: डुप्लिकेट पंक्तिहरूबाट जानकारीलाई संयोजन गर्नुहोस्
4. **म्यानुअल समीक्षा**: मानव समीक्षा गर्नको लागि झण्डा लगाउनुहोस्


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### सारांश: पूर्ण डेटा सफाई पाइपलाइन

अब सबैलाई एकसाथ राखेर एक व्यापक सफाई पाइपलाइन बनाउँ।


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 चुनौती अभ्यास

अब तपाईंको पालो! तलको नयाँ पङ्क्तिमा धेरै गुणस्तर समस्याहरू छन्। के तपाईं:

1. यस पङ्क्तिमा भएका सबै समस्याहरू पहिचान गर्न सक्नुहुन्छ
2. प्रत्येक समस्यालाई सफा गर्न कोड लेख्न सक्नुहुन्छ
3. सफा गरिएको पङ्क्तिलाई डेटासेटमा थप्न सक्नुहुन्छ

यहाँ समस्याग्रस्त डेटा छ:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### मुख्य बुँदाहरू

1. **असंगत श्रेणीहरू** वास्तविक संसारको डाटामा सामान्य हुन्छन्। सधैं अनौठो मानहरू जाँच गर्नुहोस् र तिनीहरूलाई म्यापिङ वा फजी म्याचिङ प्रयोग गरेर मानकीकरण गर्नुहोस्।

2. **आउटलायर्स**ले तपाईंको विश्लेषणमा ठूलो प्रभाव पार्न सक्छ। तिनीहरू पत्ता लगाउन डोमेन ज्ञानलाई सांख्यिकीय विधिहरू (IQR, Z-score) सँग मिलाएर प्रयोग गर्नुहोस्।

3. **नजिकका डुप्लिकेटहरू** ठ्याक्कै मिल्ने डुप्लिकेटहरूभन्दा पत्ता लगाउन गाह्रो हुन्छ। तिनीहरूलाई पहिचान गर्न फजी म्याचिङ र डाटा सामान्यीकरण (लोअरकेसिङ, ह्वाइटस्पेस हटाउने) विचार गर्नुहोस्।

4. **डाटा सफा गर्ने प्रक्रिया दोहोरिने हुन्छ।** तपाईंले धेरै प्रविधिहरू लागू गर्न र अन्तिम सफा गरिएको डाटासेट तयार गर्नु अघि नतिजाहरू समीक्षा गर्न आवश्यक हुन सक्छ।

5. **आफ्नो निर्णयहरू दस्तावेज गर्नुहोस्।** तपाईंले कुन सफा गर्ने चरणहरू लागू गर्नुभयो र किन, त्यसलाई ट्र्याक गर्नुहोस् किनभने यो पुनरुत्पादनशीलता र पारदर्शिताका लागि महत्त्वपूर्ण छ।

> **सर्वोत्तम अभ्यास:** सधैं आफ्नो मूल "फोहोर" डाटाको प्रतिलिपि राख्नुहोस्। कहिल्यै आफ्नो स्रोत डाटा फाइलहरू ओभरराइट नगर्नुहोस् - `data_cleaned.csv` जस्ता स्पष्ट नामकरण कन्वेन्सनसहित सफा गरिएको संस्करणहरू सिर्जना गर्नुहोस्।



---

**अस्वीकरण**:  
यो दस्तावेज [Co-op Translator](https://github.com/Azure/co-op-translator) नामक एआई अनुवाद सेवा प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सही अनुवाद प्रदान गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छन्। मूल भाषामा रहेको मूल दस्तावेजलाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याका लागि हामी जिम्मेवार हुने छैनौं।
