# ഡാറ്റാ തയ്യാറാക്കൽ

[*Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott* എന്ന പുസ്തകത്തിലെ ഒറിജിനൽ നോട്ട്‌ബുക്ക് സോഴ്‌സ്](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame` വിവരങ്ങൾ പരിശോധിക്കൽ

> **പഠന ലക്ഷ്യം:** ഈ ഉപവിഭാഗം അവസാനിക്കുമ്പോൾ, pandas DataFrames-ൽ സൂക്ഷിച്ചിരിക്കുന്ന ഡാറ്റയെക്കുറിച്ചുള്ള പൊതുവായ വിവരങ്ങൾ കണ്ടെത്തുന്നതിൽ നിങ്ങൾക്ക് സുഖകരമായി അറിയാമാകണം.

നിങ്ങൾ pandas-ലേക്ക് നിങ്ങളുടെ ഡാറ്റ ലോഡ് ചെയ്തശേഷം, അത് സാധാരണയായി `DataFrame` ആകും. എന്നാൽ, നിങ്ങളുടെ `DataFrame`-ൽ 60,000 വരികളും 400 കോളങ്ങളുമുള്ള ഡാറ്റാസെറ്റ് ഉണ്ടെങ്കിൽ, നിങ്ങൾ എന്തിനാണ് പ്രവർത്തിക്കുന്നത് എന്ന് എങ്ങനെ മനസ്സിലാക്കും? ഭാഗ്യവശാൽ, pandas ഒരു `DataFrame`-ന്റെ മൊത്തം വിവരങ്ങൾ വേഗത്തിൽ നോക്കാൻ ചില സൗകര്യപ്രദമായ ഉപകരണങ്ങൾ നൽകുന്നു, കൂടാതെ ആദ്യ കുറച്ച് വരികളും അവസാന കുറച്ച് വരികളും കാണാൻ കഴിയും.

ഈ പ്രവർത്തനം പരിശോധിക്കാൻ, നാം Python scikit-learn ലൈബ്രറി ഇറക്കുമതി ചെയ്ത്, എല്ലാ ഡാറ്റാ സയന്റിസ്റ്റുകളും നൂറുകണക്കിന് തവണ കണ്ടിട്ടുള്ള ഒരു ഐക്കോണിക് ഡാറ്റാസെറ്റ് ഉപയോഗിക്കും: ബ്രിട്ടീഷ് ജീവശാസ്ത്രജ്ഞൻ റൊണാൾഡ് ഫിഷറുടെ 1936 ലെ പേപ്പറിൽ ഉപയോഗിച്ച *Iris* ഡാറ്റാസെറ്റ് "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
നാം `iris_df` എന്ന വേരിയബിളിൽ Iris Dataset ലോഡ് ചെയ്തിട്ടുണ്ട്. ഡാറ്റയിൽ പ്രവേശിക്കുന്നതിന് മുമ്പ്, നമുക്ക് എത്ര ഡാറ്റാപോയിന്റുകൾ ഉണ്ട് എന്നും ഡാറ്റാസെറ്റിന്റെ മൊത്തം വലിപ്പം എന്താണെന്നും അറിയുന്നത് മൂല്യവത്തായിരിക്കും. നാം കൈകാര്യം ചെയ്യുന്ന ഡാറ്റയുടെ വോള്യം നോക്കുന്നത് ഉപകാരപ്രദമാണ്.


In [2]:
iris_df.shape

(150, 4)

അപ്പോൾ, നാം 150 വരികളും 4 കോളങ്ങളുമുള്ള ഡാറ്റയുമായി ഇടപഴകുകയാണ്. ഓരോ വരിയും ഒരു ഡാറ്റാപോയിന്റിനെ പ്രതിനിധീകരിക്കുന്നു, ഓരോ കോളവും ഡാറ്റാ ഫ്രെയിമുമായി ബന്ധപ്പെട്ട ഒരു സവിശേഷതയെ പ്രതിനിധീകരിക്കുന്നു. അതായത്, അടിസ്ഥാനപരമായി, ഓരോന്നിലും 4 സവിശേഷതകൾ ഉള്ള 150 ഡാറ്റാപോയിന്റുകൾ ഉണ്ട്.

`shape` ഇവിടെ ഡാറ്റാഫ്രെയിമിന്റെ ഒരു ആട്രിബ്യൂട്ടാണ്, ഫംഗ്ഷൻ അല്ല, അതുകൊണ്ടുതന്നെ ഇത് കോശങ്ങളാൽ അടങ്ങിയ ഒരു ജോഡിയിൽ അവസാനിക്കുന്നില്ല.


### `DataFrame.columns`
ഇപ്പോൾ നാം ഡാറ്റയുടെ 4 കോളങ്ങളിലേക്ക് കടക്കാം. അവയിൽ ഓരോന്നും ശരിയായി എന്താണ് പ്രതിനിധാനം ചെയ്യുന്നത്? `columns` ആട്രിബ്യൂട്ട് ഡാറ്റാഫ്രെയിമിലെ കോളങ്ങളുടെ പേരുകൾ നമുക്ക് നൽകും.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

നാം കാണുന്ന പോലെ, നാല്(4) കോളങ്ങൾ ഉണ്ട്. `columns` ഗുണധർമ്മം കോളങ്ങളുടെ പേരുകൾ മാത്രമാണ് നമ്മെ അറിയിക്കുന്നത്, അതിലധികം ഒന്നും അല്ല. ഒരു ഡാറ്റാസെറ്റിൽ ഉള്ള സവിശേഷതകൾ തിരിച്ചറിയാൻ ആഗ്രഹിക്കുമ്പോൾ ഈ ഗുണധർമ്മം പ്രാധാന്യം നേടുന്നു.


### `DataFrame.info`
ഡാറ്റയുടെ അളവ്(`shape` ആട്രിബ്യൂട്ട് നൽകുന്നു)യും ഫീച്ചറുകളുടെയും കോളങ്ങളുടെയും പേര്(`columns` ആട്രിബ്യൂട്ട് നൽകുന്നു) dataset-നെക്കുറിച്ച് നമ്മെ ചിലത് അറിയിക്കുന്നു. ഇപ്പോൾ, dataset-ൽ കൂടുതൽ ആഴത്തിൽ പ്രവേശിക്കാൻ ആഗ്രഹിക്കുന്നു. ഇതിന് `DataFrame.info()` ഫംഗ്ഷൻ വളരെ ഉപകാരപ്രദമാണ്.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


ഇവിടെ നിന്ന്, നാം ചില നിരീക്ഷണങ്ങൾ നടത്താം:
1. ഓരോ കോളത്തിന്റെയും ഡാറ്റാ ടൈപ്പ്: ഈ ഡാറ്റാസെറ്റിൽ, എല്ലാ ഡാറ്റയും 64-ബിറ്റ് ഫ്ലോട്ടിംഗ്-പോയിന്റ് നമ്പറുകളായി സൂക്ഷിച്ചിരിക്കുന്നു.
2. നോൺ-നൾ മൂല്യങ്ങളുടെ എണ്ണം: നൾ മൂല്യങ്ങളെ കൈകാര്യം ചെയ്യുന്നത് ഡാറ്റാ തയ്യാറെടുപ്പിലെ ഒരു പ്രധാന ഘട്ടമാണ്. ഇത് പിന്നീട് നോട്ട്‌ബുക്കിൽ കൈകാര്യം ചെയ്യും.


### DataFrame.describe()
നമ്മുടെ ഡാറ്റാസെറ്റിൽ നമുക്ക് നിരവധി സംഖ്യാത്മക ഡാറ്റ ഉണ്ടെന്ന് പറയാം. ശരാശരി, മധ്യക, ക്വാർട്ടൈൽസ് തുടങ്ങിയ ഏകവിവരസംഖ്യാത്മക കണക്കുകൾ ഓരോ കോളത്തിനും വ്യക്തിഗതമായി ചെയ്യാം. ഒരു ഡാറ്റാസെറ്റിലെ സംഖ്യാത്മക കോളങ്ങളുടെയും ഒരു സംഖ്യാത്മക സംഗ്രഹം നൽകുന്നത് `DataFrame.describe()` ഫംഗ്ഷനാണ്.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


മുകളിൽ കാണിച്ചിരിക്കുന്ന ഔട്ട്പുട്ട് ഓരോ കോളത്തിന്റെയും മൊത്തം ഡാറ്റാ പോയിന്റുകളുടെ എണ്ണം, ശരാശരി, സ്റ്റാൻഡേർഡ് ഡിവിയേഷൻ, കുറഞ്ഞത്, താഴ്ന്ന ക്വാർട്ടൈൽ (25%), മധ്യസ്ഥാനം (50%), മുകളിലെ ക്വാർട്ടൈൽ (75%) എന്നിവയും പരമാവധി മൂല്യവും കാണിക്കുന്നു.


### `DataFrame.head`
മുകളിൽ പറഞ്ഞ എല്ലാ ഫംഗ്ഷനുകളും ആട്രിബ്യൂട്ടുകളും ഉപയോഗിച്ച്, ഡാറ്റാസെറ്റിന്റെ ഒരു മുകളിൽനിന്നുള്ള ദൃശ്യമാണ് നമ്മുക്ക് ലഭിച്ചത്. എത്ര ഡാറ്റാ പോയിന്റുകൾ ഉണ്ട്, എത്ര ഫീച്ചറുകൾ ഉണ്ട്, ഓരോ ഫീച്ചറിന്റെയും ഡാറ്റാ ടൈപ്പ് എന്താണെന്ന്, ഓരോ ഫീച്ചറിനും എത്ര നോൺ-നൾ മൂല്യങ്ങൾ ഉണ്ട് എന്നതും നമുക്ക് അറിയാം.

ഇപ്പോൾ ഡാറ്റ തന്നെ നോക്കാനുള്ള സമയം. നമ്മുടെ `DataFrame` ന്റെ ആദ്യ കുറച്ച് വരികൾ (ആദ്യ കുറച്ച് ഡാറ്റാപോയിന്റുകൾ) എങ്ങനെ കാണപ്പെടുന്നു എന്ന് നോക്കാം:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


ഇവിടെ ഔട്ട്പുട്ടായി, ഡാറ്റാസെറ്റിന്റെ അഞ്ച് (5) എൻട്രികൾ കാണാം. ഇടത്തുവശത്തെ ഇൻഡക്സ് നോക്കിയാൽ, ഇവ ആദ്യത്തെ അഞ്ച് വരികളാണെന്ന് കണ്ടെത്താം.


### Exercise:

മുകളിൽ നൽകിയ ഉദാഹരണത്തിൽ നിന്ന്, ഡീഫോൾട്ടായി, `DataFrame.head` ഒരു `DataFrame`-ന്റെ ആദ്യത്തെ അഞ്ച് വരികൾ തിരികെ നൽകുന്നു എന്ന് വ്യക്തമാകുന്നു. താഴെയുള്ള കോഡ് സെല്ലിൽ, അഞ്ച് വരികളേക്കാൾ കൂടുതൽ വരികൾ പ്രദർശിപ്പിക്കാൻ ഒരു മാർഗം കണ്ടെത്താമോ?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
ഡാറ്റയെ നോക്കാനുള്ള മറ്റൊരു മാർഗം ആരംഭത്തിൽ നിന്ന് പകരം അവസാനം നിന്നായിരിക്കും. `DataFrame.head` ന്റെ മറുവശം `DataFrame.tail` ആണ്, ഇത് ഒരു `DataFrame` ന്റെ അവസാനത്തെ അഞ്ച് വരികൾ തിരികെ നൽകുന്നു:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


പ്രായോഗികമായി, ക്രമീകരിച്ച ഡാറ്റാസെറ്റുകളിൽ ഔട്ട്‌ലൈയർമാരെ കണ്ടെത്താൻ ശ്രമിക്കുമ്പോൾ, ഒരു `DataFrame`-ന്റെ ആദ്യ കുറച്ച് വരികളും അവസാന കുറച്ച് വരികളും എളുപ്പത്തിൽ പരിശോധിക്കാൻ കഴിയുന്നത് ഉപകാരപ്രദമാണ്.

മുകളിൽ കോഡ് ഉദാഹരണങ്ങളുടെ സഹായത്തോടെ കാണിച്ച എല്ലാ ഫംഗ്ഷനുകളും ആട്രിബ്യൂട്ടുകളും, ഡാറ്റയുടെ ഒരു ദൃശ്യവും അനുഭവവും ലഭിക്കാൻ സഹായിക്കുന്നു.

> **Takeaway:** ഒരു DataFrame-ലെ വിവരങ്ങളെക്കുറിച്ചുള്ള മെറ്റാഡാറ്റയോ അതിലെ ആദ്യവും അവസാനവും കുറച്ച് മൂല്യങ്ങളോ നോക്കിയാൽ പോലും, നിങ്ങൾ കൈകാര്യം ചെയ്യുന്ന ഡാറ്റയുടെ വലിപ്പം, ആകൃതി, ഉള്ളടക്കം എന്നിവയെക്കുറിച്ച് ഉടൻ ഒരു ആശയം ലഭിക്കും.


### നഷ്ടമായ ഡാറ്റ  
നഷ്ടമായ ഡാറ്റയിൽ നാം ആഴത്തിൽ നോക്കാം. ചില കോളങ്ങളിലൊന്നിലും മൂല്യം സൂക്ഷിക്കപ്പെടാത്തപ്പോൾ നഷ്ടമായ ഡാറ്റ സംഭവിക്കുന്നു.  

ഒരു ഉദാഹരണം എടുത്തു നോക്കാം: ആരെങ്കിലും തന്റെ ഭാരം സംബന്ധിച്ച് ജാഗ്രതയുള്ളവനാണെന്ന് കരുതുക, അവൻ/അവൾ ഒരു സർവേയിൽ ഭാരത്തിന്റെ ഫീൽഡ് പൂരിപ്പിക്കാതെ പോകുന്നു. അപ്പോൾ ആ വ്യക്തിയുടെ ഭാര മൂല്യം നഷ്ടമായിരിക്കും.  

വാസ്തവ ലോക ഡാറ്റാസെറ്റുകളിൽ പലപ്പോഴും നഷ്ടമായ മൂല്യങ്ങൾ ഉണ്ടാകാറുണ്ട്.  

**പാൻഡാസ് നഷ്ടമായ ഡാറ്റ കൈകാര്യം ചെയ്യുന്നത്**  

പാൻഡാസ് നഷ്ടമായ മൂല്യങ്ങൾ കൈകാര്യം ചെയ്യുന്നത് രണ്ട് രീതികളിലാണ്. ആദ്യത്തേത് നിങ്ങൾ മുമ്പത്തെ വിഭാഗങ്ങളിൽ കണ്ടതാണ്: `NaN`, അല്ലെങ്കിൽ Not a Number. ഇത് യഥാർത്ഥത്തിൽ IEEE ഫ്ലോട്ടിംഗ്-പോയിന്റ് സ്പെസിഫിക്കേഷന്റെ ഭാഗമായ ഒരു പ്രത്യേക മൂല്യമാണ്, ഇത് നഷ്ടമായ ഫ്ലോട്ടിംഗ്-പോയിന്റ് മൂല്യങ്ങൾ സൂചിപ്പിക്കാൻ മാത്രമാണ് ഉപയോഗിക്കുന്നത്.  

ഫ്ലോട്ടുകൾക്ക് പുറമേ നഷ്ടമായ മൂല്യങ്ങൾക്ക്, പാൻഡാസ് Python `None` ഒബ്ജക്റ്റ് ഉപയോഗിക്കുന്നു. നിങ്ങൾക്ക് രണ്ട് വ്യത്യസ്ത തരത്തിലുള്ള മൂല്യങ്ങൾ കാണപ്പെടുന്നത് ആശയക്കുഴപ്പമുണ്ടാക്കാം, എന്നാൽ ഈ ഡിസൈൻ തിരഞ്ഞെടുപ്പിന് പ്രോഗ്രാമാറ്റിക് കാരണങ്ങൾ ഉണ്ട്, പ്രായോഗികമായി ഈ മാർഗ്ഗം പാൻഡാസിന് ഭൂരിഭാഗം കേസുകൾക്കായി നല്ല ഒരു സമാധാനം നൽകാൻ സഹായിക്കുന്നു. ഇതിന് പുറമേ, `None` ഉം `NaN` ഉം ഉപയോഗിക്കുമ്പോൾ ശ്രദ്ധിക്കേണ്ട ചില നിയന്ത്രണങ്ങൾ ഉണ്ട്.


### `None`: ഫ്ലോട്ട് അല്ലാത്ത നഷ്ടപ്പെട്ട ഡാറ്റ
`None` പൈത്തണിൽ നിന്നാണ് വന്നത്, അതിനാൽ അത് `'object'` ഡാറ്റ ടൈപ്പല്ലാത്ത NumPy, pandas അറകളിൽ ഉപയോഗിക്കാൻ കഴിയില്ല. ഓർക്കുക, NumPy അറകളും pandas-ലെ ഡാറ്റ ഘടനകളും ഒരേ തരത്തിലുള്ള ഡാറ്റ മാത്രമേ ഉൾക്കൊള്ളൂ. ഇതാണ് അവയ്ക്ക് വലിയ തോതിലുള്ള ഡാറ്റയും കണക്കുകൂട്ടലും ചെയ്യാനുള്ള അത്ഭുതശക്തി നൽകുന്നത്, പക്ഷേ ഇത് അവയുടെ സൗകര്യക്ഷമതയെ പരിമിതപ്പെടുത്തുന്നു. ഇത്തരം അറകൾ "കുറഞ്ഞ പൊതുവായ ഡിനോമിനേറ്റർ" എന്ന ഡാറ്റ ടൈപ്പിലേക്ക് അപ്കാസ്റ്റ് ചെയ്യേണ്ടിവരും, അതായത് അറയിൽ ഉള്ള എല്ലാം ഉൾക്കൊള്ളുന്ന ഡാറ്റ ടൈപ്പ്. അറയിൽ `None` ഉണ്ടെങ്കിൽ, നിങ്ങൾ പൈത്തൺ ഒബ്ജക്റ്റുകളുമായി പ്രവർത്തിക്കുകയാണ് എന്നർത്ഥം.

ഇത് പ്രവർത്തനത്തിൽ കാണാൻ, താഴെ കൊടുത്ത ഉദാഹരണ അറ (അതിനുള്ള `dtype` ശ്രദ്ധിക്കുക) പരിഗണിക്കുക:


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

ഉപ്കാസ്റ്റ് ഡാറ്റാ ടൈപ്പുകളുടെ യാഥാർത്ഥ്യത്തിന് രണ്ട് പാർശ്വഫലങ്ങൾ ഉണ്ട്. ആദ്യം, പ്രവർത്തനങ്ങൾ കമ്പൈൽ ചെയ്ത NumPy കോഡിന്റെ പകരം വ്യാഖ്യാനിച്ച Python കോഡ് നിലയിൽ നടത്തപ്പെടും. അടിസ്ഥാനപരമായി, ഇതിന്റെ അർത്ഥം `None` ഉള്ള `Series` അല്ലെങ്കിൽ `DataFrames` ഉൾപ്പെടുന്ന ഏതെങ്കിലും പ്രവർത്തനങ്ങളും മന്ദഗതിയിലാകും. നിങ്ങൾക്ക് ഈ പ്രകടന നഷ്ടം ശ്രദ്ധിക്കാതിരിക്കാം, എന്നാൽ വലിയ ഡാറ്റാസെറ്റുകൾക്കായി ഇത് പ്രശ്നമായി മാറാം.

രണ്ടാമത്തെ പാർശ്വഫലം ആദ്യത്തേതിൽ നിന്നാണ് ഉത്ഭവിക്കുന്നത്. കാരണം `None` അടിസ്ഥാനപരമായി `Series` അല്ലെങ്കിൽ `DataFrame`-കളെ വാനില Python ലോകത്തിലേക്ക് തിരികെ കൊണ്ടുവരുന്നു, അതിനാൽ `None` മൂല്യം അടങ്ങിയ അറകളിൽ NumPy/pandas സംഗ്രഹണങ്ങൾ പോലുള്ള `sum()` അല്ലെങ്കിൽ `min()` ഉപയോഗിക്കുന്നത് സാധാരണയായി ഒരു പിശക് സൃഷ്ടിക്കും:


In [10]:
example1.sum()

TypeError: ignored

**പ്രധാനപ്പെട്ട കാര്യങ്ങൾ**: പൂർണ്ണസംഖ്യകളും `None` മൂല്യങ്ങളും തമ്മിലുള്ള കൂട്ടിച്ചേർക്കൽ (മറ്റു പ്രവർത്തനങ്ങളും) നിർവചിക്കപ്പെട്ടിട്ടില്ല, ഇത് അവ ഉൾക്കൊള്ളുന്ന ഡാറ്റാസെറ്റുകളുമായി നിങ്ങൾ ചെയ്യാൻ കഴിയുന്ന കാര്യങ്ങളെ പരിമിതപ്പെടുത്താം.


### `NaN`: കാണാനാകാത്ത ഫ്ലോട്ട് മൂല്യങ്ങൾ

`None`-നോട് വ്യത്യസ്തമായി, NumPy (അതിനാൽ pandas-ഉം) അതിന്റെ വേഗതയുള്ള, വെക്ടറൈസ്ഡ് പ്രവർത്തനങ്ങൾക്കും ufuncs-ക്കും `NaN`-നെ പിന്തുണയ്ക്കുന്നു. മോശം വാർത്ത എന്തെന്നാൽ `NaN`-ൽ ചെയ്ത ഏതെങ്കിലും ഗണിത പ്രവർത്തനവും എപ്പോഴും `NaN`-നെ ഫലമായി നൽകും. ഉദാഹരണത്തിന്:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

നല്ല വാർത്ത: `NaN` ഉള്ള അറേകളിൽ അഗ്രിഗേഷനുകൾ നടത്തുമ്പോൾ പിശകുകൾ ഉണ്ടാകാറില്ല. മോശം വാർത്ത: ഫലങ്ങൾ ഒരുപോലെ പ്രയോജനപ്രദമല്ല:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### വ്യായാമം:


In [11]:
# What happens if you add np.nan and None together?


ഓർമ്മിക്കുക: `NaN` എന്നത് നഷ്ടമായ ഫ്ലോട്ടിംഗ്-പോയിന്റ് മൂല്യങ്ങൾക്കായാണ്; പൂർണ്ണസംഖ്യകൾക്ക്, സ്ട്രിംഗുകൾക്ക്, അല്ലെങ്കിൽ ബൂളിയൻ മൂല്യങ്ങൾക്ക് `NaN` എന്ന സമാനമായത് ഇല്ല.


### `NaN` ഉം `None` ഉം: pandas-ൽ നൾ മൂല്യങ്ങൾ

`NaN` ഉം `None` ഉം ചിലപ്പോൾ വ്യത്യസ്തമായി പ്രവർത്തിച്ചേക്കാമെങ്കിലും, pandas അവയെ പരസ്പരം മാറ്റി ഉപയോഗിക്കാൻ രൂപകൽപ്പന ചെയ്തതാണ്. ഞങ്ങൾ പറയുന്നത് എന്താണെന്ന് കാണാൻ, ഒരു പൂർണ്ണസംഖ്യകളുടെ `Series` പരിഗണിക്കാം:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### വ്യായാമം:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


`Series`-ഉം `DataFrame`-ഉം ഉള്ള ഡാറ്റയുടെ സമാനത ഉറപ്പാക്കുന്നതിനായി ഡാറ്റാ ടൈപ്പുകൾ അപ്കാസ്റ്റ് ചെയ്യുന്നതിനുള്ള പ്രക്രിയയിൽ, pandas `None`-നും `NaN`-നും ഇടയിൽ നഷ്ടമായ മൂല്യങ്ങൾ സ്വീകാര്യമായി മാറ്റും. ഈ ഡിസൈൻ സവിശേഷത കാരണം, pandas-ൽ `None`-നും `NaN`-നും "null" എന്ന രണ്ട് വ്യത്യസ്ത രുചികൾ ആയി ചിന്തിക്കുന്നത് സഹായകരമായിരിക്കും. യഥാർത്ഥത്തിൽ, pandas-ൽ നഷ്ടമായ മൂല്യങ്ങൾ കൈകാര്യം ചെയ്യാൻ നിങ്ങൾ ഉപയോഗിക്കുന്ന ചില പ്രധാന രീതികൾ അവരുടെ പേരുകളിൽ ഈ ആശയം പ്രതിഫലിപ്പിക്കുന്നു:

- `isnull()`: നഷ്ടമായ മൂല്യങ്ങൾ സൂചിപ്പിക്കുന്ന ബൂളിയൻ മാസ്ക് സൃഷ്ടിക്കുന്നു
- `notnull()`: `isnull()`-ന്റെ വിപരീതം
- `dropna()`: ഡാറ്റയുടെ ഫിൽട്ടർ ചെയ്ത പതിപ്പ് നൽകുന്നു
- `fillna()`: നഷ്ടമായ മൂല്യങ്ങൾ പൂരിപ്പിച്ചോ ഇംപ്യൂട്ട് ചെയ്തോ ചെയ്ത ഡാറ്റയുടെ ഒരു പകർപ്പ് നൽകുന്നു

ഇവ പ്രധാനപ്പെട്ട രീതികളാണ്, അവയിൽ പ്രാവീണ്യം നേടുകയും സുഖകരമായി ഉപയോഗിക്കാൻ പഠിക്കുകയും ചെയ്യേണ്ടത് അത്യന്താപേക്ഷിതമാണ്, അതിനാൽ ഓരോതും നാം വിശദമായി പരിശോധിക്കാം.


### ശൂന്യ മൂല്യങ്ങൾ കണ്ടെത്തൽ

ഇപ്പോൾ നാം നഷ്ടമായ മൂല്യങ്ങളുടെ പ്രാധാന്യം മനസിലാക്കിയതിനുശേഷം, അവയെ കൈകാര്യം ചെയ്യുന്നതിന് മുമ്പ് നമ്മുടെ ഡാറ്റാസെറ്റിൽ അവ കണ്ടെത്തേണ്ടതുണ്ട്.  
`isnull()` ഉം `notnull()` ഉം നിങ്ങളുടെ പ്രധാന ശൂന്യ ഡാറ്റ കണ്ടെത്തൽ രീതികളാണ്. ഇരുവരും നിങ്ങളുടെ ഡാറ്റയിൽ ബൂളിയൻ മാസ്കുകൾ നൽകുന്നു.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

ഫലത്തെ ശ്രദ്ധാപൂർവ്വം നോക്കൂ. അതിൽ എന്തെങ്കിലും നിങ്ങളെ അത്ഭുതപ്പെടുത്തുന്നുണ്ടോ? `0` ഒരു ഗണിത ശൂന്യമാണ് എങ്കിലും, അത് പൂർണ്ണസംഖ്യയായി പാൻഡാസ് പരിഗണിക്കുന്നു. `''` കുറച്ച് സൂക്ഷ്മമാണ്. സെക്ഷൻ 1-ൽ ഞങ്ങൾ ഇത് ശൂന്യമായ സ്ട്രിംഗ് മൂല്യത്തെ പ്രതിനിധീകരിക്കാൻ ഉപയോഗിച്ചിരുന്നെങ്കിലും, പാൻഡാസ് കണക്കിലെടുത്താൽ ഇത് ഒരു സ്ട്രിംഗ് ഒബ്ജക്റ്റാണ്, ശൂന്യത്തിന്റെ പ്രതിനിധാനം അല്ല.

ഇപ്പോൾ, ഇത് മറിച്ച്, നിങ്ങൾ പ്രായോഗികമായി ഉപയോഗിക്കുന്ന രീതിയിൽ ഈ രീതികൾ ഉപയോഗിക്കാം. ബൂളിയൻ മാസ്കുകൾ നേരിട്ട് ``Series`` അല്ലെങ്കിൽ ``DataFrame`` ഇൻഡക്സ് ആയി ഉപയോഗിക്കാം, ഇത് വേർതിരിച്ചെടുത്ത നഷ്ടപ്പെട്ട (അഥവാ നിലവിലുള്ള) മൂല്യങ്ങളുമായി പ്രവർത്തിക്കുമ്പോൾ ഉപകാരപ്രദമാണ്.

നഷ്ടപ്പെട്ട മൂല്യങ്ങളുടെ മൊത്തം എണ്ണം അറിയാൻ, `isnull()` രീതിയാൽ സൃഷ്ടിച്ച മാസ്കിൽ ഒരു സംഖ്യ ചെയ്യുക മതി.


In [19]:
example3.isnull().sum()

2

### വ്യായാമം:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**പ്രധാനപ്പെട്ട കാര്യങ്ങൾ**: DataFrames-ൽ `isnull()` ഉം `notnull()` ഉം ഉപയോഗിക്കുമ്പോൾ ഇരുവരും സമാനമായ ഫലങ്ങൾ നൽകുന്നു: അവ ഫലങ്ങളും ആ ഫലങ്ങളുടെ ഇൻഡക്സും കാണിക്കുന്നു, ഇത് നിങ്ങളുടെ ഡാറ്റയെ കൈകാര്യം ചെയ്യുമ്പോൾ വളരെ സഹായകമായിരിക്കും.


### നഷ്ടമായ ഡാറ്റ കൈകാര്യം ചെയ്യൽ

> **പഠന ലക്ഷ്യം:** ഈ ഉപവിഭാഗം അവസാനിക്കുമ്പോൾ, DataFrames-ൽ നിന്നുള്ള നൾ മൂല്യങ്ങൾ എപ്പോൾ എങ്ങനെ മാറ്റി വയ്ക്കാമെന്ന് അല്ലെങ്കിൽ നീക്കം ചെയ്യാമെന്ന് നിങ്ങൾ അറിയണം.

മെഷീൻ ലേണിംഗ് മോഡലുകൾ തന്നെ നഷ്ടമായ ഡാറ്റ കൈകാര്യം ചെയ്യാൻ കഴിയില്ല. അതിനാൽ, ഡാറ്റ മോഡലിലേക്ക് നൽകുന്നതിന് മുമ്പ്, ഈ നഷ്ടമായ മൂല്യങ്ങളെ കൈകാര്യം ചെയ്യേണ്ടതുണ്ട്.

നഷ്ടമായ ഡാറ്റ എങ്ങനെ കൈകാര്യം ചെയ്യപ്പെടുന്നു എന്നത് സൂക്ഷ്മമായ വ്യാപാരങ്ങൾ ഉൾക്കൊള്ളുന്നു, നിങ്ങളുടെ അന്തിമ വിശകലനത്തെയും യഥാർത്ഥ ലോക ഫലങ്ങളെയും ബാധിക്കാം.

നഷ്ടമായ ഡാറ്റ കൈകാര്യം ചെയ്യാനുള്ള പ്രധാനമായ രണ്ട് മാർഗ്ഗങ്ങൾ ഉണ്ട്:


1.   നഷ്ടമായ മൂല്യം അടങ്ങിയ വരി ഒഴിവാക്കുക
2.   നഷ്ടമായ മൂല്യം മറ്റൊരു മൂല്യത്തോടെ മാറ്റി വയ്ക്കുക

ഈ രണ്ട് രീതികളും അവയുടെ ഗുണദോഷങ്ങളും വിശദമായി ചർച്ച ചെയ്യാം.


### നൾ മൂല്യങ്ങൾ ഒഴിവാക്കൽ

നമ്മുടെ മോഡലിലേക്ക് നാം നൽകുന്ന ഡാറ്റയുടെ അളവ് അതിന്റെ പ്രകടനത്തെ നേരിട്ട് ബാധിക്കുന്നു. നൾ മൂല്യങ്ങൾ ഒഴിവാക്കുന്നത് ഡാറ്റാപോയിന്റുകളുടെ എണ്ണം കുറയ്ക്കുന്നതും അതിനാൽ ഡാറ്റാസെറ്റിന്റെ വലിപ്പം കുറയ്ക്കുന്നതുമാണ്. അതിനാൽ, ഡാറ്റാസെറ്റ് വളരെ വലിയതായിരിക്കുമ്പോൾ നൾ മൂല്യങ്ങളുള്ള വരികൾ ഒഴിവാക്കുന്നത് ശുപാർശ ചെയ്യപ്പെടുന്നു.

മറ്റൊരു ഉദാഹരണം, ഒരു പ്രത്യേക വരിയിലോ കോളത്തിലോ വളരെ കുറവായ മൂല്യങ്ങൾ ഉണ്ടാകാം. അപ്പോൾ, അവ ഒഴിവാക്കപ്പെടാം, കാരണം ആ വരിയിലോ കോളത്തിലോ ഡാറ്റയുടെ ഭൂരിഭാഗവും ഇല്ലാത്തതിനാൽ അവ നമ്മുടെ വിശകലനത്തിന് വലിയ മൂല്യം നൽകില്ല.

കുറഞ്ഞ മൂല്യങ്ങൾ തിരിച്ചറിയുന്നതിന് പുറമേ, pandas `Series`-ലും `DataFrame`-ലും നിന്നുള്ള നൾ മൂല്യങ്ങൾ നീക്കംചെയ്യാൻ സൗകര്യപ്രദമായ മാർഗ്ഗം നൽകുന്നു. ഇത് പ്രവർത്തനത്തിൽ കാണാൻ, നാം `example3`-ലേക്ക് മടങ്ങാം. `DataFrame.dropna()` ഫംഗ്ഷൻ നൾ മൂല്യങ്ങളുള്ള വരികൾ ഒഴിവാക്കുന്നതിൽ സഹായിക്കുന്നു.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

`example3[example3.notnull()]` ൽ നിന്നുള്ള നിങ്ങളുടെ ഔട്ട്പുട്ട് ഇതുപോലെയിരിക്കണം എന്ന് ശ്രദ്ധിക്കുക. ഇവിടെ വ്യത്യാസം എന്തെന്നാൽ, മസ്ക് ചെയ്ത മൂല്യങ്ങളിൽ മാത്രം ഇൻഡക്സ് ചെയ്യുന്നതിന് പകരം, `dropna` ആ മൂല്യങ്ങൾ `Series` `example3` ൽ നിന്ന് നീക്കം ചെയ്തിരിക്കുന്നു.

DataFrames-ന് രണ്ട് ഡൈമെൻഷനുകൾ ഉള്ളതിനാൽ, ഡാറ്റ നീക്കം ചെയ്യാനുള്ള കൂടുതൽ ഓപ്ഷനുകൾ അവയ്ക്ക് ലഭ്യമാണ്.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(നിങ്ങൾ ശ്രദ്ധിച്ചിട്ടുണ്ടോ pandas രണ്ട് കോളങ്ങൾ `NaN`-കൾ ഉൾപ്പെടുത്തുന്നതിനായി ഫ്ലോട്ടുകളായി അപ്കാസ്റ്റ് ചെയ്യുന്നത്?)

`DataFrame`-ൽ നിന്ന് ഒരു മൂല്യം മാത്രം നീക്കം ചെയ്യാൻ കഴിയില്ല, അതിനാൽ നിങ്ങൾക്ക് പൂർണ്ണമായ വരികളും കോളങ്ങളുമാണ് നീക്കം ചെയ്യേണ്ടത്. നിങ്ങൾ ചെയ്യുന്നതിനെ ആശ്രയിച്ച്, നിങ്ങൾക്ക് ഒന്നോ മറ്റൊന്നോ ചെയ്യാൻ ആഗ്രഹിക്കാം, അതിനാൽ pandas ഇരുവിധ ഓപ്ഷനുകളും നൽകുന്നു. ഡാറ്റാ സയൻസിൽ, കോളങ്ങൾ സാധാരണയായി വേരിയബിളുകളെ പ്രതിനിധീകരിക്കുകയും വരികൾ നിരീക്ഷണങ്ങളെ പ്രതിനിധീകരിക്കുകയും ചെയ്യുന്നതിനാൽ, നിങ്ങൾക്ക് ഡാറ്റയുടെ വരികൾ നീക്കം ചെയ്യാനുള്ള സാധ്യത കൂടുതലാണ്; `dropna()`-യുടെ ഡിഫോൾട്ട് ക്രമീകരണം ഏതെങ്കിലും നൾ മൂല്യങ്ങൾ ഉള്ള എല്ലാ വരികളും നീക്കം ചെയ്യുകയാണ്:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


ആവശ്യമായാൽ, നിങ്ങൾ കോളങ്ങളിലെ NA മൂല്യങ്ങൾ ഒഴിവാക്കാം. അതിന് `axis=1` ഉപയോഗിക്കുക:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


കുറഞ്ഞ ഡാറ്റാസെറ്റുകളിൽ നിങ്ങൾ സൂക്ഷിക്കാനാഗ്രഹിക്കുന്ന നിരവധി ഡാറ്റ നഷ്ടപ്പെടാൻ ഇത് കാരണമാകാമെന്ന് ശ്രദ്ധിക്കുക. എന്നാൽ നിങ്ങൾക്ക് ചില നിരകളും കോളങ്ങളുമാണ് മാത്രം ഒഴിവാക്കേണ്ടത്, അവയിൽ പലതും അല്ലെങ്കിൽ മുഴുവൻ നൾ മൂല്യങ്ങളാണെങ്കിൽ? നിങ്ങൾക്ക് `dropna`-യിൽ `how`യും `thresh` പാരാമീറ്ററുകളും ഉപയോഗിച്ച് ആ ക്രമീകരണങ്ങൾ വ്യക്തമാക്കാം.

ഡീഫോൾട്ടായി, `how='any'` ആണ് (നിങ്ങൾക്ക് സ്വയം പരിശോധിക്കാനോ ഈ മെത്തഡിന് മറ്റ് പാരാമീറ്ററുകൾ എന്തൊക്കെയാണെന്ന് കാണാനോ ആഗ്രഹമുണ്ടെങ്കിൽ, ഒരു കോഡ് സെല്ലിൽ `example4.dropna?` റൺ ചെയ്യുക). അല്ലെങ്കിൽ, മുഴുവൻ നൾ മൂല്യങ്ങളുള്ള നിരകളും കോളങ്ങളുമാണ് മാത്രം ഒഴിവാക്കേണ്ടത് എങ്കിൽ `how='all'` എന്ന് വ്യക്തമാക്കാം. അടുത്ത വ്യായാമത്തിൽ ഇത് പ്രവർത്തനത്തിൽ കാണാൻ നമ്മുടെ ഉദാഹരണ `DataFrame` വിപുലീകരിക്കാം.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> പ്രധാനപ്പെട്ട കാര്യങ്ങൾ: 
1. ഡാറ്റാസെറ്റ് വലിയതായിരിക്കുമ്പോഴേ മാത്രം നൾ മൂല്യങ്ങൾ ഒഴിവാക്കുന്നത് നല്ല ആശയമാണ്.
2. ഒരു പൂർണ്ണമായ വരി അല്ലെങ്കിൽ കോളം അവരുടെ ഡാറ്റയുടെ ഭൂരിഭാഗം നഷ്ടപ്പെട്ടിട്ടുണ്ടെങ്കിൽ അവ ഒഴിവാക്കാം.
3. `DataFrame.dropna(axis=)` മെത്തഡ് നൾ മൂല്യങ്ങൾ ഒഴിവാക്കാൻ സഹായിക്കുന്നു. `axis` ആർഗ്യുമെന്റ് വരികളെയാണോ കോളങ്ങളെയാണോ ഒഴിവാക്കേണ്ടതെന്ന് സൂചിപ്പിക്കുന്നു.
4. `how` ആർഗ്യുമെന്റും ഉപയോഗിക്കാം. ഡിഫോൾട്ടായി ഇത് `any` ആയി സജ്ജീകരിച്ചിരിക്കുന്നു. അതിനാൽ, ഏതെങ്കിലും നൾ മൂല്യങ്ങൾ ഉള്ള വരികളെയോ കോളങ്ങളെയോ മാത്രമേ ഇത് ഒഴിവാക്കൂ. എല്ലാ മൂല്യങ്ങളും നൾ ആയിരിക്കുന്ന വരികളെയോ കോളങ്ങളെയോ മാത്രം ഒഴിവാക്കണമെങ്കിൽ ഇത് `all` ആയി സജ്ജീകരിക്കാം.


### വ്യായാമം:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` പാരാമീറ്റർ നിങ്ങൾക്ക് കൂടുതൽ സൂക്ഷ്മ നിയന്ത്രണം നൽകുന്നു: ഒരു വരി അല്ലെങ്കിൽ കോളം നിലനിർത്താൻ ആവശ്യമായ *നോൺ-നൾ* മൂല്യങ്ങളുടെ എണ്ണം നിങ്ങൾ സജ്ജമാക്കുന്നു:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


ഇവിടെ, ആദ്യവും അവസാനവും വരി ഒഴിവാക്കിയിട്ടുണ്ട്, കാരണം അവയിൽ രണ്ട് മാത്രമേ നൺ-നൾ മൂല്യങ്ങൾ ഉള്ളൂ.


### നൾ മൂല്യങ്ങൾ പൂരിപ്പിക്കൽ

കഴിഞ്ഞ മൂല്യങ്ങൾ സാധുവായവയാകാവുന്നവയാൽ പൂരിപ്പിക്കുന്നത് ചിലപ്പോൾ ബുദ്ധിമുട്ടില്ല. നൾ മൂല്യങ്ങൾ പൂരിപ്പിക്കാൻ ചില സാങ്കേതിക വിദ്യകൾ ഉണ്ട്. ആദ്യത്തേത് ഡൊമെയ്ൻ നോളജ് (ഡാറ്റാസെറ്റിന്റെ അടിസ്ഥാനമായ വിഷയത്തെക്കുറിച്ചുള്ള അറിവ്) ഉപയോഗിച്ച് നഷ്ടപ്പെട്ട മൂല്യങ്ങളെ ഏതെങ്കിലും വിധത്തിൽ ഏകദേശം കണക്കാക്കുക എന്നതാണ്.

നിങ്ങൾക്ക് `isnull` ഉപയോഗിച്ച് ഇത് സ്ഥലത്ത് തന്നെ ചെയ്യാം, പക്ഷേ ഇത് വളരെ കഠിനമായിരിക്കാം, പ്രത്യേകിച്ച് പൂരിപ്പിക്കേണ്ട മൂല്യങ്ങൾ 많으면. ഡാറ്റാ സയൻസിൽ ഇത് വളരെ സാധാരണമായ ഒരു ജോലി ആയതിനാൽ, pandas `fillna` നൽകുന്നു, ഇത് നഷ്ടപ്പെട്ട മൂല്യങ്ങൾ നിങ്ങൾ തിരഞ്ഞെടുക്കുന്ന മൂല്യത്തോടെ മാറ്റിയുള്ള `Series` അല്ലെങ്കിൽ `DataFrame` ന്റെ ഒരു പകർപ്പ് നൽകുന്നു. ഇത് പ്രായോഗികമായി എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് കാണാൻ മറ്റൊരു ഉദാഹരണ `Series` സൃഷ്ടിക്കാം.


### വർഗ്ഗീയ ഡാറ്റ (സംഖ്യാത്മകമല്ലാത്തത്)
ആദ്യം നമുക്ക് സംഖ്യാത്മകമല്ലാത്ത ഡാറ്റ പരിഗണിക്കാം. ഡാറ്റാസെറ്റുകളിൽ, നമുക്ക് വർഗ്ഗീയ ഡാറ്റ ഉള്ള കോളങ്ങൾ ഉണ്ടാകുന്നു. ഉദാ. ലിംഗം, സത്യം അല്ലെങ്കിൽ തെറ്റ് തുടങ്ങിയവ.

ഇവയിൽ പലപ്പോഴും, നാം നഷ്ടപ്പെട്ട മൂല്യങ്ങളെ കോളത്തിന്റെ `mode` ഉപയോഗിച്ച് പൂരിപ്പിക്കുന്നു. ഉദാഹരണത്തിന്, നമുക്ക് 100 ഡാറ്റ പോയിന്റുകൾ ഉണ്ടെന്ന് കരുതുക, അതിൽ 90 സത്യം എന്ന് പറഞ്ഞിട്ടുണ്ട്, 8 തെറ്റ് എന്ന് പറഞ്ഞിട്ടുണ്ട്, 2 പൂരിപ്പിച്ചിട്ടില്ല. അപ്പോൾ, നാം ആ 2 സത്യം എന്ന് പൂരിപ്പിക്കാം, മുഴുവൻ കോളം പരിഗണിച്ചുകൊണ്ട്.

വീണ്ടും, ഇവിടെ നാം ഡൊമെയ്ൻ അറിവ് ഉപയോഗിക്കാം. മോഡ് ഉപയോഗിച്ച് പൂരിപ്പിക്കുന്ന ഒരു ഉദാഹരണം പരിഗണിക്കാം.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


ഇപ്പോൾ, ആദ്യം `None` മൂല്യം മോഡോടെ പൂരിപ്പിക്കുന്നതിന് മുമ്പ് മോഡ് കണ്ടെത്താം.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

അതിനാൽ, നാം None നെ True ആയി മാറ്റും


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


നാം കാണുന്ന പോലെ, നൾ മൂല്യം മാറ്റി വച്ചിട്ടുണ്ട്. പറയേണ്ടതില്ല, നാം `'True'` എന്നതിന്റെ പകരം എന്തും എഴുതിയിരുന്നാലും അത് മാറ്റി വച്ചേനെ.


### സംഖ്യാത്മക ഡാറ്റ  
ഇപ്പോൾ, സംഖ്യാത്മക ഡാറ്റയിലേക്ക് വരാം. ഇവിടെ, നഷ്ടപ്പെട്ട മൂല്യങ്ങൾ മാറ്റിവെക്കാനുള്ള രണ്ട് സാധാരണ മാർഗ്ഗങ്ങൾ ഉണ്ട്:  

1. വരിയുടെ മധ്യക (Median) ഉപയോഗിച്ച് മാറ്റിവെക്കുക  
2. വരിയുടെ ശരാശരി (Mean) ഉപയോഗിച്ച് മാറ്റിവെക്കുക  

വെളിപ്പെടുത്താത്ത ഡാറ്റയിൽ ഔട്ട്‌ലൈയർമാർ ഉള്ളപ്പോൾ, മധ്യക ഉപയോഗിച്ച് മാറ്റിവെക്കുന്നു. കാരണം, മധ്യക ഔട്ട്‌ലൈയർമാർക്ക് പ്രതിരോധശേഷിയുള്ളതാണ്.  

ഡാറ്റ സാധാരണവത്കരിച്ചിരിക്കുമ്പോൾ, ശരാശരി ഉപയോഗിക്കാം, കാരണം ആ സാഹചര്യത്തിൽ ശരാശരിയും മധ്യകവും വളരെ അടുത്തിരിക്കും.  

ആദ്യം, സാധാരണമായി വിതരണം ചെയ്ത ഒരു കോളം എടുത്ത്, ആ കോളത്തിന്റെ ശരാശരിയാൽ നഷ്ടപ്പെട്ട മൂല്യം പൂരിപ്പിക്കാം.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


നിരയുടെ ശരാശരി ആണ്


In [33]:
np.mean(fill_with_mean[0])

0.0

സാധാരണ മൂല്യത്തോടെ പൂരിപ്പിക്കൽ


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


നാം കാണുന്ന പോലെ, നഷ്ടമായ മൂല്യം അതിന്റെ ശരാശരിയാൽ മാറ്റിസ്ഥാപിച്ചിരിക്കുന്നു.


ഇപ്പോൾ നമുക്ക് മറ്റൊരു ഡാറ്റാഫ്രെയിം പരീക്ഷിക്കാം, ഈ തവണ നാം None മൂല്യങ്ങളെ കോളത്തിന്റെ മധ്യസ്ഥ മൂല്യത്തോടെ മാറ്റിസ്ഥാപിക്കും.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


രണ്ടാം കോളത്തിന്റെ മധ്യകമാണ്


In [36]:
fill_with_median[1].median()

4.0

മധ്യകത്തോടെ പൂരിപ്പിക്കൽ


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


നാം കാണുന്ന പോലെ, NaN മൂല്യം കോളത്തിന്റെ മധ്യകത്തിൽ മാറ്റിയിട്ടുണ്ട്.


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

നിങ്ങൾ എല്ലാ നൾ എൻട്രികളും ഒരു ഏക മൂല്യത്തോടെ പൂരിപ്പിക്കാം, ഉദാഹരണത്തിന് `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> പ്രധാനപ്പെട്ട കാര്യങ്ങൾ:
1. ഡാറ്റ കുറവായിരിക്കുകയോ നഷ്ടപ്പെട്ട ഡാറ്റ പൂരിപ്പിക്കാൻ ഒരു തന്ത്രമുണ്ടായിരിക്കുകയോ ചെയ്താൽ മാത്രമേ നഷ്ടപ്പെട്ട മൂല്യങ്ങൾ പൂരിപ്പിക്കേണ്ടതുള്ളൂ.
2. നഷ്ടപ്പെട്ട മൂല്യങ്ങൾ ഏകദേശം കണക്കുകൂട്ടാൻ ഡൊമെയ്ൻ അറിവ് ഉപയോഗിക്കാം.
3. വർഗ്ഗീയ ഡാറ്റയ്ക്ക്, സാധാരണയായി, നഷ്ടപ്പെട്ട മൂല്യങ്ങൾ ആ കോളത്തിന്റെ മോഡോടെ പകരം വയ്ക്കുന്നു.
4. സംഖ്യാത്മക ഡാറ്റയ്ക്ക്, സാധാരണയായി, നഷ്ടപ്പെട്ട മൂല്യങ്ങൾ ശരാശരി (സാധാരണവത്കരിച്ച ഡാറ്റാസെറ്റുകൾക്കായി) അല്ലെങ്കിൽ കോളത്തിന്റെ മധ്യകമാനത്തോടെ പൂരിപ്പിക്കുന്നു.


### വ്യായാമം:


In [40]:
# What happens if you try to fill null values with a string, like ''?


നിങ്ങൾ **ഫോർവേഡ്-ഫിൽ** ചെയ്യാൻ കഴിയും, അതായത് ഒരു നാൾ മൂല്യം നിറയ്ക്കാൻ അവസാനത്തെ സാധുവായ മൂല്യം ഉപയോഗിക്കുക:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

നീക്കം ചെയ്യാത്ത ഒരു മൂല്യം പൂരിപ്പിക്കാൻ അടുത്ത സാധുവായ മൂല്യം പിന്‍വശത്തേക്ക് പ്രചരിപ്പിക്കാൻ നിങ്ങൾക്ക് **ബാക്ക്-ഫിൽ** ചെയ്യാനും കഴിയും:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

നിങ്ങൾക്ക് തോന്നിയതുപോലെ, ഇത് DataFrames-ഉം ഒരുപോലെ പ്രവർത്തിക്കുന്നു, പക്ഷേ നിങ്ങൾ നുള്ള് മൂല്യങ്ങൾ പൂരിപ്പിക്കാൻ ഒരു `axis` നിർദ്ദിഷ്ടമാക്കാനും കഴിയും:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


മുൻവില ലഭ്യമല്ലാത്തപ്പോൾ ഫോർവേഡ്-ഫില്ലിംഗിനായി, നൾ മൂല്യം നിലനിൽക്കുന്നു എന്ന് ശ്രദ്ധിക്കുക.


### വ്യായാമം:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


`fillna` ഉപയോഗിക്കുന്നതിൽ നിങ്ങൾ സൃഷ്ടിപരമായിരിക്കാം. ഉദാഹരണത്തിന്, വീണ്ടും `example4` നോക്കാം, പക്ഷേ ഈ തവണ `DataFrame`-യിലെ എല്ലാ മൂല്യങ്ങളുടെ ശരാശരിയാൽ നഷ്ടപ്പെട്ട മൂല്യങ്ങൾ പൂരിപ്പിക്കാം:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


നോട്ടീസ് ചെയ്യുക, കോളം 3 ഇപ്പോഴും മൂല്യമില്ല: ഡിഫോൾട്ട് ദിശ മൂല്യങ്ങൾ വരി അനുസരിച്ച് പൂരിപ്പിക്കുകയാണ്.

> **പ്രധാനപ്പെട്ട കാര്യം:** നിങ്ങളുടെ ഡാറ്റാസെറ്റുകളിൽ കാണാനാകാത്ത മൂല്യങ്ങളെ കൈകാര്യം ചെയ്യാനുള്ള പല മാർഗ്ഗങ്ങളും ഉണ്ട്. നിങ്ങൾ ഉപയോഗിക്കുന്ന പ്രത്യേക തന്ത്രം (അവ നീക്കം ചെയ്യുക, മാറ്റിസ്ഥാപിക്കുക, അല്ലെങ്കിൽ എങ്ങനെ മാറ്റിസ്ഥാപിക്കാമെന്ന്) ആ ഡാറ്റയുടെ പ്രത്യേകതകൾ അനുസരിച്ച് നിർണ്ണയിക്കപ്പെടണം. നിങ്ങൾ കൂടുതൽ ഡാറ്റാസെറ്റുകൾ കൈകാര്യം ചെയ്ത് ഇടപഴകുമ്പോൾ കാണാനാകാത്ത മൂല്യങ്ങളെ എങ്ങനെ കൈകാര്യം ചെയ്യാമെന്ന് നിങ്ങൾക്ക് മികച്ച ബോധം വികസിപ്പിക്കും.


### വർഗ്ഗീയ ഡാറ്റ എൻകോഡിംഗ്

മെഷീൻ ലേണിംഗ് മോഡലുകൾക്ക് സംഖ്യകളും ഏതെങ്കിലും രൂപത്തിലുള്ള സംഖ്യാത്മക ഡാറ്റയും മാത്രമേ കൈകാര്യം ചെയ്യാൻ കഴിയൂ. ഒരു "അതെ"യും "ഇല്ല"യും തമ്മിലുള്ള വ്യത്യാസം അവയ്ക്ക് തിരിച്ചറിയാൻ കഴിയില്ല, പക്ഷേ 0നും 1നും തമ്മിലുള്ള വ്യത്യാസം തിരിച്ചറിയാൻ കഴിയും. അതിനാൽ, നഷ്ടപ്പെട്ട മൂല്യങ്ങൾ പൂരിപ്പിച്ചതിന് ശേഷം, മോഡൽ മനസ്സിലാക്കാൻ വേണ്ടി വർഗ്ഗീയ ഡാറ്റയെ ഏതെങ്കിലും സംഖ്യാത്മക രൂപത്തിലേക്ക് എൻകോഡ് ചെയ്യേണ്ടതുണ്ട്.

എൻകോഡിംഗ് രണ്ട് രീതികളിൽ ചെയ്യാം. അവയെക്കുറിച്ച് നാം അടുത്തതായി ചർച്ച ചെയ്യാം.


**ലേബൽ എൻകോഡിംഗ്**


ലേബൽ എൻകോഡിംഗ് അടിസ്ഥാനപരമായി ഓരോ വിഭാഗത്തെയും ഒരു സംഖ്യയിലേക്ക് മാറ്റുകയാണ്. ഉദാഹരണത്തിന്, എങ്കിൽ നമ്മൾക്ക് ഒരു എയർലൈൻ യാത്രക്കാരുടെ ഡാറ്റാസെറ്റ് ഉണ്ടെന്നും അവരുടേതായ ക്ലാസ് താഴെപ്പറയുന്നവയിൽ ഒന്നാണെന്നും കരുതുക ['ബിസിനസ് ക്ലാസ്', 'ഇക്കണോമി ക്ലാസ്', 'ഫസ്റ്റ് ക്ലാസ്']. ഇതിൽ ലേബൽ എൻകോഡിംഗ് ചെയ്താൽ ഇത് [0,1,2] ആയി മാറ്റപ്പെടും. കോഡിലൂടെ ഒരു ഉദാഹരണം നോക്കാം. നമുക്ക് വരാനിരിക്കുന്ന നോട്ട്‌ബുക്കുകളിൽ `scikit-learn` പഠിക്കാനിരിക്കുന്നതിനാൽ, ഇവിടെ അതുപയോഗിക്കില്ല.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


1-ാം കോളത്തിൽ ലേബൽ എൻകോഡിംഗ് നടത്താൻ, ഓരോ ക്ലാസിനും ഒരു സംഖ്യയിലേക്ക് മാപ്പിംഗ് ആദ്യം നിർവചിക്കണം, പിന്നീട് മാറ്റം വരുത്തണം.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


നാം കാണുന്ന പോലെ, ഔട്ട്പുട്ട് നാം കരുതിയതുപോലെ തന്നെയാണ്. അതിനാൽ, ലേബൽ എൻകോഡിംഗ് എപ്പോൾ ഉപയോഗിക്കണം? ലേബൽ എൻകോഡിംഗ് താഴെ പറയുന്ന ഏതെങ്കിലും ഒരു സാഹചര്യത്തിലും അല്ലെങ്കിൽ ഇരുവിലുമാണ് ഉപയോഗിക്കുന്നത്:
1. വിഭാഗങ്ങളുടെ എണ്ണം വലിയപ്പോൾ
2. വിഭാഗങ്ങൾ ക്രമത്തിൽ ഉള്ളപ്പോൾ.


**ഒന്ന് ഹോട്ട് എൻകോഡിംഗ്**

മറ്റൊരു എൻകോഡിംഗ് തരം ഒന്ന് ഹോട്ട് എൻകോഡിംഗ് ആണ്. ഈ എൻകോഡിംഗിൽ, കോളത്തിന്റെ ഓരോ വിഭാഗവും വേർതിരിച്ച കോളമായി ചേർക്കപ്പെടും, ഓരോ ഡാറ്റാപോയിന്റിനും ആ വിഭാഗം ഉൾക്കൊള്ളുന്നുണ്ടോ എന്നതിന്റെ അടിസ്ഥാനത്തിൽ 0 അല്ലെങ്കിൽ 1 ലഭിക്കും. അതായത്, n വ്യത്യസ്ത വിഭാഗങ്ങൾ ഉണ്ടെങ്കിൽ, n കോളങ്ങൾ ഡാറ്റാഫ്രെയിമിൽ ചേർക്കപ്പെടും.

ഉദാഹരണത്തിന്, നാം മുമ്പ് എടുത്ത എയർപ്ലെയിൻ ക്ലാസ് ഉദാഹരണം എടുത്തു നോക്കാം. വിഭാഗങ്ങൾ: ['ബിസിനസ് ക്ലാസ്', 'ഇക്കണോമി ക്ലാസ്', 'ഫസ്റ്റ് ക്ലാസ്'] ആയിരുന്നു. അതിനാൽ, ഒന്ന് ഹോട്ട് എൻകോഡിംഗ് നടത്തുമ്പോൾ, താഴെ പറയുന്ന മൂന്ന് കോളങ്ങൾ ഡാറ്റാസെറ്റിൽ ചേർക്കപ്പെടും: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


നമുക്ക് ആദ്യ കോളത്തിൽ ഒന്ന് ഹോട്ട് എൻകോഡിംഗ് നടത്താം.


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


ഓരോ ഒന്ന് ഹോട്ട് എൻകോഡഡ് കോളവും 0 അല്ലെങ്കിൽ 1 അടങ്ങിയിരിക്കുന്നു, അത് ആ ഡാറ്റാപോയിന്റിനായി ആ വിഭാഗം നിലവിലുണ്ടോ എന്നത് വ്യക്തമാക്കുന്നു.


ഒന്ന് ഹോട്ട് എൻകോഡിംഗ് എപ്പോൾ ഉപയോഗിക്കാം? ഒന്ന് ഹോട്ട് എൻകോഡിംഗ് താഴെ പറയുന്ന ഏതെങ്കിലും ഒരു സാഹചര്യത്തിൽ അല്ലെങ്കിൽ ഇരുവിധവും ഉപയോഗിക്കുന്നു:

1. വിഭാഗങ്ങളുടെ എണ്ണം കൂടാതെ ഡാറ്റാസെറ്റിന്റെ വലിപ്പം ചെറുതായിരിക്കുമ്പോൾ.
2. വിഭാഗങ്ങൾ പ്രത്യേകമായ ഒരു ക്രമം പാലിക്കാത്തപ്പോൾ.


> പ്രധാനപ്പെട്ട കാര്യങ്ങൾ:
1. സംഖ്യാത്മകമല്ലാത്ത ഡാറ്റ സംഖ്യാത്മക ഡാറ്റയാക്കി മാറ്റാൻ എൻകോഡിംഗ് നടത്തുന്നു.
2. എൻകോഡിംഗിന്റെ രണ്ട് തരം ഉണ്ട്: ലേബൽ എൻകോഡിംഗ്, ഒന്ന് ഹോട്ട് എൻകോഡിംഗ്, ഇവ രണ്ടും ഡാറ്റാസെറ്റിന്റെ ആവശ്യകതകൾ അനുസരിച്ച് നടത്താം.


## പകർപ്പുകൾ നീക്കംചെയ്യൽ

> **പഠനലക്ഷ്യം:** ഈ ഉപവിഭാഗം അവസാനിക്കുമ്പോൾ, ഡാറ്റാഫ്രെയിമുകളിൽ നിന്ന് പകർപ്പുകൾ തിരിച്ചറിയാനും നീക്കംചെയ്യാനും നിങ്ങൾക്ക് സുഖകരമായിരിക്കണം.

കാണാതായ ഡാറ്റയ്ക്ക് പുറമേ, യാഥാർത്ഥ്യ ലോക ഡാറ്റാസെറ്റുകളിൽ നിങ്ങൾക്ക് പലപ്പോഴും പകർപ്പുകൾ കാണാം. ഭാഗ്യവശാൽ, pandas പകർപ്പുകൾ കണ്ടെത്താനും നീക്കംചെയ്യാനും എളുപ്പമുള്ള മാർഗം നൽകുന്നു.


### പകർപ്പുകൾ തിരിച്ചറിയൽ: `duplicated`

`duplicated` മെത്തഡ് pandas-ൽ ഉപയോഗിച്ച് പകർപ്പുള്ള മൂല്യങ്ങൾ എളുപ്പത്തിൽ കണ്ടെത്താം, ഇത് ഒരു ബൂളിയൻ മാസ്ക് നൽകുന്നു, അത് ഒരു `DataFrame`-ലെ ഒരു എൻട്രി മുമ്പത്തെ ഒന്നിന്റെ പകർപ്പാണോ എന്ന് സൂചിപ്പിക്കുന്നു. ഇത് പ്രവർത്തനത്തിൽ കാണാൻ മറ്റൊരു ഉദാഹരണ `DataFrame` സൃഷ്ടിക്കാം.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### പകർപ്പുകൾ ഒഴിവാക്കൽ: `drop_duplicates`
`drop_duplicates` ലളിതമായി `duplicated` മൂല്യങ്ങൾ എല്ലാം `False` ആയിരിക്കുന്ന ഡാറ്റയുടെ ഒരു പകർപ്പ് തിരികെ നൽകുന്നു:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` ഉം `drop_duplicates` ഉം ഡിഫോൾട്ടായി എല്ലാ കോളങ്ങളെയും പരിഗണിക്കുന്നു, പക്ഷേ നിങ്ങൾക്ക് നിങ്ങളുടെ `DataFrame` ൽ ചില കോളങ്ങളിലേയ്ക്ക് മാത്രം അവ പരിശോധിക്കണമെന്ന് വ്യക്തമാക്കാം:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **പ്രധാനപ്പെട്ടത്:** പകർപ്പുള്ള ഡാറ്റ നീക്കംചെയ്യുന്നത് ഏകദേശം എല്ലാ ഡാറ്റാ-സയൻസ് പ്രോജക്ടുകളുടെയും അനിവാര്യമായ ഭാഗമാണ്. പകർപ്പുള്ള ഡാറ്റ നിങ്ങളുടെ വിശകലനങ്ങളുടെ ഫലങ്ങൾ മാറ്റുകയും തെറ്റായ ഫലങ്ങൾ നൽകുകയും ചെയ്യാം!


## യഥാർത്ഥ ലോക ഡാറ്റ ഗുണനിലവാര പരിശോധനകൾ

> **പഠന ലക്ഷ്യം:** ഈ വിഭാഗം അവസാനിക്കുമ്പോൾ, അസംഘടിത വർഗ്ഗീയ മൂല്യങ്ങൾ, അസാധാരണ സംഖ്യാത്മക മൂല്യങ്ങൾ (ഔട്ട്‌ലൈയർമാർ), വ്യത്യാസങ്ങളുള്ള പകർപ്പുകൾ ഉൾപ്പെടെയുള്ള സാധാരണ യഥാർത്ഥ ലോക ഡാറ്റ ഗുണനിലവാര പ്രശ്നങ്ങൾ കണ്ടെത്താനും ശരിയാക്കാനും നിങ്ങൾക്ക് സുഖകരമാകണം.

മിസ്സിംഗ് മൂല്യങ്ങളും കൃത്യമായ പകർപ്പുകളും സാധാരണ പ്രശ്നങ്ങളായിരുന്നാലും, യഥാർത്ഥ ലോക ഡാറ്റാസെറ്റുകളിൽ കൂടുതൽ സൂക്ഷ്മമായ പ്രശ്നങ്ങൾ ഉണ്ടാകാറുണ്ട്:

1. **അസംഘടിത വർഗ്ഗീയ മൂല്യങ്ങൾ**: ഒരേ വർഗ്ഗം വ്യത്യസ്തമായി എഴുതപ്പെട്ടത് (ഉദാ., "USA", "U.S.A", "United States")
2. **അസാധാരണ സംഖ്യാത്മക മൂല്യങ്ങൾ**: ഡാറ്റാ എൻട്രി പിശകുകൾ സൂചിപ്പിക്കുന്ന അത്യന്തം വ്യത്യസ്ത മൂല്യങ്ങൾ (ഉദാ., പ്രായം = 999)
3. **സമീപ പകർപ്പ് വരികൾ**: ചെറിയ വ്യത്യാസങ്ങളോടെ ഒരേ ഘടകത്തെ പ്രതിനിധീകരിക്കുന്ന രേഖകൾ

ഈ പ്രശ്നങ്ങൾ കണ്ടെത്താനും കൈകാര്യം ചെയ്യാനും ഉള്ള സാങ്കേതിക വിദ്യകൾ പരിശോധിക്കാം.


### ഒരു സാമ്പിൾ "അഴുക്കുള്ള" ഡാറ്റാസെറ്റ് സൃഷ്ടിക്കൽ

ആദ്യം, നാം സാധാരണയായി യാഥാർത്ഥ്യ ഡാറ്റയിൽ കാണുന്ന പ്രശ്നങ്ങളുള്ള ഒരു സാമ്പിൾ ഡാറ്റാസെറ്റ് സൃഷ്ടിക്കാം:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. അസംഘടിത വർഗ്ഗീയ മൂല്യങ്ങൾ കണ്ടെത്തൽ

`country` കോളത്തിൽ ഒരേ രാജ്യങ്ങൾക്ക് പല പ്രതിനിധാനങ്ങളും ഉള്ളതായി ശ്രദ്ധിക്കുക. ഈ അസംഘടിതത്വങ്ങൾ കണ്ടെത്താം:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### വർഗ്ഗീകരണ മൂല്യങ്ങൾ സ്റ്റാൻഡേർഡൈസ് ചെയ്യൽ

ഈ മൂല്യങ്ങൾ സ്റ്റാൻഡേർഡൈസ് ചെയ്യാൻ നാം ഒരു മാപ്പിംഗ് സൃഷ്ടിക്കാം. ലളിതമായ ഒരു സമീപനം lowercase ആക്കുകയും ഒരു മാപ്പിംഗ് ഡിക്ഷണറി സൃഷ്ടിക്കുകയുമാണ്:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**മാറ്റുവഴി: ഫസി മാച്ചിംഗ് ഉപയോഗിക്കൽ**

കൂടുതൽ സങ്കീർണ്ണമായ കേസുകൾക്കായി, സമാനമായ സ്ട്രിംഗുകൾ സ്വയം കണ്ടെത്താൻ `rapidfuzz` ലൈബ്രറി ഉപയോഗിച്ച് ഫസി സ്ട്രിംഗ് മാച്ചിംഗ് ചെയ്യാം:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. അസാധാരണ സംഖ്യാത്മക മൂല്യങ്ങൾ (ഔട്ട്‌ലൈയർമാർ) കണ്ടെത്തൽ

`age` കോളം നോക്കുമ്പോൾ, 199, -5 പോലുള്ള ചില സംശയാസ്പദമായ മൂല്യങ്ങൾ കാണാം. ഈ ഔട്ട്‌ലൈയർമാർ കണ്ടെത്താൻ നാം സാംഖ്യിക രീതികൾ ഉപയോഗിക്കാം.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### IQR (ഇന്റർക്വാർട്ടൈൽ റേഞ്ച്) രീതിയുടെ ഉപയോഗം

IQR രീതി അത്യന്തം മൂല്യങ്ങൾക്ക് കുറവായ സാന്ദ്രതയുള്ള ഒരു ശക്തമായ സ്ഥിതിവിവരശാസ്ത്ര സാങ്കേതിക വിദ്യയാണ്, ഇത് ഔട്ട്‌ലൈയർ കണ്ടെത്തലിനായി ഉപയോഗിക്കുന്നു:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Z-സ്കോർ രീതി ഉപയോഗിച്ച്

Z-സ്കോർ രീതി ശരാശരിയിൽ നിന്നുള്ള സ്റ്റാൻഡേർഡ് ഡിവിയേഷനുകളുടെ അടിസ്ഥാനത്തിൽ ഔട്ട്‌ലൈയർമാരെ തിരിച്ചറിയുന്നു:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### ഔട്ട്‌ലൈയർമാരെ കൈകാര്യം ചെയ്യൽ

ഒരിക്കൽ കണ്ടെത്തിയാൽ, ഔട്ട്‌ലൈയർമാരെ പലവിധമായി കൈകാര്യം ചെയ്യാം:
1. **നീക്കം ചെയ്യുക**: ഔട്ട്‌ലൈയർമാർ ഉള്ള വരികൾ ഒഴിവാക്കുക (അവ പിശകുകൾ ആണെങ്കിൽ)
2. **ക്യാപ് ചെയ്യുക**: അതിർത്തി മൂല്യങ്ങളാൽ മാറ്റിസ്ഥാപിക്കുക
3. **NaN ആയി മാറ്റുക**: നഷ്ടപ്പെട്ട ഡാറ്റയായി പരിഗണിച്ച് ഇംപ്യൂട്ടേഷൻ സാങ്കേതികവിദ്യകൾ ഉപയോഗിക്കുക
4. **വെച്ച് വയ്ക്കുക**: അവ യഥാർത്ഥ അത്യന്തം മൂല്യങ്ങളാണെങ്കിൽ


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. സമാനമായ പദങ്ങൾ കണ്ടെത്തൽ

ഞങ്ങളുടെ ഡാറ്റാസെറ്റിൽ "ജോൺ സ്മിത്ത്" എന്ന പേരിൽ ചെറിയ വ്യത്യാസമുള്ള പല എൻട്രികളും ഉണ്ടെന്ന് ശ്രദ്ധിക്കുക. പേരിന്റെ സമാനതയുടെ അടിസ്ഥാനത്തിൽ സാധ്യതയുള്ള പദങ്ങൾ കണ്ടെത്താം.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### ഫസി മാച്ചിങ്ങ് ഉപയോഗിച്ച് സമീപ ഡ്യൂപ്ലിക്കേറ്റുകൾ കണ്ടെത്തൽ

കൂടുതൽ സങ്കീർണ്ണമായ ഡ്യൂപ്ലിക്കേറ്റ് കണ്ടെത്തലിനായി, സമാനമായ പേരുകൾ കണ്ടെത്താൻ ഫസി മാച്ചിങ്ങ് ഉപയോഗിക്കാം:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### പകർപ്പുകൾ കൈകാര്യം ചെയ്യൽ

ഒരിക്കൽ തിരിച്ചറിയുമ്പോൾ, പകർപ്പുകൾ എങ്ങനെ കൈകാര്യം ചെയ്യണമെന്ന് നിങ്ങൾ തീരുമാനിക്കണം:
1. **ആദ്യത്തെ സംഭവമുണ്ടായിടം സൂക്ഷിക്കുക**: `drop_duplicates(keep='first')` ഉപയോഗിക്കുക
2. **അവസാനത്തെ സംഭവമുണ്ടായിടം സൂക്ഷിക്കുക**: `drop_duplicates(keep='last')` ഉപയോഗിക്കുക
3. **വിവരം സംയോജിപ്പിക്കുക**: പകർപ്പ് വരികളിൽ നിന്നുള്ള വിവരങ്ങൾ സംയോജിപ്പിക്കുക
4. **മാനുവൽ അവലോകനം**: മനുഷ്യ അവലോകനത്തിനായി ഫ്ലാഗ് ചെയ്യുക


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Summary: Complete Data Cleaning Pipeline

എല്ലാം ചേർത്ത് ഒരു സമഗ്രമായ ക്ലീനിംഗ് പൈപ്പ്‌ലൈൻ ആയി മാറ്റാം:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 ചലഞ്ച് വ്യായാമം

ഇപ്പോൾ നിങ്ങളുടെ തവണ! താഴെ നിരവധി ഗുണനിലവാര പ്രശ്നങ്ങളുള്ള ഒരു പുതിയ ഡാറ്റാ വരി നൽകിയിരിക്കുന്നു. നിങ്ങൾക്ക് ചെയ്യാൻ കഴിയുമോ:

1. ഈ വരിയിൽ ഉള്ള എല്ലാ പ്രശ്നങ്ങളും തിരിച്ചറിയുക
2. ഓരോ പ്രശ്നവും ശുദ്ധമാക്കാൻ കോഡ് എഴുതുക
3. ശുദ്ധമാക്കിയ വരി ഡാറ്റാസെറ്റിൽ ചേർക്കുക

പ്രശ്നമുള്ള ഡാറ്റ ഇവിടെ:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### പ്രധാനപ്പെട്ട കാര്യങ്ങൾ

1. **അസമതുല്യ വിഭാഗങ്ങൾ** യഥാർത്ഥ ഡാറ്റയിൽ സാധാരണമാണ്. എപ്പോഴും വ്യത്യസ്ത മൂല്യങ്ങൾ പരിശോധിച്ച് മാപ്പിംഗുകൾ അല്ലെങ്കിൽ ഫസി മാച്ചിംഗ് ഉപയോഗിച്ച് അവയെ സ്റ്റാൻഡർഡൈസ് ചെയ്യുക.

2. **ഔട്ട്‌ലൈയർമാർ** നിങ്ങളുടെ വിശകലനത്തെ ഗണ്യമായി ബാധിക്കാം. അവ കണ്ടെത്താൻ ഡൊമെയ്ൻ അറിവും സാങ്കേതിക രീതികളും (IQR, Z-സ്കോർ) സംയോജിപ്പിച്ച് ഉപയോഗിക്കുക.

3. **സമീപ ഡ്യൂപ്ലിക്കേറ്റുകൾ** കൃത്യമായ ഡ്യൂപ്ലിക്കേറ്റുകളേക്കാൾ കണ്ടെത്താൻ ബുദ്ധിമുട്ടാണ്. അവ തിരിച്ചറിയാൻ ഫസി മാച്ചിംഗ് ഉപയോഗിക്കുകയും ഡാറ്റ സാധാരണ രൂപത്തിലാക്കുകയും (ലോവർകേസിൽ മാറ്റൽ, വെളിച്ചം നീക്കംചെയ്യൽ) പരിഗണിക്കുക.

4. **ഡാറ്റ ക്ലീനിംഗ് ആവർത്തനപരമാണ്**. നിങ്ങൾക്ക് പല സാങ്കേതിക വിദ്യകളും പ്രയോഗിച്ച് ഫലങ്ങൾ അവലോകനം ചെയ്ത് ശേഷം ക്ലീനിംഗ് പൂർത്തിയാക്കേണ്ടി വരാം.

5. **നിങ്ങളുടെ തീരുമാനങ്ങൾ രേഖപ്പെടുത്തുക**. ഏത് ക്ലീനിംഗ് ഘട്ടങ്ങൾ നിങ്ങൾ പ്രയോഗിച്ചു, എന്തുകൊണ്ടെന്ന് ട്രാക്ക് ചെയ്യുക, ഇത് പുനരുത്പാദനക്ഷമതക്കും പരദർശിത്വത്തിനും പ്രധാനമാണ്.

> **മികച്ച പ്രാക്ടീസ്:** നിങ്ങളുടെ യഥാർത്ഥ "അഴുക്കുള്ള" ഡാറ്റയുടെ ഒരു പകർപ്പ് എപ്പോഴും സൂക്ഷിക്കുക. ഉറവിട ഡാറ്റ ഫയലുകൾ മുകളിലേയ്ക്ക് എഴുതരുത് - `data_cleaned.csv` പോലുള്ള വ്യക്തമായ നാമകരണം ഉപയോഗിച്ച് ക്ലീനുചെയ്ത പതിപ്പുകൾ സൃഷ്ടിക്കുക.


---

<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാപത്രം**:  
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
