# Paghahanda ng Data

[Orihinal na Notebook mula sa *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio ni Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Paggalugad ng impormasyon ng `DataFrame`

> **Layunin ng pag-aaral:** Sa pagtatapos ng bahaging ito, dapat kang maging komportable sa paghahanap ng pangkalahatang impormasyon tungkol sa data na nakaimbak sa pandas DataFrames.

Kapag na-load mo na ang iyong data sa pandas, malamang na ito ay nasa isang `DataFrame`. Gayunpaman, kung ang data set sa iyong `DataFrame` ay may 60,000 na mga hilera at 400 na mga kolum, paano mo sisimulan ang pag-unawa sa kung ano ang iyong pinagtatrabahuhan? Sa kabutihang-palad, ang pandas ay nagbibigay ng ilang maginhawang kasangkapan upang mabilis na makita ang pangkalahatang impormasyon tungkol sa isang `DataFrame` bukod pa sa unang ilang at huling ilang mga hilera.

Upang galugarin ang kakayahang ito, mag-iimport tayo ng Python scikit-learn library at gagamit ng isang iconic na dataset na nakita na ng bawat data scientist nang daan-daang beses: ang *Iris* dataset ng British biologist na si Ronald Fisher na ginamit sa kanyang papel noong 1936 na "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Na-load na natin ang Iris Dataset sa variable na `iris_df`. Bago tayo sumisid sa data, mahalagang malaman ang bilang ng mga datapoints na mayroon tayo at ang kabuuang laki ng dataset. Kapaki-pakinabang na tingnan ang dami ng data na ating pinagtatrabahuhan.


In [2]:
iris_df.shape

(150, 4)

Kaya, mayroon tayong 150 na hanay at 4 na kolum ng datos. Ang bawat hanay ay kumakatawan sa isang datapoint at ang bawat kolum ay kumakatawan sa isang tampok na nauugnay sa data frame. Kaya't sa madaling salita, mayroong 150 datapoints na naglalaman ng tig-4 na tampok bawat isa.

Ang `shape` dito ay isang katangian ng dataframe at hindi isang function, kaya hindi ito nagtatapos sa pares ng mga panaklong.


### `DataFrame.columns`
Ngayon, tingnan natin ang 4 na column ng data. Ano ang eksaktong kinakatawan ng bawat isa sa kanila? Ang `columns` na attribute ay magbibigay sa atin ng mga pangalan ng mga column sa dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Tulad ng nakikita natin, mayroong apat(4) na kolum. Ang `columns` na katangian ay nagsasabi sa atin ng pangalan ng mga kolum at wala nang iba pa. Ang katangiang ito ay nagiging mahalaga kapag nais nating tukuyin ang mga tampok na nilalaman ng isang dataset.


### `DataFrame.info`
Ang dami ng datos (ibinibigay ng `shape` attribute) at ang pangalan ng mga tampok o kolum (ibinibigay ng `columns` attribute) ay nagbibigay ng impormasyon tungkol sa dataset. Ngayon, nais nating mas suriin ang dataset. Ang `DataFrame.info()` function ay napaka-kapaki-pakinabang para dito.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Mula rito, makakagawa tayo ng ilang obserbasyon:  
1. Ang Uri ng Data ng bawat column: Sa dataset na ito, lahat ng data ay nakaimbak bilang 64-bit floating-point numbers.  
2. Bilang ng mga Non-Null na halaga: Ang paghawak sa mga null na halaga ay isang mahalagang hakbang sa paghahanda ng data. Ito ay tatalakayin sa susunod na bahagi ng notebook.  


### DataFrame.describe()
Halimbawa, mayroon tayong maraming numerikal na datos sa ating dataset. Ang mga unibaryong kalkulasyong estadistikal tulad ng mean, median, quartiles, at iba pa ay maaaring gawin sa bawat kolum nang paisa-isa. Ang `DataFrame.describe()` na function ay nagbibigay sa atin ng estadistikal na buod ng mga numerikal na kolum ng isang dataset.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Ang output sa itaas ay nagpapakita ng kabuuang bilang ng mga data point, mean, standard deviation, minimum, lower quartile (25%), median (50%), upper quartile (75%), at ang maximum na halaga ng bawat column.


### `DataFrame.head`
Sa lahat ng mga nabanggit na function at attribute, nakuha na natin ang pangkalahatang pananaw sa dataset. Alam natin kung ilang data points ang naroon, kung ilang features ang mayroon, ang uri ng data ng bawat feature, at ang bilang ng mga non-null na halaga para sa bawat feature.

Ngayon, oras na para tingnan ang mismong data. Tingnan natin kung ano ang hitsura ng unang ilang row (ang unang ilang data points) ng ating `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Makikita natin dito sa output ang limang (5) entries ng dataset. Kung titingnan natin ang index sa kaliwa, malalaman natin na ito ang unang limang hanay.


### Ehersisyo:

Mula sa halimbawang ibinigay sa itaas, malinaw na, sa default, ang `DataFrame.head` ay nagbabalik ng unang limang hanay ng isang `DataFrame`. Sa code cell sa ibaba, kaya mo bang alamin kung paano ipakita ang higit sa limang hanay?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Isa pang paraan ng pagtingin sa datos ay mula sa dulo (sa halip na sa simula). Ang kabaligtaran ng `DataFrame.head` ay `DataFrame.tail`, na nagbabalik ng huling limang hanay ng isang `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Sa praktika, kapaki-pakinabang na madaling masuri ang unang ilang hanay o ang huling ilang hanay ng isang `DataFrame`, lalo na kapag naghahanap ka ng mga outlier sa mga nakaayos na dataset.

Ang lahat ng mga function at attribute na ipinakita sa itaas gamit ang mga halimbawa ng code ay tumutulong sa atin na magkaroon ng ideya at pakiramdam tungkol sa datos.

> **Punto:** Kahit sa simpleng pagtingin lamang sa metadata tungkol sa impormasyon sa isang DataFrame o sa unang at huling ilang halaga nito, maaari kang agad magkaroon ng ideya tungkol sa laki, hugis, at nilalaman ng datos na iyong hinahawakan.


### Nawawalang Data
Tuklasin natin ang tungkol sa nawawalang data. Ang nawawalang data ay nangyayari kapag walang halaga ang nakaimbak sa ilang mga column.

Halimbawa: sabihin nating may isang tao na masyadong maingat sa kanyang timbang at hindi pinupunan ang field ng timbang sa isang survey. Sa ganitong kaso, ang halaga ng timbang para sa taong iyon ay magiging nawawala.

Kadalasan, sa mga dataset sa totoong mundo, madalas na may mga nawawalang halaga.

**Paano Hinahandle ng Pandas ang Nawawalang Data**

Hinahandle ng Pandas ang nawawalang data sa dalawang paraan. Ang una ay nakita mo na sa mga nakaraang seksyon: `NaN`, o Not a Number. Ito ay isang espesyal na halaga na bahagi ng IEEE floating-point specification at ginagamit lamang upang ipakita ang nawawalang floating-point na mga halaga.

Para sa nawawalang mga halaga maliban sa floats, ginagamit ng pandas ang Python na object na `None`. Bagama't maaaring nakakalito na makatagpo ng dalawang magkaibang uri ng mga halaga na nagsasabi ng halos pareho, may mga matibay na programmatic na dahilan para sa ganitong disenyo, at sa praktika, ang ganitong paraan ay nagbibigay-daan sa pandas na maghatid ng magandang kompromiso para sa karamihan ng mga kaso. Gayunpaman, parehong `None` at `NaN` ay may mga limitasyon na dapat mong tandaan kaugnay sa kung paano sila maaaring gamitin.


### `None`: non-float na nawawalang data
Dahil ang `None` ay mula sa Python, hindi ito magagamit sa mga NumPy at pandas arrays na hindi may data type na `'object'`. Tandaan, ang mga NumPy arrays (at ang mga istruktura ng data sa pandas) ay maaari lamang maglaman ng isang uri ng data. Ito ang nagbibigay sa kanila ng napakalaking kapangyarihan para sa malakihang data at computational na gawain, ngunit nililimitahan din nito ang kanilang kakayahang umangkop. Ang ganitong mga arrays ay kailangang mag-upcast sa “pinakamababang karaniwang denominator,” ang uri ng data na magpapaloob sa lahat ng nasa array. Kapag ang `None` ay nasa array, nangangahulugan ito na nagtatrabaho ka gamit ang mga Python objects.

Para makita ito sa aktwal, isaalang-alang ang sumusunod na halimbawa ng array (pansinin ang `dtype` nito):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Ang realidad ng mga upcast na uri ng data ay may dalawang epekto. Una, ang mga operasyon ay isasagawa sa antas ng na-interpret na Python code sa halip na sa na-compile na NumPy code. Sa madaling salita, nangangahulugan ito na ang anumang operasyon na may kinalaman sa `Series` o `DataFrames` na may `None` ay magiging mas mabagal. Bagama't maaaring hindi mo mapansin ang epekto sa performance na ito, para sa malalaking dataset, maaari itong maging problema.

Ang pangalawang epekto ay nagmumula sa una. Dahil ang `None` ay karaniwang nagdadala ng `Series` o `DataFrame`s pabalik sa mundo ng karaniwang Python, ang paggamit ng mga NumPy/pandas aggregations tulad ng `sum()` o `min()` sa mga array na naglalaman ng isang ``None`` na halaga ay kadalasang magdudulot ng error:


In [10]:
example1.sum()

TypeError: ignored

**Pangunahing aral**: Ang pagdaragdag (at iba pang operasyon) sa pagitan ng mga integer at mga `None` na halaga ay hindi natutukoy, na maaaring maglimita sa kung ano ang magagawa mo sa mga dataset na naglalaman ng mga ito.


### `NaN`: nawawalang float na mga halaga

Sa kaibahan sa `None`, sinusuportahan ng NumPy (at samakatuwid ng pandas) ang `NaN` para sa mabilis, vectorized na mga operasyon at ufuncs. Ang masamang balita ay anumang arithmetic na ginawa sa `NaN` ay palaging nagreresulta sa `NaN`. Halimbawa:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Ang magandang balita: ang mga aggregations na tumatakbo sa mga array na may `NaN` ay hindi nagdudulot ng mga error. Ang masamang balita: ang mga resulta ay hindi palaging kapaki-pakinabang:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Ehersisyo:


In [11]:
# What happens if you add np.nan and None together?


Tandaan: `NaN` ay para lamang sa nawawalang floating-point na mga halaga; walang katumbas na `NaN` para sa mga integer, string, o Boolean.


### `NaN` at `None`: mga null na halaga sa pandas

Kahit na ang `NaN` at `None` ay maaaring kumilos nang medyo magkaiba, ang pandas ay ginawa upang hawakan ang mga ito nang palitan. Upang makita kung ano ang ibig naming sabihin, isaalang-alang ang isang `Series` ng mga integer:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Ehersisyo:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Sa proseso ng pag-upcast ng mga uri ng data upang maitatag ang pagkakapareho ng data sa `Series` at `DataFrame`s, ang pandas ay kusang nagpapalit ng mga nawawalang halaga sa pagitan ng `None` at `NaN`. Dahil sa tampok na disenyo na ito, makakatulong na isipin ang `None` at `NaN` bilang dalawang magkaibang uri ng "null" sa pandas. Sa katunayan, ang ilan sa mga pangunahing pamamaraan na gagamitin mo upang harapin ang mga nawawalang halaga sa pandas ay nagpapakita ng ideyang ito sa kanilang mga pangalan:

- `isnull()`: Gumagawa ng Boolean mask na nagpapahiwatig ng mga nawawalang halaga
- `notnull()`: Kabaligtaran ng `isnull()`
- `dropna()`: Nagbabalik ng na-filter na bersyon ng data
- `fillna()`: Nagbabalik ng kopya ng data na may mga nawawalang halaga na napunan o na-impute

Ito ay mga mahalagang pamamaraan na dapat mong matutunan at maging komportable sa paggamit, kaya't talakayin natin ang bawat isa nang mas malalim.


### Pagtukoy sa mga null na halaga

Ngayon na nauunawaan na natin ang kahalagahan ng nawawalang mga halaga, kailangan nating tukuyin ang mga ito sa ating dataset bago ito ayusin. Ang parehong `isnull()` at `notnull()` ay pangunahing mga pamamaraan para sa pagtukoy ng null na data. Pareho itong nagbabalik ng Boolean masks sa iyong data.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Tingnan nang mabuti ang output. Mayroon bang anumang ikinagulat mo? Bagama't ang `0` ay isang arithmetic null, ito ay isang ganap na maayos na integer at itinuturing ito ng pandas bilang ganoon. Ang `''` ay medyo mas banayad. Bagama't ginamit natin ito sa Seksyon 1 upang kumatawan sa isang walang laman na string na halaga, ito ay isang string object pa rin at hindi isang representasyon ng null ayon sa pandas.

Ngayon, baligtarin natin ito at gamitin ang mga pamamaraang ito sa paraang mas malapit sa kung paano mo ito gagamitin sa aktwal na sitwasyon. Maaari mong gamitin ang Boolean masks nang direkta bilang isang ``Series`` o ``DataFrame`` index, na maaaring maging kapaki-pakinabang kapag sinusubukang magtrabaho sa mga hiwalay na nawawala (o naroroon) na mga halaga.

Kung gusto natin ang kabuuang bilang ng nawawalang mga halaga, maaari lang tayong mag-sum sa mask na ginawa ng `isnull()` method.


In [19]:
example3.isnull().sum()

2

### Ehersisyo:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Pangunahing aral**: Parehong `isnull()` at `notnull()` na mga pamamaraan ay nagbibigay ng magkatulad na resulta kapag ginamit sa mga DataFrame: ipinapakita nila ang mga resulta at ang index ng mga resulta, na makakatulong nang malaki sa iyo habang inaayos mo ang iyong data.


### Pagtugon sa nawawalang datos

> **Layunin ng pag-aaral:** Sa pagtatapos ng bahaging ito, dapat mong malaman kung paano at kailan papalitan o aalisin ang mga null na halaga mula sa mga DataFrame.

Ang mga modelo ng Machine Learning ay hindi kayang direktang magproseso ng nawawalang datos. Kaya, bago ipasa ang datos sa modelo, kailangan nating tugunan ang mga nawawalang halaga.

Ang paraan ng paghawak sa nawawalang datos ay may kasamang mga maseselang tradeoff, na maaaring makaapekto sa iyong huling pagsusuri at mga resulta sa totoong mundo.

May dalawang pangunahing paraan ng pagtugon sa nawawalang datos:

1.   Alisin ang row na naglalaman ng nawawalang halaga
2.   Palitan ang nawawalang halaga ng ibang halaga

Tatalakayin natin ang parehong mga pamamaraan at ang kanilang mga kalamangan at kahinaan nang detalyado.


### Pag-aalis ng mga null na halaga

Ang dami ng datos na ipinapasa natin sa ating modelo ay may direktang epekto sa pagganap nito. Ang pag-aalis ng mga null na halaga ay nangangahulugan na binabawasan natin ang bilang ng mga datapoint, at sa gayon ay binabawasan ang laki ng dataset. Kaya, mas mainam na alisin ang mga row na may null na halaga kapag ang dataset ay medyo malaki.

Isa pang sitwasyon ay kung ang isang partikular na row o column ay may maraming nawawalang halaga. Sa ganitong kaso, maaaring alisin ang mga ito dahil hindi sila magdadagdag ng malaking halaga sa ating pagsusuri dahil karamihan sa datos para sa row/column na iyon ay nawawala.

Bukod sa pagtukoy ng mga nawawalang halaga, nagbibigay ang pandas ng maginhawang paraan upang alisin ang mga null na halaga mula sa `Series` at `DataFrame`s. Upang makita ito sa aksyon, balikan natin ang `example3`. Ang function na `DataFrame.dropna()` ay tumutulong sa pag-aalis ng mga row na may null na halaga.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Tandaan na dapat itong magmukhang katulad ng output mula sa `example3[example3.notnull()]`. Ang pagkakaiba dito ay, sa halip na i-index lamang ang mga nakamaskarang halaga, inalis ng `dropna` ang mga nawawalang halaga mula sa `Series` na `example3`.

Dahil ang mga DataFrame ay may dalawang dimensyon, mas maraming opsyon ang mayroon para sa pag-aalis ng data.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Napansin mo ba na ang pandas ay nag-upcast ng dalawang column sa floats upang ma-accommodate ang `NaN`s?)

Hindi mo maaaring tanggalin ang isang solong halaga mula sa isang `DataFrame`, kaya kailangan mong tanggalin ang buong mga row o column. Depende sa ginagawa mo, maaaring mas gusto mong gawin ang isa kaysa sa isa pa, kaya binibigyan ka ng pandas ng mga opsyon para sa pareho. Dahil sa data science, ang mga column ay karaniwang kumakatawan sa mga variable at ang mga row ay kumakatawan sa mga obserbasyon, mas malamang na tanggalin mo ang mga row ng data; ang default na setting para sa `dropna()` ay tanggalin ang lahat ng mga row na may anumang null na halaga:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Kung kinakailangan, maaari mong tanggalin ang mga NA na halaga mula sa mga column. Gamitin ang `axis=1` para gawin ito:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Pansinin na maaaring mawala ang maraming datos na gusto mong itago, lalo na sa mas maliliit na dataset. Paano kung gusto mo lang tanggalin ang mga row o column na may ilang null values o kahit lahat ng null values? Maaari mong itakda ang mga setting na ito sa `dropna` gamit ang mga parameter na `how` at `thresh`.

Sa default, `how='any'` (kung gusto mong suriin ito para sa iyong sarili o makita ang iba pang mga parameter ng method, patakbuhin ang `example4.dropna?` sa isang code cell). Maaari mo ring tukuyin ang `how='all'` upang tanggalin lamang ang mga row o column na may lahat ng null values. Palawakin natin ang halimbawa ng `DataFrame` upang makita ito sa aksyon sa susunod na ehersisyo.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Mahahalagang puntos:
1. Ang pag-aalis ng mga null na halaga ay magandang ideya lamang kung sapat ang laki ng dataset.
2. Maaaring alisin ang buong mga row o column kung karamihan sa kanilang data ay nawawala.
3. Ang `DataFrame.dropna(axis=)` na pamamaraan ay nakakatulong sa pag-aalis ng mga null na halaga. Ang argumento na `axis` ay nagpapahiwatig kung ang mga row o column ang aalisin.
4. Maaaring gamitin ang argumento na `how`. Sa default, ito ay nakatakda sa `any`. Kaya, aalisin lamang nito ang mga row/column na mayroong anumang null na halaga. Maaari itong itakda sa `all` upang tukuyin na aalisin lamang natin ang mga row/column kung saan lahat ng halaga ay null.


### Ehersisyo:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Ang parameter na `thresh` ay nagbibigay sa iyo ng mas detalyadong kontrol: itinatakda mo ang bilang ng *hindi-null* na mga halaga na kailangang mayroon ang isang row o column upang mapanatili ito:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Dito, ang unang at huling hanay ay inalis, dahil naglalaman lamang ang mga ito ng dalawang hindi null na halaga.


### Pagpuno ng mga nawawalang halaga

Minsan may kabuluhan na punan ang mga nawawalang halaga ng mga maaaring maging wasto. May ilang mga teknik para punan ang mga null na halaga. Ang una ay ang paggamit ng Domain Knowledge (kaalaman sa paksa kung saan nakabase ang dataset) upang tantyahin ang mga nawawalang halaga.

Maaari mong gamitin ang `isnull` upang gawin ito nang direkta, ngunit maaaring matrabaho ito, lalo na kung marami kang halaga na kailangang punan. Dahil ito ay isang karaniwang gawain sa data science, nagbibigay ang pandas ng `fillna`, na nagbabalik ng kopya ng `Series` o `DataFrame` na may mga nawawalang halaga na pinalitan ng napili mo. Gumawa tayo ng isa pang halimbawa ng `Series` upang makita kung paano ito gumagana sa praktika.


### Categorical Data (Hindi-numeriko)
Una, tingnan natin ang hindi-numerikong data. Sa mga dataset, may mga column na naglalaman ng categorical data. Halimbawa: Kasarian, Tama o Mali, at iba pa.

Sa karamihan ng mga ganitong kaso, pinapalitan natin ang nawawalang mga halaga gamit ang `mode` ng column. Halimbawa, mayroon tayong 100 data points kung saan 90 ang nagsabi ng Tama, 8 ang nagsabi ng Mali, at 2 ang hindi naglagay ng sagot. Sa ganitong sitwasyon, maaari nating punan ang 2 na nawawala ng Tama, batay sa kabuuang data ng column.

Muli, maaari nating gamitin ang kaalaman sa domain dito. Tingnan natin ang isang halimbawa ng pagpuno gamit ang mode.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Ngayon, hanapin muna natin ang moda bago punan ang halagang `None` ng moda.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Kaya, papalitan natin ang None ng True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Tulad ng nakikita natin, ang null na halaga ay napalitan. Hindi na kailangang sabihin, maaari tayong magsulat ng kahit ano sa lugar ng `'True'` at ito ay mapapalitan.


### Numeric Data
Ngayon, tungkol sa numeric na datos. Dito, may dalawang karaniwang paraan ng pagpapalit ng nawawalang mga halaga:

1. Palitan gamit ang Median ng row
2. Palitan gamit ang Mean ng row

Ginagamit natin ang Median kapag ang datos ay skewed at may mga outlier. Ito ay dahil ang median ay hindi gaanong naaapektuhan ng mga outlier.

Kapag ang datos ay normalisado, maaari nating gamitin ang mean, dahil sa ganitong kaso, ang mean at median ay halos magkapareho.

Una, kumuha tayo ng isang column na may normal na distribusyon at punan natin ang nawawalang halaga gamit ang mean ng column.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Ang mean ng kolum ay


In [33]:
np.mean(fill_with_mean[0])

0.0

Pagpuno gamit ang mean


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Makikita natin na ang nawawalang halaga ay pinalitan ng kanyang mean.


Ngayon subukan natin ang isa pang dataframe, at sa pagkakataong ito ay papalitan natin ang mga None na halaga ng median ng kolum.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Ang median ng ikalawang kolum ay


In [36]:
fill_with_median[1].median()

4.0

Pagpuno gamit ang median


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Tulad ng nakikita natin, ang NaN na halaga ay napalitan ng median ng kolum.


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Maaari mong punan ang lahat ng mga null na entry gamit ang isang halaga, tulad ng `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Mahahalagang puntos:
1. Ang paglalagay ng nawawalang halaga ay dapat gawin kapag kaunti lamang ang datos o may estratehiya para punan ang nawawalang datos.
2. Maaaring gamitin ang kaalaman sa larangan upang punan ang nawawalang halaga sa pamamagitan ng pagtatantiya.
3. Para sa Categorical na datos, kadalasan, ang nawawalang halaga ay pinapalitan ng mode ng column.
4. Para sa numeric na datos, ang nawawalang halaga ay karaniwang pinupunan gamit ang mean (para sa mga normalisadong dataset) o median ng mga column.


### Ehersisyo:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Maaari mong **i-forward-fill** ang mga null na halaga, kung saan gagamitin ang huling wastong halaga upang punan ang null:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Maaari mo ring **mag-back-fill** upang ipalaganap ang susunod na wastong halaga pabalik upang punan ang null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Tulad ng maaari mong hulaan, ganito rin ang paraan ng paggamit sa DataFrames, ngunit maaari ka ring magtakda ng `axis` kung saan pupunan ang mga null na halaga:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Pansinin na kapag walang available na nakaraang halaga para sa forward-filling, nananatili ang null na halaga.


### Ehersisyo:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Maaari kang maging malikhain sa paggamit ng `fillna`. Halimbawa, tingnan natin muli ang `example4`, ngunit sa pagkakataong ito punan natin ang mga nawawalang halaga gamit ang average ng lahat ng mga halaga sa `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Pansinin na ang column 3 ay wala pa ring halaga: ang default na direksyon ay punan ang mga halaga nang pa-row.

> **Punto:** Maraming paraan upang harapin ang mga nawawalang halaga sa iyong mga dataset. Ang partikular na estratehiya na gagamitin mo (pag-aalis, pagpapalit, o kung paano mo ito papalitan) ay dapat nakabatay sa mga detalye ng data na iyon. Mas magkakaroon ka ng mas mahusay na pag-unawa kung paano harapin ang mga nawawalang halaga habang mas madalas kang humawak at makipag-ugnayan sa mga dataset.


### Pag-encode ng Categorical Data

Ang mga modelo ng machine learning ay gumagana lamang sa mga numero at anumang uri ng numerikong data. Hindi nito kayang tukuyin ang pagkakaiba ng Yes at No, ngunit kaya nitong tukuyin ang pagkakaiba ng 0 at 1. Kaya, pagkatapos punan ang mga nawawalang halaga, kailangan nating i-encode ang categorical data sa isang numerikong anyo upang maunawaan ng modelo.

Ang pag-encode ay maaaring gawin sa dalawang paraan. Tatalakayin natin ang mga ito sa susunod.


**PAG-ENCODE NG LABEL**

Ang pag-encode ng label ay ang proseso ng pag-convert ng bawat kategorya sa isang numero. Halimbawa, sabihin nating mayroon tayong dataset ng mga pasahero ng eroplano at may isang column na naglalaman ng kanilang klase mula sa mga sumusunod ['business class', 'economy class', 'first class']. Kapag ginawa ang pag-encode ng label dito, ito ay magiging [0,1,2]. Tingnan natin ang isang halimbawa gamit ang code. Dahil matututo tayo ng `scikit-learn` sa mga susunod na notebook, hindi natin ito gagamitin dito.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Upang maisagawa ang label encoding sa unang kolum, kailangan muna nating ilarawan ang pagmamapa mula sa bawat klase patungo sa isang numero, bago palitan.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Tulad ng nakikita natin, ang resulta ay tumutugma sa inaasahan natin. Kaya, kailan natin ginagamit ang label encoding? Ang label encoding ay ginagamit sa isa o pareho sa mga sumusunod na kaso:
1. Kapag ang bilang ng mga kategorya ay marami
2. Kapag ang mga kategorya ay may pagkakasunod-sunod.


**ONE HOT ENCODING**

Ang isa pang uri ng encoding ay ang One Hot Encoding. Sa ganitong uri ng encoding, ang bawat kategorya ng column ay nagiging hiwalay na column, at bawat datapoint ay magkakaroon ng 0 o 1 batay sa kung naglalaman ito ng kategoryang iyon. Kaya, kung mayroong n iba't ibang kategorya, n na mga column ang idadagdag sa dataframe.

Halimbawa, kunin natin ang parehong halimbawa ng klase ng eroplano. Ang mga kategorya ay: ['business class', 'economy class', 'first class']. Kaya, kung gagamit tayo ng one hot encoding, ang sumusunod na tatlong column ay idadagdag sa dataset: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Gawin natin ang one hot encoding sa unang kolum


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Ang bawat one hot encoded na column ay naglalaman ng 0 o 1, na tumutukoy kung ang kategoryang iyon ay umiiral para sa datapoint na iyon.


Kailan ginagamit ang one hot encoding? Ginagamit ang one hot encoding sa isa o pareho sa mga sumusunod na kaso:

1. Kapag ang bilang ng mga kategorya at ang laki ng dataset ay mas maliit.
2. Kapag ang mga kategorya ay walang partikular na pagkakasunod-sunod.


> Mahahalagang Punto:
1. Ang encoding ay ginagawa upang i-convert ang hindi numerikong datos sa numerikong datos.
2. May dalawang uri ng encoding: Label encoding at One Hot encoding, na maaaring isagawa batay sa pangangailangan ng dataset.


## Pag-aalis ng dobleng datos

> **Layunin ng pag-aaral:** Sa pagtatapos ng bahaging ito, dapat kang maging komportable sa pagtukoy at pag-aalis ng mga dobleng halaga mula sa mga DataFrame.

Bukod sa nawawalang datos, madalas kang makakakita ng dobleng datos sa mga aktwal na dataset. Sa kabutihang-palad, nagbibigay ang pandas ng madaling paraan para matukoy at maalis ang mga dobleng entry.


### Pagkilala sa mga duplicate: `duplicated`

Madali mong matutukoy ang mga duplicate na halaga gamit ang `duplicated` na method sa pandas, na nagbabalik ng Boolean mask na nagpapakita kung ang isang entry sa `DataFrame` ay duplicate ng naunang isa. Gumawa tayo ng isa pang halimbawa ng `DataFrame` upang makita ito sa aksyon.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Pag-aalis ng mga duplicate: `drop_duplicates`
Ang `drop_duplicates` ay nagbabalik lamang ng kopya ng data kung saan lahat ng mga halaga na `duplicated` ay `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Parehong `duplicated` at `drop_duplicates` ay default na isinasaalang-alang ang lahat ng mga column ngunit maaari mong tukuyin na suriin lamang nila ang isang subset ng mga column sa iyong `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Punto:** Ang pagtanggal ng dobleng datos ay mahalagang bahagi ng halos bawat proyekto sa agham ng datos. Ang dobleng datos ay maaaring magbago ng resulta ng iyong mga pagsusuri at magbigay sa iyo ng hindi tamang resulta!


## Mga Pag-check ng Kalidad ng Data sa Totoong Mundo

> **Layunin ng pag-aaral:** Sa pagtatapos ng seksyong ito, dapat kang maging komportable sa pagtukoy at pagwawasto ng mga karaniwang isyu sa kalidad ng data sa totoong mundo, kabilang ang hindi pare-parehong mga halaga ng kategorya, abnormal na mga numerong halaga (mga outlier), at mga duplicate na entity na may mga pagkakaiba.

Bagama't ang mga nawawalang halaga at eksaktong mga duplicate ay karaniwang mga isyu, ang mga dataset sa totoong mundo ay madalas na naglalaman ng mas banayad na mga problema:

1. **Hindi pare-parehong mga halaga ng kategorya**: Ang parehong kategorya ay may iba't ibang baybay (hal., "USA", "U.S.A", "United States")
2. **Abnormal na mga numerong halaga**: Mga matinding outlier na nagpapahiwatig ng mga error sa pagpasok ng data (hal., edad = 999)
3. **Halos magkaparehong mga hilera**: Mga rekord na kumakatawan sa parehong entity na may bahagyang pagkakaiba

Tuklasin natin ang mga teknik upang matukoy at maayos ang mga isyung ito.


### Paglikha ng Halimbawang "Maruming" Dataset

Una, gumawa tayo ng isang halimbawang dataset na naglalaman ng mga uri ng problema na karaniwang nararanasan natin sa totoong datos:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Pagtukoy sa Hindi Pare-parehong Halaga ng Kategorya

Pansinin na ang kolum na `country` ay may iba't ibang representasyon para sa parehong mga bansa. Tukuyin natin ang mga hindi pagkakapareho na ito:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Pag-standardize ng Mga Halagang Kategorya

Maaari tayong gumawa ng mapping upang i-standardize ang mga halagang ito. Isang simpleng paraan ay ang pag-convert sa lowercase at paggawa ng mapping dictionary:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Alternatibo: Paggamit ng Fuzzy Matching**

Para sa mas komplikadong mga kaso, maaari nating gamitin ang fuzzy string matching gamit ang `rapidfuzz` library upang awtomatikong matukoy ang magkatulad na mga string:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Pagtukoy sa Hindi Karaniwang Halaga ng Numero (Outliers)

Sa pagtingin sa kolum na `age`, may ilang kahina-hinalang halaga tulad ng 199 at -5. Gamitin natin ang mga pamamaraang estadistikal upang matukoy ang mga outlier na ito.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### Paggamit ng IQR (Interquartile Range) na Paraan

Ang IQR na paraan ay isang matibay na teknik sa estadistika para sa pagtukoy ng mga outlier na hindi gaanong sensitibo sa mga matitinding halaga:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Paggamit ng Z-Score Method

Ang Z-score method ay tumutukoy sa mga outlier batay sa mga standard deviation mula sa mean:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Pag-aasikaso ng Mga Outlier

Kapag natukoy, ang mga outlier ay maaaring asikasuhin sa iba't ibang paraan:
1. **Tanggalin**: Alisin ang mga row na may outlier (kung ito ay mga pagkakamali)
2. **Limitahan**: Palitan ng mga hangganang halaga
3. **Palitan ng NaN**: Ituring bilang nawawalang datos at gumamit ng mga teknik sa imputation
4. **Panatilihin**: Kung ito ay lehitimong matitinding halaga


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Pagtukoy sa Halos Magkakaparehong Rows

Pansinin na ang ating dataset ay may maraming entry para kay "John Smith" na may bahagyang magkakaibang mga halaga. Tukuyin natin ang mga posibleng duplicate batay sa pagkakahawig ng pangalan.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Paghahanap ng Malapit na Duplicates gamit ang Fuzzy Matching

Para sa mas sopistikadong pagtuklas ng duplicate, maaari nating gamitin ang fuzzy matching upang mahanap ang magkatulad na mga pangalan:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Paghawak ng Mga Doble

Kapag natukoy na, kailangan mong magdesisyon kung paano hahawakan ang mga doble:
1. **Panatilihin ang unang paglitaw**: Gamitin ang `drop_duplicates(keep='first')`
2. **Panatilihin ang huling paglitaw**: Gamitin ang `drop_duplicates(keep='last')`
3. **Pagsama-samahin ang impormasyon**: Pagsamahin ang impormasyon mula sa mga dobleng hanay
4. **Manwal na pagsusuri**: I-flag para sa pagsusuri ng tao


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Buod: Kumpletong Pipeline para sa Paglilinis ng Data

Pagsamahin natin ang lahat upang makabuo ng isang komprehensibong pipeline para sa paglilinis ng data:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Hamon na Ehersisyo

Ngayon ay ikaw naman! Narito ang isang bagong hanay ng datos na may maraming isyu sa kalidad. Kaya mo bang:

1. Tukuyin ang lahat ng isyu sa hanay na ito
2. Sumulat ng code upang linisin ang bawat isyu
3. Idagdag ang nalinis na hanay sa dataset

Narito ang problemadong datos:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Mahahalagang Punto

1. **Hindi pare-parehong mga kategorya** ay karaniwang makikita sa totoong datos. Laging suriin ang mga natatanging halaga at gawing pare-pareho gamit ang mappings o fuzzy matching.

2. **Mga outlier** ay maaaring malaki ang epekto sa iyong pagsusuri. Gumamit ng kaalaman sa larangan kasabay ng mga pamamaraang estadistikal (IQR, Z-score) upang matukoy ang mga ito.

3. **Halos magkapareho na mga duplicate** ay mas mahirap tukuyin kaysa sa eksaktong mga duplicate. Isaalang-alang ang paggamit ng fuzzy matching at pag-normalize ng datos (pagbababa ng case, pagtanggal ng whitespace) upang mahanap ang mga ito.

4. **Ang paglilinis ng datos ay paulit-ulit na proseso**. Maaaring kailanganin mong gumamit ng iba't ibang teknika at suriin ang mga resulta bago tapusin ang iyong nalinis na dataset.

5. **I-dokumento ang iyong mga desisyon**. Itala ang mga hakbang sa paglilinis na iyong ginawa at ang dahilan nito, dahil mahalaga ito para sa reproducibility at transparency.

> **Pinakamahusay na Praktis:** Laging magtago ng kopya ng iyong orihinal na "maruming" datos. Huwag kailanman i-overwrite ang iyong source data files - gumawa ng mga nalinis na bersyon na may malinaw na naming conventions tulad ng `data_cleaned.csv`.



---

**Paunawa**:  
Ang dokumentong ito ay isinalin gamit ang AI translation service na [Co-op Translator](https://github.com/Azure/co-op-translator). Bagama't sinisikap naming maging tumpak, mangyaring tandaan na ang mga awtomatikong pagsasalin ay maaaring maglaman ng mga pagkakamali o hindi pagkakatugma. Ang orihinal na dokumento sa kanyang katutubong wika ang dapat ituring na opisyal na pinagmulan. Para sa mahalagang impormasyon, inirerekomenda ang propesyonal na pagsasalin ng tao. Hindi kami mananagot sa anumang hindi pagkakaunawaan o maling interpretasyon na dulot ng paggamit ng pagsasaling ito.
