# Kaip tvarkytis su trūkstamais duomenimis

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('mock_duomenys.csv')

Turime atsitiktinai sugeneruotų duomenų lentelę:

In [5]:
data.head()

Unnamed: 0,spalva,kategorija,pirmas,antras,trecias
0,,False,25.93,,
1,Pink,False,98.48,0.5448,10554.0
2,Crimson,False,74.56,0.7766,37659.0
3,Blue,,10.07,0.1053,78803.0
4,Red,False,81.99,0.9349,95988.0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   spalva      44 non-null     object 
 1   kategorija  41 non-null     object 
 2   pirmas      46 non-null     float64
 3   antras      44 non-null     float64
 4   trecias     44 non-null     float64
dtypes: float64(3), object(2)
memory usage: 2.1+ KB


Matome, kad turime 50 eilučių, tačiau visose iš jų trūksta duomenų. ML'e eilutes su trūkstamais duomenimis reikia arba šalinti, arba suvesti trūkstamus duomenis.

In [41]:
df = data.copy()

### Skaičių užpildymas stulpelio vidurkiu 

pavienį stulpelį galime sutvarkyti taip:

In [42]:
df[df['pirmas'].isnull()]

Unnamed: 0,spalva,kategorija,pirmas,antras,trecias
9,Aquamarine,False,,0.3299,3344.0
13,Aquamarine,True,,0.4929,21490.0
22,Khaki,False,,0.1695,5637.0
29,Blue,False,,0.0401,54806.0


In [43]:
df['pirmas'] = df.pirmas.fillna(df['pirmas'].mean())

In [44]:
df[df['pirmas'].isnull()]

Unnamed: 0,spalva,kategorija,pirmas,antras,trecias


In [45]:
df.iloc[9]['pirmas']

47.06456521739131

In [46]:
df.iloc[22]['pirmas']

47.06456521739131

Matome, kad trūkstamos reikšmės buvo pakeistos stulpelio vidurkiu. Pabandykime sutvarkyti keletą stulpelių vienu kartu:

In [47]:
cols = ['antras', 'trecias']

In [48]:
df[cols] = df[cols].fillna(df.mean())

In [49]:
df.head()

Unnamed: 0,spalva,kategorija,pirmas,antras,trecias
0,,False,25.93,0.50493,43693.727273
1,Pink,False,98.48,0.5448,10554.0
2,Crimson,False,74.56,0.7766,37659.0
3,Blue,,10.07,0.1053,78803.0
4,Red,False,81.99,0.9349,95988.0


In [50]:
df['antras'].mean()

0.5049295454545455

In [51]:
df['trecias'].mean()

43693.72727272727

Tokiu būdu sutvarkėme du stulpelius iš karto.

### Kategorinių stulpelių tvarkymas

Vienas iš variantų, yra trūkstamų reikšmių užpildymas dažniausiai pasitaikančiomis reikšmėmis. Pažiūrėkime kokių reikšmių daugiausiai turi spalvos ir kategorijos stulpeliai:

In [52]:
df['spalva'].value_counts().idxmax()

'Yellow'

In [53]:
df['kategorija'].value_counts()

False    23
True     18
Name: kategorija, dtype: int64

jeigu norime visos informacijos iš karto, galime naudoti .mode() metodą:

In [54]:
df.mode()

Unnamed: 0,spalva,kategorija,pirmas,antras,trecias
0,Yellow,False,47.064565,0.50493,43693.727273


gauname df su dažniausiai pasitaikančiomis vertėmis, kartais eilučių būna daugiau negu viena, tuomet turime rinktis [0] eilutę. Pats sutvarkymas gali atrodyti taip:

In [55]:
cols = ['spalva', 'kategorija']

In [56]:
df[cols] = df[cols].fillna(df.mode().iloc[0])

In [57]:
df.head()

Unnamed: 0,spalva,kategorija,pirmas,antras,trecias
0,Yellow,False,25.93,0.50493,43693.727273
1,Pink,False,98.48,0.5448,10554.0
2,Crimson,False,74.56,0.7766,37659.0
3,Blue,False,10.07,0.1053,78803.0
4,Red,False,81.99,0.9349,95988.0


### Label encoding tips

tarkime, true ir false reikšmes norime pakeisti 1 ir 0:


In [71]:
df1 = df.copy()

In [75]:
df1[['spalva', 'kategorija']] = df1[['spalva', 'kategorija']].astype('category')

In [76]:
df1.dtypes

spalva        category
kategorija    category
pirmas         float64
antras         float64
trecias        float64
dtype: object

In [77]:
df1.head()

Unnamed: 0,spalva,kategorija,pirmas,antras,trecias
0,Yellow,False,25.93,0.50493,43693.727273
1,Pink,False,98.48,0.5448,10554.0
2,Crimson,False,74.56,0.7766,37659.0
3,Blue,False,10.07,0.1053,78803.0
4,Red,False,81.99,0.9349,95988.0


In [78]:
for col in ['spalva', 'kategorija']:
    df1[col] = df1[col].cat.codes

In [82]:
df1.head(15)

Unnamed: 0,spalva,kategorija,pirmas,antras,trecias
0,15,0,25.93,0.50493,43693.727273
1,11,0,98.48,0.5448,10554.0
2,2,0,74.56,0.7766,37659.0
3,1,0,10.07,0.1053,78803.0
4,13,0,81.99,0.9349,95988.0
5,8,1,85.35,0.0364,18650.0
6,6,1,20.06,0.6533,66677.0
7,14,1,72.18,0.1664,70275.0
8,11,1,13.29,0.0123,52276.0
9,0,0,47.064565,0.3299,3344.0


In [83]:
df1.dtypes

spalva           int8
kategorija       int8
pirmas        float64
antras        float64
trecias       float64
dtype: object

### get dummies efektyviau

grįžkime prie ankstesnio df:

In [86]:
df.head()

Unnamed: 0,spalva,kategorija,pirmas,antras,trecias
0,Yellow,False,25.93,0.50493,43693.727273
1,Pink,False,98.48,0.5448,10554.0
2,Crimson,False,74.56,0.7766,37659.0
3,Blue,False,10.07,0.1053,78803.0
4,Red,False,81.99,0.9349,95988.0


In [88]:
df2 = pd.get_dummies(df, columns=['spalva', 'kategorija'])

In [89]:
df2.head()

Unnamed: 0,pirmas,antras,trecias,spalva_Aquamarine,spalva_Blue,spalva_Crimson,spalva_Fuscia,spalva_Goldenrod,spalva_Green,spalva_Indigo,...,spalva_Maroon,spalva_Mauv,spalva_Orange,spalva_Pink,spalva_Puce,spalva_Red,spalva_Violet,spalva_Yellow,kategorija_False,kategorija_True
0,25.93,0.50493,43693.727273,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,1,0
1,98.48,0.5448,10554.0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,1,0
2,74.56,0.7766,37659.0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
3,10.07,0.1053,78803.0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
4,81.99,0.9349,95988.0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,1,0


In [94]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 21 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   pirmas             50 non-null     float64
 1   antras             50 non-null     float64
 2   trecias            50 non-null     float64
 3   spalva_Aquamarine  50 non-null     uint8  
 4   spalva_Blue        50 non-null     uint8  
 5   spalva_Crimson     50 non-null     uint8  
 6   spalva_Fuscia      50 non-null     uint8  
 7   spalva_Goldenrod   50 non-null     uint8  
 8   spalva_Green       50 non-null     uint8  
 9   spalva_Indigo      50 non-null     uint8  
 10  spalva_Khaki       50 non-null     uint8  
 11  spalva_Maroon      50 non-null     uint8  
 12  spalva_Mauv        50 non-null     uint8  
 13  spalva_Orange      50 non-null     uint8  
 14  spalva_Pink        50 non-null     uint8  
 15  spalva_Puce        50 non-null     uint8  
 16  spalva_Red         50 non-nu