In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("https://raw.githubusercontent.com/erkansirin78/datasets/master/preprocessing/simple_data_to_preprocessed.csv")

In [3]:
# Veri seti hakkında detaylı bilgi: 
# https://www.rdocumentation.org/packages/arules/versions/1.6-3/topics/Adult
df.head()

Unnamed: 0,sirano,isim,yas,meslek,sehir,aylik_gelir
0,1,Cemal,35.0,Isci,Ankara,3500.0
1,2,Ceyda,42.0,Memur,Kayseri,4200.0
2,3,Timur,30.0,Müzisyen,Istanbul,9000.0
3,4,Burcu,29.0,Pazarlamaci,Ankara,4200.0
4,5,Yasemin,,Pazarlamaci,Bursa,4800.0


# Kategorik Niteliklerde Boşluk Temizliği (trim - strip())

In [75]:
# Eğer kategorik nitelikleri trim etmeden yola çıkar isek olacakları seyrediniz...

In [4]:
df.groupby(['meslek']).sirano.agg(['count']) \
.reset_index() \
.sort_values('meslek') \
.head(20)

Unnamed: 0,meslek,count
0,Isci,1
1,Memur,1
2,Pazarlamaci,1
3,Berber,3
4,Doktor,2
5,Memur,2
6,Müzisyen,4
7,Pazarlamaci,2
8,Pazarlamaci,1
9,Tornacı,1


In [5]:
df.groupby(['sehir']).sirano.agg(['count']) \
.reset_index() \
.sort_values('sehir') \
.head(20)

Unnamed: 0,sehir,count
0,Ankara,1
1,İzmir,1
2,Ankara,8
3,Ankara,1
4,Bursa,1
5,Istanbul,3
6,Istanbul,1
7,Kayseri,1
8,Çorum,1
9,İzmir,1


In [78]:
# Yukarıda gördüğümüz gibi görünüş hep Ankara 
# ancak sağındaki solundaki gizli boşluklar onları tamamen farklı kategori yapıyor

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Data columns (total 6 columns):
sirano         19 non-null int64
isim           19 non-null object
yas            17 non-null float64
meslek         19 non-null object
sehir          19 non-null object
aylik_gelir    16 non-null float64
dtypes: float64(2), int64(1), object(3)
memory usage: 992.0+ bytes


In [7]:
# Nümerik niteliklere strip yapamayacağımıza göre
# bir niteliğin string olup olmadığını nasıl anlarız?
if df['isim'].dtype == object:
    print(True)
else: print(False)

True


# Boşluk temizleme

In [8]:
for i in df.columns:
    if df[i].dtype == object:
        print(i)
        df[i] = df[i].apply(lambda x: x.strip())

isim
meslek
sehir


In [9]:
df.head()

Unnamed: 0,sirano,isim,yas,meslek,sehir,aylik_gelir
0,1,Cemal,35.0,Isci,Ankara,3500.0
1,2,Ceyda,42.0,Memur,Kayseri,4200.0
2,3,Timur,30.0,Müzisyen,Istanbul,9000.0
3,4,Burcu,29.0,Pazarlamaci,Ankara,4200.0
4,5,Yasemin,,Pazarlamaci,Bursa,4800.0


# Temizlik sonrası kontrol

In [10]:
df.groupby(['meslek']).sirano.agg(['count']) \
.reset_index() \
.sort_values('meslek') \
.head(20)

Unnamed: 0,meslek,count
0,Berber,3
1,Doktor,2
2,Isci,1
3,Memur,3
4,Müzisyen,4
5,Pazarlamaci,4
6,Tornacı,1
7,Tuhafiyeci,1


In [11]:
df.groupby(['sehir']).sirano.agg(['count']) \
.reset_index() \
.sort_values('sehir') \
.head(20)

Unnamed: 0,sehir,count
0,Ankara,10
1,Bursa,1
2,Istanbul,4
3,Kayseri,1
4,Çorum,1
5,İzmir,2


# Veri Keşfi 

In [12]:
df.describe()

Unnamed: 0,sirano,yas,aylik_gelir
count,19.0,17.0,16.0
mean,9.842105,37.941176,7534.375
std,5.39818,6.814237,4250.714401
min,1.0,29.0,3500.0
25%,5.5,32.0,4200.0
50%,10.0,37.0,6050.0
75%,14.5,45.0,8850.0
max,18.0,47.0,18000.0


# Null kontrolü

In [13]:
df.isnull().sum()

sirano         0
isim           0
yas            2
meslek         0
sehir          0
aylik_gelir    3
dtype: int64

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Data columns (total 6 columns):
sirano         19 non-null int64
isim           19 non-null object
yas            17 non-null float64
meslek         19 non-null object
sehir          19 non-null object
aylik_gelir    16 non-null float64
dtypes: float64(2), int64(1), object(3)
memory usage: 992.0+ bytes


In [87]:
# Yukarısı True olduğu için dataframe içinde null değer var. Null değerlerle ilgilenmek zorundayız.
# Hangi niteliklerde null var?

In [88]:
for i in df.columns:
    if df[i].isnull().values.any():
        print(" '{}' içinde null var".format(i))

 'yas' içinde null var
 'aylik_gelir' içinde null var


In [89]:
# Demekki 2 nitelik içinde null değer var.

# Nümerik Değerler içindeki boşlukların doldurulması

### Ortalama veya medyan ile

In [90]:
from sklearn.impute import SimpleImputer

In [15]:
from sklearn.impute import SimpleImputer

### yas

In [16]:
imputer_yas = SimpleImputer(strategy='mean')

In [17]:
df['yas2'] = imputer_yas.fit_transform(df['yas'].values.reshape(-1,1))

In [18]:
df.head(10)

Unnamed: 0,sirano,isim,yas,meslek,sehir,aylik_gelir,yas2
0,1,Cemal,35.0,Isci,Ankara,3500.0,35.0
1,2,Ceyda,42.0,Memur,Kayseri,4200.0,42.0
2,3,Timur,30.0,Müzisyen,Istanbul,9000.0,30.0
3,4,Burcu,29.0,Pazarlamaci,Ankara,4200.0,29.0
4,5,Yasemin,,Pazarlamaci,Bursa,4800.0,37.941176
5,6,Ali,33.0,Memur,Ankara,4250.0,33.0
6,7,Dilek,29.0,Pazarlamaci,Istanbul,7300.0,29.0
7,8,Murat,31.0,Müzisyen,Istanbul,12000.0,31.0
8,9,Ahmet,33.0,Doktor,Ankara,18000.0,33.0
9,10,Muhittin,46.0,Berber,Istanbul,,46.0


### aylik_gelir

In [19]:
imputer_aylik_gelir = SimpleImputer(strategy='mean')

In [20]:
df['aylik_gelir2'] = imputer_aylik_gelir.fit_transform(df['aylik_gelir'].values.reshape(-1,1))
df.head(15)

Unnamed: 0,sirano,isim,yas,meslek,sehir,aylik_gelir,yas2,aylik_gelir2
0,1,Cemal,35.0,Isci,Ankara,3500.0,35.0,3500.0
1,2,Ceyda,42.0,Memur,Kayseri,4200.0,42.0,4200.0
2,3,Timur,30.0,Müzisyen,Istanbul,9000.0,30.0,9000.0
3,4,Burcu,29.0,Pazarlamaci,Ankara,4200.0,29.0,4200.0
4,5,Yasemin,,Pazarlamaci,Bursa,4800.0,37.941176,4800.0
5,6,Ali,33.0,Memur,Ankara,4250.0,33.0,4250.0
6,7,Dilek,29.0,Pazarlamaci,Istanbul,7300.0,29.0,7300.0
7,8,Murat,31.0,Müzisyen,Istanbul,12000.0,31.0,12000.0
8,9,Ahmet,33.0,Doktor,Ankara,18000.0,33.0,18000.0
9,10,Muhittin,46.0,Berber,Istanbul,,46.0,7534.375


## Sabit değerler ile

In [None]:
# aylik_gelir hesaplamasını ortalamaya göre değil belkide mesleklere göre yapmak daha uygun olur.
# Boşluk hangi meslektense ona göre bir sabit verilir.

In [98]:
df.groupby(['meslek']).aylik_gelir.agg(['mean']).head()

Unnamed: 0_level_0,mean
meslek,Unnamed: 1_level_1
Berber,8800.0
Doktor,16125.0
Isci,3500.0
Memur,4066.666667
Müzisyen,9900.0


In [21]:
imputer = SimpleImputer(strategy='constant', fill_value=8800.0)

In [22]:
df['aylik_gelir3'] = imputer.fit_transform(df['aylik_gelir'].values.reshape(-1,1))
df.head(10)

Unnamed: 0,sirano,isim,yas,meslek,sehir,aylik_gelir,yas2,aylik_gelir2,aylik_gelir3
0,1,Cemal,35.0,Isci,Ankara,3500.0,35.0,3500.0,3500.0
1,2,Ceyda,42.0,Memur,Kayseri,4200.0,42.0,4200.0,4200.0
2,3,Timur,30.0,Müzisyen,Istanbul,9000.0,30.0,9000.0,9000.0
3,4,Burcu,29.0,Pazarlamaci,Ankara,4200.0,29.0,4200.0,4200.0
4,5,Yasemin,,Pazarlamaci,Bursa,4800.0,37.941176,4800.0,4800.0
5,6,Ali,33.0,Memur,Ankara,4250.0,33.0,4250.0,4250.0
6,7,Dilek,29.0,Pazarlamaci,Istanbul,7300.0,29.0,7300.0,7300.0
7,8,Murat,31.0,Müzisyen,Istanbul,12000.0,31.0,12000.0,12000.0
8,9,Ahmet,33.0,Doktor,Ankara,18000.0,33.0,18000.0,18000.0
9,10,Muhittin,46.0,Berber,Istanbul,,46.0,7534.375,8800.0


# Temizlik sonuçlarını diske yazılması

In [23]:
df.to_csv("D:/Datasets/preprocessing/simple_data_ilk_safha.csv", 
          index=False, header=True, sep=",")