In [8]:
import pandas as pd

In [9]:
df = pd.read_csv("https://raw.githubusercontent.com/erkansirin78/datasets/master/preprocessing/simple_data_to_preprocessed.csv")

In [10]:
# Veri seti hakkında detaylı bilgi: 
# https://www.rdocumentation.org/packages/arules/versions/1.6-3/topics/Adult
df.head(20)

Unnamed: 0,sirano,isim,yas,meslek,sehir,aylik_gelir
0,1,Cemal,35.0,Isci,Ankara,3500.0
1,2,Ceyda,42.0,Memur,Kayseri,4200.0
2,3,Timur,30.0,Müzisyen,Istanbul,9000.0
3,4,Burcu,29.0,Pazarlamaci,Ankara,4200.0
4,5,Yasemin,,Pazarlamaci,Bursa,4800.0
5,6,Ali,33.0,Memur,Ankara,4250.0
6,7,Dilek,29.0,Pazarlamaci,Istanbul,7300.0
7,8,Murat,31.0,Müzisyen,Istanbul,12000.0
8,9,Ahmet,33.0,Doktor,Ankara,18000.0
9,10,Muhittin,46.0,Berber,Istanbul,


# Kategorik Niteliklerde Boşluk Temizliği (trim - strip())

In [11]:
# Eğer kategorik nitelikleri trim etmeden yola çıkar isek olacakları seyrediniz...

In [12]:
df.groupby(['meslek']).sirano.agg(['count']) \
.reset_index() \
.sort_values('meslek') \
.head(20)

Unnamed: 0,meslek,count
0,Isci,1
1,Memur,1
2,Pazarlamaci,1
3,Asistan,1
4,Berber,3
5,Doktor,2
6,Memur,2
7,Müzisyen,3
8,Pazarlamaci,2
9,Pazarlamaci,1


In [13]:
df.groupby(['sehir']).sirano.agg(['count']) \
.reset_index() \
.sort_values('sehir') \
.head(20)

Unnamed: 0,sehir,count
0,Ankara,1
1,İzmir,1
2,Ankara,8
3,Ankara,1
4,Bursa,1
5,Istanbul,3
6,Istanbul,1
7,Kayseri,1
8,Çorum,1
9,İstanbul,1


In [14]:
# Yukarıda gördüğümüz gibi görünüş hep Ankara 
# ancak sağındaki solundaki gizli boşluklar onları tamamen farklı kategori yapıyor

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 6 columns):
sirano         21 non-null int64
isim           21 non-null object
yas            19 non-null float64
meslek         19 non-null object
sehir          21 non-null object
aylik_gelir    18 non-null float64
dtypes: float64(2), int64(1), object(3)
memory usage: 1.1+ KB


In [16]:
# Nümerik niteliklere strip yapamayacağımıza göre
# bir niteliğin string olup olmadığını nasıl anlarız? Burada yöntem keşfi yapıyoruz sadece.
if df['isim'].dtype == object:
    print(True)
else: print(False)

True


# Boşluk temizleme

In [17]:
# Dataframe nitelikleri içinde dolaş, nitelik kategorik mi kontrol et, 
# Eğer kategorik ise boşlukları trim et. Şayet trim edilecek nitelik
# null/NaN ise onu olduğu gibi bırak çünkü strip() NaN değerlerde hata veriyor.
for i in df.columns:
    if df[i].dtype == object:
        print(i)
        df[i] = df[i].apply(lambda x: x if pd.isnull(x) else x.strip())


isim
meslek
sehir


In [18]:
df.head()

Unnamed: 0,sirano,isim,yas,meslek,sehir,aylik_gelir
0,1,Cemal,35.0,Isci,Ankara,3500.0
1,2,Ceyda,42.0,Memur,Kayseri,4200.0
2,3,Timur,30.0,Müzisyen,Istanbul,9000.0
3,4,Burcu,29.0,Pazarlamaci,Ankara,4200.0
4,5,Yasemin,,Pazarlamaci,Bursa,4800.0


# Temizlik sonrası kontrol

In [19]:
df.groupby(['meslek']).sirano.agg(['count']) \
.reset_index() \
.sort_values('meslek') \
.head(20)

Unnamed: 0,meslek,count
0,Asistan,1
1,Berber,3
2,Doktor,2
3,Isci,1
4,Memur,3
5,Müzisyen,3
6,Pazarlamaci,4
7,Tornacı,1
8,Tuhafiyeci,1


In [20]:
df.groupby(['sehir']).sirano.agg(['count']) \
.reset_index() \
.sort_values('sehir') \
.head(20)

Unnamed: 0,sehir,count
0,Ankara,10
1,Bursa,1
2,Istanbul,4
3,Kayseri,1
4,Çorum,1
5,İstanbul,1
6,İzmir,3


# Veri Keşfi 

In [21]:
df.describe()

Unnamed: 0,sirano,yas,aylik_gelir
count,21.0,19.0,18.0
mean,10.761905,36.789474,7158.333333
std,5.889862,7.413044,4140.12823
min,1.0,23.0,3500.0
25%,6.0,31.0,4200.0
50%,11.0,35.0,4800.0
75%,16.0,44.0,8800.0
max,20.0,47.0,18000.0


# Null kontrolü

In [22]:
df.isnull().sum()

sirano         0
isim           0
yas            2
meslek         2
sehir          0
aylik_gelir    3
dtype: int64

In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 6 columns):
sirano         21 non-null int64
isim           21 non-null object
yas            19 non-null float64
meslek         19 non-null object
sehir          21 non-null object
aylik_gelir    18 non-null float64
dtypes: float64(2), int64(1), object(3)
memory usage: 1.1+ KB


In [24]:
# Yukarısı True olduğu için dataframe içinde null değer var. Null değerlerle ilgilenmek zorundayız.
# Hangi niteliklerde null var?

In [25]:
for i in df.columns:
    if df[i].isnull().values.any():
        print(" '{}' içinde null var".format(i))

 'yas' içinde null var
 'meslek' içinde null var
 'aylik_gelir' içinde null var


In [26]:
# Demekki 3 nitelik içinde null değer var.

# Nümerik Değerler içindeki boşlukların doldurulması

### Ortalama veya medyan ile

In [27]:
from sklearn.impute import SimpleImputer

In [28]:
df.head()

Unnamed: 0,sirano,isim,yas,meslek,sehir,aylik_gelir
0,1,Cemal,35.0,Isci,Ankara,3500.0
1,2,Ceyda,42.0,Memur,Kayseri,4200.0
2,3,Timur,30.0,Müzisyen,Istanbul,9000.0
3,4,Burcu,29.0,Pazarlamaci,Ankara,4200.0
4,5,Yasemin,,Pazarlamaci,Bursa,4800.0


### yas

In [29]:
imputer_yas = SimpleImputer(strategy='mean')

In [30]:
df['yas2'] = imputer_yas.fit_transform(df['yas'].values.reshape(-1,1))

In [31]:
df.head(10)

Unnamed: 0,sirano,isim,yas,meslek,sehir,aylik_gelir,yas2
0,1,Cemal,35.0,Isci,Ankara,3500.0,35.0
1,2,Ceyda,42.0,Memur,Kayseri,4200.0,42.0
2,3,Timur,30.0,Müzisyen,Istanbul,9000.0,30.0
3,4,Burcu,29.0,Pazarlamaci,Ankara,4200.0,29.0
4,5,Yasemin,,Pazarlamaci,Bursa,4800.0,36.789474
5,6,Ali,33.0,Memur,Ankara,4250.0,33.0
6,7,Dilek,29.0,Pazarlamaci,Istanbul,7300.0,29.0
7,8,Murat,31.0,Müzisyen,Istanbul,12000.0,31.0
8,9,Ahmet,33.0,Doktor,Ankara,18000.0,33.0
9,10,Muhittin,46.0,Berber,Istanbul,,46.0


### aylik_gelir

In [32]:
imputer_aylik_gelir = SimpleImputer(strategy='mean')

In [33]:
df['aylik_gelir2'] = imputer_aylik_gelir.fit_transform(df['aylik_gelir'].values.reshape(-1,1))
df.head(15)

Unnamed: 0,sirano,isim,yas,meslek,sehir,aylik_gelir,yas2,aylik_gelir2
0,1,Cemal,35.0,Isci,Ankara,3500.0,35.0,3500.0
1,2,Ceyda,42.0,Memur,Kayseri,4200.0,42.0,4200.0
2,3,Timur,30.0,Müzisyen,Istanbul,9000.0,30.0,9000.0
3,4,Burcu,29.0,Pazarlamaci,Ankara,4200.0,29.0,4200.0
4,5,Yasemin,,Pazarlamaci,Bursa,4800.0,36.789474,4800.0
5,6,Ali,33.0,Memur,Ankara,4250.0,33.0,4250.0
6,7,Dilek,29.0,Pazarlamaci,Istanbul,7300.0,29.0,7300.0
7,8,Murat,31.0,Müzisyen,Istanbul,12000.0,31.0,12000.0
8,9,Ahmet,33.0,Doktor,Ankara,18000.0,33.0,18000.0
9,10,Muhittin,46.0,Berber,Istanbul,,46.0,7158.333333


## Sabit değerler ile

In [34]:
# aylik_gelir hesaplamasını ortalamaya göre değil belkide mesleklere göre yapmak daha uygun olur.
# Boşluk hangi meslektense ona göre bir sabit verilir.

In [35]:
df.groupby(['meslek']).aylik_gelir.agg(['mean']).head()

Unnamed: 0_level_0,mean
meslek,Unnamed: 1_level_1
Asistan,4150.0
Berber,8800.0
Doktor,16125.0
Isci,3500.0
Memur,4066.666667


In [36]:
imputer = SimpleImputer(strategy='constant', fill_value=8800.0)

In [37]:
df['aylik_gelir3'] = imputer.fit_transform(df['aylik_gelir'].values.reshape(-1,1))
df.head(10)

Unnamed: 0,sirano,isim,yas,meslek,sehir,aylik_gelir,yas2,aylik_gelir2,aylik_gelir3
0,1,Cemal,35.0,Isci,Ankara,3500.0,35.0,3500.0,3500.0
1,2,Ceyda,42.0,Memur,Kayseri,4200.0,42.0,4200.0,4200.0
2,3,Timur,30.0,Müzisyen,Istanbul,9000.0,30.0,9000.0,9000.0
3,4,Burcu,29.0,Pazarlamaci,Ankara,4200.0,29.0,4200.0,4200.0
4,5,Yasemin,,Pazarlamaci,Bursa,4800.0,36.789474,4800.0,4800.0
5,6,Ali,33.0,Memur,Ankara,4250.0,33.0,4250.0,4250.0
6,7,Dilek,29.0,Pazarlamaci,Istanbul,7300.0,29.0,7300.0,7300.0
7,8,Murat,31.0,Müzisyen,Istanbul,12000.0,31.0,12000.0,12000.0
8,9,Ahmet,33.0,Doktor,Ankara,18000.0,33.0,18000.0,18000.0
9,10,Muhittin,46.0,Berber,Istanbul,,46.0,7158.333333,8800.0


# null temizliği

In [38]:
df.isnull().sum()

sirano          0
isim            0
yas             2
meslek          2
sehir           0
aylik_gelir     3
yas2            0
aylik_gelir2    0
aylik_gelir3    0
dtype: int64

In [39]:
df.dropna(inplace=True)

In [40]:
df.isnull().sum()

sirano          0
isim            0
yas             0
meslek          0
sehir           0
aylik_gelir     0
yas2            0
aylik_gelir2    0
aylik_gelir3    0
dtype: int64

# Temizlik sonuçlarını diske yazılması

In [41]:
df.to_csv("D:/Datasets/preprocessing/simple_data_ilk_safha.csv", 
          index=False, header=True, sep=",")