In [21]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, LabelEncoder

In [22]:
# Rastgele veri oluşturma
np.random.seed(0)

In [23]:
# Örnek veri çerçevesi oluşturma
veri = pd.DataFrame({
    'Ad': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma', 'Ali', 'Ayşe', 'Ahmet', 'Fatma', 'Mehmet', 'Ali'],
    'Yaş': [25, 30, 22, 35, 28, 22, np.nan, 35, 30, np.nan],
    'Maaş': [5000, 6000, 5200, 7000, 6800, 5200, 5000, 7000, 6000, 6800],
    'Şehir': ['İstanbul', 'Ankara', 'İzmir', 'Bursa', 'Antalya', np.nan, 'İstanbul', 'Bursa', 'Ankara', 'Antalya']
})

In [24]:
import pandas as pd

# Veriyi sözlük olarak tanımla
data = {
    'Country': ['France', 'Spain', 'Germany', 'Spain', 'Germany', 'France', 'Spain', 'France', 'Germany', 'France'],
    'Age': [44.0, 27.0, 30.0, 38.0, 40.0, 35.0, None, 48.0, 50.0, 37.0],
    'Salary': [72000.0, 48000.0, 54000.0, 61000.0, None, 58000.0, 52000.0, 79000.0, 83000.0, 67000.0],
    'Purchased': ['No', 'Yes', 'No', 'No', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes']
}

# DataFrame oluştur
df = pd.DataFrame(data)

In [25]:
# DataFrame'i CSV dosyası olarak kaydet
df.to_csv('veri.csv', index=False)

In [26]:
# Veri çerçevesini göster
print('Orijinal Veri Çerçevesi:')
print(veri)

# Eksik verilerin tespiti
print('\nEksik Veri Kontrolü:')
print(veri.isnull().sum())

Orijinal Veri Çerçevesi:
       Ad   Yaş  Maaş     Şehir
0   Ahmet  25.0  5000  İstanbul
1  Mehmet  30.0  6000    Ankara
2    Ayşe  22.0  5200     İzmir
3   Fatma  35.0  7000     Bursa
4     Ali  28.0  6800   Antalya
5    Ayşe  22.0  5200       NaN
6   Ahmet   NaN  5000  İstanbul
7   Fatma  35.0  7000     Bursa
8  Mehmet  30.0  6000    Ankara
9     Ali   NaN  6800   Antalya

Eksik Veri Kontrolü:
Ad       0
Yaş      2
Maaş     0
Şehir    1
dtype: int64


In [27]:
# Eksik verileri doldurma (Ortalama ile doldurma)
veri['Yaş'].fillna(veri['Yaş'].mean(), inplace=True)
veri['Şehir'].fillna('Bilinmiyor', inplace=True)

# Tekrarlayan verilerin kaldırılması
veri = veri.drop_duplicates()

# Normalizasyon (Yaş ve Maaş sütunlarını 0-1 aralığına ölçekleme)
scaler = MinMaxScaler()
veri[['Yaş', 'Maaş']] = scaler.fit_transform(veri[['Yaş', 'Maaş']])

# Kategorik verilerin dönüştürülmesi (Label Encoding)
label_encoder = LabelEncoder()
veri['Şehir'] = label_encoder.fit_transform(veri['Şehir'])

# Düzenlenmiş veriyi göster
print('\nDüzenlenmiş Veri Çerçevesi:')
print(veri)


Düzenlenmiş Veri Çerçevesi:
       Ad       Yaş  Maaş  Şehir
0   Ahmet  0.230769   0.0      4
1  Mehmet  0.615385   0.5      0
2    Ayşe  0.000000   0.1      5
3   Fatma  1.000000   1.0      3
4     Ali  0.461538   0.9      1
5    Ayşe  0.000000   0.1      2
6   Ahmet  0.490385   0.0      4
9     Ali  0.490385   0.9      1


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  veri['Yaş'].fillna(veri['Yaş'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  veri['Şehir'].fillna('Bilinmiyor', inplace=True)


In [28]:
# Gerekli kütüphanelerin import edilmesi
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, LabelEncoder
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.model_selection import train_test_split

# Rastgele veri oluşturma
np.random.seed(0)

# Örnek veri çerçevesi oluşturma
veri = pd.DataFrame({
    'Ad': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma', 'Ali', 'Ayşe', 'Ahmet', 'Fatma', 'Mehmet', 'Ali'],
    'Yaş': [25, 30, 22, 35, 28, 22, np.nan, 35, 30, np.nan],
    'Maaş': [5000, 6000, 5200, 7000, 6800, 5200, 5000, 7000, 6000, 6800],
    'Şehir': ['İstanbul', 'Ankara', 'İzmir', 'Bursa', 'Antalya', np.nan, 'İstanbul', 'Bursa', 'Ankara', 'Antalya'],
    'Çalışma Süresi (Yıl)': [2, 5, 1, 10, 7, 1, 2, 10, 5, 7],
    'Departman': ['IT', 'HR', 'IT', 'Finans', 'IT', 'HR', 'IT', 'Finans', 'HR', 'IT']
})

# Orijinal Veri Çerçevesi
print('Orijinal Veri Çerçevesi:')
print(veri)

# Eksik verilerin tespiti
print('\nEksik Veri Kontrolü:')
print(veri.isnull().sum())

# Eksik verileri doldurma (Ortalama ile doldurma)
veri['Yaş'].fillna(veri['Yaş'].mean(), inplace=True)
veri['Şehir'].fillna('Bilinmiyor', inplace=True)

# Tekrarlayan verilerin kaldırılması
veri = veri.drop_duplicates()

# Kategorik verilerin dönüştürülmesi (Label Encoding)
label_encoder = LabelEncoder()
veri['Şehir'] = label_encoder.fit_transform(veri['Şehir'])
veri['Departman'] = label_encoder.fit_transform(veri['Departman'])

# Normalizasyon (Yaş ve Maaş sütunlarını 0-1 aralığına ölçekleme)
scaler = MinMaxScaler()
veri[['Yaş', 'Maaş', 'Çalışma Süresi (Yıl)']] = scaler.fit_transform(veri[['Yaş', 'Maaş', 'Çalışma Süresi (Yıl)']])

# Özellik ve hedef değişkenlerin ayrılması
X = veri.drop(['Ad'], axis=1)
y = veri['Ad']

# Özellik seçimi (En iyi 3 özelliği seçme)
selector = SelectKBest(score_func=f_classif, k=3)
X_new = selector.fit_transform(X, y)
selected_features = X.columns[selector.get_support(indices=True)]
print('\nSeçilen Özellikler:', selected_features)

# Eğitim ve test setlerine ayırma
X_train, X_test, y_train, y_test = train_test_split(X[selected_features], y, test_size=0.2, random_state=42)

# Eğitim ve test setlerinin boyutları
print('\nEğitim seti boyutu:', X_train.shape)
print('Test seti boyutu:', X_test.shape)

Orijinal Veri Çerçevesi:
       Ad   Yaş  Maaş     Şehir  Çalışma Süresi (Yıl) Departman
0   Ahmet  25.0  5000  İstanbul                     2        IT
1  Mehmet  30.0  6000    Ankara                     5        HR
2    Ayşe  22.0  5200     İzmir                     1        IT
3   Fatma  35.0  7000     Bursa                    10    Finans
4     Ali  28.0  6800   Antalya                     7        IT
5    Ayşe  22.0  5200       NaN                     1        HR
6   Ahmet   NaN  5000  İstanbul                     2        IT
7   Fatma  35.0  7000     Bursa                    10    Finans
8  Mehmet  30.0  6000    Ankara                     5        HR
9     Ali   NaN  6800   Antalya                     7        IT

Eksik Veri Kontrolü:
Ad                      0
Yaş                     2
Maaş                    0
Şehir                   1
Çalışma Süresi (Yıl)    0
Departman               0
dtype: int64

Seçilen Özellikler: Index(['Yaş', 'Maaş', 'Çalışma Süresi (Yıl)'], dtype='objec

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  veri['Yaş'].fillna(veri['Yaş'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  veri['Şehir'].fillna('Bilinmiyor', inplace=True)
  f = msb / msw


In [29]:
'''import pandas as pd
import numpy as np

# Veriyi okuma
veri = pd.read_csv('veri.csv')

# İlk 5 satırı göster
print('İlk 5 Satır:')
print(veri.head())

# Eksik değerleri bulma
print('\nEksik Değerler:')
print(veri.isnull().sum())

# Eksik değerleri doldurma veya kaldırma
veri = veri.fillna(veri.mean())  # Sayısal sütunlar için ortalama ile doldurma
veri = veri.dropna(subset=['Önemli_Sütun'])  # Önemli_Sütun sütununda eksik değerler varsa kaldırma

# Aykırı değerleri tespit etme ve kaldırma
Q1 = veri.quantile(0.25)
Q3 = veri.quantile(0.75)
IQR = Q3 - Q1
veri = veri[~((veri < (Q1 - 1.5 * IQR)) | (veri > (Q3 + 1.5 * IQR))).any(axis=1)]

# Veri türü dönüştürme
veri['Tarih'] = pd.to_datetime(veri['Tarih'], errors='coerce')

# Kategorik değişkenleri dönüştürme
veri = pd.get_dummies(veri, columns=['Kategori'], drop_first=True)

# Düzenlenmiş veriyi gösterme
print('\nDüzenlenmiş Veri:')
print(veri.head())

# Düzenlenmiş veriyi kaydetme
veri.to_csv('duzenlenmis_veri.csv', index=False)'''

"import pandas as pd\nimport numpy as np\n\n# Veriyi okuma\nveri = pd.read_csv('veri.csv')\n\n# İlk 5 satırı göster\nprint('İlk 5 Satır:')\nprint(veri.head())\n\n# Eksik değerleri bulma\nprint('\nEksik Değerler:')\nprint(veri.isnull().sum())\n\n# Eksik değerleri doldurma veya kaldırma\nveri = veri.fillna(veri.mean())  # Sayısal sütunlar için ortalama ile doldurma\nveri = veri.dropna(subset=['Önemli_Sütun'])  # Önemli_Sütun sütununda eksik değerler varsa kaldırma\n\n# Aykırı değerleri tespit etme ve kaldırma\nQ1 = veri.quantile(0.25)\nQ3 = veri.quantile(0.75)\nIQR = Q3 - Q1\nveri = veri[~((veri < (Q1 - 1.5 * IQR)) | (veri > (Q3 + 1.5 * IQR))).any(axis=1)]\n\n# Veri türü dönüştürme\nveri['Tarih'] = pd.to_datetime(veri['Tarih'], errors='coerce')\n\n# Kategorik değişkenleri dönüştürme\nveri = pd.get_dummies(veri, columns=['Kategori'], drop_first=True)\n\n# Düzenlenmiş veriyi gösterme\nprint('\nDüzenlenmiş Veri:')\nprint(veri.head())\n\n# Düzenlenmiş veriyi kaydetme\nveri.to_csv('duzenlenmi