In [10]:
import dataPreprocessor as dp
import pandas as pd
import numpy as np

In [11]:
data = {
    'category': ['A', 'B', 'A', 'C', 'B', 'C'],
    'value': [10, 20, 10, 30, 20, 30]
}
df = pd.DataFrame(data)

# categorical_encoder sınıfını kullanarak bir nesne oluşturun
cat_encoder = dp.categorical_encoder()

# One-Hot Encoding uygulayın
df_one_hot_encoded = cat_encoder.one_hot_encode(df, 'category')
print("One-Hot Encoded DataFrame:")
print(df_one_hot_encoded)

# Label Encoding uygulayın
df_label_encoded = cat_encoder.label_encode(df.copy(), 'category')
print("\nLabel Encoded DataFrame:")
print(df_label_encoded)

One-Hot Encoded DataFrame:
   value  category_A  category_B  category_C
0     10         1.0         0.0         0.0
1     20         0.0         1.0         0.0
2     10         1.0         0.0         0.0
3     30         0.0         0.0         1.0
4     20         0.0         1.0         0.0
5     30         0.0         0.0         1.0

Label Encoded DataFrame:
   category  value
0         0     10
1         1     20
2         0     10
3         2     30
4         1     20
5         2     30




In [12]:

data = {
    'numeric': ['1', '2', 'three', '4.5'],
    'categorical': [1, 2, 3, 4]
}
df = pd.DataFrame(data)

# Data Type Converter sınıfını oluşturma
type_converter = dp.data_type_converter()

# Numeric dönüştürme testi
df_numeric_converted = type_converter.to_numeric(df.copy(), 'numeric')
print("Numeric Conversion:")
print(df_numeric_converted)

# Categorical dönüştürme testi
df_categorical_converted = type_converter.to_categorical(df.copy(), 'categorical')
print("\nCategorical Conversion:")
print(df_categorical_converted)


Numeric Conversion:
   numeric  categorical
0      1.0            1
1      2.0            2
2      NaN            3
3      4.5            4

Categorical Conversion:
  numeric categorical
0       1           1
1       2           2
2   three           3
3     4.5           4


In [13]:
data = {
    'text': [
        'Hello world!',
        'This is a test.',
        'NLP with Python is great.',
        'Data Science is the future!'
    ]
}
df = pd.DataFrame(data)

# text_cleaner sınıfını kullanarak metin verilerini temizleyin
text_clean = dp.text_cleaner()
cleaned_df = text_clean.clean_column(df, 'text')

# Sonucu göster
print(cleaned_df)

                  text
0          hello world
1                 test
2     nlp python great
3  data science future


In [14]:
data = {
    'numeric': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
}
df = pd.DataFrame(data)

# scaler sınıfını başlat
scal = dp.scaler()

# Min-Max ölçeklendirme
df_min_max_scaled = scal.min_max_scale(df.copy(), 'numeric')
print("Min-Max Scaled Data:")
print(df_min_max_scaled)

# Standart ölçeklendirme
df_standard_scaled = scal.standard_scale(df.copy(), 'numeric')
print("\nStandard Scaled Data:")
print(df_standard_scaled)

Min-Max Scaled Data:
    numeric
0  0.000000
1  0.111111
2  0.222222
3  0.333333
4  0.444444
5  0.555556
6  0.666667
7  0.777778
8  0.888889
9  1.000000

Standard Scaled Data:
    numeric
0 -1.566699
1 -1.218544
2 -0.870388
3 -0.522233
4 -0.174078
5  0.174078
6  0.522233
7  0.870388
8  1.218544
9  1.566699


In [15]:
data = {
    'A': [1, 2, np.nan, 4, 5],
    'B': [np.nan, 2, 3, np.nan, 5]
}
df = pd.DataFrame(data)

# Missing Value Handler sınıfını kullanarak eksik değerleri doldurma
mv_handler = dp.missing_value_handler()

# Mean ile doldurma
df_mean = mv_handler.impute_mean(df.copy(), 'A')
print("Mean ile doldurulmuş DataFrame:")
print(df_mean)

# Median ile doldurma
df_median = mv_handler.impute_median(df.copy(), 'B')
print("\nMedian ile doldurulmuş DataFrame:")
print(df_median)

# Sabit bir değer ile doldurma
df_constant = mv_handler.impute_constant(df.copy(), 'B', 999)
print("\nSabit bir değer ile doldurulmuş DataFrame:")
print(df_constant)

# Eksik değerleri silme
df_deleted = mv_handler.delete_missing(df.copy(), 'A')
print("\nEksik değerleri silinmiş DataFrame:")
print(df_deleted)

Mean ile doldurulmuş DataFrame:
     A    B
0  1.0  NaN
1  2.0  2.0
2  3.0  3.0
3  4.0  NaN
4  5.0  5.0

Median ile doldurulmuş DataFrame:
     A    B
0  1.0  3.0
1  2.0  2.0
2  NaN  3.0
3  4.0  3.0
4  5.0  5.0

Sabit bir değer ile doldurulmuş DataFrame:
     A      B
0  1.0  999.0
1  2.0    2.0
2  NaN    3.0
3  4.0  999.0
4  5.0    5.0

Eksik değerleri silinmiş DataFrame:
     A    B
0  1.0  NaN
1  2.0  2.0
3  4.0  NaN
4  5.0  5.0


In [16]:
data = {
    'numeric': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100]
}
df = pd.DataFrame(data)


# Outlier Handler sınıfını kullanarak outlier'ları filtreleme
out_handler = dp.outlier_handler()
filtered_df = out_handler.iqr_outliers(df, 'numeric')

# Sonuçları göster
print("Orjinal DataFrame:")
print(df)
print("\nOutlier'lar filtrelenmiş DataFrame:")
print(filtered_df)

Orjinal DataFrame:
    numeric
0         1
1         2
2         3
3         4
4         5
5         6
6         7
7         8
8         9
9        10
10      100

Outlier'lar filtrelenmiş DataFrame:
   numeric
0        1
1        2
2        3
3        4
4        5
5        6
6        7
7        8
8        9
9       10


In [17]:
data = {
    'date_column': ['2024-01-01', '2024-02-15', '2024-03-10', '2024-04-20']
}
df = pd.DataFrame(data)

# Datetime Handler kullanımı
handler = dp.datetime_handler()
df = handler.extract_date_parts(df, 'date_column')

# Sonucu göster
print(df)

  date_column  date_column_year  date_column_month  date_column_day  \
0  2024-01-01              2024                  1                1   
1  2024-02-15              2024                  2               15   
2  2024-03-10              2024                  3               10   
3  2024-04-20              2024                  4               20   

   date_column_weekday  
0                    0  
1                    3  
2                    6  
3                    5  


In [18]:
data = {
    'col1': [1, 2, 3, 4],
    'col2': [5, 6, 7, 8]
}
df = pd.DataFrame(data)

# FeatureEngineer sınıfını oluşturma
feature_eng = dp.feature_engineer()

# Yeni bir özellik oluşturma: col1 ve col2'yi toplama

df = feature_eng.create_feature(df, 'col_sum', feature_eng.add_columns, 'col1', 'col2', operation=lambda x, y: x + y)

# Yeni bir özellik oluşturma: col1 ve col2'yi çıkarma
df = feature_eng.create_feature(df, 'col_diff', feature_eng.add_columns, 'col1', 'col2', operation=lambda x, y: x - y)

# Sonucu gösterme
print(df)

   col1  col2  col_sum  col_diff
0     1     5        6        -4
1     2     6        8        -4
2     3     7       10        -4
3     4     8       12        -4
