Kullanacağımız veri setlerini içe aktaralım.

In [1]:
import pandas as pd 

ride_sharing_new = pd.read_csv("ride_sharing_new.csv")

Kod bloklarından elde edilen çıktıları birbirinden ayırmak için ayrac() isimli bir fonksiyon oluşturalım.

In [2]:
def ayrac():
    print("\n*****\n")

DataFramelerine bir göz atalım.

In [3]:
print(ride_sharing_new.head(3))

   Unnamed: 0    duration  station_A_id  \
0           0  12 minutes            81   
1           1  24 minutes             3   
2           2   8 minutes            67   

                                      station_A_name  station_B_id  \
0                                 Berry St at 4th St           323   
1       Powell St BART Station (Market St at 4th St)           118   
2  San Francisco Caltrain Station 2  (Townsend St...            23   

                    station_B_name  bike_id  user_type  user_birth_year  \
0               Broadway at Kearny     5480          2             1959   
1  Eureka Valley Recreation Center     5193          2             1965   
2    The Embarcadero at Steuart St     3652          3             1993   

  user_gender  ride_id  
0        Male     55.0  
1        Male      4.0  
2        Male     11.0  


# COMMON DATA PROBLEMS (Yaygın Veri Problemleri)

Bu bölümde aşağıdaki konulara odaklanacağız: 

+ Convert Data Types (Veri Türlerini Dönüştürme)
+ Range Constraints (Aralık Kısıtlamaları)
+ Remove Duplicate Data (Yinelenen Verileri Kaldırma)

##  Data Type Constraints (Veri Türü Kısıtlamaları) 

Bu bölümde kullandığımız işlevler ve tutorial linkleri :

+ pandas.DataFrame.dtypes = https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html

+ pandas.DataFrame.astype = https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html

+ assert = https://www.w3schools.com/python/ref_keyword_assert.asp

Verilerimizi analiz etmeye başlamadan önce değişkenlerimizin doğru veri türlerine sahip olduğundan emin olmamız gerekir. Aksi takdirde, analizimizde hatalar ortaya çıkacaktır. 

Verilerle çalışırken, süreç boyunca karşımıza çıkabilecek çeşitli veri türleri vardır. Metin verileri, tamsayılar, ondalık sayılar, tarihler ve kategorik veriler gibi. Python bu veri türleri için, veri türü nesnelerine sahiptir. Bunlar: 

+ Text data (Metin verileri) = String (str)
+ Integers (Tamsayılar) = Integer (int)
+ Decimals (Ondalık sayılar) = Float 
+ Binary (İkili, yes/no, True/False) = Boolean (bool)
+ Dates (Tarihler) = Datetime
+ Category (Kategorik) = Category

### < Numeric or Categorical (Numerik mi Kategorik mi?) >

ride_sharing_new veri setindeki **user_type** sütunu, bir kullanıcının ücretsiz bir yolculuk yapıp yapmadığını gösteren bilgiler içerir. **1 = free riders**, **2 = pay per ride**, **3 = monthly subscribers** anlamına gelir. Aşağıdaki kod bloğunda ride_sharing_new veri setiyle ilgili bilgi edinmek için **xx.info()** işlevini kullanalım ve ardından **user_type** sütununun kategorik değerlerini döndürmek için **xx.describe** işlevini kullanalım. 

In [4]:
print(ride_sharing_new.info())
ayrac()
print(ride_sharing_new["user_type"].describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25760 entries, 0 to 25759
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Unnamed: 0       25760 non-null  int64  
 1   duration         25760 non-null  object 
 2   station_A_id     25760 non-null  int64  
 3   station_A_name   25760 non-null  object 
 4   station_B_id     25760 non-null  int64  
 5   station_B_name   25760 non-null  object 
 6   bike_id          25760 non-null  int64  
 7   user_type        25760 non-null  int64  
 8   user_birth_year  25760 non-null  int64  
 9   user_gender      25760 non-null  object 
 10  ride_id          76 non-null     float64
dtypes: float64(1), int64(6), object(4)
memory usage: 2.2+ MB
None

*****

count    25760.000000
mean         2.008385
std          0.704541
min          1.000000
25%          2.000000
50%          2.000000
75%          3.000000
max          3.000000
Name: user_type, dtype: float64


+ **ride_sharing_new["user_type"].describe()** komutunun çıktısında kategorik verilere ait numeric sonuçlar döndürüldü. Yani bu, verilerin kategorik olmasına rağmen numeric olarak saklandığını gösterir.

Yukarıdaki işlemler sonucu **user_type** sütununun kategorik olması gerekiren numerik olduğunu gördük. Bunu değiştirmek için **xx.astype()** işlevini kullanacağız ardından **assert** ile kontrol edeceğiz.

In [5]:
#1 
ride_sharing_new["user_type_categoric"] = ride_sharing_new["user_type"].astype("category")

#2
assert ride_sharing_new["user_type_categoric"].dtype == "category"

#3
print(ride_sharing_new["user_type_categoric"].describe())

count     25760
unique        3
top           2
freq      12972
Name: user_type_categoric, dtype: int64


+ 1-) **user_type_categoric** adlı yeni bir sütuna, **user_type** sütununun kategorik halini oluşturduk.

+ 2-) **assert** ve **xx.dtype** ile bunu kontrol ettik. Bir yanlışlık olmadığı için **assert**, herhangi bir şey döndürmedi.

+ 3-) **user_type_categoric** sütununu özetledik. Çıktıya bakacak olursak, unique kısmında 3 adet kategorik değer olduğunu görebiliriz.

###  < String to Integers (Metin Verisini Tamsayıya Dönüştürme) >

ride_sharing_new veri setindeki **duration** sütunundaki string verileri, integer verilere dönüştüreceğiz. Önce duration sütununa bir göz atalım.

In [6]:
print(ride_sharing_new["duration"].head(3))

0    12 minutes
1    24 minutes
2     8 minutes
Name: duration, dtype: object


+ minutes metinlerini kaldırmamız gerekecek. 

**duration_trim** adlı yeni bir sütuna, minutes metinleri kaldırılmış haldeki **duration** sütununu atayalım ve ardından string olan **duration_trim** sütununu integer'a dönüştürüp **duration_time** değişkenine atayarak yeni bir sütun oluşturalım. Son olarak da **assert** ile kontrol edip bu 3 sütunu yazdırıp **duration_time** sütununun ortalamasını döndürelim.

In [7]:
#1
ride_sharing_new["duration_trim"] = ride_sharing_new["duration"].str.strip("minutes")

#2
ride_sharing_new["duration_time"] = ride_sharing_new["duration_trim"].astype("int")

#3
assert ride_sharing_new["duration_time"].dtype == "int"

print(ride_sharing_new[["duration", "duration_trim", "duration_time"]].head(3))
ayrac()
print(ride_sharing_new["duration_time"].mean())

     duration duration_trim  duration_time
0  12 minutes           12              12
1  24 minutes           24              24
2   8 minutes            8               8

*****

11.389052795031056


+ 1-) minutes metinlerini kaldırdık

+ 2-) sütunun veri tipini string'den numeriğe çevirdik

+ 3-) assert ile kontrol ettik

## Data Range Constraints (Veri Aralığı Kısıtlamaları)

Bu bölümde kullandığımız işlevler ve tutorial linkleri :

+ pandas.DataFrame.drop = https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html

Veri aralığının dışındaki verilerle başa çıkmanın yolları :

+ Dropping data (Veriyi bırakmak) 
  
  Ancak dikkat edilmelidir. Bırakılan verilerin boyutuna bağlı olarak, önemli bilgiler kaybediyor olabiliriz. Bu yüzden bıraktığımız veriler, veri kümemizin küçük bir kısmı ise dropping işlemini uygulamalıyız. 


+ Setting custom minimums and maximums (Sütunlara özel minimum ve maksimum değerler ayarlamak)

+ Treat as missing and impute (Verileri missing olarak ayarlamak ve missing value ile başa çıkmak)

+ Setting custom value depending on business assumptions (Verilerin çalışma şekline bağlı olarak, belirli bir aralığın ötesine geçen verilerimize özel bir değer atamak)

### < Setting custom minimums and maximums (Sütunlara özel minimum ve maksimum değerler ayarlamak) >

Tekrardan ride_sharing_new veri setindeki **user_type** sütununa göz atalım. Bu sütun kategorik olmasına rağmen numerik bir sütundu ve 1, 2, 3 değerlerinden oluşmaktaydı ve **1 = free riders**, **2 = pay per ride**, **3 = monthly subscribers** anlamına gelmekteydi. Biz yukarıdaki örneklerde bu sütunun kategorik bir halini **user_type_categoric** olarak oluşturmuştuk. Burada, bu sütunu kullanacağız. **user_type_categoric** sütunundaki maksimum kullanıcı tipini **2** olarak yeniden ayarlayacağız. İşlemlere başlamadan önce **user_type_categoric** sütununa bir göz atalım.

In [8]:
print(ride_sharing_new["user_type_categoric"].head(3))

0    2
1    2
2    3
Name: user_type_categoric, dtype: category
Categories (3, int64): [1, 2, 3]


İlk olarak **user_type_categoric** sütununun doğru aralığa sahip olup olmadığını anlamak için bu sütunu **xx.astype()** ile integer'a dönüştürülmüş halini **user_type_categoric_new** adlı yeni bir sütuna tanımlayacağız. Ardından kullanıcı tipinin yeni max sınırını **xx.loc[]** ile 2 olarak ayarlayıp **assert** ile test edeceğiz.

In [9]:
#1
ride_sharing_new["user_type_categoric_new"] = ride_sharing_new["user_type_categoric"].astype("int")

#2
ride_sharing_new.loc[ride_sharing_new["user_type_categoric_new"] > 2, "user_type_categoric_new"] = 2

#3
print(ride_sharing_new["user_type_categoric_new"].value_counts())
ayrac()

#4 
ride_sharing_new["user_type_categoric_new"] = ride_sharing_new["user_type_categoric_new"].astype("category")

#5
print(ride_sharing_new["user_type_categoric_new"].describe())

2    19474
1     6286
Name: user_type_categoric_new, dtype: int64

*****

count     25760
unique        2
top           2
freq      19474
Name: user_type_categoric_new, dtype: int64


+ 1-) **user_type_categoric** sütununun integer'a dönüştürülmüş halini **user_type_categoric_new** adlı yeni bir sütuna tanımladık.


+ 2-) Kullanıcı tipinin maksimum 2 olmasını sağladık.


+ 3-) **user_type_categoric_new** adlı sütundaki benzersiz değerleri ve sayısını döndürdük. Görüleceği üzere sadece 1 ve 2 değerleri benzersiz değer olarak var, 3 yok. 


+ 4-) **user_type_categoric_new** sütununu integer'dan kategorik hale dönüştürdük.


+ 5-) **user_type_categoric_new** sütununun özelliklerini döndürdük.

### < Dropping data (Veriyi bırakmak) > 

Verileri bırakmanın iki yolu var :

+ Filtreleme ile bırakmak
+ xx.drop() işlevi ile bırakmak

ride_sharing_new veri setindeki **user_birthday_year** sütunu üzerinde çalışalım. Bu sütunda, kullanıcı doğum yılının 1990'dan küçük olanları bırakalım. İşlemlere başlamadan önce bu sütuna bir göz atalım ve 1990'dan küçük olan sütunları döndürelim.

In [10]:
print(ride_sharing_new["user_birth_year"].value_counts())
ayrac()
print(ride_sharing_new["user_birth_year"].head(3))
ayrac()
ride_sharing_new[ride_sharing_new["user_birth_year"] < 1990].head(3)

1988    1741
1990    1455
1986    1292
1987    1292
1985    1140
        ... 
1927       3
1939       2
1901       1
1936       1
2001       1
Name: user_birth_year, Length: 63, dtype: int64

*****

0    1959
1    1965
2    1993
Name: user_birth_year, dtype: int64

*****



Unnamed: 0.1,Unnamed: 0,duration,station_A_id,station_A_name,station_B_id,station_B_name,bike_id,user_type,user_birth_year,user_gender,ride_id,user_type_categoric,duration_trim,duration_time,user_type_categoric_new
0,0,12 minutes,81,Berry St at 4th St,323,Broadway at Kearny,5480,2,1959,Male,55.0,2,12,12,2
1,1,24 minutes,3,Powell St BART Station (Market St at 4th St),118,Eureka Valley Recreation Center,5193,2,1965,Male,4.0,2,24,24,2
3,3,4 minutes,16,Steuart St at Market St,28,The Embarcadero at Bryant St,1883,1,1979,Male,12.0,1,4,4,1


**xx.drop()** işlevi ile 1990'dan küçük olan verileri bırakalım. 

In [11]:
ride_sharing_new.drop(ride_sharing_new[ride_sharing_new["user_birth_year"] < 1990].index, inplace = True)
print(ride_sharing_new["user_birth_year"])

2        1993
4        1994
7        1991
9        1994
11       1990
         ... 
25755    2000
25756    1998
25757    1995
25758    1995
25759    1990
Name: user_birth_year, Length: 7339, dtype: int64


+ Yapılan bırakma işleminin bir kopyasını döndürmemek ve direkt olarak sütunu değiştirmiş olmak için **inplace = True** olarak ayarladık. False olsaydı, yapılan işlemin bir kopyası döndürülecekti.

## Uniqueness Constraints (Benzersizlik Kısıtlamalar)

Bu bölümde kullandığımız işlevler ve tutorial linkleri : 

+ pandas.DataFrame.duplicated() = https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html
  
  subset = İstenen sütunlardaki tekrar eden değerleri bulmamızı sağlar.

  keep = Yinelenen bir değerin ilk oluşumunu **first**('first'), **last**('last'), **all**(False) olarak tutmamızı sağlar. 
  
      first : Yinelenenleri, ilk oluşum dışında True olarak işaretleyin. 
  
      last : Yinelenenleri, son oluşum dışında True olarak işaretleyin. 
  
      false : Tüm kopyaları Doğru olarak işaretleyin.
  

+ pandas.DataFrame.drop_duplicates() = https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html

Uniqeueness constarint (benzersizlik kısıtmalası), tekrar eden değerlerin (**Duplicate Value**) olduğu anlamına gelmektedir. Farklı satırlarda aynı değerlerin var olmasıdır. Bir veri setinde tekrar eden değerleri, **xx.duplicated()** işlevi ile bulabiliriz. Duplicate Value ile şu şekilde başa çıkabiliriz :

+ **xx.drop_duplicates()** işlevi ile tekrar eden değerlerden sadece 1 tanesini tutarız ve geri kalanları atarız. 


Eğer şöyle bir durum gerçekleşirse : 

![Ekran%20G%C3%B6r%C3%BCnt%C3%BCs%C3%BC%20%28117%29.png](attachment:Ekran%20G%C3%B6r%C3%BCnt%C3%BCs%C3%BC%20%28117%29.png)

Bütün sütunlar aynı ancak weight sütunundaki değerler farklı. Böyle bir durumda bu iki değerin ortalamasını alıp tek bir sütunda birleştirebiliriz. Bunu, **xx.groupby()** ve **xx.agg()** işlevi ile yapabiliriz.

ride_sharing_new veri setindeki **ride_id** sütununa bakalım. Bu sütundaki tekrar eden değerleri bulup onları kaldıralım. İşlemlere başlamadan önce **ride_id** sütununa göz atalım.

In [12]:
print(ride_sharing_new["ride_id"])

2        11.0
4        20.0
7        10.0
9        43.0
11       50.0
         ... 
25755     NaN
25756     NaN
25757     NaN
25758     NaN
25759     NaN
Name: ride_id, Length: 7339, dtype: float64


**xx.duplicated()** ile tekrar eden verileri bulalım ve ardından **xx.drop_duplicate()** ile bu verileri kaldıralım.