## Pandas
![alt text](PandasNedir.png)

In [1]:
import numpy as np
import pandas as pd

### Series ve DataFrame Tanımlama

In [2]:
#Seri
pd.Series([11,22,33])
# serilerde satır etiketi, sıra numararı ve ortak veri tipi ile karşılışıyoruz.

#Dataframe
pd.Series([11,22,33], index = ['s1','s2','s3']) #Seriede varsayılan olarak sıra numaraları etiket index olarak atanır.
#İndex parametresi ile etiket ataması yapabiliriz.

s1    11
s2    22
s3    33
dtype: int64

In [3]:
## Dataframe Oluşturma
departman = pd.DataFrame(data = [
                        (1,'Departman A'),
                        (2,'Departman B'),
                        (3,'Departman C')
                     ]
                     ,columns=["DepId","DepAd"])
#kolon ve satır etiketi verilmediğinde sıra numarasını str tipinden etiket olarak kullanır.

departman

Unnamed: 0,DepId,DepAd
0,1,Departman A
1,2,Departman B
2,3,Departman C


In [4]:
#DataFrame 2
ekipEfor = pd.DataFrame(data = {
                                "Id":[1,2,3,4,5],
                                "Ad":["Ali","Veli","Ayşe","Fatma","Tonguç"],
                                "Cinsiyet":["E","E",None,"K","E"],
                                "Miktar":[120,None,250,350,None]
                                }
                        ,columns=["Id","Ad","Cinsiyet","Miktar","DepartmanId"] #kolon iismleri güncellenir olmayan kolonlar eklenir.
                        ,index=["İstanbul","İstanbul","Ankara","Ankara","İzmir"]
                        )
#
ekipEfor

Unnamed: 0,Id,Ad,Cinsiyet,Miktar,DepartmanId
İstanbul,1,Ali,E,120.0,
İstanbul,2,Veli,E,,
Ankara,3,Ayşe,,250.0,
Ankara,4,Fatma,K,350.0,
İzmir,5,Tonguç,E,,


### Yapısını Değiştirmek

#### Satır ve Kollon İsimleri Vermek

In [5]:
ekipEfor.index #Satır etiketleri #Index(['İstanbul', 'İstanbul', 'Ankara', 'Ankara', 'İzmir'], dtype='object', name='Şehir')
ekipEfor.index.name ="Lokasyon"


#
ekipEfor.columns #Kolon etiketleri Index(['Id', 'Ad', 'Cinsiyet', 'Miktar', 'DepartmanId'], dtype='object')
ekipEfor.columns.name = "Özellikler"


#
ekipEfor

Özellikler,Id,Ad,Cinsiyet,Miktar,DepartmanId
Lokasyon,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
İstanbul,1,Ali,E,120.0,
İstanbul,2,Veli,E,,
Ankara,3,Ayşe,,250.0,
Ankara,4,Fatma,K,350.0,
İzmir,5,Tonguç,E,,


#### Satır ve Kolonların Etiketlerini Güncelleyelim

In [6]:
ekipEfor.columns = ['Id', 'Ad', 'Cinsiyet', 'Miktar', 'DepId']
ekipEfor.index  = ['Bursa', 'Bursa', 'Ankara', 'Ankara', 'İzmir']

#-------------------------------------------------------------
#numpydaki öğrendiklerimiz ile kolon iismlerini bir dizi olarak üretip verelim.
ekipEfor.index = np.where(ekipEfor.index =="Ankara","Çorum",ekipEfor.index)
#-------------------------------------------------------------

#
ekipEfor.rename(columns={"Miktar":"Uretim"} , index={"Çorum":"Bolu"}, inplace=True) #inplace=True ile orjinalini etkiler.

#
ekipEfor

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bursa,1,Ali,E,120.0,
Bursa,2,Veli,E,,
Bolu,3,Ayşe,,250.0,
Bolu,4,Fatma,K,350.0,
İzmir,5,Tonguç,E,,


#### Satır etiketlirini sıfırlamak ve bir kolonu satır etiketi haline getirmek

In [7]:
#Satır etiketi sıfırlandığında satırdaki bu bilgi kolona dönüştürülür.
#orjinalini etkilemez.
ekipEfor = ekipEfor.reset_index() #inplace=True 

ekipEfor

Unnamed: 0,index,Id,Ad,Cinsiyet,Uretim,DepId
0,Bursa,1,Ali,E,120.0,
1,Bursa,2,Veli,E,,
2,Bolu,3,Ayşe,,250.0,
3,Bolu,4,Fatma,K,350.0,
4,İzmir,5,Tonguç,E,,


In [8]:
ekipEfor.rename(columns =  {"index":"Şehir"}, inplace=True)
ekipEfor

Unnamed: 0,Şehir,Id,Ad,Cinsiyet,Uretim,DepId
0,Bursa,1,Ali,E,120.0,
1,Bursa,2,Veli,E,,
2,Bolu,3,Ayşe,,250.0,
3,Bolu,4,Fatma,K,350.0,
4,İzmir,5,Tonguç,E,,


In [9]:
#bir kolonu index etiketi olarak kullanabiliriz.
ekipEfor.set_index("Şehir", inplace=True)
ekipEfor.index.name = None #indexin başlığını kaldırdık.

ekipEfor

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bursa,1,Ali,E,120.0,
Bursa,2,Veli,E,,
Bolu,3,Ayşe,,250.0,
Bolu,4,Fatma,K,350.0,
İzmir,5,Tonguç,E,,


#### Kolonların Veri Tiplerini Değiştirmek

In [10]:
# 240.0+ bytes
# 220.0+ bytes
# 190.0+ bytes
# 175.0+ bytes
ekipEfor = ekipEfor.astype({
                            "Id": np.int8, #int,
                            "Uretim":np.float16, #pd.Float32Dtype(),  #:float,
                            "Ad":str #:str
                        })

#
ekipEfor.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, Bursa to İzmir
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Id        5 non-null      int8   
 1   Ad        5 non-null      object 
 2   Cinsiyet  4 non-null      object 
 3   Uretim    3 non-null      float16
 4   DepId     0 non-null      object 
dtypes: float16(1), int8(1), object(3)
memory usage: 175.0+ bytes


#### Orjinalini Etkilememesi için Atamalarda `b=a.copy` Kullananalım.

In [11]:
ekip = ekipEfor.copy() #orjinali etkilenmez

#copy() ile farklı nesneler oldular.
print(id(ekip),id(ekipEfor) )
print(ekip is ekipEfor)

2816186425808 2816219068112
False


### DF Hakkında Bilgi Almak

In [12]:
ekip.head(2) # üstten kaç satır çekilecek
ekip.tail(2) #alttan kaç  satır
ekip.sample(2) #rastgele kaç satır

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bursa,1,Ali,E,120.0,
Bolu,4,Fatma,K,350.0,


In [13]:
ekip.shape #(5,5) 5 satır 5 sutun var.
ekip.size #kaç hücre var

#
len(ekip) #satır sayısını veriyor. shape'in ilk değerini döndürür.
ekip.__len__()

#
ekip.columns
ekip.index

#tablonun yapısı
#ekip.info()

#istatistiksel değler. Sayısal alanlar için üretir.
ekip.describe()
ekip.describe().T #tranpose almak daha kullanışlı olabiliyor
#ekip.corr() #sayıal kolonların Korelasyonunu verir. metinsel kolonlar olduğu için hata veriyor burada.

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,5.0,3.0,1.581139,1.0,2.0,3.0,4.0,5.0
Uretim,3.0,240.0,115.3125,120.0,185.0,250.0,300.0,350.0


### Bazı Kullanışlı Fonksiyonlar
* Seri ve DF'lerde kullanılabilir
* axis parametresi verilebilr. 
  * axis=0 satır boyunca işlem yapar
  * axis=1 kolon boyunca işlem yapar

In [14]:
#DF'lerde ve serilerde kullanılanlar
#axis verebilir

#ekip.sum() #sayısal alanları kendi içinde toplar
#ekip.sum(axis=1) #

#
ekip.count() #None olmayanların adedi
ekip.count(axis=1) #kolon boyunca işlem yap.

#min, max, sum, std, mean, median, cumsum vs. kullanılabilir

Bursa    4
Bursa    3
Bolu     3
Bolu     4
İzmir    3
dtype: int64

In [15]:
ekip.nunique() #kaç farklı değer var.
ekip.nunique(axis=1)

Bursa    4
Bursa    3
Bolu     3
Bolu     4
İzmir    3
dtype: int64

In [16]:
#seri de kullanılabilecekler
ekip["Uretim"] #kolon etiketi alır ve kolonu seri olarak döndürür.
ekip.Uretim #ingilizce kolon isimlerinde pandasın sunduğu işlevlerle karışma ihtimali olduğu için kullanmama gayret edelim.


#
ekip.Uretim.mean() #kolon ortalaması

#
ekip.Cinsiyet.value_counts() #Hangi değerden kaç tane var?

#COUNT(DISTINCT kolonAdi) benzeri işlev
ekip.Cinsiyet.value_counts().count() #value_counts()'dan dönen seri olduğu için tekrar count alıp kaç farklı değer kullanılmış görebiliriz.

2

#### None değerler Hakkında
* `isna()` ve `isnull()` ile hücre  bazlı null konrolü yapılabilir. None olan değerler için **True** döner. Diğer hücreler için **False** döner.
* True olanlar 1, False olanlar 0 kabul edilerek None hücreler `sum()` ile sayılabilir.
* `all()` ile tüm hücrelerin None olup olmadığı kontrol edilebilir.**Hepsi None mu?**
* `any()` ile en az bir hücrenin None olup olmadığı kontrol edilebilir. **Hiç None var mı?**

In [17]:
ekip.isna() #isnull()

#
ekip.isna().any() #herhangi bir hücrede None var mı? True var mı?
#ekip.isna().any(axis=1)

#
ekip.isna().any().any() #DF'te hiç None var mı?

#
ekip.isna().all() #hepsi None olan hücreler için True döner
ekip.isna().all(axis=1) #komple None olan bir satır var mı?
#
#ekip.isna().all().any() #DF'te hepsi None olan bir kolon var mı?

Bursa    False
Bursa    False
Bolu     False
Bolu     False
İzmir    False
dtype: bool

#### Sıralama

In [18]:
ekip.sort_index(ascending=True) #ascending=False ters sıralama
ekip.sort_values(by="Uretim", ascending=False) #Uretim kolonuna göre sıralama

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bolu,4,Fatma,K,350.0,
Bolu,3,Ayşe,,250.0,
Bursa,1,Ali,E,120.0,
Bursa,2,Veli,E,,
İzmir,5,Tonguç,E,,


### Değerlere Ulaşmak
![alt text](PandasDegerlereUlasmak.png)

In [19]:
ekip =ekipEfor.copy()

#### Numpy Disizine Dönüştürmek

In [20]:
dizi_ekip = ekip.values #numpy array olarak döner

#numpydaki tekniklerle bilgileri alabiliriz.
dizi_ekip[0,1] #0.satır 1. kolon 

'Ali'

#### `[]` ve `[[]]` kullanımı. `to_frame` ve `to_list()`

In [21]:
#seri
ekip["Ad"] #seri olarak döner
ekip.Ad

#
#df olarak elde edelim
ekip[["Ad"]] #DF olarak döner
ekip[["Ad","Cinsiyet"]]

#
ekip["Ad"].to_frame() #seriyi DF olarak döner

#
ekip["Ad"].to_list() #seriyi liste olarak döner

['Ali', 'Veli', 'Ayşe', 'Fatma', 'Tonguç']

#### `df[start:stop:step]` satırda slicer işlemi yapar.

In [22]:
ekip[:3] #ilk 3 satırı getirir

#
ekip[2:5:2] #2.satırdan 5.satıra kadar 2şer atlayarak getirir.

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bolu,3,Ayşe,,250.0,
İzmir,5,Tonguç,E,,


In [23]:
#satır etiketleri de slicer olarak kullanılabilir.
ekip["Bolu":"İzmir"] #Bolu'dan İzmir'e kadar getirir.

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bolu,3,Ayşe,,250.0,
Bolu,4,Fatma,K,350.0,
İzmir,5,Tonguç,E,,


#### `df[]` boolen liste/seri/dizi ile satırları filtrelemek

In [24]:
ekip.shape #5,5
ekip.__len__() #5

#
#satırlarda filreleme yapmak için satır sayısı kadar True/False listesi üretmemiz gerekir.
filtre_satirlar = [False,False,True,False,True]

#
ekip[filtre_satirlar] #filtrelenmiş satırları getirir. Karşılığı True olan satırları getirir.

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bolu,3,Ayşe,,250.0,
İzmir,5,Tonguç,E,,


#### `df.iloc[satirSirasi, kolonSirasi]` ile Çalışmak

In [25]:
ekip[:2] #slicer yöntemi her kulanımda destekleniyor.
#ekip[0] #HATA!!!! direkt sıra numarasını vermek için iloc ile çalışmak gerek.

#iloc ile numpydaki gibi satır ve sutun numaralarını ayrı ayrı verebiliriiz.
ekip.iloc[0,1] #0.satır 1.kolon

#
ekip.iloc[0] #0. satırın tamamı seri olarak gelir
ekip.iloc[[0]] #0. satırı DF olarak gelir

#
ekip.iloc[0,[0,1]] #0.satırın 0 ve 1. kolonlarını getirir.
ekip.iloc[[0],[0,1]] #0.satırın 0 ve 1. kolonlarını getirir. df döner

#
ekip.iloc[[0,2,4],[1,3]] #0,2,4. satırların 0 ve 1. kolonlarını getirir.

Unnamed: 0,Ad,Uretim
Bursa,Ali,120.0
Bolu,Ayşe,250.0
İzmir,Tonguç,


In [26]:
# slicer kullanımı
ekip.iloc[:2,[1,2,3]]

#boolen index
filtre_kolonlar = [False, True, True,True,False]
ekip.iloc[:3,filtre_kolonlar] #ilk 3 satır ve kolonlar karşılığı True olanlar

Unnamed: 0,Ad,Cinsiyet,Uretim
Bursa,Ali,E,120.0
Bursa,Veli,E,
Bolu,Ayşe,,250.0


#### `df.loc[satirEtiketi, kolonEtiketi]` ile Çalışmak

In [27]:
ekip.loc["İzmir"] #İzmir satırını getirir. satır etiketi verdik
ekip.loc[["İzmir"]] #İzmir satırını DF olarak getirir.

#
ekip.loc["Bursa"] #2 satır ve bir çok kolon döndüğü için df gelir.

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bursa,1,Ali,E,120.0,
Bursa,2,Veli,E,,


In [28]:
ekip.loc["İzmir",["Ad","Cinsiyet","Uretim"]] #seri
ekip.loc[["İzmir"],["Ad","Cinsiyet","Uretim"]] #df

Unnamed: 0,Ad,Cinsiyet,Uretim
İzmir,Tonguç,E,


In [29]:
#slicer kullanımı
ekip.loc[::-1,"Ad":"Uretim"] #ters sıralama ve Ad ile Uretim arasındaki kolonları getirir.

#boolen index
filtre_satir = [False,False,True,False,True]    
filtre_sutun = [False, True, True, True,False]

#
ekip.loc[filtre_satir,filtre_sutun] #filtrelenmiş satırları ve kolonları getirir.

Unnamed: 0,Ad,Cinsiyet,Uretim
Bolu,Ayşe,,250.0
İzmir,Tonguç,E,


#### Boolen Listeler ile Filtreleme
* Filtrelenecek boyutta eleman sayısı kadar True/False listesi/serisi/dizisi oluşturulur.
* DF üzerinde True karşılığı olanlar gelir.
* `[], iloc[], loc[]` içinde kullanılabilir.

In [30]:
#örn:
#içerisinde im geçen kolonları ve Ad kolonu getirelim. Tüm satırlar gelsin
filtre_ad = ekip.columns=="Ad" #broadcasting ile tüm kolonları kontrol eder.
filter_im = ekip.columns.str.contains("im") #kolon isimlerinde im geçenleri getirir.

filtre_kolon = filtre_ad | filter_im #veya işlemi np.logical_or(filtre_ad,filter_im) ile de yapılabilir.


#boole indexler [], iloc, loc ile kullanılabilir.
ekip.loc[:, filtre_kolon]
ekip.iloc[:, filtre_kolon]

Unnamed: 0,Ad,Uretim
Bursa,Ali,120.0
Bursa,Veli,
Bolu,Ayşe,250.0
Bolu,Fatma,350.0
İzmir,Tonguç,


In [31]:
#soru:
'''
    1. Sadece Ad, Cinsiyet, Uretim kolonlarını çekelim.
    2. Uretim 150'den büyük satırları getirelim.
    3. 300'den küçük üretime sahip olmayan kadın üyeler gelsin.
    4. 150'den büyük üretime sahip olan kadın üyeler.
'''
#1.
ekip[["Ad","Cinsiyet","Uretim"]]
ekip.loc[:,["Ad","Cinsiyet","Uretim"]]

#2.
filtre_uretim = ekip.Uretim > 150 #broadcasting ile tüm hücreleri (seride satırlar) kontrol eder.
ekip[filtre_uretim]
ekip.loc[filtre_uretim]
ekip.iloc[filtre_uretim.tolist()] #tolist() ile listeye çevirip kullanabiliriz.

#3.
filtre_kadin = ekip.Cinsiyet == "K"
filtre_uretim300denKucuk = ekip.Uretim < 300
filtre_uretim300denKucukOlmayan = ~filtre_uretim300denKucuk #np.logical_not(filtre_uretim300denKucuk) #filtre_uretim300denKucuk == False

ekip.loc[filtre_kadin & filtre_uretim300denKucukOlmayan , ["Ad","Uretim"]]

#--------
#4.lambda kullanımı
ekip.loc[lambda s: (s.Uretim > 150) & (s.Cinsiyet == "K"), "Ad":"Uretim"]
ekip.iloc[lambda s: ((s.Uretim > 150) & (s.Cinsiyet == "K")).tolist() , 1:3] #tolist() ile listeye çevirip kullanabiliriz.

Unnamed: 0,Ad,Cinsiyet
Bolu,Fatma,K


#### `query(expression)` ile filtreleme
* expression kısmı sql'deki where ile belirtilen expression gibidir.

In [32]:
#örn:
#Uretim mükteri 200'den büyük olanları getirelim. Cinsiyeti Kadın olanlar
ekip.query("Uretim > 200 and Cinsiyet == 'K'" )

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bolu,4,Fatma,K,350.0,


In [33]:
#örn:
#Ortalamadan büyük Üretime sahip olanları  getirelim.
ekip.Uretim.mean()

#1.
ekip.query(f"Uretim > {ekip.Uretim.mean()}")

#2. değişken tanımlana
uretim_ort = ekip.Uretim.mean()
ekip.query("Uretim > @uretim_ort") #@ ile değişkeni kullanabiliriz.

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bolu,3,Ayşe,,250.0,
Bolu,4,Fatma,K,350.0,


In [34]:
# Cinsiyet alano null olanları getirelim.
# Cinsiyet alano null olmayanlar getirelim.
#ekip[ekip.isna().Uretim]

#NULL olanlar
ekip.query("Cinsiyet != Cinsiyet") #Cinsiyet alanı null olanları getirir.
ekip.query("Cinsiyet.isnull()")
ekip.query("Cinsiyet.isna()")

#
#NULL olmayanlar
ekip.query("Cinsiyet == Cinsiyet") #Cinsiyet alanı null olmayanları getirir.
ekip.query("Cinsiyet.notnull()")
ekip.query("Cinsiyet.notna()")
ekip.query("not Cinsiyet.isna()")
ekip.query("~Cinsiyet.isna()")

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bursa,1,Ali,E,120.0,
Bursa,2,Veli,E,,
Bolu,4,Fatma,K,350.0,
İzmir,5,Tonguç,E,,


In [35]:
#içerisinde a geçen isimler gelsin
filtre_a = ekip.Ad.str.contains("a", case=False) #case=False büyük küçük harf duyarlılığını kaldırır.
ekip[filtre_a]

#
ekip.query("Ad.str.contains('a', case=False)")

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bursa,1,Ali,E,120.0,
Bolu,3,Ayşe,,250.0,
Bolu,4,Fatma,K,350.0,


#### `where` Kullanımı
* Belirtilen şartı tüm hücreler için kontrol eder.
* Şarta uyan satırlar aynen gelir. Uymayan satırlar için bir varsayılan değer veya None basılır.

In [36]:
ekip.where(ekip.Cinsiyet=="E")
ekip.where(ekip.Cinsiyet=="E",'-') #Uymayan satırlar için - basalım.

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bursa,1,Ali,E,120.0,
Bursa,2,Veli,E,,
Bolu,-,-,-,-,-
Bolu,-,-,-,-,-
İzmir,5,Tonguç,E,,


#### `isin` Kullanımı
* herhangi bir değerin tablonun neresinde olduğunu bulmamızı sağlar.
* belirtilen değer hücrelerde var mı? Hücre bazlı True/False döner.

In [37]:
ekip.isin(["Ali"]) #liste veya dict istiyor
ekip.isin(["Ali"]).any()#Ali değeri bir kolonda var mı? Ad kolonunda True
ekip.isin(["Ali"]).any().any() #Ali değeri DF'te var mı?

#
ekip.isin(["Ali"]).sum() #hangi kolonda kaç tane var.
ekip.isin(["Ali"]).sum().sum() #DF'te kaç tane var.

1

In [38]:
ekip.isin({"Ad":["Ali","Ayşe"], "Cinsiyet":["E"]}) #Ad kolonunda Ali veya Ayşe, Cinsiyet kolonunda E olanlar

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bursa,False,True,True,False,False
Bursa,False,False,True,False,False
Bolu,False,True,False,False,False
Bolu,False,False,False,False,False
İzmir,False,False,True,False,False


#### `filter` ile etiketlere göre filtreleme yapabiliriz.
* `items , regex, like` parametreleri ile etiketleri tarif edebiliriz.
* axis=0 satırları, axis=1 kolonları tarif eder.

In [39]:
ekip.filter(items=["Ad","Uretim"]) #kolon isimleri verilir

#
ekip.filter(like="im") #kolon isimlerinde im geçenleri getirir.

#
ekip.filter(regex="^A") #A ile başlayan kolonları getirir.
ekip.filter(regex="im$") #im ile biten kolonları getirir.

Unnamed: 0,Uretim
Bursa,120.0
Bursa,
Bolu,250.0
Bolu,350.0
İzmir,


### Veri Atama
* seri ve df'lerde atama yapılabilir. Orjinalini etkiler.
* önce seri elde edip değerini bastık

In [40]:
#örn:
#Cinsiyet değerlini açıkça belirtelim.
ekip.loc[ekip.Cinsiyet == 'K', "Cinsiyet"] = "Kadın"
ekip.loc[ekip.Cinsiyet == 'E', "Cinsiyet"] = "Erkek"

#
#ekip.loc[:,"DepId"] = 1 #tüm satırlara 1 değerini atar.
ekip.loc[:,"DepId"] = [1,2,3,1,2] #broadcast ile 5 değer satırlara atanır.

#
ekip

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bursa,1,Ali,Erkek,120.0,1
Bursa,2,Veli,Erkek,,2
Bolu,3,Ayşe,,250.0,3
Bolu,4,Fatma,Kadın,350.0,1
İzmir,5,Tonguç,Erkek,,2


### `NULL (None, NaN, NaT, N/A)` Değerlerin İşlenmesi
* Metinsel alanlar için None
* Sayısal alanlar için NaN
* Tarih alanları için NaT
* N/A ise not available

* İlgili fonksiyonlar
* `isna()` veya `isnull()` ile None değerler kontrol edilir.
  * axis verilerek `sum(), any(), all()` ile True değerler üzerinde işlem yapılabilir.
* `notna()` veya `notnull()` ile None olmayan değerler kontrol edilir.
* `fillna()` ile null değerlere atama yapılabilir. axis ve method parametreleri verilebilir.
* `dropna()` ile null değerlerin olduğu satırlar veya kolonlar silinebilir. axis ve how parametreleri verilebilir.

In [41]:
ekip.Uretim.isna().any() #Uretim kolonunda null var mı?
ekip.Uretim.isna().sum() #Uretim kolonunda kaç tane null var?

#null satırları getirelim
ekip.loc[ekip.Uretim.isna(),["Ad","Cinsiyet","Uretim"]]

Unnamed: 0,Ad,Cinsiyet,Uretim
Bursa,Veli,Erkek,
İzmir,Tonguç,Erkek,


In [42]:
#örn:
#Uretimi null olalra ortalama üretimi basalım.
ekip.loc[ekip.Uretim.isna(),"Uretim"] = ekip.Uretim.mean()

ekip

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bursa,1,Ali,Erkek,120.0,1
Bursa,2,Veli,Erkek,240.0,2
Bolu,3,Ayşe,,250.0,3
Bolu,4,Fatma,Kadın,350.0,1
İzmir,5,Tonguç,Erkek,240.0,2


In [43]:
##filna() ile 
ekip.fillna("Bilinmiyor") #tüm null değerleri Bilinmiyor ile doldurur.


#hangi kolona ne basılacağını belirtebiliriz.
ekip.fillna({
                "Uretim":ekip.Uretim.mean(),
                "Cinsiyet":"Bilinmiyor",
                "DepId":-1
            })

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bursa,1,Ali,Erkek,120.0,1
Bursa,2,Veli,Erkek,240.0,2
Bolu,3,Ayşe,Bilinmiyor,250.0,3
Bolu,4,Fatma,Kadın,350.0,1
İzmir,5,Tonguç,Erkek,240.0,2


In [44]:
##dropna() ile silebiliriz.
ekip.dropna() #içinde null olan satırları siler.
ekip.dropna(axis=1, how="any") #herhangi bir null varsa kolonu siler.
ekip.dropna(axis=1, how="all") #tüm hücreleri null olan kolonu siler.

#
ekip.dropna(axis=0, how="all") #tüm hücreleri null olan satırı siler.

#
ekip.dropna(subset=["Cinsiyet"]) #Cinsiyet alanı null olan satırları siler.

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bursa,1,Ali,Erkek,120.0,1
Bursa,2,Veli,Erkek,240.0,2
Bolu,4,Fatma,Kadın,350.0,1
İzmir,5,Tonguç,Erkek,240.0,2


### Satır ve Kolon Ekleme / Kaldırma
* `append()` ile satır eklenebilir. yeni versiyonda `pd.concat([df1,df2])` ile dfler birleştirilir.
* `drop()` ile satır veya kolon silinebilir. axis ve how parametreleri verilebilir.
* `insert()` ile kolon eklenebilir. `df[yeniKolon]=degerler` ile de kolon eklenebilir.
* `pop()` ile kolon silinebilir. `del df[kolonAdi]` ile de kolon silinebilir.
* `drop_duplicates()` ile tekrar eden satırlar silinebilir.
* `dropna()` ile null değerlerin olduğu satırlar veya kolonlar silinebilir. axis ve how parametreleri verilebilir.
* `eval()` ile kolonlar arasında işlem yapılabilir. Yeni kolon oluşturulabilir.
* İşlemler orjinalini etkilemez.

In [57]:
ekip = ekipEfor.copy()

#### satır ekleme

In [60]:
df_satir = pd.DataFrame(data={
                "Id": [120],
                "Ad":["XMan"],
                "Cinsiyet":["E"],
                "AktifMi":[True] #yeni bir alan
            },index=["Uzay"])

#
pd.concat([ekip, df_satir])

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId,AktifMi
Bursa,1,Ali,E,120.0,,
Bursa,2,Veli,E,,,
Bolu,3,Ayşe,,250.0,,
Bolu,4,Fatma,K,350.0,,
İzmir,5,Tonguç,E,,,
Uzay,120,XMan,E,,,True
