## Pandas
* numpy üzerine inşa edilmiştir.
* Çalışılılan verinin 5-6 katı kadar memory olması beklenir.
* Daha büyük veri kümeleri için Lazy çalışan Vaex kütüphanesi kullanılabilir.
    * Spark (pyspark) ekosistemi veya hadoop kullanılabilir.
* 2 tip mevcut
    1. Series
        * kolona benzetebiliriz. Aynı tipten veri tutar.
        * Sıra numarası ve etiket mevcut.
    2. DataFrame
        * iki boyutludur. Tabloya benzetebiliriz.
        * satır ve sutunların, sıra numarası ve etiketi mevcut.
* Broadcast özelliği her iki nesnede de mevcut.

![Pandas DF.png](attachment:9cb79ee2-72b0-43ed-9600-36d730051a5d.png)

In [1]:
import numpy as np
import pandas as pd

In [3]:
#seri
pd.Series([11,22,33]) #satır etiketi ve sıra numarası bulunur.

pd.Series([11,22,33], dtype="str", index=["s1","s2","s3"]) 
#index satır etiketidir. satır etiketi vermezse sıra numarası etiket olur.

s1    11
s2    22
s3    33
dtype: object

In [31]:
#DataFrame
departman = pd.DataFrame(
                    data=[
                            (1,"Departman A"),
                            (2,"Departman B"),
                            (3,"Departman C")
                        ],
                        columns=["DepId","DepAd"]                        
                        )

#-
departman

# DepId kolonu satır etiketi olsun
departman.set_index("DepId", inplace=True) #orjinalini inplace=True ile etkiler.

#
departman.sort_index(ascending=False)
departman.sort_values(by="DepAd")


#indexi sıfırlamak
departman.reset_index()

Unnamed: 0,DepId,DepAd
0,1,Departman A
1,2,Departman B
2,3,Departman C


In [18]:
#DataFrame2
#dict keyleri kolon adı olur.
ekipEfor = pd.DataFrame(
                data= {
                        "Id":[1,2,3,4,5],
                        "Ad":["Ali","Veli","Ayşe","Fatma","Tonguç"],
                        "Cinsiyet":["E","E",None,"K","E"],
                        "Miktar":[120,None,250,350,None]
                        },
                columns=["Id","Ad","Cinsiyet","Miktar","DepId"], #yeni kolon eklenebilir
                index=["İstanbul","İstanbul","Ankara","Ankara","US"]
)

#--
ekipEfor

Unnamed: 0,Id,Ad,Cinsiyet,Miktar,DepId
İstanbul,1,Ali,E,120.0,
İstanbul,2,Veli,E,,
Ankara,3,Ayşe,,250.0,
Ankara,4,Fatma,K,350.0,
US,5,Tonguç,E,,


In [29]:
ekipEfor.rename(columns={"Miktar":"Uretim"}, index={"Ankara":"Bolu"}, inplace=True)

#---
ekipEfor.columns #kolonları görebilriiz.
ekipEfor.columns = ['Id', 'Ad', 'Cinsiyet', 'Uretim', 'DepId']

#
ekipEfor.index
ekipEfor.index.name="Lokasyon" #indexe ana başlık ekledik.

# Farklı teknikler bir arada kullanılabilir.
ekipEfor.index = np.where(ekipEfor.index == "İstanbul", "Çorum", ekipEfor.index)

#
ekipEfor

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Çorum,1,Ali,E,120.0,
Çorum,2,Veli,E,,
Bolu,3,Ayşe,,250.0,
Bolu,4,Fatma,K,350.0,
US,5,Tonguç,E,,


#### Hakkında bilgi almak

In [38]:
#ekip = ekipEfor #direkt atama yapıldığında her iki değişken de etkilenir.
ekip = ekipEfor

#memoryde aynı yeri gösteriyoru
print(id(ekip), id(ekipEfor))
print(ekip is ekipEfor)


ekip = ekipEfor.copy() #verinin kopyasını alır memoryde farklı yerleri gösterir.
print(ekip is ekipEfor)

3168445103552 3168445103552
True
False


In [54]:
ekip.shape
ekip.size
#len(ekip)

#--
ekip = ekip.astype({
                        "Id":np.int8,
                        "Uretim":np.float16,
                        "Ad":str
                    })
#
ekip.info() #240.0+ bytes >  175.0+ bytes bytes

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, Çorum to US
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Id        5 non-null      int8   
 1   Ad        5 non-null      object 
 2   Cinsiyet  4 non-null      object 
 3   Uretim    3 non-null      float16
 4   DepId     0 non-null      object 
dtypes: float16(1), int8(1), object(3)
memory usage: 175.0+ bytes


In [58]:
ekip.head(2) #varsayılan 5 satır
ekip.tail(2) #alttan kaç satır

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bolu,4,Fatma,K,350.0,
US,5,Tonguç,E,,


In [60]:
ekip.describe() #sayısal alanlarla ilgili istaitstik
ekip.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,5.0,3.0,1.581139,1.0,2.0,3.0,4.0,5.0
Uretim,3.0,240.0,115.3125,120.0,185.0,250.0,300.0,350.0


### Bazı kullnışlı foksiyonlar

In [65]:
#axis verilebilir
ekip.sum() #varsayılan axis=0
ekip.sum(axis=1) 

#
ekip.count() #null olmayanlar

#min,max, std, mean, median, cumsum verilebilir.

  ekip.sum() #varsayılan axis=0
  ekip.sum(axis=1)


Id          5
Ad          5
Cinsiyet    4
Uretim      3
DepId       0
dtype: int64

In [68]:
ekip.nunique() #kaç tane benzersiz kayıt var
#ekip.nunique(axis=1)

Id          5
Ad          5
Cinsiyet    2
Uretim      3
DepId       0
dtype: int64

In [73]:
#seri
ekip.Uretim.mean() #ortalama üretimi verir.

#
ekip.Cinsiyet.value_counts() #hangi değerden kaç tane var.

#count(distinct ) kaç farklı değer var.
ekip.Cinsiyet.value_counts().count()

2

### Null (None, NaN, N/A) Değerler

* `isna` veya `isnull` hücreleri kontrol eder. None olanlar True gelir.
* `notna` ve `notnull` isna nın tersi
* `all()` hepsi True mu?, `any()` hiç True var mı?
* `fillna` ile null alanlara değer atarız.
* `dropna` ile nulları kaldırabiliriz.

Not: fillna ve dropna axis alır. Yapılan işlem orjinalini etkilemez.

In [80]:
ekip.isna() #isnull()

#
#axis verilebilir
ekip.isna().any() #hiç True var mı? yani null var mı?
ekip.isna().all() #tamamı null mı?

#tabloda hiç null var mı?
ekip.isna().any().any()

True

In [93]:
ekip.Uretim.isna().sum() #üretim kolonunda kaç null var?

#hangileri null
ekip.Uretim.isna()
ekip.Uretim.isna().tolist()

#
ekip[ekip.Uretim.isna()] #tüm kolonlar gelecekse
ekip.loc[ekip.Uretim.isna(), ["Ad","Cinsiyet","Uretim"]] #etiketler kullanılackasa
ekip.iloc[ekip.Uretim.isna().tolist(), 1:4] #tolist ileliste yapmak gerekiyor. sıra numarası kullanılacaksa

#etiket üzerinden slicer yapılabilir.
ekip.loc[ekip.Uretim.isna(), "Ad":"Uretim"]

Unnamed: 0,Ad,Cinsiyet,Uretim
Çorum,Veli,E,
US,Tonguç,E,


In [94]:
#Soru:
#fillna kullanadan NULL olan üretimlere ortalama üretimi basalım.
ekip.loc[ekip.Uretim.isna(), "Uretim"] = ekip.Uretim.mean()
#ekip[ekip.Uretim.isna()].Uretim
ekip

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Çorum,1,Ali,E,120.0,
Çorum,2,Veli,E,240.0,
Bolu,3,Ayşe,,250.0,
Bolu,4,Fatma,K,350.0,
US,5,Tonguç,E,240.0,


In [105]:
#fillna
ekip = ekipEfor.copy()

#
#ekip.fillna("Bilinmiyor") #tüm null hücrelere değer verir.

#
ekip.fillna({
                "Uretim":ekip.Uretim.mean(),
                #"Cinsiyet":"Bilinmiyor",
                "Cinsiyet":ekip.Cinsiyet.mode()[0],
                "DepId":-1
})

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Çorum,1,Ali,E,120.0,-1
Çorum,2,Veli,E,240.0,-1
Bolu,3,Ayşe,E,250.0,-1
Bolu,4,Fatma,K,350.0,-1
US,5,Tonguç,E,240.0,-1


In [108]:
#fillna
ekip = ekipEfor.copy()

#
#ekip.dropna(axis=1, how="any") #herhangi bir null varsa axisi kaldır
ekip.dropna(axis=1, how="all") #hepsi null ise kaldır

#
ekip.dropna(axis=0, how="all") #boş satırı komple kaldır

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Çorum,1,Ali,E,120.0,
Çorum,2,Veli,E,,
Bolu,3,Ayşe,,250.0,
Bolu,4,Fatma,K,350.0,
US,5,Tonguç,E,,


#### Kolan Ekleme ve kaldırma

In [109]:
hedef = 500
ekip["HedefDurumu"] = ekip.Uretim / hedef
ekip

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId,HedefDurumu
Çorum,1,Ali,E,120.0,,0.24
Çorum,2,Veli,E,,,
Bolu,3,Ayşe,,250.0,,0.5
Bolu,4,Fatma,K,350.0,,0.7
US,5,Tonguç,E,,,


In [111]:
#eval expression yardımıyla kolon üretmemizi sağlayacak
buyumeOrani = 1.2

#@ ile dışarıdaki değişkeni çağırabiliriz.
ekip.eval("""
            GelecekYilUretim = Uretim * @buyumeOrani
            SonrakiYilUretim = GelecekYilUretim * @buyumeOrani
           """, inplace=True)

ekip

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId,HedefDurumu,GelecekYilUretim,SonrakiYilUretim
Çorum,1,Ali,E,120.0,,0.24,144.0,172.8
Çorum,2,Veli,E,,,,,
Bolu,3,Ayşe,,250.0,,0.5,300.0,360.0
Bolu,4,Fatma,K,350.0,,0.7,420.0,504.0
US,5,Tonguç,E,,,,,


In [115]:
#orjinalini etkilemez.
ekip.drop(["HedefDurumu","GelecekYilUretim"], axis=1) #kolonu kaldırır. 

#
ekip.drop(index="Çorum") #satır etiketi

#
ekip.drop(index="Bolu", columns="Ad") #satır ve kolon etiketi.

Unnamed: 0,Id,Cinsiyet,Uretim,DepId,HedefDurumu,GelecekYilUretim,SonrakiYilUretim
Çorum,1,E,120.0,,0.24,144.0,172.8
Çorum,2,E,,,,,
US,5,E,,,,,


In [124]:
#soru:
#query
'''
    1. Cinsiyet alanı ve Uretim alanı null olmayanlar
    2. Cinsiyet alanı null olanlar
    3. Uretim alanı null olanlar
    4. Uretim alanı null olmayanlar
    5. Üretimi null olmayan erkek üyeler
    6. Ortalama üretimin üzerinde olan kadın üyeler
'''

ekip = ekipEfor.copy()
#1.
ekip.query("Cinsiyet == Cinsiyet & Uretim == Uretim") #None ile None eşit mi sorusu False üretir.

#2.
ekip.query("Cinsiyet != Cinsiyet")

#3.
ekip.query("Cinsiyet.isnull()") #isna()

#4.
ekip.query("Uretim.notna()") #notnull()

#5.
ekip.query("Uretim.notna() and Cinsiyet =='E'") 

#6.
ekip.query(f"Uretim > {ekip.Uretim.mean()}")
#--
ortalama_uretim = ekip.Uretim.mean()
ekip.query("Uretim > @ortalama_uretim")

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Bolu,3,Ayşe,,250.0,
Bolu,4,Fatma,K,350.0,


### isin
* tüm hücrelerde belli bir değeri aramıızı sağlar.
* Geriye hücrelerde True/False döner

In [126]:
ekip.isin(["E","Ali"])
ekip.isin(["E","Ali"]).sum() #bu verilerden kaç tane var. all, any vs.

Id          0
Ad          1
Cinsiyet    3
Uretim      0
DepId       0
dtype: int64

In [129]:
ekip.isin({"Ad":["Ali","Ayşe"] , "Cinsiyet":["E"]}) #sonuçlar filtre olarak kullanılabilir.

Unnamed: 0,Id,Ad,Cinsiyet,Uretim,DepId
Çorum,False,True,True,False,False
Çorum,False,False,True,False,False
Bolu,False,True,False,False,False
Bolu,False,False,False,False,False
US,False,False,True,False,False


#### filter
* etiketleri tarif etmemizi sağlıyor.
* items, regex, like

In [134]:
#soru:
#içinde im geçen kolonlar gelsin.
#ekip.columns == "Ad"
ekip.columns.str.contains("im")

#
ekip.loc[:, ekip.columns.str.contains("im")]
ekip.iloc[:, ekip.columns.str.contains("im")]

Unnamed: 0,Uretim
Çorum,120.0
Çorum,
Bolu,250.0
Bolu,350.0
US,


In [139]:
ekip.filter(items = ["Ad","Uretim"])

#
ekip.filter(like="e") #içeriside e geçenler
ekip.filter(like = "o", axis=0) #satır etiketlerinde ara

#
ekip.filter(regex="im$") #im ile bitenler
ekip.filter(regex="^I") #I ile başlayanlar

Unnamed: 0,Id
Çorum,1
Çorum,2
Bolu,3
Bolu,4
US,5


### Groupby ve Agg

In [145]:
ekip.count() #axis bazlı sonuç verir.

#
ekip.groupby(by="Cinsiyet").count()

#özetleme fonkisyonlarında çoklu kullanacaksak agg ile belirtiriz.
ekip.groupby(by="Cinsiyet").agg(["sum","mean","count"])

#hangi kolonda ne yapılacak
df = ekip.groupby(by="Cinsiyet").agg({"Uretim":["min","max","sum","mean"], "Id":["min","max"]}) #hiyearşik index
df 

  ekip.groupby(by="Cinsiyet").agg(["sum","mean","count"])


Unnamed: 0_level_0,Uretim,Uretim,Uretim,Uretim,Id,Id
Unnamed: 0_level_1,min,max,sum,mean,min,max
Cinsiyet,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
E,120.0,120.0,120.0,120.0,1,5
K,350.0,350.0,350.0,350.0,4,4


In [147]:
#hiyerarşik indexlerdeki bir alana erişmek
df = df.reset_index()

df

Unnamed: 0_level_0,Cinsiyet,Uretim,Uretim,Uretim,Uretim,Id,Id
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,sum,mean,min,max
0,E,120.0,120.0,120.0,120.0,1,5
1,K,350.0,350.0,350.0,350.0,4,4


In [149]:
#df.loc[:,"Uretim"]
df.loc[:,("Uretim", ["min","max"])]

Unnamed: 0_level_0,Uretim,Uretim
Unnamed: 0_level_1,min,max
0,120.0,120.0
1,350.0,350.0
