### *Introduction to Pandas*
- *Pandas: Panel Data*
- *Veri manipülasyonu ve veri analizi için yazılmış açık kaynak kodlu bir Python kütüphanesidir.*
- *Ekonometrik ve finansal çalışmalar için doğmuştur.*
- *Temeli 2008 yılında atılmıştır.*
- *R DataFrame yapısını Python dünyasına taşımış ve DataFrame'ler üzerinde hızlı ve etkili çalışabilme imkanı sağlamıştır.*
- *Bir çok farklı veri tipini okuma ve yazma imkanı sağlar.*


### *Creating a Pandas Series*
- *axes: Pandas serisinin index bilgilerini verir.*
- *values: Index bilgisi olmadan sadece değerleri getirir.*
- *head: Serinin yada veri setinin ilk 5, 10 vs. gözlemine erişmek için kullanılır.*
- *tail: Serinin yada veri setinin son 5, 10 vs. gözlemine erişmek için kullanılır.*

In [26]:
# Pandas kütüphanesini çağıralım
import pandas as pd

seri = pd.Series([10,88,32,49,67])
print("Tipi:", type(seri), end="\n\n")
print("Index bilgileri: ", seri.axes, end="\n\n")
print("Serideki değerler:", seri.values, end="\n\n")
print("Serinin ilk 5 gözlemi:\n", seri.head(), end="\n\n") #head'in içine hiçbir şey yazmazsan sadece ilk 5 gözlemi getirir
print("Serinin son 2 gözlemi:\n", seri.tail(2)) #tail'in içine hiçbir şey yazmazsan sadece son 5 gözlemi getirir


Tipi: <class 'pandas.core.series.Series'>

Index bilgileri:  [RangeIndex(start=0, stop=5, step=1)]

Serideki değerler: [10 88 32 49 67]

Serinin ilk 5 gözlemi:
 0    10
1    88
2    32
3    49
4    67
dtype: int64

Serinin son 2 gözlemi:
 3    49
4    67
dtype: int64


### *Index Naming*

In [17]:
# Index numaralarını kendimiz belirleyelim
pd.Series([99,22,332,94,5], index= [1,3,5,7,9])

1     99
3     22
5    332
7     94
9      5
dtype: int64

In [18]:
seri = pd.Series([99,22,332,94,5], index= ["a", "b", "c", "d", "e"])
seri["a": "c"]

a     99
b     22
c    332
dtype: int64

### *Creating a list from the dictionary*

In [25]:
import pandas as pd

sozluk = {"reg": 10, "log": 11, "cart": 12}
seri = pd.Series(sozluk)
seri

reg     10
log     11
cart    12
dtype: int64

### *Create a series by combining two series*

In [20]:
pd.concat([seri, seri])

reg     10
log     11
cart    12
reg     10
log     11
cart    12
dtype: int64

### *Element Operations*

In [28]:
import numpy as np

a = np.array([1,2,33,444,75])
seri = pd.Series(a)

print(seri, end="\n\n")
print(seri[0:3])

0      1
1      2
2     33
3    444
4     75
dtype: int32

0     1
1     2
2    33
dtype: int32


- *index: Sadece index değerlerine erişmek için kullanılır*
- *keys: Sadece key bilgilerini getirir*
- *items: key + value bir arada getirir*

In [40]:
seri = pd.Series([121,200,150,99],
                  index= ["reg", "loj", "cart", "rf"])

print("Index değerleri:", seri.index, end="\n\n")
print("Key değerleri:\n", seri.keys, end="\n\n")
print("Value değerleri:", seri.values, end="\n\n")
print("Item değerleri:", list(seri.items()))

Index değerleri: Index(['reg', 'loj', 'cart', 'rf'], dtype='object')

Key değerleri:
 <bound method Series.keys of reg     121
loj     200
cart    150
rf       99
dtype: int64>

Value değerleri: [121 200 150  99]

Item değerleri: [('reg', 121), ('loj', 200), ('cart', 150), ('rf', 99)]


In [41]:
# Eleman sorgulama
"reg" in seri 

True

In [42]:
# fancy eleman
seri[["rf", "reg"]]

rf      99
reg    121
dtype: int64

In [43]:
# Elemanın değerini değiştirme 
seri["reg"] = 130
seri 

reg     130
loj     200
cart    150
rf       99
dtype: int64

### *Creating a Pandas Dataframe*
*Pandas Dataframe, yapısal bir veri tipidir. Excel veri yapısına benzerdir.*

In [44]:
import pandas as pd
l = [1,2,39,67,90]

pd.DataFrame(l, columns= ["degisken_ismi"])

Unnamed: 0,degisken_ismi
0,1
1,2
2,39
3,67
4,90


In [45]:
import numpy as np
m = np.arange(1,10).reshape((3,3))
print(m)

pd.DataFrame(m, columns= ["var1", "var2", "var3"])

[[1 2 3]
 [4 5 6]
 [7 8 9]]


Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


In [48]:
# df isimlendirme
df = pd.DataFrame(m, columns= ["var1", "var2", "var3"])
df.head()

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


In [49]:
# Sütun isimlerini değiştirme
df.columns = ("deg1", "deg2", "deg3")
df 

Unnamed: 0,deg1,deg2,deg3
0,1,2,3
1,4,5,6
2,7,8,9


In [53]:
print("Axes:",df.axes)
print("Boyut bilgisi:", df.shape)
print("Boyut sayısı:", df.ndim)
print("Toplam eleman sayısı:", df.size)

Axes: [RangeIndex(start=0, stop=3, step=1), Index(['deg1', 'deg2', 'deg3'], dtype='object')]
Boyut bilgisi: (3, 3)
Boyut sayısı: 2
Toplam eleman sayısı: 9


In [60]:
import numpy as np
s1 = np.random.randint(10, size= 5)
s2 = np.random.randint(10, size= 5)
s3 = np.random.randint(10, size= 5)

sozluk = {"var1": s1, "var2": s2, "var3": s3}
df = pd.DataFrame(sozluk)

df.index = ["a", "b", "c", "d", "e"]

df

Unnamed: 0,var1,var2,var3
a,3,2,0
b,6,5,5
c,6,6,0
d,6,9,4
e,5,1,7


In [61]:
# Eleman silme
df.drop("a", axis=0)

Unnamed: 0,var1,var2,var3
b,6,5,5
c,6,6,0
d,6,9,4
e,5,1,7


In [62]:
df

Unnamed: 0,var1,var2,var3
a,3,2,0
b,6,5,5
c,6,6,0
d,6,9,4
e,5,1,7


In [63]:
# Ee biz "a" satırını silmiştik ama df yazınca geri geliyor. İşte silme işlemini kalıcı olarak yapmak istiyorsak 2 yolumuz var.
# 1- Yaptığımız silme işlemini yeni bir değişkene atıp o değişken üzerinde tutacağız
# 2- inplace= True yöntemini kullanacağız.

df.drop("a", axis=0, inplace= True)
df # Gördüğünüz üzere silme işlemini kalıcı hale getirdik

Unnamed: 0,var1,var2,var3
b,6,5,5
c,6,6,0
d,6,9,4
e,5,1,7


In [64]:
# fancy index ile daha fazla bilgi silmek mümkün
l = ["c", "e"]
df.drop(l, axis= 0)

Unnamed: 0,var1,var2,var3
b,6,5,5
d,6,9,4


In [65]:
# yeni sütun değişkeni eklemek
df["var4"] = df["var1"] / df["var2"]
df 

Unnamed: 0,var1,var2,var3,var4
b,6,5,5,1.2
c,6,6,0,1.0
d,6,9,4,0.666667
e,5,1,7,5.0


In [66]:
# Değişken silmek
df.drop("var4", axis= 1, inplace= True)
df

Unnamed: 0,var1,var2,var3
b,6,5,5
c,6,6,0
d,6,9,4
e,5,1,7


### *Observation and Variable Selection: loc & iloc*

In [67]:
import numpy as np
import pandas as pd
m = np.random.randint(1,30, size= (10,3))
df = pd.DataFrame(m, columns= ["var1", "var2", "var3"])
df 

Unnamed: 0,var1,var2,var3
0,6,8,23
1,22,28,3
2,19,14,20
3,29,2,6
4,19,17,27
5,24,25,11
6,1,11,15
7,27,3,6
8,20,18,11
9,28,17,10


In [68]:
# loc: tanımlandığı şekli ile seçim yapmak için kullanılır.
df.loc[0:3] # 3.index dahil getirir

Unnamed: 0,var1,var2,var3
0,6,8,23
1,22,28,3
2,19,14,20
3,29,2,6


In [69]:
# iloc: alışık olduğumuz indeksleme mantığı ile seçim yapar.
df.iloc[0:3] # 3.index hariç getirir

Unnamed: 0,var1,var2,var3
0,6,8,23
1,22,28,3
2,19,14,20


In [70]:
df.iloc[:3, :2]

Unnamed: 0,var1,var2
0,6,8
1,22,28
2,19,14


In [71]:
df.loc[0:3, "var3"]

0    23
1     3
2    20
3     6
Name: var3, dtype: int32

In [72]:
df.iloc[0:3]["var3"]

0    23
1     3
2    20
Name: var3, dtype: int32

### *Conditional Element operations*

In [73]:
import numpy as np
import pandas as pd
m = np.random.randint(1,30, size= (10,3))
df = pd.DataFrame(m, columns= ["var1", "var2", "var3"])

df[0:2][["var1", "var2"]]

Unnamed: 0,var1,var2
0,17,20
1,5,5


In [74]:
df[df.var1 > 15]["var2"]

0    20
2    29
3    24
5    10
6    26
7    16
Name: var2, dtype: int32

In [77]:
df[(df.var1 > 15) & (df.var3 < 20)]

Unnamed: 0,var1,var2,var3
3,19,24,6
5,28,10,11
6,16,26,15
7,21,16,6


In [78]:
df.loc[(df.var1 > 15), ["var1", "var2"]]

Unnamed: 0,var1,var2
0,17,20
2,26,29
3,19,24
5,28,10
6,16,26
7,21,16


### *Join*

In [79]:
import numpy as np
import pandas as pd
m = np.random.randint(1,30, size= (5,3))
df1 = pd.DataFrame(m, columns= ["var1", "var2", "var3"])
df2 = df1 + 99

pd.concat([df1, df2]) 

Unnamed: 0,var1,var2,var3
0,21,3,11
1,2,15,19
2,20,10,8
3,10,13,9
4,8,28,29
0,120,102,110
1,101,114,118
2,119,109,107
3,109,112,108
4,107,127,128


In [80]:
# Çıktıda görüldüğü üzere index numaralarında hata var, bu sorunu ignore_index ile çözelim
pd.concat([df1, df2], ignore_index=True) 

Unnamed: 0,var1,var2,var3
0,21,3,11
1,2,15,19
2,20,10,8
3,10,13,9
4,8,28,29
5,120,102,110
6,101,114,118
7,119,109,107
8,109,112,108
9,107,127,128


In [81]:
df1.columns

Index(['var1', 'var2', 'var3'], dtype='object')

In [83]:
df2.columns = ["var1", "var2", "deg3"]
df2

Unnamed: 0,var1,var2,deg3
0,120,102,110
1,101,114,118
2,119,109,107
3,109,112,108
4,107,127,128


In [84]:
# Kesişimleri elemanlardan oluşan değişkenlere göre birleştirelim
pd.concat([df1, df2], join= "inner") 

Unnamed: 0,var1,var2
0,21,3
1,2,15
2,20,10
3,10,13
4,8,28
0,120,102
1,101,114
2,119,109
3,109,112
4,107,127


### *Advanced Join Operations*

In [88]:
import pandas as pd

df1 = pd.DataFrame({'calisanlar': ['Ali', 'Veli', 'Ayse', 'Fatma'],
                    'grup': ['Muhasebe', 'Muhendislik', 'Muhendislik', 'İK']})
df1 

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,İK


In [89]:
df2 = pd.DataFrame({'calisanlar': ['Ayse', 'Ali', 'Veli', 'Fatma'],
                    'ilk_giris': [2010, 2009, 2014, 2019]})
df2 

Unnamed: 0,calisanlar,ilk_giris
0,Ayse,2010
1,Ali,2009
2,Veli,2014
3,Fatma,2019


#### *Birebir birleştirme*

In [90]:
# on: üzerinde, üstünde demek

# bu ikisini calisanlar üzerinde birleştir diyoruz
pd.merge(df1, df2, on= "calisanlar") 

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2009
1,Veli,Muhendislik,2014
2,Ayse,Muhendislik,2010
3,Fatma,İK,2019


#### *Çoktan Teke*

In [93]:
df3 = pd.merge(df1, df2)
df3 

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2009
1,Veli,Muhendislik,2014
2,Ayse,Muhendislik,2010
3,Fatma,İK,2019


In [94]:
df4 = pd.DataFrame({'grup': ['Muhasebe', 'Muhendislik', 'İK'],
                    'mudur': ['Caner', 'Mustafa', 'Berkcan']})
df4 

Unnamed: 0,grup,mudur
0,Muhasebe,Caner
1,Muhendislik,Mustafa
2,İK,Berkcan


In [95]:
# Çoktan teke
pd.merge(df3, df4)

Unnamed: 0,calisanlar,grup,ilk_giris,mudur
0,Ali,Muhasebe,2009,Caner
1,Veli,Muhendislik,2014,Mustafa
2,Ayse,Muhendislik,2010,Mustafa
3,Fatma,İK,2019,Berkcan


#### *Çoktan Çoka*

In [96]:
df5 = pd.DataFrame({'grup': ['Muhasebe', 'Muhasebe', 
                             'Muhendislik', 'Muhendislik', 'İK', 'İK'],
                    'yetenekler': ['matematik', 'excel', 'kodlama', 'linux', 
                                   'excel', 'yonetim']})
df5 

Unnamed: 0,grup,yetenekler
0,Muhasebe,matematik
1,Muhasebe,excel
2,Muhendislik,kodlama
3,Muhendislik,linux
4,İK,excel
5,İK,yonetim


In [97]:
df1 

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,İK


In [98]:
# Çoktan çoka
pd.merge(df1, df5)

Unnamed: 0,calisanlar,grup,yetenekler
0,Ali,Muhasebe,matematik
1,Ali,Muhasebe,excel
2,Veli,Muhendislik,kodlama
3,Veli,Muhendislik,linux
4,Ayse,Muhendislik,kodlama
5,Ayse,Muhendislik,linux
6,Fatma,İK,excel
7,Fatma,İK,yonetim


### *Grouping & Aggregation*
Basit toplulaştırma fonksiyonları:
- count()
- first()
- last()
- mean()
- median()
- min()
- max()
- std()
- var()
- sum()

### *Aggregation*

In [99]:
import seaborn as sns
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [104]:
print("Mass Sütunundakilerin Ortalaması: ", df["mass"].mean())
print("Mass Sütunundakilerin Sayısı: ", df["mass"].count())
print("Mass Sütunundaki Değerlerin Toplamı: ", df["mass"].sum())
print("Mass Sütunundaki Ortanca Değer: ", df["mass"].median())
print("Mass Sütunu Standart Sapması: ", df["mass"].std())
print("Mass Sütunu Varyansı: ", df["mass"].var())

Mass Sütunundakilerin Ortalaması:  2.6381605847953216
Mass Sütunundakilerin Sayısı:  513
Mass Sütunundaki Değerlerin Toplamı:  1353.37638
Mass Sütunundaki Ortanca Değer:  1.26
Mass Sütunu Standart Sapması:  3.8186166509616046
Mass Sütunu Varyansı:  14.58183312700122


In [107]:
# describe(): Veri setindeki tüm istatistiki bilgiler
# .T: Transpoz alma işlemi (satır ve sütunları yer değiştirme)
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


In [108]:
# dropna(): veri setindeki eksik değerleri kaldırır, siler
df.dropna().describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,498.0,1.73494,1.17572,1.0,1.0,1.0,2.0,6.0
orbital_period,498.0,835.778671,1469.128259,1.3283,38.27225,357.0,999.6,17337.5
mass,498.0,2.50932,3.636274,0.0036,0.2125,1.245,2.8675,25.0
distance,498.0,52.068213,46.596041,1.35,24.4975,39.94,59.3325,354.0
year,498.0,2007.37751,4.167284,1989.0,2005.0,2009.0,2011.0,2014.0


### *Grouping*

In [109]:
df = pd.DataFrame({'gruplar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'veri': [10,11,52,23,43,55]}, columns=['gruplar', 'veri'])
df 

Unnamed: 0,gruplar,veri
0,A,10
1,B,11
2,C,52
3,A,23
4,B,43
5,C,55


In [110]:
df.groupby("gruplar").mean()

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,16.5
B,27.0
C,53.5


In [112]:
import seaborn as sns
df = sns.load_dataset("planets")

# "method" sütununa göre grupla ve onlara karşılık gelen "orbital_period" değerlerinin ortalamasını al
df.groupby("method")["orbital_period"].mean()

method
Astrometry                          631.180000
Eclipse Timing Variations          4751.644444
Imaging                          118247.737500
Microlensing                       3153.571429
Orbital Brightness Modulation         0.709307
Pulsar Timing                      7343.021201
Pulsation Timing Variations        1170.000000
Radial Velocity                     823.354680
Transit                              21.102073
Transit Timing Variations            79.783500
Name: orbital_period, dtype: float64

### *Advanced Aggregate Operations*

In [113]:
import pandas as pd
df = pd.DataFrame({'gruplar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'degisken1': [10,23,33,22,11,99],
                   'degisken2': [100,253,333,262,111,969]},
                   columns= ['gruplar', 'degisken1', 'degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [115]:
# aggregate(): Bunun sayesinde grupladığımız değişken üzerinde birden fazla 
# toplulaştırma işlemi, birden fazla fonksiyon kullanımı yapabiliyoruz
df.groupby("gruplar").aggregate(["min", np.median, "max"])

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16,22,100,181,262
B,11,17,23,111,182,253
C,33,66,99,333,651,969


In [117]:
df.groupby("gruplar").aggregate({"degisken1": "min", "degisken2": "max"})

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,262
B,11,253
C,33,969


In [119]:
def filter_func(x):
    return x["degisken1"].std() > 9

# filter(): Kendi oluşturacağımız fonksiyona göre özel filtreleme yapmaya yarıyor
df.groupby("gruplar").filter(filter_func)

Unnamed: 0,gruplar,degisken1,degisken2
2,C,33,333
5,C,99,969


In [125]:
df_a = df.iloc[:,1:3]
df_a 

Unnamed: 0,degisken1,degisken2
0,10,100
1,23,253
2,33,333
3,22,262
4,11,111
5,99,969


In [127]:
# transform(): Transform fonksiyonunu belirlediğimiz bir dönüştürme fonksiyonu olarak değişkenlerin üzerinde kullanabiliriz.
df_a.transform(lambda x: (x - x.mean()) / x.std())

Unnamed: 0,degisken1,degisken2
0,-0.687871,-0.738461
1,-0.299074,-0.263736
2,0.0,-0.015514
3,-0.328982,-0.235811
4,-0.657963,-0.704331
5,1.97389,1.957853


In [134]:
import pandas as pd
df = pd.DataFrame({'degisken1': [10,23,33,22,11,99],
                   'degisken2': [100,253,333,262,111,969]},
                   columns= ['degisken1', 'degisken2'])
df

Unnamed: 0,degisken1,degisken2
0,10,100
1,23,253
2,33,333
3,22,262
4,11,111
5,99,969


In [135]:
# apply(): Tıpkı transform, filter fonksiyonları gibi dataframe'in değişkenlerinin üzerinde gezinme 
# yeteneği olan ve aggregation yani toplulaştırma amacıyla kullanılabilecek olan bir fonksiyondur.

# apply(): içerisine yazacağın işlemi, fonksiyonu vs. "UYGULA" demektir bir nevi.
print(df.apply(np.sum), end="\n\n")
print(df.apply(np.mean))

degisken1     198
degisken2    2028
dtype: int64

degisken1     33.0
degisken2    338.0
dtype: float64


In [138]:
df = pd.DataFrame({'gruplar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'degisken1': [10,23,33,22,11,99],
                   'degisken2': [100,253,333,262,111,969]},
                   columns= ['gruplar', 'degisken1', 'degisken2'])

df.groupby("gruplar").apply(np.mean)

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16.0,181.0
B,17.0,182.0
C,66.0,651.0


### *Pivot Tables*

In [139]:
import pandas as pd
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [140]:
# Basit bir pivot işlemi yapalım
titanic.groupby("sex")[["survived"]].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [143]:
titanic.groupby(["sex", "class"])[["survived"]].aggregate("mean")

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,class,Unnamed: 2_level_1
female,First,0.968085
female,Second,0.921053
female,Third,0.5
male,First,0.368852
male,Second,0.157407
male,Third,0.135447


In [144]:
# unstack(): Tablonun daha okunabilir bir hale gelmesini sağlar
titanic.groupby(["sex", "class"])[["survived"]].aggregate("mean").unstack()

Unnamed: 0_level_0,survived,survived,survived
class,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


#### pivot_table(kesişim değeri, satır, sütun)
pivot_table(): Kendisine girilen hücrelerin kesişiminde yer alacak değişkenin (ilk girilen değişkenden bahsediyoruz) ön tanım olarak ortalamasını alır. Ortalamasını değil de başka bir işlem yapsın istiyorsak pivot_table içinde aggfunc= parametresini kullanırız. Örneğin aggfunc="std" diyerek pivot table'ın kesişimde yer alan değerlerin standart sapmasını almasını sağlarız.

In [145]:
# pivot ile table
titanic.pivot_table("survived", index= "sex", columns= "class") # ortalamalarını yerleştirdi kesişim değerlerine

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [146]:
titanic.pivot_table("survived", index= "sex", columns= "class", aggfunc="std") # standart sapmalarını yerleştirdi kesişim değerlerine

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.176716,0.271448,0.501745
male,0.484484,0.365882,0.342694


### *cut() & qcut()*
_**Dikkat!** cut ve qcut fonksiyonları, elinizdeki sayısal değişkenleri kategorik değişkene çevirmek için en yaygın kullanılan iki ayrı fonksiyondur._
- _cut(): Genelde eğer sayısal değişkeni hangi kategorilere bölmek istediğinizi biliyorsanız, belirtmek isterseniz bunu kullanırsınız._
- _qcut(): Eğer elinizdeki sayısal değişkeni tanımıyor, dolayısıyla çeyreklik değerine göre bölünsün istiyorsanız bu durumda qcut kullanılır._

> _cut(neyi böleceğim, nereden böleceğim)_

In [147]:
# age değişkenini 0-18, 18-90 aralıklarına bölelim
age = pd.cut(titanic["age"], [0, 18, 90])
age.head(7)

0    (18.0, 90.0]
1    (18.0, 90.0]
2    (18.0, 90.0]
3    (18.0, 90.0]
4    (18.0, 90.0]
5             NaN
6    (18.0, 90.0]
Name: age, dtype: category
Categories (2, interval[int64]): [(0, 18] < (18, 90]]

In [148]:
titanic.pivot_table("survived", ["sex", age], "class")

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 90]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 90]",0.375,0.071429,0.133663


### *Reading External Data*

In [150]:
import pandas as pd

# csv okuma
pd.read_csv("veri_manipulation_datasets/ornekcsv.csv", sep= ";")

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


In [151]:
# txt okuma
pd.read_csv("veri_manipulation_datasets/duz_metin.txt")

Unnamed: 0,1 2
0,2 2
1,3 2
2,4 2
3,5 2
4,6 2
5,7 2
6,8 2
7,9 2
8,10 2


In [154]:
pd.read_excel("veri_manipulation_datasets/ornekx.xlsx")

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


In [155]:
df = pd.read_excel("veri_manipulation_datasets/ornekx.xlsx")
df.columns = ("A", "B", "C")
df 

Unnamed: 0,A,B,C
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0
