# PANDAS

Günümüzde veri miktarı gelişen teknoloji ile her geçen gün artmaktadır. Veriler üzerinde işlem yapmak istenildiğinde verinin kaliteli olması beklenir. Pandas kütüphanesi de bu amaca hizmet etmektedir. Python programlama dilinin en önemli kütüphanelerinden biri olan Pandas kütüphanesi ile veri okuma, veri ön işleme, veri temizleme gibi işlemler gerçekleştirilir.
> Pandas kütüphanesini kullanabilmek için import etmemiz gerekir. Kütüphaneyi şu şekilde import ederiz;
> * **import pandas**
> 
>Kütüphaneyi import ettikten sonra kullanacağımız her metot için “pandas.” ifadesini kullanmamız gerekir. Bunun yerine  genellikle "pd" kısaltması kullanılır. Bu kısaltmayı kullanabilmek için kütüphaneyi import ederken kısaltmadan önce "as" ifadesi kullanılır.
> * **import pandas as pd** 

> Pandas kütüphanesinde kullanılan temel veri yapıları **Series** ve **DataFrame**‘dir. 
> * Series etiketli (index) verilerden oluşan tek boyutlu yapılardır ve farklı veri türlerinden oluşabilir. Serileri oluşturabilmek için liste, sözlük, tuple gibi yapılar kullanılabilir.
> * DataFrame satır ve sütunlardan oluşan iki boyutlu bir yapıya sahiptir. Her sütunun aynı türden verileri içerdiği Sql, Excel gibi tablolara benzetilebilir.

Kısa bir ön bilgilendirme ile giriş yaptıktan sonra uygulama adımına geçerek Pandas kütüphanesini incelemeye başlayalım.

* Öncelikle pandas kütüphanesini import edip daha sonra tuple, sözlük ve liste tipinde veriler oluşturuyoruz.

In [1]:
import pandas as pd

In [2]:
tuple_sr = (1,True,3,15,"Ali", 8,"Kiraz")
dict_sr = {"İzmir":35, "Ankara":6, "Adana":1, "Elazığ":23, "Konya":42}
list_sr = [1,"Üzüm",9,"Elma",7,85,"Kayısı"]

* **"pd.Series()"** ifadesi ile liste, tuple, sözlük gibi yapılar Series veri yapısına dönüştürülür.

In [3]:
pd.Series(tuple_sr)

0        1
1     True
2        3
3       15
4      Ali
5        8
6    Kiraz
dtype: object

* Seriler indexli bir yapıya sahiptir ve varsayılan olarak 0 dan başlarlar. Index değerlerini istediğimiz gibi değiştirebiliriz.

In [4]:
pd.Series(tuple_sr, index=["a","b","c","d","e","f","g"])

a        1
b     True
c        3
d       15
e      Ali
f        8
g    Kiraz
dtype: object

In [5]:
pd.Series(dict_sr)

İzmir     35
Ankara     6
Adana      1
Elazığ    23
Konya     42
dtype: int64

In [6]:
sr = pd.Series(list_sr)
sr

0         1
1      Üzüm
2         9
3      Elma
4         7
5        85
6    Kayısı
dtype: object

In [7]:
type(sr)  

pandas.core.series.Series

In [8]:
sr.dtype  # "O" çıktısı bize verinin "object" tipinde olduğunu ifade ediyor.

dtype('O')

In [9]:
sr.index # Verinin hangi aralıkta indexlendiği bilgisini bize verir.

RangeIndex(start=0, stop=7, step=1)

In [10]:
sr.values  # sr serisindeki verileri dizi formunda çağırmak istersek "values" ifadesini kullanmamız gerekir.

array([1, 'Üzüm', 9, 'Elma', 7, 85, 'Kayısı'], dtype=object)

In [11]:
sr[1]  # Bu şekilde yazdığımızda 1. indexdeki elemanın gelmesini bekleriz.

'Üzüm'

In [12]:
sr[:5] # 0. indexden başlayıp 5. indexe kadar olan verileri bastırır. 5. index dahil değildir.

0       1
1    Üzüm
2       9
3    Elma
4       7
dtype: object

* Ankara'nın aylara göre **"ortalama sıcaklık, ortalama en yüksek ve en düşük sıcaklık, ortalama yağışlı gün sayısı"** bilgilerini içeren veri setimiz aşağıdaki gibidir.

In [13]:
average_weather_data = {
    'months': ['January', 'February','March','April','May','June','July','August','September','October','November','December'],
    'average_temperature': [0.9, 2.7, 6.7, 11.5, 16.5, 20.6, 24.2, 24.3, 19.6, 13.9, 7.3, 2.8],
    'average_maximum_temperature': [4.7, 7.4, 12.2, 17.5, 22.8, 27.3, 31.0, 31.0, 26.5, 20.3, 13.0, 6.7],
    'average_lowest_temperature': [-2.2, -1.2, 1.9, 6.0, 10.5, 14.1, 17.2, 17.4, 13.1, 8.4, 2.7, -0.3],
    'average_number_of_rainy_days': [13.6, 12.6, 13.8, 13.4, 14.5, 11.4, 4.6, 5.1, 5.5, 9.2, 8.9, 14.0]
}

* Sözlük tipindeki verimizi DataFrame yapısına çevirelim.

In [14]:
pd.DataFrame(average_weather_data)

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
0,January,0.9,4.7,-2.2,13.6
1,February,2.7,7.4,-1.2,12.6
2,March,6.7,12.2,1.9,13.8
3,April,11.5,17.5,6.0,13.4
4,May,16.5,22.8,10.5,14.5
5,June,20.6,27.3,14.1,11.4
6,July,24.2,31.0,17.2,4.6
7,August,24.3,31.0,17.4,5.1
8,September,19.6,26.5,13.1,5.5
9,October,13.9,20.3,8.4,9.2


* Bu veri setini .csv dosyası üzerinden okuyalım.

csv dosyasını direk okuyabilmek için proje ile csv dosyasının konumları aynı olmalıdır.

In [15]:
df = pd.read_csv("average_weather.csv", sep=' ') # konum aynı olduğu için direk kullanabildik.
df 
# Bazı durumlarda "sep" ifadesini kullanmak durumunda kalabiliyoruz. Csv dosyamda her bir veri arasında bir boşluk vardı.

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
0,January,0.9,4.7,-2.2,13.6
1,February,2.7,7.4,-1.2,12.6
2,March,6.7,12.2,1.9,13.8
3,April,11.5,17.5,6.0,13.4
4,May,16.5,22.8,10.5,14.5
5,June,20.6,27.3,14.1,11.4
6,July,24.2,31.0,17.2,4.6
7,August,24.3,31.0,17.4,5.1
8,September,19.6,26.5,13.1,5.5
9,October,13.9,20.3,8.4,9.2


* Eğer dosyalar farklı konumlarda ise direk kullanımda hata verecektir. Bu sorunu veri dosyasının yolunu girerek çözebiliriz.
Öncelikle dosya işlemleri için kullandığımız **os** kütüphanesini import edip gerekli fonksiyonları kullanarak ilgili dosyanın konumuna gitmemiz gerekir.

In [16]:
import os
print("Mevcut dosya yolum: ", os.getcwd())
os.chdir(r'C:\Users\sahik\Documents\GitHub\MachineLearning101\data') # Belirttiğim yola yani verilerin olduğu dosyanın bulunduğu adrese gider.
print("Güncel dosya yolum: ", os.getcwd())

Mevcut dosya yolum:  C:\Users\sahik\Documents\GitHub\MachineLearning101\Libraries
Güncel dosya yolum:  C:\Users\sahik\Documents\GitHub\MachineLearning101\data


* Burada .csv dosyasını okumak yerine excel dosyasının nasıl okunduğunu gözlemleyelim. Şuan da excel (.xlsx) dosyamın olduğu konumdayım. Artık okuma işlemini gerçekleştirebiliriz.

In [17]:
new_df = pd.read_excel("average_weather.xlsx", skiprows=5, nrows=4, header=None, names=["months",
                                                                          "average_temperature",
                                                                          "average_maximum_temperature",
                                                                          "average_lowest_temperature",
                                                                          "average_number_of_rainy_days"])
new_df 

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
0,May,16.5,22.8,10.5,14.5
1,June,20.6,27.3,14.1,11.4
2,July,24.2,31.0,17.2,4.6
3,August,24.3,31.0,17.4,5.1


* **"skiprows"** özelliği ile başlangıçtan ne kadar satır atlamasını istediğimiz belirtiyoruz.
* **"header"** özelliği ile kolon adları olarak kullanılacak satırı belirtiyoruz. 
    * Örneğin elimizde şöyle bir senaryo olsun. Veri setimizde bir şekilde bir kayma olmuş olsun ve kolon isimlerimiz karşımıza bir veri olarak ilk satırda yer alıyor olsun. Bu durum da *header=1* özelliğini kullandığımızda ilk satırdaki verilerimiz kolon isimleri konumuna gelecektir.
    * Bir başka senaryo da ise kolon isimlerimizin olmadığını varsayalım bu durumda yapmamız gereken şey ***header*** özelliğini ***none*** olarak belirtip ***names=["kolon1","kolon2","kolon3"]*** şeklinde kolon isimlerini verebiliriz.

* **"nrows"** özelliği ile okumak istediğimiz satır sayısını belirtiyoruz.
* **"na_values"** özelliği ile "not available", "n.a." gibi ifadeler yerine *NaN* yazacaktır. Bu özellik dağınık verilerin toparlanması için oldukça faydalıdır. Burada değinmek istediğim bir diğer husus ise verileri sözlük ile özelleştirebilme imkanımızın olmasıdır. Örneğin isim ve yaş kolonlarımızın olduğunu düşünelim. İsim kolonun da "not available", "n.a." gibi verilerimiz varken yaş kolonumuzda bunların dışında mantığa uymayacak şekilde negatif yaş verilerinin de olduğunu düşünelim. Bu durumda sözlük yapısını kullanarak bu verileri **NaN** yapabiliriz.
    > na_values = { " ad " : [ " not available ", " n.a. " ] ,
             " yas " : [ " n.a. ", -5, -21]} 
             
Daha detaylı bilgi edinmek için https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html adresine göz atmanızı tavsiye ederim. 

**"to_csv"** - **"to_exel" :** Üzerinde düzenlemeler yaptığımız .csv, .xlsx gibi dosyalardaki verileri farklı bir dosyaya kaydetmemizi sağlar. 
Yeni dosya oluşturulurken otomatik index kolonu eklenir. Bunun önüne geçmek için index=False özelliğini kullanıyoruz.
Tüm tabloyu değil de belirli kolonları yeni dosyaya taşımak istersek *colums* özelliğini kullanarak ilgili kolonları belirtebiliriz.

In [18]:
new_df.to_csv("new_df.csv", index=False, columns=["months","average_temperature"])

![new_df.PNG](attachment:new_df.PNG)

In [19]:
pd.read_csv("new_df.csv")

Unnamed: 0,months,average_temperature
0,May,16.5
1,June,20.6
2,July,24.2
3,August,24.3


Yukarıda **" df "** olarak ifade ettiğimiz veri setimizden devam edelim.

In [20]:
df.shape # satır ve sütun sayısını verir.

(12, 5)

In [21]:
df.head(3)  # Varsayılan olarak ilk 5 satır okur.Burada 3 satır gelmesini istediğimizi belirtiyoruz.

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
0,January,0.9,4.7,-2.2,13.6
1,February,2.7,7.4,-1.2,12.6
2,March,6.7,12.2,1.9,13.8


In [22]:
df.tail() # Varsayılan olarak son 5 satırı okur.

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
7,August,24.3,31.0,17.4,5.1
8,September,19.6,26.5,13.1,5.5
9,October,13.9,20.3,8.4,9.2
10,November,7.3,13.0,2.7,8.9
11,December,2.8,6.7,-0.3,14.0


In [23]:
df[2:7] # 2 ile 7. indis arasındaki verileri okur. 2. indis dahilken 7. indis dahil değildir.

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
2,March,6.7,12.2,1.9,13.8
3,April,11.5,17.5,6.0,13.4
4,May,16.5,22.8,10.5,14.5
5,June,20.6,27.3,14.1,11.4
6,July,24.2,31.0,17.2,4.6


In [24]:
df.columns

Index(['months', 'average_temperature', 'average_maximum_temperature',
       'average_lowest_temperature', 'average_number_of_rainy_days'],
      dtype='object')

In [25]:
df.index 

RangeIndex(start=0, stop=12, step=1)

In [26]:
df["months"]  # Verisetindeki "months" kolonundaki verileri çektik.

0       January
1      February
2         March
3         April
4           May
5          June
6          July
7        August
8     September
9       October
10     November
11     December
Name: months, dtype: object

In [27]:
df.months

0       January
1      February
2         March
3         April
4           May
5          June
6          July
7        August
8     September
9       October
10     November
11     December
Name: months, dtype: object

* Bu şekilde de aynı çıktıyı elde ederiz. Ancak bu ifade için kolon adında " " (boşluk) bulunmamalıdır. Aksi halde hata verecektir. Örneğin "months weather" şeklinde bir isimlendirme olduğunda köşeli parantez ( *['months weather']* ) kullanmak şarttır.

In [28]:
type(df["months"])

pandas.core.series.Series

* type() fonksiyonu ile DataFrame verisetinden çekilen kolonun Series tipinde olduğunu gözlemliyoruz. Okuduğumuz kolonun DataFrame formunda gelmesi için "[ ]" kullanırız.

In [29]:
df[["months"]]

Unnamed: 0,months
0,January
1,February
2,March
3,April
4,May
5,June
6,July
7,August
8,September
9,October


In [30]:
type(df[["months"]])

pandas.core.frame.DataFrame

In [31]:
df.months.dtype  # months kolonunun object tipli verilerden oluştuğunu bize söylüyor.

dtype('O')

In [32]:
df[['months','average_number_of_rainy_days']]

Unnamed: 0,months,average_number_of_rainy_days
0,January,13.6
1,February,12.6
2,March,13.8
3,April,13.4
4,May,14.5
5,June,11.4
6,July,4.6
7,August,5.1
8,September,5.5
9,October,9.2


In [33]:
df.average_number_of_rainy_days.max()  # Kolondaki en büyük değeri verir.

14.5

In [34]:
df[df['average_number_of_rainy_days'] < 10]

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
6,July,24.2,31.0,17.2,4.6
7,August,24.3,31.0,17.4,5.1
8,September,19.6,26.5,13.1,5.5
9,October,13.9,20.3,8.4,9.2
10,November,7.3,13.0,2.7,8.9


In [35]:
df["months"][df["average_temperature"] == df["average_temperature"].max()]

7    August
Name: months, dtype: object

In [36]:
df[df["average_temperature"] == df["average_temperature"].max()]

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
7,August,24.3,31.0,17.4,5.1


In [37]:
df.average_maximum_temperature.std() # Standart sapmayı döndürür.

9.531224602549372

In [38]:
df['average_maximum_temperature'].mean() # Ortalamayı döndürür.

18.366666666666664

In [39]:
df.describe() 

Unnamed: 0,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
count,12.0,12.0,12.0,12.0
mean,12.583333,18.366667,7.3,10.55
std,8.508801,9.531225,7.158085,3.760682
min,0.9,4.7,-2.2,4.6
25%,5.725,11.0,1.35,8.05
50%,12.7,18.9,7.2,12.0
75%,19.85,26.7,13.35,13.65
max,24.3,31.0,17.4,14.5


* **describe():** Yüzdelik oranı, ortalama, min, max, standart sapma gibi bazı istatistiksel verileri hesaplamak için kullanılır.

In [40]:
df.set_index('months', inplace=True) 
df.head()

Unnamed: 0_level_0,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
months,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
January,0.9,4.7,-2.2,13.6
February,2.7,7.4,-1.2,12.6
March,6.7,12.2,1.9,13.8
April,11.5,17.5,6.0,13.4
May,16.5,22.8,10.5,14.5


* Verisetinin index değerini **"months"** olarak değiştiriyoruz. Bu değişimin kalıcı olması için **"inplace=True"** ifadesini kullanıyoruz. Aksi takdirde verisetini çağırdığımızda hiçbir değişiklik olmayacaktır.

In [41]:
df.index

Index(['January', 'February', 'March', 'April', 'May', 'June', 'July',
       'August', 'September', 'October', 'November', 'December'],
      dtype='object', name='months')

In [42]:
df.loc['October'] # loc[] etiket tabanlı olmasına karşın bool tipindeki verilere de ulaşımı sağlar.

average_temperature             13.9
average_maximum_temperature     20.3
average_lowest_temperature       8.4
average_number_of_rainy_days     9.2
Name: October, dtype: float64

In [43]:
df.reset_index(inplace=True) # reset_index ile verisetini varsayılan haline döndürüyoruz.
df.head()

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
0,January,0.9,4.7,-2.2,13.6
1,February,2.7,7.4,-1.2,12.6
2,March,6.7,12.2,1.9,13.8
3,April,11.5,17.5,6.0,13.4
4,May,16.5,22.8,10.5,14.5


In [44]:
df.iloc[3] # iloc[] tamsayıya dayalı erişim sağlar.

months                          April
average_temperature              11.5
average_maximum_temperature      17.5
average_lowest_temperature        6.0
average_number_of_rainy_days     13.4
Name: 3, dtype: object

Elimizdeki "average_weather" veriseti üzerinde bazı değişiklikler yapılarak farklı çalışmalar yapabilmek adına işlevsel hale getirilmiştir. Şimdi elimizdeki güncel veri setini okutup yeni özellikleri incelemeye devam edelim. 

In [45]:
df_ = pd.read_excel("new_average_weather.xlsx")
df_

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
0,January,0.9,4.7,-2.2,13.6
1,February,2.7,7.4,,12.6
2,March,,12.2,1.9,13.8
3,April,11.5,17.5,6.0,13.4
4,May,16.5,22.8,10.5,
5,June,20.6,27.3,14.1,11.4
6,July,24.2,31.0,,4.6
7,August,24.3,31.0,17.4,5.1
8,September,19.6,26.5,13.1,5.5
9,October,13.9,20.3,8.4,


* **fillna** özelliği ile NA-NaN verilerine istediğimiz değeri verebiliriz.

In [46]:
df_.fillna(value=0)

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
0,January,0.9,4.7,-2.2,13.6
1,February,2.7,7.4,0.0,12.6
2,March,0.0,12.2,1.9,13.8
3,April,11.5,17.5,6.0,13.4
4,May,16.5,22.8,10.5,0.0
5,June,20.6,27.3,14.1,11.4
6,July,24.2,31.0,0.0,4.6
7,August,24.3,31.0,17.4,5.1
8,September,19.6,26.5,13.1,5.5
9,October,13.9,20.3,8.4,0.0


In [47]:
df_.head(3)

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
0,January,0.9,4.7,-2.2,13.6
1,February,2.7,7.4,,12.6
2,March,,12.2,1.9,13.8


Yaptığımız değişikliğin kalıcı olmadığını görüyoruz. Burada yaptığımız değişiklikleri **"inplace=True"** ifadesini kullanarak kalıcı hale getirebiliriz. Sabitlemeden önce birkaç özellik daha görelim.

In [48]:
df_.fillna(method="ffill")

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
0,January,0.9,4.7,-2.2,13.6
1,February,2.7,7.4,-2.2,12.6
2,March,2.7,12.2,1.9,13.8
3,April,11.5,17.5,6.0,13.4
4,May,16.5,22.8,10.5,13.4
5,June,20.6,27.3,14.1,11.4
6,July,24.2,31.0,14.1,4.6
7,August,24.3,31.0,17.4,5.1
8,September,19.6,26.5,13.1,5.5
9,October,13.9,20.3,8.4,5.5


Bu özellik ile NaN değeri kendisinden önceki satırın değerini alır. Mart ayının "average_temperature" kolonuna baktığımızda NaN değerinin bir üstdeki 2.7 değerini aldığını gözlemleyebiliriz.

In [49]:
df_.fillna(method="bfill")

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
0,January,0.9,4.7,-2.2,13.6
1,February,2.7,7.4,1.9,12.6
2,March,11.5,12.2,1.9,13.8
3,April,11.5,17.5,6.0,13.4
4,May,16.5,22.8,10.5,11.4
5,June,20.6,27.3,14.1,11.4
6,July,24.2,31.0,17.4,4.6
7,August,24.3,31.0,17.4,5.1
8,September,19.6,26.5,13.1,5.5
9,October,13.9,20.3,8.4,8.9


Bu özellik ile NaN değeri kendisinden sonraki satırın değerini alır. Şubat ayının "average_lowest_temperature" kolonuna baktığımızda NaN değerinin bir altındaki 1.9 değerini aldığını gözlemleyebiliriz. 

In [50]:
df_.interpolate()

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
0,January,0.9,4.7,-2.2,13.6
1,February,2.7,7.4,-0.15,12.6
2,March,7.1,12.2,1.9,13.8
3,April,11.5,17.5,6.0,13.4
4,May,16.5,22.8,10.5,12.4
5,June,20.6,27.3,14.1,11.4
6,July,24.2,31.0,15.75,4.6
7,August,24.3,31.0,17.4,5.1
8,September,19.6,26.5,13.1,5.5
9,October,13.9,20.3,8.4,7.2


**" interpolate ( method = ' linear ' ) "** özelliği ile NULL değerinin üstündeki ve altındaki değerlerin arasında bir değeri NULL değerine verir. Varsayılan olarak  "linear" formundadır. Bunun dışında "time", "index" gibi çeşitli metotları vardır. 

In [51]:
df_.dropna()

Unnamed: 0,months,average_temperature,average_maximum_temperature,average_lowest_temperature,average_number_of_rainy_days
0,January,0.9,4.7,-2.2,13.6
3,April,11.5,17.5,6.0,13.4
5,June,20.6,27.3,14.1,11.4
7,August,24.3,31.0,17.4,5.1
8,September,19.6,26.5,13.1,5.5
10,November,7.3,13.0,2.7,8.9
11,December,2.8,6.7,-0.3,14.0


Çıktıdan da anlaşılacağı gibi **" dropna() "** özelliği eksik değer bulunan satırları siler. Varsayılan olarak satır (axis=0) siliyor ancak **" axis=1 "** özelliği ile dilersek sütun silmesini de sağlayabiliriz.

In [52]:
df_.dropna(axis=1) # Eksik değer olmayan 1 tane kolonumuz varmış.

Unnamed: 0,months,average_maximum_temperature
0,January,4.7
1,February,7.4
2,March,12.2
3,April,17.5
4,May,22.8
5,June,27.3
6,July,31.0
7,August,31.0
8,September,26.5
9,October,20.3


## groupby()

Şimdi groupby yapısını incelemek için yeni bir veriseti okuyalım.

In [53]:
df_people = pd.read_excel('people.xlsx')
df_people

Unnamed: 0,first_name,last_name,age,gender
0,İlkay,Yücel,18,Female
1,Bahadır,Demir,23,Male
2,Umut,Tuncer,24,Female
3,Toprak,Danış,18,Male
4,Demir,Gür,25,Male
5,Buğra,Sevim,21,Male
6,Güneş,Tan,19,Female
7,Umay,Küçük,23,Female
8,Ümit,Bilgi,19,Male
9,Almila,Bilge,28,Female


* **"groupby"** ile verileri kategorilerine göre gruplandırabilir ve bu kategorilere bir fonksiyon uygulayabiliriz.

In [54]:
df_gender = df_people.groupby('gender')
df_gender

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000028ED8168410>

In [55]:
for gender, g_df in df_gender:
    print('GENDER: ', gender, '\n', g_df, '\n\n')

GENDER:  Female 
   first_name last_name  age  gender
0      İlkay     Yücel   18  Female
2       Umut    Tuncer   24  Female
6      Güneş       Tan   19  Female
7       Umay     Küçük   23  Female
9     Almila     Bilge   28  Female 


GENDER:  Male 
   first_name last_name  age gender
1    Bahadır     Demir   23   Male
3     Toprak     Danış   18   Male
4      Demir       Gür   25   Male
5      Buğra     Sevim   21   Male
8       Ümit     Bilgi   19   Male 




Verisetini burada cinsiyete göre gruplandırıyoruz.

In [56]:
df_gender.groups.keys()  # Hangi gruplardan oluştuğu bilgisini verir.

dict_keys(['Female', 'Male'])

In [57]:
df_gender.ngroups  # Kaç grup olduğunu bilgisini verir.

2

Şimdi "Male" grubunun verilerine erişmeye çalışalım.

In [58]:
for gender, g_df in df_gender:
    if gender == "Male":
        print(g_df)

  first_name last_name  age gender
1    Bahadır     Demir   23   Male
3     Toprak     Danış   18   Male
4      Demir       Gür   25   Male
5      Buğra     Sevim   21   Male
8       Ümit     Bilgi   19   Male


"Male" grubuna erişmenin bir diğer yolu da **get_group()** fonksiyonudur.
* **"get_group()"** fonksiyonu ile belirli bir gruba erişim sağlanır.

In [59]:
df_gender.get_group('Male')

Unnamed: 0,first_name,last_name,age,gender
1,Bahadır,Demir,23,Male
3,Toprak,Danış,18,Male
4,Demir,Gür,25,Male
5,Buğra,Sevim,21,Male
8,Ümit,Bilgi,19,Male


In [60]:
df_gender.max()  # Her bir grubun maximum değerini getirir.

Unnamed: 0_level_0,first_name,last_name,age
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Female,İlkay,Yücel,28
Male,Ümit,Sevim,25


In [61]:
df_gender.age.mean()  # Grupların yaş ortalamasını elde ederiz.

gender
Female    22.4
Male      21.2
Name: age, dtype: float64

In [62]:
df_gender.describe()

Unnamed: 0_level_0,age,age,age,age,age,age,age,age
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Female,5.0,22.4,4.037326,18.0,19.0,23.0,24.0,28.0
Male,5.0,21.2,2.863564,18.0,19.0,21.0,23.0,25.0


Bu fonsiyon ile her bir grup için kaç adet veri olduğu, ortalama değerleri, standart sapmaları, min, max ve toplam kayıtların %25, %50 ve %75 lik kısımlarının ortalama değerleri hakkında bilgi ediniyoruz.

## concat()

* **"concat()"** fonsiyonu ile aynı bilgilere sahip verisetlerini birleştirebiliriz.

In [63]:
df1 = pd.read_excel('df1.xlsx')
df1

Unnamed: 0,country,age,gender
0,tr,21,male
1,tr,33,male
2,fr,38,female
3,fr,19,male
4,us,24,female
5,us,29,female


In [64]:
df2 = pd.read_excel('df2.xlsx')
df2

Unnamed: 0,country,age,gender
0,fr,33,male
1,fr,18,male
2,tr,19,female
3,us,25,male
4,tr,23,female
5,us,29,female


In [65]:
pd.concat([df1,df2])

Unnamed: 0,country,age,gender
0,tr,21,male
1,tr,33,male
2,fr,38,female
3,fr,19,male
4,us,24,female
5,us,29,female
0,fr,33,male
1,fr,18,male
2,tr,19,female
3,us,25,male


Görüldüğü üzere iki veriseti birleştirilirken index numaralarında herhangi bir güncelleme olmadı. Bu durumun önüne geçebilmek için **"ignore_index=True"** ifadesini kullanmamız gerekiyor.

In [66]:
pd.concat([df1,df2], ignore_index=True)

Unnamed: 0,country,age,gender
0,tr,21,male
1,tr,33,male
2,fr,38,female
3,fr,19,male
4,us,24,female
5,us,29,female
6,fr,33,male
7,fr,18,male
8,tr,19,female
9,us,25,male


In [67]:
data = pd.concat([df1,df2], keys=["df1","df2"])
data

Unnamed: 0,Unnamed: 1,country,age,gender
df1,0,tr,21,male
df1,1,tr,33,male
df1,2,fr,38,female
df1,3,fr,19,male
df1,4,us,24,female
df1,5,us,29,female
df2,0,fr,33,male
df2,1,fr,18,male
df2,2,tr,19,female
df2,3,us,25,male


In [68]:
data.loc["df1"]

Unnamed: 0,country,age,gender
0,tr,21,male
1,tr,33,male
2,fr,38,female
3,fr,19,male
4,us,24,female
5,us,29,female


Şimdi farklı kolonları olan iki veri seti oluşturalım ve bu verisetleri üzerinde çalışalım.

In [69]:
maxtemp_df = pd.DataFrame({
    "months":["January","February","March"],
    "average_maximum_temperature":[4.7,7.4,12.2]
})
maxtemp_df

Unnamed: 0,months,average_maximum_temperature
0,January,4.7
1,February,7.4
2,March,12.2


In [70]:
lowtemp_df = pd.DataFrame({
    "months":["January","February","March"],
    "average_lowest_temperature":[-2.2,-1.2,1.9]
})
lowtemp_df

Unnamed: 0,months,average_lowest_temperature
0,January,-2.2
1,February,-1.2
2,March,1.9


In [71]:
pd.concat([maxtemp_df, lowtemp_df]) 

Unnamed: 0,months,average_maximum_temperature,average_lowest_temperature
0,January,4.7,
1,February,7.4,
2,March,12.2,
0,January,,-2.2
1,February,,-1.2
2,March,,1.9


* Tablolarda karşılığı olmayan verilere NaN değerinin geldiğini görüyoruz. Burada veriler varsayılan olarak satıra ekleniyor. Sütun olarak eklenmesini istersek **axis=1** ifadesini kullanmamız gerekir.

In [72]:
pd.concat([maxtemp_df, lowtemp_df], axis=1)

Unnamed: 0,months,average_maximum_temperature,months.1,average_lowest_temperature
0,January,4.7,January,-2.2
1,February,7.4,February,-1.2
2,March,12.2,March,1.9


maxtemp_df veriseti aynı kalırken lowtemp_df verisetinden bir satır veriyi kaldıralım ve ayların yerini değiştirerek veriler üzerinde biraz değişiklikler yapalım.

In [73]:
lowtemp_df = pd.DataFrame({
    "months":["March","January"],
    "average_lowest_temperature":[1.9,-2.2]
})
lowtemp_df

Unnamed: 0,months,average_lowest_temperature
0,March,1.9
1,January,-2.2


In [74]:
pd.concat([maxtemp_df, lowtemp_df], axis=1)

Unnamed: 0,months,average_maximum_temperature,months.1,average_lowest_temperature
0,January,4.7,March,1.9
1,February,7.4,January,-2.2
2,March,12.2,,


Birleştirme işlemi yaptığımızda olduğu gibi birleştirdiğini görüyoruz. 
* January verisinin hizasında yine January verisi gelmesini ya da March hizasına March verisinin gelmesini isteyelim. Bu işlemi gerçekleştirebilmek için **"index"** özelliğini kullanırız.

In [75]:
maxtemp_df = pd.DataFrame({
    "months":["January","February","March"],
    "average_maximum_temperature":[4.7,7.4,12.2]
}, index=[0,1,2])
maxtemp_df

Unnamed: 0,months,average_maximum_temperature
0,January,4.7
1,February,7.4
2,March,12.2


In [76]:
lowtemp_df = pd.DataFrame({
    "months":["March","January"],
    "average_lowest_temperature":[1.9,-2.2]
}, index=[2,0])
lowtemp_df

Unnamed: 0,months,average_lowest_temperature
2,March,1.9
0,January,-2.2


Burada verilerin kaçıncı index değerlerine gelmesini istediğimizi belirtiyoruz.

In [77]:
pd.concat([maxtemp_df, lowtemp_df], axis=1)  # Çıktıya baktığımızda istediğimiz sonucu aldığımızı görüyoruz.

Unnamed: 0,months,average_maximum_temperature,months.1,average_lowest_temperature
0,January,4.7,January,-2.2
1,February,7.4,,
2,March,12.2,March,1.9


> Tabloya yeni bir kolon eklemek isteyelim.

In [78]:
s = pd.Series([0.9,2.7,6.7], name="average_temperature") 
s

0    0.9
1    2.7
2    6.7
Name: average_temperature, dtype: float64

In [79]:
pd.concat([maxtemp_df, s], axis=1)

Unnamed: 0,months,average_maximum_temperature,average_temperature
0,January,4.7,0.9
1,February,7.4,2.7
2,March,12.2,6.7


## merge()

In [80]:
pd.merge(maxtemp_df, lowtemp_df, on="months")

Unnamed: 0,months,average_maximum_temperature,average_lowest_temperature
0,January,4.7,-2.2
1,March,12.2,1.9


Her iki tabloda da ortak olan verileri alır. Varsayılan olarak SQL'deki inner join gibi davranır.

In [81]:
pd.merge(maxtemp_df, lowtemp_df, on="months", how="outer")

Unnamed: 0,months,average_maximum_temperature,average_lowest_temperature
0,January,4.7,-2.2
1,February,7.4,
2,March,12.2,1.9


In [82]:
pd.merge(maxtemp_df, lowtemp_df, on="months", how="left")

Unnamed: 0,months,average_maximum_temperature,average_lowest_temperature
0,January,4.7,-2.2
1,February,7.4,
2,March,12.2,1.9


In [83]:
pd.merge(maxtemp_df, lowtemp_df, on="months", how="right")

Unnamed: 0,months,average_maximum_temperature,average_lowest_temperature
0,March,12.2,1.9
1,January,4.7,-2.2


In [84]:
pd.merge(maxtemp_df, lowtemp_df, on="months", how="outer", indicator=True)

Unnamed: 0,months,average_maximum_temperature,average_lowest_temperature,_merge
0,January,4.7,-2.2,both
1,February,7.4,,left_only
2,March,12.2,1.9,both


**"indicator=True"** özelliğini eklediğimizde yukarıda görüldüğü üzere tabloya **"_merge"** adında bir kolon eklenir. Bu kolon verilerin hangi datadan geldiğini bize söyler.

* Kolon adları aynı olan iki verisetini birleştirmek istersek karşımıza şöyle bir sonuç çıkacaktır.

In [85]:
pd.merge(df1, df2, on="age", indicator=True) 

Unnamed: 0,country_x,age,gender_x,country_y,gender_y,_merge
0,tr,33,male,fr,male,both
1,fr,19,male,tr,female,both
2,us,29,female,us,female,both


Kolonlar yukarıdaki gibi _x ve _y şeklinde karışmamaları için otomatik olarak isimlendirilirler. İsimlendirmeyi özelleştirmek istersek **"suffixes"** özelliğini kullanmamız yeterli olacaktır.

In [86]:
pd.merge(df1, df2, on="age", suffixes=["_left","_right"]) 

Unnamed: 0,country_left,age,gender_left,country_right,gender_right
0,tr,33,male,fr,male
1,fr,19,male,tr,female
2,us,29,female,us,female
