In [1]:
import pandas as pd

data = {'id':[1, 2, 3, 4], 'treatment':['A', 'A', 'B', 'B'],
        'gender':['F', 'M', 'F', 'M'], 'response':[5, 3, 8, 9]}
df = pd.DataFrame(data)
print(df)

   id treatment gender  response
0   1         A      F         5
1   2         A      M         3
2   3         B      F         8
3   4         B      M         9


In [2]:
# Verilerin formatını değiştirerek çıkartmak istediğimiz anlamları kolaylaştırabiliriz.
# Örneğin uygulanan tedavilerin cinsiyete göre cevaplarını merak ediyor olabiliriz.
# Bu durumda pivot metodunu kullanarak veri formatımızı değiştiririz.
# Bunun için treatment sütununu index yaparak her bir unique değer için bir satır olmasını sağlarız.
# Sütunlarda ise cinsiyeti kullanırız çünkü cinsiyetlere göre cevapları merak ediyoruz.
# response sütunu ise değerleri sağlar.

In [3]:
pivot_df = df.pivot(index='treatment', columns='gender', values='response')
print(pivot_df)

gender     F  M
treatment      
A          5  3
B          8  9


In [4]:
# Bir başka örnekte sitemize giren ve abone olan kullanıcıların geldiği şehirleri, ziyaretçi
# sayısını ve abone olan ziyaretçi sayısını tablo olarak tuttuğumuzu düşünelim. Amacımız ise
# en fazla ziyaretçi gelen şehri bularak stratejimizi buna göre belirlemek.

In [5]:
visitors_data = {'weekday':['Sun', 'Sun', 'Mon', 'Mon'], 
                 'city':['Austin', 'Dallas', 'Austin', 'Dallas'],
                 'visitors':[139, 237, 326, 456],
                 'signups':[7, 12, 3, 5]}
visitors_df = pd.DataFrame(visitors_data)
print(visitors_df)

  weekday    city  visitors  signups
0     Sun  Austin       139        7
1     Sun  Dallas       237       12
2     Mon  Austin       326        3
3     Mon  Dallas       456        5


In [6]:
# Şehirlere göre ziyaretçi sayısını incelemek için şehirleri tutan sütunu pivot edebiliriz.
# Böylece sütunda her bir şehir olur ve değerler ise ziyaretçi sütunundan gelir.

In [7]:
pivot_df = visitors_df.pivot(columns='city', values='visitors')
print(pivot_df)

city  Austin  Dallas
0      139.0     NaN
1        NaN   237.0
2      326.0     NaN
3        NaN   456.0


In [8]:
# İndeks seçmediğimiz zaman yukarıdaki gibi bir problemle karşılaşırız.
# İndeksleri günlere göre seçersek ise her gün için hangi şehirden kaç tane ziyaretçi 
# bulunduğunu daha düzenli bir biçimde gösterebiliriz.

In [9]:
pivot_df = visitors_df.pivot(index='weekday', columns='city', values='visitors')
print(pivot_df)

city     Austin  Dallas
weekday                
Mon         326     456
Sun         139     237


In [10]:
# Eğer değerlerin alınacağı sütunu seçmezsek her bir sütun için pivot yapılır.
# Sonuç olarak ortaya hiyearşik sütunlu bir tablo çıkar.

In [11]:
all_pivoted = visitors_df.pivot(index='weekday', columns='city')
print(all_pivoted)

        visitors        signups       
city      Austin Dallas  Austin Dallas
weekday                               
Mon          326    456       3      5
Sun          139    237       7     12


In [12]:
# İlk tabloya geri dönersek. Tedavilerin cinsiyetlere göre etkisini daha belirgin
# hale getirmek için multi-level indexte kullanabiliriz.

In [13]:
multi_indexed_df = df.set_index(['treatment', 'gender'])
print(multi_indexed_df)

                  id  response
treatment gender              
A         F        1         5
          M        2         3
B         F        3         8
          M        4         9


In [14]:
# Multilevel indexe sahip DataFrameler üzerinde pivot metodu doğrudan çalışamaz.
# Bu sefer indekslerden birisini pivot ederek sütunlara almak istersek unstack 
# metodunu kullanmamız gerekir.

In [15]:
unstacked_df = multi_indexed_df.unstack('gender')
print(unstacked_df)

          id    response   
gender     F  M        F  M
treatment                  
A          1  2        5  3
B          3  4        8  9


In [16]:
# Bu işlemin tersi stack işlemidir.

In [17]:
stacked_df = unstacked_df.stack('gender')
print(stacked_df)

                  id  response
treatment gender              
A         F        1         5
          M        2         3
B         F        3         8
          M        4         9


In [18]:
# Multi-level indekslerin yerini değiştirmek için swaplevel metodunu kullanırız.

In [19]:
swapped_df = stacked_df.swaplevel(0, 1)
print(swapped_df)

                  id  response
gender treatment              
F      A           1         5
M      A           2         3
F      B           3         8
M      B           4         9


In [20]:
# sort_index metodu ile swap işleminden sonra indeksi sıralayabiliriz.
# Sıranlanmamış indeksler slice esnasında problemlere yol açar.

In [26]:
sorted_df = swapped_df.sort_index()
print(sorted_df)

                  id  response
gender treatment              
F      A           1         5
       B           3         8
M      A           2         3
       B           4         9


In [None]:
# Aşağıdaki veri formatından aynı değişkene ait sütunların tek bir değişken altında toplantığı bir formata
# geçmek isteyebiliriz. Bunun için melt fonksiyonunu kullanarak aslında aynı değişkene ait değerler içeren
# sütunları tek bir sütuna topluyoruz.

In [27]:
df2 = pd.DataFrame({'treatment':['A', 'B'], 'F':[5, 8], 'M':[3, 9]})
print(df2)

  treatment  F  M
0         A  5  3
1         B  8  9


In [None]:
# Doğrudan melt fonksiyonunu kullandığımızda treatment sütununda değiştiğini ve bozuk bir format ortaya çıktığını
# görüyoruz. Bunun önüne geçmek için sabit tutmak istediğimiz sütunları belirtmemiz gerekir.

In [28]:
pd.melt(df2)

Unnamed: 0,variable,value
0,treatment,A
1,treatment,B
2,F,5
3,F,8
4,M,3
5,M,9


In [29]:
# id_vars parametresi ile şekli yeniden düzenlenmiş tabloda aynı kalacak sütunları belirleyebiliriz.

In [31]:
pd.melt(df2, id_vars=['treatment'])

Unnamed: 0,treatment,variable,value
0,A,F,5
1,B,F,8
2,A,M,3
3,B,M,9


In [32]:
# Ayrıca haricen tek bir sütuna indirgenecek olan sütunlarıda belirleyebiliriz

In [33]:
pd.melt(df2, id_vars=['treatment'], value_vars=['F', 'M'])

Unnamed: 0,treatment,variable,value
0,A,F,5
1,B,F,8
2,A,M,3
3,B,M,9


In [34]:
# İstersek yeni oluşan sütunların isimlerini belirleyebiliriz.

In [35]:
pd.melt(df2, id_vars=['treatment'], value_vars=['F', 'M'], var_name='gender', value_name='response')

Unnamed: 0,treatment,gender,response
0,A,F,5
1,B,F,8
2,A,M,3
3,B,M,9


In [2]:
# Pivot etmek istediğimiz tabloda tekrarlı değerler içeren satırlar bulunabilir
# Örneğin aşağıdaki tabloda treatment ve gender sütunlarında aynı değerleri içeren satırlar söz konusu
# pivot metodunun çalışabilmesi için sütunlarda tekrarlı veriler olmamalı. Bu gibi durumlarda pivot_table
# metodunu kullanırız. pivot_table metodu tekrarlı değerleri indirger. Varsayılan olarak mean kullanılır.
# İndirgeme işlemi için farklı bir yöntem kullanmak istiyorsak aggfunc parametresi ile belirtmeliyiz.

In [13]:
data = {'treatment':['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
        'gender':['F', 'M', 'M', 'F', 'F', 'M', 'F', 'F'],
        'response':[5, 3, 8, 9, 1, 8, 4, 6]}

df = pd.DataFrame(data)
df

Unnamed: 0,treatment,gender,response
0,A,F,5
1,A,M,3
2,A,M,8
3,A,F,9
4,B,F,1
5,B,M,8
6,B,F,4
7,B,F,6


In [5]:
df_pivot =df.pivot_table(index='treatment',
               columns='gender',
               values='response',
               aggfunc='count')
df_pivot

gender,F,M
treatment,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2,2
B,3,1


In [6]:
# Margin kullanarak tablonun altında ve yanında toplamları gösterebiliriz.

In [14]:
df_pivot =df.pivot_table(index='treatment',
               aggfunc='sum',
               margins=True)
df_pivot

Unnamed: 0_level_0,response
treatment,Unnamed: 1_level_1
A,25
B,19
All,44
