___

<p style="text-align: center;"><img src="https://docs.google.com/uc?id=1lY0Uj5R04yMY3-ZppPWxqCr5pvBLYPnV" class="img-fluid" 
alt="CLRSWY"></p>

## <p style="background-color:#FDFEFE; font-family:newtimeroman; color:#9d4f8c; font-size:100%; text-align:center; border-radius:10px 10px;">WAY TO REINVENT YOURSELF</p>

<img src=https://i.ibb.co/6gCsHd6/1200px-Pandas-logo-svg.png width="700" height="200">

## <p style="background-color:#FDFEFE; font-family:newtimeroman; color:#060108; font-size:200%; text-align:center; border-radius:10px 10px;">Data Analysis with Python</p>

## <p style="background-color:#FDFEFE; font-family:newtimeroman; color:#060108; font-size:150%; text-align:center; border-radius:10px 10px;">Session - 04</p>

## <p style="background-color:#FDFEFE; font-family:newtimeroman; color:#4d77cf; font-size:200%; text-align:center; border-radius:10px 10px;">Pandas DataFrames</p>

<a id="toc"></a>

## <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">Content</p>

* [IMPORTING LIBRARIES NEEDED IN THIS NOTEBOOK](#0)
* [DATA FRAMES](#1)
* [CREATING A DATA FRAME](#2)
    * [Creating a DataFrame Using the Lists of Data & Columns](#2.1)
    * [Creating a DataFrame Using a Numpy Arrays](#2.2)
    * [Creating a DataFrame Using a Dictionary](#2.3)
    * [The Examination of Some Attributes on Data](#2.4)
* [INDEXING, SLICING & SELECTION](#3)    
* [CREATING A NEW COLUMN](#4)    
* [REMOVING COLUMNS](#5)
* [REMOVING ROWS](#6)
* [SELECTING ROWS & COLUMNS USING .loc[ ] & .iloc[ ] ](#7)
* [CONDITIONAL SELECTION](#8)
    * [One Conditional Statement](#8.1)
    * [Two or More Conditional Statements](#8.2)
    * [Conditional Selection Using .loc[ ]](#8.3)
* [reset_index() & set_index()](#9)
* [Multi-Index & Index Hierarchy](#10)
* [Some Other Useful Methods with Iris Dataset](#11)
* [THE END OF THE SESSION-04](#12)

## <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">Importing Libraries Needed in This Notebook</p>

<a id="0"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

Once you've installed NumPy & Pandas you can import them as a library:

In [293]:
import numpy as np
import pandas as pd

## <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">Data Frames</p>

<a id="1"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

A DataFrame is a two-dimensional data container, similar to a Matrix, but which can contain heterogeneous data, and for which symbolic names may be associated with the rows and columns. ``DataFrames`` are the workhorse of pandas and are directly inspired by the R programming language. We can think of a DataFrame as a bunch of Series objects put together to share the same index. 

### Why use Pandas?

Data scientists make use of Pandas in Python for its **following advantages**:

- Easily handles missing data
- It uses Series for one-dimensional data structure and DataFrame for multi-dimensional data structure
- It provides an efficient way to slice the data
- It provides a flexible way to merge, concatenate or reshape the data
- It includes a powerful time series tool to work with

In a nutshell, Pandas is a useful library in data analysis. It can be used to perform data manipulation and analysis. Pandas provide powerful and easy-to-use data structures, as well as the means to quickly perform operations on these structures.

[SOURCE01](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html), 
[SOURCE02](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html), 
[SOURCE03](https://morioh.com/p/2528ac775b1b), 
[SOURCE04](https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python), 
[SOURCE05](https://www.guru99.com/python-pandas-tutorial.html), 
[SOURCE06](https://www.tutorialspoint.com/python_pandas/python_pandas_dataframe.htm), 
[SOURCE07](https://realpython.com/pandas-dataframe/) &
[SOURCE08](https://towardsdatascience.com/a-simple-guide-to-pandas-dataframes-b125f64e1453)<br>
[VIDEO SOURCE01](https://www.youtube.com/watch?v=zmdjNSmRXF4), 
[VIDEO SOURCE02](https://www.youtube.com/watch?v=F6kmIpWWEdU) &
[VIDEO SOURCE03](https://towardsdatascience.com/pandas-dataframe-basics-3c16eb35c4f3)<br>

**Now let's use pandas to explore this topic!**

## <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">Creating a DataFrame</p>

<a id="2"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

A **``DataFrame``** is a **two-dimension collection of data**. It is a data structure where data is stored in **tabular form**. Datasets are arranged in rows and columns; we can store multiple datasets in the data frame. We can perform various arithmetic operations, such as adding column/row selection and columns/rows in the data frame.

We can import the DataFrames from the external storage; these storages can be referred to as the SQL Database, CSV file, and an Excel file. We can also use the lists, dictionary, and from a list of dictionary, etc.

In this session, we will learn to create the DataFrame in multiple ways. Let's understand these different ways.

**``pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)``**

### <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:150%; text-align:LEFT; border-radius:10px 10px;">Creating a DataFrame Using the Lists of Data & Columns</p>

<a id="2.1"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

In [294]:
data = [1, 3, 5, 7, 9]
data

[1, 3, 5, 7, 9]

In [295]:
pd.DataFrame(data)

# listeden DataFrame oluşturma (index ve kolon adı belirtilmediği için default olarak sayısal indexleri verdi.)

Unnamed: 0,0
0,1
1,3
2,5
3,7
4,9


In [296]:
pd.DataFrame(data=data, columns=["Colmn1"])

# listeden kolon adı vererek DataFrame oluşturma
# kaç kolon varsa o kadar kolon adı girilmelidir

Unnamed: 0,Colmn1
0,1
1,3
2,5
3,7
4,9


In [297]:
pd.DataFrame(data=data, index=["A", "B", "C", "D", "E"], columns=["Colmn1"])

# listeden index ve kolon adı vererek DataFrame oluşturma
# kaç satır varsa o kadar index adı girilmelidir

Unnamed: 0,Colmn1
A,1
B,3
C,5
D,7
E,9


### <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:150%; text-align:LEFT; border-radius:10px 10px;">Creating a DataFrame Using a Numpy Arrays</p>

<a id="2.2"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

In [298]:
data = np.arange(1, 24, 2).reshape(3, 4)
data

array([[ 1,  3,  5,  7],
       [ 9, 11, 13, 15],
       [17, 19, 21, 23]])

In [299]:
df = pd.DataFrame(data=data, columns=["var1", "var2", "var3", "var4"])
df

# array den kolon adı vererek DataFrame oluşturma. index adı verilmediği zaman default olarak sayısal indexleri index yapar.
# kaç kolon varsa o kadar kolon adı girilmelidir. Farklı olursa hata verir.

Unnamed: 0,var1,var2,var3,var4
0,1,3,5,7
1,9,11,13,15
2,17,19,21,23


### <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:150%; text-align:LEFT; border-radius:10px 10px;">Creating a DataFrame Using a Dictionary</p>

<a id="2.3"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

In [300]:
s1 = np.random.randint(2, 10, size=4)
s2 = np.random.randint(3, 10, size=4)
s3 = np.random.randint(4, 15, size=4)

In [301]:
s1, s2, s3

(array([9, 4, 6, 2]), array([9, 9, 4, 7]), array([ 6, 11, 11, 11]))

In [302]:
mydict = {"var1": s1, "var2": s2, "var3": s3}
mydict

{'var1': array([9, 4, 6, 2]),
 'var2': array([9, 9, 4, 7]),
 'var3': array([ 6, 11, 11, 11])}

In [303]:
df = pd.DataFrame(data=mydict)  # veya df = pd.DataFrame(mydict)
df

Unnamed: 0,var1,var2,var3
0,9,9,6
1,4,9,11
2,6,4,11
3,2,7,11


### <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:150%; text-align:LEFT; border-radius:10px 10px;">The Examination of Some Attributes on Data</p>

<a id="2.4"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

In [304]:
df

Unnamed: 0,var1,var2,var3
0,9,9,6
1,4,9,11
2,6,4,11
3,2,7,11


In [305]:
df.head(2)  # ilk 2 satır

Unnamed: 0,var1,var2,var3
0,9,9,6
1,4,9,11


In [306]:
df.tail(2)  # son 2 satır

Unnamed: 0,var1,var2,var3
2,6,4,11
3,2,7,11


In [307]:
df.sample(2)  # rastgele 2 satır

Unnamed: 0,var1,var2,var3
1,4,9,11
2,6,4,11


In [308]:
df.columns  # sütun isimlerini görmek için

Index(['var1', 'var2', 'var3'], dtype='object')

In [309]:
# kolon isimlerini for döngüsünde kullanarak çeşitli işlemler yapılabilir.
for col in df.columns:
    print(col)

var1
var2
var3


In [310]:
for col in df.columns:  # kolon isimleri kullanılarak her kolon için mean hesaplma
    print(df[col].mean())

5.25
7.25
9.75


In [311]:
df.mean()  # bu da yukarıdaki ile aynı işi yapıyor

var1    5.25
var2    7.25
var3    9.75
dtype: float64

In [312]:
df.index  # index isimlerini görmek için

RangeIndex(start=0, stop=4, step=1)

In [313]:
[i for i in df.index]  # index isimlerinin list comprehensionda kullanımı

[0, 1, 2, 3]

In [314]:
# kolon isimlerini yenileriyle değiştirmek için
df.columns = ["new1", "new2", "new3"]
df

Unnamed: 0,new1,new2,new3
0,9,9,6
1,4,9,11
2,6,4,11
3,2,7,11


In [315]:
# satır isimlerini yenileriyle değiştirmek için
df.index = ["a", "b", "c", "d"]
df

Unnamed: 0,new1,new2,new3
a,9,9,6
b,4,9,11
c,6,4,11
d,2,7,11


In [316]:
# df.rename() ile de index/columns isimlerini değiştirebiliriz. Ancak bu şekilde yapılan değişiklik kalıcı değildir.
#  kalıcı olması için inplace parametresi True yapılmalıdır.

# kalıcı olması için inplace parametresi True yapılmalıdır.
df.rename(columns={"new1": "aaa", "new2": "bbb"})

Unnamed: 0,aaa,bbb,new3
a,9,9,6
b,4,9,11
c,6,4,11
d,2,7,11


In [317]:
df.rename(index={"a": 1, "b": 2})  # index rename

Unnamed: 0,new1,new2,new3
1,9,9,6
2,4,9,11
c,6,4,11
d,2,7,11


In [318]:
df  # rename kalıcı işlem yapmadı.

Unnamed: 0,new1,new2,new3
a,9,9,6
b,4,9,11
c,6,4,11
d,2,7,11


In [319]:
df.shape

(4, 3)

In [320]:
df.shape[1]

3

In [321]:
len(df)  # satır sayısına bakmak için. ama shape den bakmak daha mantıklı

4

In [322]:
df.size  # eleman sayısını bulmak için

12

In [323]:
df.ndim  # boyut sayısını bulmak için

2

In [324]:
df.values  # değerleri görmek için

array([[ 9,  9,  6],
       [ 4,  9, 11],
       [ 6,  4, 11],
       [ 2,  7, 11]])

In [325]:
type(df)  # df türü dataFrame

pandas.core.frame.DataFrame

In [326]:
type(df.values)  # df value larının türü array

numpy.ndarray

In [327]:
type(df["new1"])  # df new1 kolonunun türü Seri

pandas.core.series.Series

In [328]:
# new2 adlı sütun df de var mı?  Bu tür sorguları ilerde kullanacağız.
"new2" in df

True

In [329]:
# new5 adlı kolon df de var mı? Bu tür sorguları ilerde kullanacağız.
"new5" in df

False

## <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">Indexing, Slicing & Selection</p>

<a id="3"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

Let's learn a variety of methods to grab data from a DataFrame

In [330]:
from numpy.random import randn

In [331]:
np.random.seed(101)
df = pd.DataFrame(randn(5, 4), index="A B C D E".split(),
                  columns="W X Y Z".split())
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [332]:
"A B C D E".split()

['A', 'B', 'C', 'D', 'E']

In [333]:
df["Y"]  # bu şekilde istediğim kolonun verilerini ve indexlerine ulaşabiliriz.

A    0.907969
B   -0.848077
C    0.528813
D   -0.933237
E    2.605967
Name: Y, dtype: float64

In [334]:
# istediğimiz kolonu seçerek değerlerinde istediğimiz değişikliği(ihtiyaca göre) yapabiliriz.
df["Y"] = df["Y"]*3

In [335]:
df.Y

A    2.723908
B   -2.544231
C    1.586440
D   -2.799712
E    7.817902
Name: Y, dtype: float64

In [336]:
df[["Y"]]  # tek sütunlu bir DataFrame gibi çıktısını almak için sütun adını köşeli parantez içinde yazmalıyız

Unnamed: 0,Y
A,2.723908
B,-2.544231
C,1.58644
D,-2.799712
E,7.817902


In [337]:
# birden fazla kolon seçmek için köşeli parantez içinde kolon isimleri verilmelidir
df[["X", "Y"]]

Unnamed: 0,X,Y
A,0.628133,2.723908
B,-0.319318,-2.544231
C,0.740122,1.58644
D,-0.758872,-2.799712
E,1.978757,7.817902


In [338]:
# df["W":"Y"]

# slicelama ile sütunlara ulaşmak istersem burada ulaşamam. Hata verir.
# Çünkü bu şekilde slicing işlemi satırlar üzerinde çalışır.

In [339]:
df["A":"C"]  # satırlarda slicelama yapar. son satır (C) dahildir.

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,2.723908,0.503826
B,0.651118,-0.319318,-2.544231,0.605965
C,-2.018168,0.740122,1.58644,-0.589001


In [340]:
# Satırları slicelama ile, sütunları liste halinde seçme yöntemi
df["A":"C"][["Y", "W"]]

# df[["Y","W"]] ["A":"C"] bu da aynı sonucu verir, yer değiştirmesi sonucu etkilemez

Unnamed: 0,Y,W
A,2.723908,2.70685
B,-2.544231,0.651118
C,1.58644,-2.018168


## <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">Creating a New Column</p>

<a id="4"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

In [341]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,2.723908,0.503826
B,0.651118,-0.319318,-2.544231,0.605965
C,-2.018168,0.740122,1.58644,-0.589001
D,0.188695,-0.758872,-2.799712,0.955057
E,0.190794,1.978757,7.817902,0.683509


In [342]:
df["new1"] = df["W"] * df["X"]

# yeni kolon oluşturmak için kolon adına atama yapılır.
# Atama yapılırken mevcut kolonlarda bazı işlemler yapılarak bulunan yeni değerler ile yeni kolon değerleri doldurulur

In [343]:
df

Unnamed: 0,W,X,Y,Z,new1
A,2.70685,0.628133,2.723908,0.503826,1.700261
B,0.651118,-0.319318,-2.544231,0.605965,-0.207914
C,-2.018168,0.740122,1.58644,-0.589001,-1.493691
D,0.188695,-0.758872,-2.799712,0.955057,-0.143196
E,0.190794,1.978757,7.817902,0.683509,0.377536


In [344]:
# bunu yanlışlıkla yaptım. Hem kolon adlarını hem değerleri arange ile doldurdu.
df[new2] = np.arange(5)
# yeni kolon adına bir array (veri seti ile aynı uzunlukta olmalı) atayarak da df de yeni kolon oluşturabiliriz.
df["new2"] = np.arange(5)

NameError: name 'new2' is not defined

In [None]:
df

## <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">Removing Columns</p>

<a id="5"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

In [None]:
# df den bir kolon silme. Değişiklik kalıcı değildir. Kalıcı hale getirmek için inplace parametresi True yapılmalıdır.
df.drop("new2", axis=1)

In [None]:
df.drop(["new1", "new2"], axis=1)

# df den birden fazla kolon silmek için kolon isimleri liste şeklinde yazılmalıdır(ikinci []). Genelde bu yöntem kullanılır

In [None]:
# yukarıda yanlışlıkla oluşturduğum 1-5 isimli kolonları silmek için
df.drop(np.arange(5), axis=1, inplace=True)

In [None]:
df

In [None]:
# kolon isimlerini keyword arg olarak verdiğimizde axis belirtmemize gerek yok
df.drop(columns=["new1", "new2"])

In [None]:
# inplace=True old. için kalıcı olarak sildi
df.drop(columns=["new1", "new2"], inplace=True)

In [None]:
df

## <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">Removing Rows</p>

<a id="6"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

In [None]:
df.drop("C", axis=0)  # df den bir satır silmek için.

In [None]:
df.drop(index="C")  # index="C" olarak kullanıldığında axis belirtmeye gerek yok

In [None]:
# axis default değeri 0 old. için satır silerken belirtmeye gerek yok
df.drop(index="E")

In [None]:
df.drop(["B", "D"])  # df den birden fazla satır silmek için.

In [None]:
df.drop(df.index[3])  # df.drop("D")  ile aynı 3. indexteki satırı siler

In [None]:
df.index[0:6]

In [None]:
df.drop(df.index[0:6])  # 0-6(exclusive). satırları siler

In [None]:
df.drop(df.columns["A":"C"])  # bunu incele???

In [None]:
df.columns

## <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">Selecting Rows and Columns using .loc[ ] and iloc[ ]</p>

<a id="7"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

#### `.loc[]` → allows us to select data using **labels** (names) of rows (index) & columns

#### `.iloc[]` → allows us to select data using **index numbers** of rows (index) & columns. it's like classical indexing logic

In [None]:
data = np.random.randint(1, 40, size=(8, 4))
df = pd.DataFrame(data, columns=["var1", "var2", "var3", 'var4'])
df

In [None]:
df.loc[4]  # 4. satır bilgilerini verir --> loc[row, col] şeklinde kullanılır

In [None]:
df.loc[[4]]  # iki köşeli parantez ile df görünümü

In [None]:
df.loc[2:5]  # 2-5. satırları alır. loc da 5 inclusive dir.

In [None]:
df.iloc[2:5]  # 2-5. satırları alır. iloc da ise 5 exclusive dir.

In [None]:
# index değerlerini değiştirmek için. aatama yapılan değerlerin uzunluğu ile df'in uzunluğu aynı olmalı
df.index = 'a b c d e f g h'.split()
df

In [None]:
df.iloc[1:4]  # 1-4 satırlar arasını alır. 4 exsclusive

In [None]:
# df.loc[1:4] index label larımız int değilse loc da bu şekilde slicelama yapılamaz. hata verir.

In [None]:
# index değerleri str ise bu şekilde slice lama ile istediğiniz satırlara ulaşabilirsiniz.
df.loc["a":"d"]

In [None]:
df.loc["d", "var3"]  # d satırından var3 sütunundaki değeri getir

In [None]:
df.iloc[3, 2]  # 3. satır inedxinden 2. sütun indexindeki değeri getir

In [345]:
# d-g arası satırların var2 sütunundaki değerlerini getir
df.loc["d":"g", "var2"]

KeyError: 'var2'

In [None]:
# d-g arası satırların var2 sütunundaki değerlerini getir. yukarıdaki ile aynı sonucu verir.
df.loc["d":"g"]["var2"]

In [None]:
# d-g arası satırların var2 sütunundaki değerlerini dataFrame şeklinde getirmek için 1. yol
df.loc["d":"g"][["var2"]]

In [None]:
# d-g arası satırların var2 sütunundaki değerlerini dataFrame şeklinde getirmek için 2. yol
df.loc["d":"g", ["var2"]]

In [None]:
# d-g arası satırların var2 ve var3 sütunlarındaki değerlerini getirmek için
df.loc["d":"g"][["var2", "var3"]]

In [None]:
df

In [None]:
df.iloc[2:5, 2]  # 2-5. arası satırların index değeri 2 olan sütununu getir

In [None]:
# 2-5. arası satırların index değeri 2 olan sütununu df olarak görmek için (sütunu köşeli parantez içine aldık)
df.iloc[2:5, [2]]

In [None]:
# df.iloc[2:5][[2]] bu şekilde çalışmaz. çünlü satırları seçtikten sonra iloc dan çıktık. sütunu sonra çağırdık.
# bunun yerine aşağıdaki (sütunu artık ismi ile çağırmalıyız) kullanılır.

df.iloc[2:5][["var2"]]

In [None]:
# df olaraak görmek için satır ve sütun label larını köşeli parantez içinde yazmalıyız
df.loc[["a"], ["var1"]]

In [None]:
# fancy indexing : a satırından var1 ve var3'ü, c satırından var1 ve var3'ü getir
df.loc[["a", "c"], ["var1", "var3"]]

## <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">Conditional Selection</p>

<a id="8"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

An important feature of pandas is conditional selection using bracket notation, very similar to numpy:

In [None]:
df

### <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:150%; text-align:LEFT; border-radius:10px 10px;">One Conditional Statement</p>

<a id="8.1"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

In [346]:
# df değerleri 10'dan büyük olanlar için True, diğerleri için False içeren bir df döner.
df > 10

Unnamed: 0,W,X,Y,Z,new1
A,False,False,False,False,False
B,False,False,False,False,False
C,False,False,False,False,False
D,False,False,False,False,False
E,False,False,False,False,False


In [347]:
df[df > 10]

# koşulu sağlayanların df deki değerlerini, sağlamayanlar için ise NaN döndürür.
# NaN değeri float old. için tüm değerleri float yaptı.

Unnamed: 0,W,X,Y,Z,new1
A,,,,,
B,,,,,
C,,,,,
D,,,,,
E,,,,,


In [348]:
df[df["var1"] > 10]  # var1>10 koşuluna göre df filtreler

KeyError: 'var1'

In [None]:
df[df["var1"] > 10]["var2"]  # var1>10 olan var2 değerlerini getirir

In [None]:
# var1>10 olan var2 (var2 için iki [] kullanınca) değerlerini df görünümünde getirir.
df[df["var1"] > 10][["var2"]]

In [None]:
# var1>10 olan var2 ve var3 değerlerini getirir
df[df["var1"] > 10][["var2", "var3"]]

### <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:150%; text-align:LEFT; border-radius:10px 10px;">Two or More Conditional Statements</p>

<a id="8.2"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

**For two or more conditions, you can use | → or, & → and with parenthesis:**

### <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:150%; text-align:LEFT; border-radius:10px 10px;">Conditional Selection Using .loc[ ] and .iloc[ ]</p>

<a id="8.3"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

In [None]:
df

In [None]:
# birden fazla koşul olduğunda her koşul ayrı parantez içinde kullanılmalıdır.
df[(df["var1"] > 10) & (df["var2"] < 20)]

In [None]:
# loc ile koşul kullanımı : koşula uyan var2 ve var3 sütunlarını getir
df.loc[df["var1"] > 10, ["var2", "var3"]]

# birden fazla koşul da kullanılabilir

In [349]:
df.loc[((df["var1"] < 10) | (df["var1"] > 30)), [
    "var2", "var3"]]  # loc içinde iki koşul kullanımı

KeyError: 'var1'

## <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">reset_index() & set_index()</p>

<a id="9"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

Let's discuss some more features of indexing, including resetting the index or setting it something else. We'll also talk about index hierarchy!

In [None]:
df

In [None]:
df.reset_index()  # eski indexleri yeni bir sütun yaptı ve sayısal indexleri index yaptı

In [None]:
# eski indexleri sütun olarak görmek istemezsek drop parametresini True,
# değişikliğin kalıcı olmasını istersek inplace parametresini True yapmalıyız

df.reset_index(drop=True, inplace=True)
df

In [None]:
df

In [None]:
df.set_index("var4", inplace=True)  # var4 kolonunu yeni index yapar


## <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">Multi-Index & Index Hierarchy</p>

<a id="10"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

Let us go over how to work with Multi-Index, first we'll create a quick example of what a Multi-Indexed DataFrame would look like:

In [350]:
outside = ['M1', 'M1', 'M1', 'M2', 'M2', 'M2', 'M3', 'M3', 'M3']
inside = [1, 2, 3, 1, 2, 3, 5, 6, 7]
multi_index = list(zip(outside, inside))
multi_index

[('M1', 1),
 ('M1', 2),
 ('M1', 3),
 ('M2', 1),
 ('M2', 2),
 ('M2', 3),
 ('M3', 5),
 ('M3', 6),
 ('M3', 7)]

In [351]:
# tuple içeren listeden pd ile multiindex oluşturmak için
hier_index = pd.MultiIndex.from_tuples(multi_index)
hier_index

MultiIndex([('M1', 1),
            ('M1', 2),
            ('M1', 3),
            ('M2', 1),
            ('M2', 2),
            ('M2', 3),
            ('M3', 5),
            ('M3', 6),
            ('M3', 7)],
           )

In [352]:
np.random.seed(101)
df = pd.DataFrame(np.random.randn(9, 4), index=hier_index, columns=[
                  'A', 'B', 'C', 'D'])  # multi indexli df oluşturma
df

Unnamed: 0,Unnamed: 1,A,B,C,D
M1,1,2.70685,0.628133,0.907969,0.503826
M1,2,0.651118,-0.319318,-0.848077,0.605965
M1,3,-2.018168,0.740122,0.528813,-0.589001
M2,1,0.188695,-0.758872,-0.933237,0.955057
M2,2,0.190794,1.978757,2.605967,0.683509
M2,3,0.302665,1.693723,-1.706086,-1.159119
M3,5,-0.134841,0.390528,0.166905,0.184502
M3,6,0.807706,0.07296,0.638787,0.329646
M3,7,-0.497104,-0.75407,-0.943406,0.484752


**``Note``** that all of the MultiIndex constructors accept a names argument which stores string names for the levels themselves. If no names are provided, None will be assigned:

For more information Indexing and Selecting Data, visit [**Pandas Official Documentation**](https://pandas.pydata.org/pandas-docs/version/0.13.0/indexing.html)

In [353]:
# index kolonlarının isimlerini görmek için. Şu anda isim olmadığı için None verdi.
df.index.names

FrozenList([None, None])

In [354]:
# index isimlerine atama yaptık. Sırarıyla Group dış level, Name iç level index ismi oldu.
df.index.names = ["Group", "Name"]
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C,D
Group,Name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
M1,1,2.70685,0.628133,0.907969,0.503826
M1,2,0.651118,-0.319318,-0.848077,0.605965
M1,3,-2.018168,0.740122,0.528813,-0.589001
M2,1,0.188695,-0.758872,-0.933237,0.955057
M2,2,0.190794,1.978757,2.605967,0.683509
M2,3,0.302665,1.693723,-1.706086,-1.159119
M3,5,-0.134841,0.390528,0.166905,0.184502
M3,6,0.807706,0.07296,0.638787,0.329646
M3,7,-0.497104,-0.75407,-0.943406,0.484752


In [355]:
# index değerlerini görmek için. İki level index old. için index değerlerini tuple içinde çiftler olarak verir.
df.index

MultiIndex([('M1', 1),
            ('M1', 2),
            ('M1', 3),
            ('M2', 1),
            ('M2', 2),
            ('M2', 3),
            ('M3', 5),
            ('M3', 6),
            ('M3', 7)],
           names=['Group', 'Name'])

In [356]:
# her level daki index değerlerinin uniq listesini görmek için.
df.index.levels

FrozenList([['M1', 'M2', 'M3'], [1, 2, 3, 5, 6, 7]])

In [357]:
# sadece level 1(Frozenlist deki indexi 0) index değerlerini görmek için
df.index.levels[0]

Index(['M1', 'M2', 'M3'], dtype='object', name='Group')

In [358]:
df.index.get_level_values(0)  # 0. level isimlerinin hepsini görmek için

Index(['M1', 'M1', 'M1', 'M2', 'M2', 'M2', 'M3', 'M3', 'M3'], dtype='object', name='Group')

In [359]:
# Group isimli index değerlerinin hepsini görmek için
df.index.get_level_values("Group")

Index(['M1', 'M1', 'M1', 'M2', 'M2', 'M2', 'M3', 'M3', 'M3'], dtype='object', name='Group')

Now let's show how to index this! For index hierarchy we use ``df.loc[]``, if this was on the columns axis, you would just use normal bracket notation ``df[]``. Calling one level of the index returns the sub-dataframe:

In [360]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C,D
Group,Name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
M1,1,2.70685,0.628133,0.907969,0.503826
M1,2,0.651118,-0.319318,-0.848077,0.605965
M1,3,-2.018168,0.740122,0.528813,-0.589001
M2,1,0.188695,-0.758872,-0.933237,0.955057
M2,2,0.190794,1.978757,2.605967,0.683509
M2,3,0.302665,1.693723,-1.706086,-1.159119
M3,5,-0.134841,0.390528,0.166905,0.184502
M3,6,0.807706,0.07296,0.638787,0.329646
M3,7,-0.497104,-0.75407,-0.943406,0.484752


In [361]:
df["A"]  # A kolonu

Group  Name
M1     1       2.706850
       2       0.651118
       3      -2.018168
M2     1       0.188695
       2       0.190794
       3       0.302665
M3     5      -0.134841
       6       0.807706
       7      -0.497104
Name: A, dtype: float64

In [362]:
df[["A"]]  # A kolonu df görünümünde

Unnamed: 0_level_0,Unnamed: 1_level_0,A
Group,Name,Unnamed: 2_level_1
M1,1,2.70685
M1,2,0.651118
M1,3,-2.018168
M2,1,0.188695
M2,2,0.190794
M2,3,0.302665
M3,5,-0.134841
M3,6,0.807706
M3,7,-0.497104


In [363]:
df[["A", "C"]]  # A ve C kolonu

Unnamed: 0_level_0,Unnamed: 1_level_0,A,C
Group,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
M1,1,2.70685,0.907969
M1,2,0.651118,-0.848077
M1,3,-2.018168,0.528813
M2,1,0.188695,-0.933237
M2,2,0.190794,2.605967
M2,3,0.302665,-1.706086
M3,5,-0.134841,0.166905
M3,6,0.807706,0.638787
M3,7,-0.497104,-0.943406


In [364]:
df.loc["M1"]  # level 1 den M1 satırı

Unnamed: 0_level_0,A,B,C,D
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2.70685,0.628133,0.907969,0.503826
2,0.651118,-0.319318,-0.848077,0.605965
3,-2.018168,0.740122,0.528813,-0.589001


In [365]:
df.loc[("M1", 2)]  # M1'in 2 nolu satırını getirir

A    0.651118
B   -0.319318
C   -0.848077
D    0.605965
Name: (M1, 2), dtype: float64

In [366]:
df.loc[[("M1", 2)]]  # M1'in 2 nolu satırının df görüntüsü

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C,D
Group,Name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
M1,2,0.651118,-0.319318,-0.848077,0.605965


In [367]:
df.loc["M1", "A":"C"]  # M1 satırının A-C (loc da C dahil) sütunları arası

Unnamed: 0_level_0,A,B,C
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2.70685,0.628133,0.907969
2,0.651118,-0.319318,-0.848077
3,-2.018168,0.740122,0.528813


In [368]:
# M1'in 2. satırının A-C (loc da C dahil) sütunları arası
df.loc[("M1", 2), "A":"C"]

A    0.651118
B   -0.319318
C   -0.848077
Name: (M1, 2), dtype: float64

In [369]:
# M1'in 2. satırının A-C (loc da C dahil) sütunları arası df görünümü
df.loc[[("M1", 2)], "A":"C"]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
Group,Name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
M1,2,0.651118,-0.319318,-0.848077


In [370]:
df.loc["M1":"M2"]  # M1-M2(dahil) satırları

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C,D
Group,Name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
M1,1,2.70685,0.628133,0.907969,0.503826
M1,2,0.651118,-0.319318,-0.848077,0.605965
M1,3,-2.018168,0.740122,0.528813,-0.589001
M2,1,0.188695,-0.758872,-0.933237,0.955057
M2,2,0.190794,1.978757,2.605967,0.683509
M2,3,0.302665,1.693723,-1.706086,-1.159119


In [371]:
df.loc[("M1", 2):("M2", 1)]  # M1'in 2., M2'nin 1. satırı

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C,D
Group,Name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
M1,2,0.651118,-0.319318,-0.848077,0.605965
M1,3,-2.018168,0.740122,0.528813,-0.589001
M2,1,0.188695,-0.758872,-0.933237,0.955057


In [372]:
df.loc["M1":"M2":2]  # M1'den M2'ye kadar 2 adım aralıklı satırlar

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C,D
Group,Name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
M1,1,2.70685,0.628133,0.907969,0.503826
M1,3,-2.018168,0.740122,0.528813,-0.589001
M2,2,0.190794,1.978757,2.605967,0.683509


In [373]:
# M2 nin 3 nolu satırı ile M3 ün 5 nolu satırını getirir
df.loc[[("M2", 3), ("M3", 5)]]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C,D
Group,Name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
M2,3,0.302665,1.693723,-1.706086,-1.159119
M3,5,-0.134841,0.390528,0.166905,0.184502


More information for Multiindex and Advanced Indexing, visit [**Pandas Official Documentation**](https://pandas.pydata.org/docs/user_guide/advanced.html)

## <p style="background-color:#9d4f8c; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">Some Other Useful Methods with Iris Dataset</p>

<a id="11"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

### Let's apply functions/attributes/methods we have learnt for "iris dataset" 

## <p style="background-color:#FDFEFE; font-family:newtimeroman; color:#9d4f8c; font-size:150%; text-align:center; border-radius:10px 10px;">The End of The Session - 04</p>

<a id="12"></a>
<a href="#toc" class="btn btn-primary btn-sm" role="button" aria-pressed="true" 
style="color:blue; background-color:#dfa8e4" data-toggle="popover">Content</a>

<p style="text-align: center;"><img src="https://docs.google.com/uc?id=1lY0Uj5R04yMY3-ZppPWxqCr5pvBLYPnV" class="img-fluid" 
alt="CLRSWY"></p>

## <p style="background-color:#FDFEFE; font-family:newtimeroman; color:#9d4f8c; font-size:100%; text-align:center; border-radius:10px 10px;">WAY TO REINVENT YOURSELF</p>

________