In [1]:
import pandas as pd

df = pd.read_csv(r"..\Data\titanic.csv")

#### **Sıralama İşlemleri**

# ![title](sort_values.png)

Veri setimizde analiz yaparken verilerimizi **sort_values()** metodu ile sırayalayabiliriz.

In [3]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Yaş bilgisine göre sıralayalım.

In [3]:
df.Age.sort_values()

803    0.42
755    0.67
644    0.75
469    0.75
78     0.83
       ... 
859     NaN
863     NaN
868     NaN
878     NaN
888     NaN
Name: Age, Length: 891, dtype: float64

**sort_values()** metodu varsayılan olarak, en düşük değerden  artan değere göre bir sıralama yöntemine sahiptir. Bu işlemin tersini yapmak istersek **ascending=False** ifadesini eklememiz gerekir.

In [4]:
df.Age.sort_values(ascending=False)

630    80.0
851    74.0
493    71.0
96     71.0
116    70.5
       ... 
859     NaN
863     NaN
868     NaN
878     NaN
888     NaN
Name: Age, Length: 891, dtype: float64

Birden fazla sütuna göre sıralama işlemi yapalım.

In [5]:
df.sort_values(by=["Age", "Sex"]).head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5,,S
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,,C
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S
831,832,1,2,"Richards, Master. George Sibley",male,0.83,1,1,29106,18.75,,S
305,306,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
172,173,1,3,"Johnson, Miss. Eleanor Ileen",female,1.0,1,1,347742,11.1333,,S
381,382,1,3,"Nakid, Miss. Maria (""Mary"")",female,1.0,0,2,2653,15.7417,,C
164,165,0,3,"Panula, Master. Eino Viljami",male,1.0,4,1,3101295,39.6875,,S


#### **Gruplama İşlemleri**

# ![title](groupby.png)

Veri setimizde analiz yaparken verilerimizi groupby() metodu ile gruplayabilir ve ardından gruplanmış veriler üzerinde işlem yapabiliriz.

Cinsiyet bazlı kaçar adet yolcu olduğunu bulalım

In [8]:
df.groupby("Sex").size()

Sex
female    314
male      577
dtype: int64

Şimdi de cinsiyet bazlı hayatta kalan yolcu bilgilerini analiz edelim.

In [9]:
df.groupby("Sex")["Survived"].value_counts()

Sex     Survived
female  1           233
        0            81
male    0           468
        1           109
Name: Survived, dtype: int64

Bu şekilde cinsiyet ve yolcuların kaza sonrası hayatta kalma durumları baz alınarak gruplama işlemi yapmış olduk.

**Groupby & Aggregate kullanımı**

Veri seti üzerinde gruplama işlemi yapıp ardından grupladığımız bu veri üzerinde matematiksel işlemleri uygulayabiliriz.

Cinsiyet bazlı yaş bilgisi üzerinde count, min, max ve mean değerlerini alalım.

In [11]:
df.groupby("Sex").Age.agg(["count", "min", "max", "mean"])

Unnamed: 0_level_0,count,min,max,mean
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,261,0.75,63.0,27.915709
male,453,0.42,80.0,30.726645


**Filtreleme İşlemleri**

# ![title](filter.png)

Veri setimizde analiz yaparken bazı kriterlere göre filtreleyip kriterlere uygun veriler üzerinde işlem yapabiliriz.

Yaşı 30 dan büyük olan kadın yolcuları bulalım.

In [5]:
df[(df.Age > 30) & (df.Sex == "female")]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
862,863,1,1,"Swift, Mrs. Frederick Joel (Margaret Welles Ba...",female,48.0,0,0,17466,25.9292,D17,S
865,866,1,2,"Bystrom, Mrs. (Karolina)",female,42.0,0,0,236852,13.0000,,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
