# Toplulaştırma (Aggregation)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

In [2]:
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


seaborn içerisinde bulunan "planets" veri setini yükledik

In [3]:
df.shape

(1035, 6)

In [4]:
# 1035 gözlem ve 6 sütundan oluşan bir veri setidir

In [5]:
df.size

6210

In [6]:
df.mean()

number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

Veri seti içindeki bütün değişkenlerin ortalama değerlerini döndürdü

>Bütün değişkenler yerine belirli bir değişkene ulaşmak için:

In [7]:
df["mass"].mean() # şimdi de sadece mass değişkeni için ortalama hesapladık

2.6381605847953233

In [8]:
df.count()

method            1035
number            1035
orbital_period     992
mass               513
distance           808
year              1035
dtype: int64

Her bir değişkenin değer sayısını döndürür

>Bu da belirli değişkenler özelinde kullanılabilir

In [9]:
df["number"].count() # number değişkeninin toplam gözlem sayısına ulaştık

1035

In [10]:
df["number"].min() # değişkenin minimum değerini döndürür

1

In [11]:
df.min()

method            Astrometry
number                     1
orbital_period     0.0907063
mass                  0.0036
distance                1.35
year                    1989
dtype: object

In [12]:
df["number"].max() # değişkenin maksimum değerini döndürür

7

In [13]:
df.max()

method            Transit Timing Variations
number                                    7
orbital_period                       730000
mass                                     25
distance                               8500
year                                   2014
dtype: object

In [14]:
df["number"].sum() # değişken değerlerinin toplamını döndürür

1848

In [15]:
df.sum()

method            Radial VelocityRadial VelocityRadial VelocityR...
number                                                         1848
orbital_period                                          1.98689e+06
mass                                                        1353.38
distance                                                     213368
year                                                        2079388
dtype: object

In [16]:
df["number"].std() # değişken değerlerinin standart sapmasını döndürür

1.2409761743386767

In [17]:
df.std()

number                1.240976
orbital_period    26014.728304
mass                  3.818617
distance            733.116493
year                  3.972567
dtype: float64

In [18]:
df["number"].var() # değişken değerlerinin varyansını döndürür

1.5400218652762578

In [19]:
df.var()

number            1.540022e+00
orbital_period    6.767661e+08
mass              1.458183e+01
distance          5.374598e+05
year              1.578129e+01
dtype: float64

In [20]:
df.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


describe() metoduyla veri setinin değişkenlerinin tüm betimsel istatistik değerlerine bir arada ulaşabiliriz

Okumayı kolaylaştırmak adına bu metodunu çıktısnın transpozunu alabiliriz

In [21]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


In [22]:
df["number"].describe()

count    1035.000000
mean        1.785507
std         1.240976
min         1.000000
25%         1.000000
50%         1.000000
75%         2.000000
max         7.000000
Name: number, dtype: float64

**Kullandığımız veri setleri  içinde eksik gözlem değerleri ile karşılaşmamız çok olası bir durumdur. Fakat buna rağmen bu eksik değerleri safdışı bırakarak betimsel istatistik değerlerine ulaşmak istersek:**

In [23]:
df.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


dropna metodu veri setindeki Na değerleri çıkartmayı sağlar.

Na değerleri çıkarıldıktan sonra tekrar describe metoduyla betimsel istatistik değerlerine ulaştık