# Veri Bilimi için Pandas

In [2]:
import pandas as pd

## Veri Analizi ve İstatistiksel Hesaplamalar

Temel istatistiksel hesaplamalar, veri analizinde sıkça kullandığımız ve veri setinin özelliklerini anlamak için yapılan hesaplamalardır. Pandas, bu hesaplamaları gerçekleştirmek için bir dizi işlev ve yöntem sunar. Temel isatistiksel hesaplamaları gerçekleştirmek için kullanabileceğimiz bazı işlemler şunlardır:

* `describe():` Veri çerçevesinin istatistiksel özetini sağlar. Bu işlev, veri setinin sütunları için temel istatistiksel hesaplamaları gerçekleştirmek için kullanabileceğimiz bazı işlemleri sunar.
* `mean():` Sütundaki sayısal değerlerin ortalamasını hesaplar.
* `median():` Sütundaki sayısal değerlerin ortanca değerini hesaplar.
* `mode():`Sütundaki sayısal değerlerin modunu (en sık geçen değer) hesaplar.
* `sum():` Sütundaki sayısal değerlerin toplamını hesaplar.
* `min():` Sütundaki en küçük sayısal değeri bulur.
* `max():` Sütundaki en büyük sayısal değeri bulur.
* `std():` Sütunda bulunan sayısal değerlerin standart sapmasını hesaplar.
* `var():` Sütunda bulunan sayısal değerlerin varyansını hesaplar.
* `count():` Sütundaki toplam değer sayısını hesaplar.
* `quantile():` Sütundaki sayısal değerlerin belirli yüzdelik dilimlerini hesaplar.
* `corr():` Sütunlar arasındaki korelasyon matrisini hesaplar.

In [3]:
data = {
    'Öğrenci': ['Ali', 'Ayşe', 'Mehmet', 'Ahmet', 'Aylin', 'Mustafa', 'Ebru',
                'Can', 'Deniz', 'Gizem',
                'İbrahim', 'Elif', 'Burak', 'Fatma', 'Emre', 'Ceren', 'Gül',
                'Kadir', 'İrem', 'Ozan'],
    'Ders': ['Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
             'Matematik', 'Fizik', 'Kimya',
             'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
             'Matematik', 'Fizik', 'Kimya',
             'Matematik', 'Fizik'],
    'Not': [90, 85, 95, 75, 80, 92, 87, 88, 93, 82, 79, 91, 86, 89, 78, 83,
            94, 81, 84, 90]
}

df = pd.DataFrame(data)

print("Display 5 rows of the dataframe: \n", df.head())
print("----------------------------------")
print("Mean value of point column of the dataframe: ", df['Not'].mean())
print("----------------------------------")
print("Median value of point column of the dataframe: ", df['Not'].median())
print("----------------------------------")
print("Mode value of point column of the dataframe: ", df['Not'].mode())
print("----------------------------------")
print("Total of point column of the dataframe: ", df['Not'].sum())
print("----------------------------------")
print("Min value of point column of the dataframe: ", df['Not'].min())
print("----------------------------------")
print("Max value of point column of the dataframe: ", df['Not'].max())
print("----------------------------------")
print("Standard deviation of point column of the dataframe: ", df['Not'].std())
print("----------------------------------")
print("Variance of point column of the dataframe: ", df['Not'].var())
print("----------------------------------")
print("Count of point column of the dataframe: ", df['Not'].count())
print("----------------------------------")
print("Quantiles of point column of the dataframe: \n", df['Not'].quantile([0, 0.25, 0.50, 0.75, 1]))
print("---------------------------------")
print("Correlation matrix of point column of the dataframe: ", df['Not'].corr(df['Not']))

Display 5 rows of the dataframe: 
   Öğrenci       Ders  Not
0     Ali  Matematik   90
1    Ayşe      Fizik   85
2  Mehmet      Kimya   95
3   Ahmet  Matematik   75
4   Aylin      Fizik   80
----------------------------------
Mean value of point column of the dataframe:  86.1
----------------------------------
Median value of point column of the dataframe:  86.5
----------------------------------
Mode value of point column of the dataframe:  0    90
Name: Not, dtype: int64
----------------------------------
Total of point column of the dataframe:  1722
----------------------------------
Min value of point column of the dataframe:  75
----------------------------------
Max value of point column of the dataframe:  95
----------------------------------
Standard deviation of point column of the dataframe:  5.739062824648564
----------------------------------
Variance of point column of the dataframe:  32.93684210526316
----------------------------------
Count of point column of the datafra

## Veri Gruplama ve Toplulaştırma (groupBy)

Veri gruplama, belirli bir kriter veya sütuna göre verileri gruplara ayırırken, toplulaştırma işlemi ise her bir grup için istatistiksel hesaplamar yapmayı sağlar. Bu yöntemler sayesinde veriler daha anlaşılır hale gelir, gruplar arasındaki farklılıklar ve örüntüler ortaya çıkar. Genel bir bakış açısı elde edilir. Veri gruplama ve toplulaştırma, verilerin  özetlenmesi, analiz edilmesi ve karar verme süreçlerinde önemli bilgileri edinmemizi sağlar.

In [5]:
data = {
    'Öğrenci': ['Ali', 'Ayşe', 'Mehmet', 'Ahmet', 'Aylin', 'Mustafa', 'Ebru',
                'Can', 'Deniz', 'Gizem',
                'İbrahim', 'Elif', 'Burak', 'Fatma', 'Emre', 'Ceren', 'Gül',
                'Kadir', 'İrem', 'Ozan'],
    'Ders': ['Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
             'Matematik', 'Fizik', 'Kimya',
             'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
             'Matematik', 'Fizik', 'Kimya',
             'Matematik', 'Fizik'],
    'Not': [90, 85, 95, 75, 80, 92, 87, 88, 93, 82, 79, 91, 86, 89, 78, 83,
            94, 81, 84, 90]
}

df = pd.DataFrame(data)

groupsOfLecture = df.groupby('Ders')
meanOfTheLectures = groupsOfLecture['Not'].mean()
print("Averages according to lectures: \n", meanOfTheLectures)
print("---------------------------------")


Averages according to lectures: 
 Ders
Fizik        86.428571
Kimya        88.333333
Matematik    83.857143
Name: Not, dtype: float64
---------------------------------
