# VeriSeti Okuma

In [22]:
import numpy as np
import pandas as pd

Alttaki kod pandas kütüphanesini kullanarak "ogrenciler.xlsx" adlı bir Excel dosyasını okuyup, elde edilen verileri Pandas DataFrame'e aktarıyor.

index_col=0: Bu parametre, DataFrame'in indeks sütununu belirtir. Yani, Excel dosyasındaki ilk sütun (sıfırıncı indeks) DataFrame'in indeks sütunu olarak ayarlanır. İndeks, her bir satırı benzersiz bir şekilde tanımlamak için kullanılır.

In [23]:
df = pd.read_excel('ogrenciler.xlsx', index_col=0)
print(df)

     isim  yazılı  sözlü  ortalama
o1   Ayşe      66     90      75.6
o2  Fatma      56     78      64.8
o3  Hasan      70     80      74.0
o4  Kemal      89     81      85.8
o5   Suna      10     90      42.0
o6  Özlem      78    100      86.8


### Satır ve Sütun Silme

Pandas, genellikle etiketleri kullanarak satır veya sütunları siler. Bu durumda, ['o2'] listesi hem bir sütun hem de bir satır etiketini temsil edebilir. Eğer belirtilen etiket hem satır hem de sütun olarak mevcutsa, Pandas genellikle ilk bulduğu etikete göre işlem yapar. Bu genellikle satırları ifade eden indeksi temsil eder. Eğer kesinlikle bir sütunu silmek istiyorsak, axis=1 parametresini kullanarak bunu belirtmeliyiz. Eğer bir satırı silmek istiyorsak, axis=0 veya index parametresini kullanabiliriz.

In [24]:
df2 = df.drop(['o2'])
print(df2)

     isim  yazılı  sözlü  ortalama
o1   Ayşe      66     90      75.6
o3  Hasan      70     80      74.0
o4  Kemal      89     81      85.8
o5   Suna      10     90      42.0
o6  Özlem      78    100      86.8


In [25]:
df3 = df.drop("o3", axis=0)
print (df3)

     isim  yazılı  sözlü  ortalama
o1   Ayşe      66     90      75.6
o2  Fatma      56     78      64.8
o4  Kemal      89     81      85.8
o5   Suna      10     90      42.0
o6  Özlem      78    100      86.8


In [26]:
df2 = df2.drop(['ortalama'], axis=1)
print(df2)

     isim  yazılı  sözlü
o1   Ayşe      66     90
o3  Hasan      70     80
o4  Kemal      89     81
o5   Suna      10     90
o6  Özlem      78    100


### Excel'e Indexsiz Veri Yazma

df2.to_excel('indexsiz_tablo.xlsx'): Bu satır, df2 DataFrame'indeki verileri 'indexsiz_tablo.xlsx' adlı bir Excel dosyasına yazar.
index=False: Bu parametre, Excel dosyasında indeks sütununun oluşturulmasını engeller. Yani, DataFrame'deki satırların solundaki indeks numaraları veya etiketleri Excel dosyasına yazdırılmaz.

In [27]:
df2.to_excel('indexsiz_tablo.xlsx', index=False)

### Verilere Erişme

In [28]:
print(df.loc['o3':'o6']['isim']) 
#'o3' ile 'o6' arasındaki satırları seçip, bu satırlardan sadece 'isim' sütunundaki verileri alır ve ekrana yazdırır.

o3    Hasan
o4    Kemal
o5     Suna
o6    Özlem
Name: isim, dtype: object


In [29]:
print(df.iloc[1:3]['ortalama']) 
# df DataFrame'inden 1. ve 2. indeksli satırları seçer (sayısal indekse göre)  sadece 'ortalama' sütunundaki verileri alır

o2    64.8
o3    74.0
Name: ortalama, dtype: float64


# CSV Dosyaları

### CSV Dosyası Yaratma

In [30]:
import pandas as pd

# Create a DataFrame from the data
sensor = {
    "interval": [0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3, 0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3],
    "sensor": ["accel", "accel", "accel", "accel", "accel", "accel", "accel", "accel", "accel", "accel", "accel", "accel", "orientation", "orientation", "orientation", "orientation", "orientation", "orientation", "orientation", "orientation", "orientation", "orientation", "orientation", "orientation"],
    "axis": ["Z", "Y", "X", "Z", "Y", "X", "Z", "Y", "X", "Z", "Y", "X", "Z", "Y", "X", "Z", "Y", "X", "Z", "Y", "X", "Z", "Y", "X"],
    "reading": [0.0, 0.5, 1.0, 0.1, 0.4, 0.9, 0.2, 0.3, 0.8, 0.3, 0.2, 0.7, 0.0, 0.1, 0.0, 0.0, 0.2, 0.1, 0.0, 0.3, 0.2, 0.0, 0.4, 0.3]
}

df = pd.DataFrame(sensor)

# Save the DataFrame as a CSV file
df.to_csv("sensor.csv", index=False)

In [31]:
sensor_data = pd.read_csv("sensor.csv")
sensor_data

Unnamed: 0,interval,sensor,axis,reading
0,0,accel,Z,0.0
1,0,accel,Y,0.5
2,0,accel,X,1.0
3,1,accel,Z,0.1
4,1,accel,Y,0.4
5,1,accel,X,0.9
6,2,accel,Z,0.2
7,2,accel,Y,0.3
8,2,accel,X,0.8
9,3,accel,Z,0.3


In [32]:
sensor_grubu = sensor_data.groupby('sensor')
sensor_grubu # Bir gruplama nesnesi

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000027A97591400>

Bu gruplama nesnesi içinde, "accel" ve "orientation" gibi farklı sensör türlerine ait veriler ayrı ayrı gruplara ayrılmıştır.

sensor_grubu.get_group("accel") Kodunun Açıklaması
Bu kod parçası, daha önce sensor_data veri çerçevesini "sensor" sütununa göre gruplandırdığımız sensor_grubu nesnesinden, "accel" (ivme sensörü) verilerini içeren grubu seçer.

Adım Adım Açıklama:
sensor_grubu: Bu, daha önce sensor_data.groupby('sensor') komutu ile oluşturduğumuz bir gruplama nesnesidir. Bu nesne içinde, "accel" ve "orientation" gibi farklı sensör türlerine ait veriler ayrı ayrı gruplara ayrılmıştır.
get_group("accel"): Bu metod, sensor_grubu nesnesinden belirtilen adı taşıyan grubu seçer. Bu durumda, "accel" adlı grubu seçerek, sadece ivme sensörüne ait tüm verileri içeren bir veri çerçevesi elde ederiz.
Ne İşe Yarar?
Veri Parçalama: Tüm veri çerçevesinden sadece ilgilendiğimiz bir kısmını (örneğin, sadece ivme sensörü verilerini) ayırmak için kullanılır.
Ayrı Analizler: Farklı sensör türlerine ait verileri ayrı ayrı analiz etmek istediğimizde bu metod çok kullanışlıdır. Örneğin, sadece ivme sensörü verileri üzerinde istatistiksel hesaplamalar yapabilir, grafikler çizebilir veya makine öğrenmesi modellerine veri olarak verebiliriz.

In [33]:
sensor_grubu.get_group("accel")


Unnamed: 0,interval,sensor,axis,reading
0,0,accel,Z,0.0
1,0,accel,Y,0.5
2,0,accel,X,1.0
3,1,accel,Z,0.1
4,1,accel,Y,0.4
5,1,accel,X,0.9
6,2,accel,Z,0.2
7,2,accel,Y,0.3
8,2,accel,X,0.8
9,3,accel,Z,0.3


In [34]:
sensor_grubu.get_group("accel")[0:5]

Unnamed: 0,interval,sensor,axis,reading
0,0,accel,Z,0.0
1,0,accel,Y,0.5
2,0,accel,X,1.0
3,1,accel,Z,0.1
4,1,accel,Y,0.4


In [35]:
sensor_grubu.get_group("accel")["axis"][0:5]

0    Z
1    Y
2    X
3    Z
4    Y
Name: axis, dtype: object

Ngroups Metodu

Nesne içinde kaç tane farklı grup olduğunu verir.

In [36]:
sensor_grubu.ngroups

2

Groups Metodu

Bu attribute gruplama nesnesinin her bir grubun adını ve o gruba ait verilerin indekslerini içeren bir sözlük döndürür.

In [37]:
sensor_grubu.groups

{'accel': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], 'orientation': [12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23]}

Gruplama Seviyesi: sensor_grubu nesnesi, "sensor" sütununa göre gruplandırılmıştır. Yani, her bir grupta farklı sensör türleri bulunmaktadır.
"axis" Sütunundaki Değerler: "axis" sütunundaki değerler genellikle kategorik verilerdir (X, Y, Z gibi). Bu tür verileri toplamak anlamlı değildir.

In [38]:
sensor_grubu["axis"].sum()

sensor
accel          ZYXZYXZYXZYX
orientation    ZYXZYXZYXZYX
Name: axis, dtype: object

Her bir gruptaki "axis" sütunundaki farklı değerlerin sayısını öğrenmek istiyorsak, aşağıdaki gibi bir kod kullanabiliriz:

In [39]:
sensor_grubu["axis"].value_counts()

sensor       axis
accel        X       4
             Y       4
             Z       4
orientation  X       4
             Y       4
             Z       4
Name: count, dtype: int64

Bu kod, bir veri çerçevesini gruplandırdıktan sonra, her bir gruptaki sayısal verilerin özet istatistiklerini hesaplar ve bu istatistikleri tablo şeklinde gösterir.
.describe(): Bu metod, sayısal sütunlar için otomatik olarak bazı özet istatistikleri hesaplar. Bu istatistikler genellikle şunları içerir:
count: Gözlem sayısı
mean: Ortalama
std: Standart sapma
min: Minimum değer
25%: 1. çeyrek
50%: Medyan (2. çeyrek)
75%: 3. çeyrek
max: Maksimum değer
----
.T: Bu metod, tablonun transpozunu alır. Yani satırları sütun, sütunları satır yapar. Bu sayede, istatistiklerimiz satırlarda, gruplarımız ise sütunlarda yer alır, daha okunaklı bir görüntü elde ederiz.

Ne İşe Yarar?

Hızlı Veri Özeti: Her bir gruptaki verilerin genel bir resmini hızlıca elde etmek için kullanılır.
Veri Analizi: Verilerin dağılımı, merkezi eğilim ve değişkenlik hakkında bilgi verir.
Aykırı Değer Tespiti: Minimum ve maksimum değerlere bakarak aykırı değerler olup olmadığını kontrol edebiliriz.
Karşılaştırma: Farklı gruplar arasındaki istatistiksel farklılıkları görselleştirerek karşılaştırma yapabiliriz.

In [42]:
sensor_grubu.describe()

Unnamed: 0_level_0,interval,interval,interval,interval,interval,interval,interval,interval,reading,reading,reading,reading,reading,reading,reading,reading
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
sensor,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
accel,12.0,1.5,1.167748,0.0,0.75,1.5,2.25,3.0,12.0,0.45,0.32891,0.0,0.2,0.35,0.725,1.0
orientation,12.0,1.5,1.167748,0.0,0.75,1.5,2.25,3.0,12.0,0.133333,0.143548,0.0,0.0,0.1,0.225,0.4


In [43]:
df

Unnamed: 0,interval,sensor,axis,reading
0,0,accel,Z,0.0
1,0,accel,Y,0.5
2,0,accel,X,1.0
3,1,accel,Z,0.1
4,1,accel,Y,0.4
5,1,accel,X,0.9
6,2,accel,Z,0.2
7,2,accel,Y,0.3
8,2,accel,X,0.8
9,3,accel,Z,0.3


Bir veri çerçevesindeki satır sayısını hesaplamak

.shape: Bu attribute, bir DataFrame'in boyutunu (satır ve sütun sayısını) bir tuple olarak verir. Örneğin, (100, 5) gibi bir çıktı verebilir, bu da DataFrame'in 100 satır ve 5 sütun olduğunu gösterir.

[0]: Tuple'ın ilk elemanı (indeksi 0 olan eleman), satır sayısını verir. Yani, df.shape bize bir tuple verirken, df.shape[0] bu tuple'ın ilk elemanını, yani satır sayısını alır.

In [50]:
x = df.shape[0]
print (x)

24


In [47]:
df.dtypes

interval      int64
sensor       object
axis         object
reading     float64
dtype: object

df.info() metodu, bir veri çerçevesinin "kimlik kartı" gibidir. Veri çerçevesi hakkında hızlı bir genel bakış sunarak, veri temizleme, analiz ve modelleme aşamalarında size yol gösterir.

Sütunların veri tipleri: Her bir sütunun hangi veri tipine (örneğin, int64, float64, object) sahip olduğunu gösterir.
Eksik değerler: Her bir sütundaki eksik değerlerin sayısını gösterir.
Bellek kullanımı: Veri çerçevesinin toplam ne kadar bellek kullandığını gösterir.
Satır ve sütun sayısı: Veri çerçevesindeki toplam satır ve sütun sayısını gösterir.
gibi bilgileri tek bir bakışta görebiliriz.

In [51]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   interval  24 non-null     int64  
 1   sensor    24 non-null     object 
 2   axis      24 non-null     object 
 3   reading   24 non-null     float64
dtypes: float64(1), int64(1), object(2)
memory usage: 900.0+ bytes
