# Pandas İle Veri Okuma

Python'da Pandas kütüphanesi ile çeşitli dosya formatlarından verileri kolayca okuyabilirsiniz. Pandas, özellikle CSV, Excel, JSON, SQL ve benzeri veri kaynaklarıyla çalışmak için çok uygun bir kütüphanedir. Pandas'ın en sık kullanılan fonksiyonlarından biri read_csv()'dir.

# Pandas ile CSV Dosyası Okuma

CSV (Comma Separated Values) dosyaları, verilerin virgülle ayrıldığı düz metin dosyalarıdır. Pandas'ın read_csv() fonksiyonu, CSV dosyalarını DataFrame'e dönüştürmek için kullanılır.

In [1]:
import pandas as pd

# CSV dosyasını oku
veri = pd.read_csv('iris.csv')

# Verinin ilk 5 satırını göster
print(veri.head())

   sepal.length  sepal.width  petal.length  petal.width variety
0           5.1          3.5           1.4          0.2  Setosa
1           4.9          3.0           1.4          0.2  Setosa
2           4.7          3.2           1.3          0.2  Setosa
3           4.6          3.1           1.5          0.2  Setosa
4           5.0          3.6           1.4          0.2  Setosa


pd.read_csv('veri.csv') ile CSV dosyası okunur ve Pandas DataFrame formatında veri değişkenine atanır.
veri.head() fonksiyonu, DataFrame'in ilk 5 satırını gösterir.

pandas ile okuduğunuz bir veriyi .values özelliği kullanarakNumpy dizisine çevirebilirsiniz

Kullanımı
print(veri.values)

### read_csv() Fonksiyonunun Önemli Parametreleri

read_csv() fonksiyonu, veriyi okurken çeşitli parametrelerle daha detaylı işlemler yapmanıza olanak tanır. İşte en sık kullanılan parametrelerden bazıları:

# sep: 
Sütunları ayıran karakteri belirtir. Varsayılan olarak virgül (,) kullanılır.

In [4]:
veri = pd.read_csv('iris.csv', sep=';')  # Veriler noktalı virgülle ayrılmışsa
print(veri.head())

  sepal.length,"sepal.width","petal.length","petal.width","variety"
0                            5.1,3.5,1.4,.2,"Setosa"               
1                              4.9,3,1.4,.2,"Setosa"               
2                            4.7,3.2,1.3,.2,"Setosa"               
3                            4.6,3.1,1.5,.2,"Setosa"               
4                              5,3.6,1.4,.2,"Setosa"               


# header: 
Başlık satırını belirtir. Varsayılan olarak ilk satır başlık olarak kullanılır.

In [19]:
veri=pd.read_csv('iris.csv',header=0) # 0. satır başlık olarak alınır
print(veri)

     sepal.length  sepal.width  petal.length  petal.width    variety
0             5.1          3.5           1.4          0.2     Setosa
1             4.9          3.0           1.4          0.2     Setosa
2             4.7          3.2           1.3          0.2     Setosa
3             4.6          3.1           1.5          0.2     Setosa
4             5.0          3.6           1.4          0.2     Setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  Virginica
146           6.3          2.5           5.0          1.9  Virginica
147           6.5          3.0           5.2          2.0  Virginica
148           6.2          3.4           5.4          2.3  Virginica
149           5.9          3.0           5.1          1.8  Virginica

[150 rows x 5 columns]


# index_col:
Belirli bir sütunu indeks olarak ayarlamak için kullanılır.

In [18]:
veri = pd.read_csv('iris.csv', index_col='variety')  # 'ID' sütunu indeks olur
print(veri)

           sepal.length  sepal.width  petal.length  petal.width
variety                                                        
Setosa              5.1          3.5           1.4          0.2
Setosa              4.9          3.0           1.4          0.2
Setosa              4.7          3.2           1.3          0.2
Setosa              4.6          3.1           1.5          0.2
Setosa              5.0          3.6           1.4          0.2
...                 ...          ...           ...          ...
Virginica           6.7          3.0           5.2          2.3
Virginica           6.3          2.5           5.0          1.9
Virginica           6.5          3.0           5.2          2.0
Virginica           6.2          3.4           5.4          2.3
Virginica           5.9          3.0           5.1          1.8

[150 rows x 4 columns]


# usecols: 
Belirli sütunları seçerek sadece bu sütunları yüklemek için kullanılır.

In [17]:
veri = pd.read_csv('iris.csv', usecols=['sepal.length', 'sepal.width'])  # Sadece 'Ad' ve 'Soyad' sütunlarını oku
print(veri)

     sepal.length  sepal.width
0             5.1          3.5
1             4.9          3.0
2             4.7          3.2
3             4.6          3.1
4             5.0          3.6
..            ...          ...
145           6.7          3.0
146           6.3          2.5
147           6.5          3.0
148           6.2          3.4
149           5.9          3.0

[150 rows x 2 columns]


# na_values: 
Eksik değerleri belirtmek için kullanılır.

In [16]:
veri = pd.read_csv('iris.csv', na_values=['NaN', 'null'])  # 'NaN' ve 'null' değerlerini eksik olarak tanır
print(veri)


     sepal.length  sepal.width  petal.length  petal.width    variety
0             5.1          3.5           1.4          0.2     Setosa
1             4.9          3.0           1.4          0.2     Setosa
2             4.7          3.2           1.3          0.2     Setosa
3             4.6          3.1           1.5          0.2     Setosa
4             5.0          3.6           1.4          0.2     Setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  Virginica
146           6.3          2.5           5.0          1.9  Virginica
147           6.5          3.0           5.2          2.0  Virginica
148           6.2          3.4           5.4          2.3  Virginica
149           5.9          3.0           5.1          1.8  Virginica

[150 rows x 5 columns]


# skiprows:
Belirli sayıda satırı atlamak için kullanılır.

In [15]:
veri = pd.read_csv('iris.csv', skiprows=1)  # İlk satırı atla
print(veri)

     5.1  3.5  1.4   .2     Setosa
0    4.9  3.0  1.4  0.2     Setosa
1    4.7  3.2  1.3  0.2     Setosa
2    4.6  3.1  1.5  0.2     Setosa
3    5.0  3.6  1.4  0.2     Setosa
4    5.4  3.9  1.7  0.4     Setosa
..   ...  ...  ...  ...        ...
144  6.7  3.0  5.2  2.3  Virginica
145  6.3  2.5  5.0  1.9  Virginica
146  6.5  3.0  5.2  2.0  Virginica
147  6.2  3.4  5.4  2.3  Virginica
148  5.9  3.0  5.1  1.8  Virginica

[149 rows x 5 columns]


# nrows:
Yüklemek istediğiniz satır sayısını belirtir.

In [14]:
veri = pd.read_csv('iris.csv', nrows=10)  # Sadece ilk 10 satırı oku
print(veri)

   sepal.length  sepal.width  petal.length  petal.width variety
0           5.1          3.5           1.4          0.2  Setosa
1           4.9          3.0           1.4          0.2  Setosa
2           4.7          3.2           1.3          0.2  Setosa
3           4.6          3.1           1.5          0.2  Setosa
4           5.0          3.6           1.4          0.2  Setosa
5           5.4          3.9           1.7          0.4  Setosa
6           4.6          3.4           1.4          0.3  Setosa
7           5.0          3.4           1.5          0.2  Setosa
8           4.4          2.9           1.4          0.2  Setosa
9           4.9          3.1           1.5          0.1  Setosa


# Names Argümanı

Pandas'ın read_csv() fonksiyonunda kullanılan names argümanı, okunan CSV dosyasındaki sütunlara manuel olarak isim vermenizi sağlar. Normalde CSV dosyasındaki ilk satırda sütun isimleri varsa, Pandas bu satırdaki isimleri kullanır. Ancak eğer CSV dosyasında sütun isimleri yoksa veya farklı sütun isimleri vermek istiyorsanız, names argümanını kullanarak sütun isimlerini belirleyebilirsiniz.

Örnek 1: CSV Dosyasında Sütun İsimleri Olmayan Bir Dosyayı Okuma

In [25]:
import pandas as pd

# CSV dosyasını okurken sütun isimlerini manuel olarak belirtiyoruz
veri = pd.read_csv('iris.csv', names=['Tür'])

# İlk 5 satırı göster
print(veri.head())

                                                       Tür
sepal.length sepal.width petal.length petal.width  variety
5.1          3.5         1.4          .2            Setosa
4.9          3           1.4          .2            Setosa
4.7          3.2         1.3          .2            Setosa
4.6          3.1         1.5          .2            Setosa


Örnek 2: İlk Satırı Sütun İsimleri Olarak Kullanmayıp Kendi İsimlerinizi Verme
Eğer CSV dosyanızın ilk satırında zaten sütun isimleri varsa ancak siz farklı isimler vermek istiyorsanız, aynı zamanda header=None parametresini de ekleyebilirsiniz.

In [29]:
import pandas as pd

# İlk satırı veri olarak kabul ediyoruz ve sütun isimlerini kendimiz belirliyoruz
veri = pd.read_csv('iris.csv', names=['Ad', 'Soyad', 'Yaş','Genislik','Yükseklik'], header=0)
# Burada header 0 verilir çünkü sıfırıncı satır headerlardan oluşur onun yerine kendimiz headerları tanımladık
# İlk 5 satırı göster
print(veri.head())

    Ad  Soyad  Yaş  Genislik Yükseklik
0  5.1    3.5  1.4       0.2    Setosa
1  4.9    3.0  1.4       0.2    Setosa
2  4.7    3.2  1.3       0.2    Setosa
3  4.6    3.1  1.5       0.2    Setosa
4  5.0    3.6  1.4       0.2    Setosa


# Pandas ile Excel Dosyalarını Okuma

Pandas, Excel dosyalarını kolayca okumak ve üzerinde veri analizi yapmak için kullanılan güçlü bir kütüphanedir. Excel dosyalarındaki verileri Pandas ile okumak için read_excel() fonksiyonunu kullanırız. Bu fonksiyon, Excel dosyasını bir DataFrame olarak döner ve üzerinde analiz yapmayı sağlar.

Pandas ile Excel dosyasını okumak için aşağıdaki adımları izleyebilirsiniz:

### 1. Gerekli Kütüphaneleri Yükleyin

Excel dosyalarını okumak için Pandas'ın yanı sıra openpyxl gibi ek kütüphaneler de yüklemeniz gerekebilir. Genelde Pandas, Excel dosyalarını işlemek için bu kütüphaneyi kullanır.

In [30]:
pip install pandas openpyxl

Note: you may need to restart the kernel to use updated packages.


### 2. Excel Dosyasını Okuma

In [31]:
import pandas as pd

# Excel dosyasını oku
veri = pd.read_excel('iris.xls')

# İlk 5 satırı göster
print(veri.head())

   Unnamed: 0         Unnamed: 1        Unnamed: 2         Unnamed: 3  \
0         NaN  Sepal Length (cm)  Sepal Width (cm)  Petal Length (cm)   
1         NaN                  7               3.2                4.7   
2         NaN                6.4               3.2                4.5   
3         NaN                6.9               3.1                4.9   
4         NaN                5.5               2.3                  4   

         Unnamed: 4       Unnamed: 5  Unnamed: 6  Unnamed: 7 Unnamed: 8  \
0  Petal Width (cm)            Class         NaN         NaN      alpha   
1               1.4  Iris-versicolor         NaN         0.0          0   
2               1.5  Iris-versicolor         NaN         0.0        NaN   
3               1.5  Iris-versicolor         NaN         0.0        NaN   
4               1.3  Iris-versicolor         NaN         0.0        NaN   

  Unnamed: 9  Unnamed: 10  Unnamed: 11  
0        obj          NaN          NaN  
1          0          0.0   

### 3. Belirli Bir Sayfayı (Sheet) Okuma

Excel dosyasında birden fazla sayfa olabilir. sheet_name parametresi ile hangi sayfanın okunacağını belirtebilirsiniz.

In [34]:
import pandas as pd

# Belirli bir sayfayı okuma (örneğin, 'Sayfa1')
veri = pd.read_excel('iris.xls', sheet_name='Sheet1')

# İlk 5 satırı göster
print(veri.head())

   Unnamed: 0         Unnamed: 1        Unnamed: 2         Unnamed: 3  \
0         NaN  Sepal Length (cm)  Sepal Width (cm)  Petal Length (cm)   
1         NaN                  7               3.2                4.7   
2         NaN                6.4               3.2                4.5   
3         NaN                6.9               3.1                4.9   
4         NaN                5.5               2.3                  4   

         Unnamed: 4       Unnamed: 5  Unnamed: 6  Unnamed: 7 Unnamed: 8  \
0  Petal Width (cm)            Class         NaN         NaN      alpha   
1               1.4  Iris-versicolor         NaN         0.0          0   
2               1.5  Iris-versicolor         NaN         0.0        NaN   
3               1.5  Iris-versicolor         NaN         0.0        NaN   
4               1.3  Iris-versicolor         NaN         0.0        NaN   

  Unnamed: 9  Unnamed: 10  Unnamed: 11  
0        obj          NaN          NaN  
1          0          0.0   

### 4. Birden Fazla Sayfayı Aynı Anda Okuma

Bir Excel dosyasındaki tüm sayfaları veya birden fazla sayfayı aynı anda okumak mümkündür. Bunun için sheet_name parametresine bir liste ya da "None" değeri verebilirsiniz.

In [36]:
# Birden fazla sayfa okuma (örn: Sayfa1 ve Sayfa2)
veriler = pd.read_excel('iris.xls', sheet_name=['Sheet1', 'Sheet1'])

# Her sayfa için ayrı bir DataFrame oluşturulur
print(veriler['Sheet1'].head())  # Sayfa1'in ilk 5 satırı
print(veriler['Sheet1'].head())  # Sayfa2'nin ilk 5 satırı

   Unnamed: 0         Unnamed: 1        Unnamed: 2         Unnamed: 3  \
0         NaN  Sepal Length (cm)  Sepal Width (cm)  Petal Length (cm)   
1         NaN                  7               3.2                4.7   
2         NaN                6.4               3.2                4.5   
3         NaN                6.9               3.1                4.9   
4         NaN                5.5               2.3                  4   

         Unnamed: 4       Unnamed: 5  Unnamed: 6  Unnamed: 7 Unnamed: 8  \
0  Petal Width (cm)            Class         NaN         NaN      alpha   
1               1.4  Iris-versicolor         NaN         0.0          0   
2               1.5  Iris-versicolor         NaN         0.0        NaN   
3               1.5  Iris-versicolor         NaN         0.0        NaN   
4               1.3  Iris-versicolor         NaN         0.0        NaN   

  Unnamed: 9  Unnamed: 10  Unnamed: 11  
0        obj          NaN          NaN  
1          0          0.0   

### 5. Belirli Sütunları Okuma

Eğer Excel dosyanızdaki belirli sütunları okumak istiyorsanız, usecols parametresi ile sütunları seçebilirsiniz.

In [37]:
# Belirli sütunları okuma (örneğin, A ve B sütunları)
veri = pd.read_excel('iris.xls', usecols="A:B")

# İlk 5 satırı göster
print(veri.head())

   Unnamed: 0         Unnamed: 1
0         NaN  Sepal Length (cm)
1         NaN                  7
2         NaN                6.4
3         NaN                6.9
4         NaN                5.5


### 6. Belirli Satırları Atlamak

Eğer bazı satırları atlamak isterseniz, skiprows parametresi ile belirli sayıda satırı atlayabilirsiniz.

In [38]:
# İlk 2 satırı atla
veri = pd.read_excel('iris.xls', skiprows=2)

# İlk 5 satırı göster
print(veri.head())

   Unnamed: 0    7  3.2  4.7  1.4  Iris-versicolor  Unnamed: 6    0  0.1  0.2  \
0         NaN  6.4  3.2  4.5  1.5  Iris-versicolor         NaN  0.0  NaN  NaN   
1         NaN  6.9  3.1  4.9  1.5  Iris-versicolor         NaN  0.0  NaN  NaN   
2         NaN  5.5  2.3  4.0  1.3  Iris-versicolor         NaN  0.0  NaN  NaN   
3         NaN  6.5  2.8  4.6  1.5  Iris-versicolor         NaN  NaN  NaN  NaN   
4         NaN  5.7  2.8  4.5  1.3  Iris-versicolor         NaN  NaN  NaN  NaN   

   0.3  1  
0    0  1  
1    0  1  
2    0  1  
3    0  1  
4    0  1  


### 7. Belirli Sayıda Satırı Okuma

Belirli sayıda satır okumak için nrows parametresini kullanabilirsiniz.

In [39]:
# Sadece ilk 10 satırı oku
veri = pd.read_excel('iris.xls', nrows=10)

# İlk 5 satırı göster
print(veri.head())

   Unnamed: 0         Unnamed: 1        Unnamed: 2         Unnamed: 3  \
0         NaN  Sepal Length (cm)  Sepal Width (cm)  Petal Length (cm)   
1         NaN                  7               3.2                4.7   
2         NaN                6.4               3.2                4.5   
3         NaN                6.9               3.1                4.9   
4         NaN                5.5               2.3                  4   

         Unnamed: 4       Unnamed: 5  Unnamed: 6  Unnamed: 7 Unnamed: 8  \
0  Petal Width (cm)            Class         NaN         NaN      alpha   
1               1.4  Iris-versicolor         NaN         0.0          0   
2               1.5  Iris-versicolor         NaN         0.0        NaN   
3               1.5  Iris-versicolor         NaN         0.0        NaN   
4               1.3  Iris-versicolor         NaN         0.0        NaN   

  Unnamed: 9  Unnamed: 10  Unnamed: 11  
0        obj          NaN          NaN  
1          0          0.0   

# SAS Dosyalarını Okuma


Pandas kütüphanesiyle SAS (Statistical Analysis System) dosyalarını da kolayca okuyabilirsiniz. SAS, genellikle veri analizi ve istatistiksel modelleme için kullanılan bir dosya formatıdır. Pandas, SAS dosyalarını okumak ve analiz etmek için read_sas() fonksiyonunu sağlar.

### 1. Gerekli Kütüphaneleri Yükleyin
SAS dosyalarını okumak için Pandas'a ek olarak sas7bdat veya pyreadstat gibi ek kütüphanelere ihtiyacınız olabilir. Bu kütüphaneleri yüklemeniz gereklidir.

### 2. SAS Dosyasını Okuma
Pandas'ın read_sas() fonksiyonu ile SAS dosyasını okuyabilirsiniz.

Bu kodda:

read_sas('dosya.sas7bdat') fonksiyonu ile belirtilen SAS dosyası bir DataFrame olarak okunur.
veri.head() ile SAS dosyasındaki ilk 5 satır ekrana yazdırılır.

## 3) STATA dosyasını Okuma

Stata sosyal bilimler ve ekonomi alanında kullanılan bir analiz programıdır. ".dta" uzantısı olan dosyaları mevcuttur. Pandas kütüphanesinin .read_stata() metodu ile okunur. 

### 4) HDF5 Dosyalarını Okuma

HDF5 dosyaları (Hierarchical Data Format version 5), büyük ve karmaşık veri kümelerini depolamak ve yönetmek için kullanılan, yaygın ve esnek bir dosya formatıdır. HDF5 dosyaları, özellikle bilimsel araştırmalar ve büyük veri analizleri için oldukça kullanışlıdır çünkü büyük veri setlerini sıkıştırarak saklama ve bu verilere hızlı erişim sağlama gibi avantajlar sunar.

Pandas ve h5py gibi Python kütüphaneleri ile HDF5 dosyalarını okuyabilir ve yazabilirsiniz.

### Pandas ile HDF5 Dosyalarını Okuma ve Yazma


Pandas kütüphanesi, HDF5 dosyalarını kolayca okumanıza ve yazmanıza olanak sağlar. Bunun için read_hdf() ve to_hdf() fonksiyonlarını kullanabilirsiniz.

Pandas ile HDF5 dosyasını okumak için şu adımları izleyebilirsiniz: