# Excel dosyasını oku ve düzenle

Bu bölümde **Excel** ve **Calc** programları ile oluşturulan hesap tablolarının Veri Çerçevelerine (Data Frame'e) dönüştürülerek çalışmalarımıza dahil edilmesi konusunu detayı olarak inceleyeceğiz.

## read_excel() fonksiyonu

**Excel** ve **Calc** dosyalarının içeriğini çalışmamıza dahil etmek için **read_excel()** fonksiyonunu kullanmalıyız.

<u>Bu fonksiyon;</u>

- **xls, xlsx, xlsm, xlsb, odf, ods** ve odt **uzantılı** dosyaları destekler.
  
- Yerel bir dosya sisteminde veya bir URL'den depolanan excel dosyalarını yükleyebilir.
  
- URL için **http, ftp, s3** ve **dosya**yı destekler.
  
- Ayrıca tek bir çalışma sayfasından veya bir sayfa listesinden okumayı da destekler.
  
- İki sayfayı okunurken, **DataFrame**'i bir Sözluk yapısı (Dict) döndürür.

**pd.read_excel(dosya_adi)**

Bu fonksiyon kullanıldığında, varsayılan olarak, excel dosyasının **ilk çalışma sayfası** yüklenir ve **ilk satır bir Veri Çerçevesi (DataFrame) başlığı (sütun adı)** olarak ayarlanır.

### header ve names Parametreleri

**read_excel ()** fonksiyonu, Excel'deki ilk satırı varsayılan olarak bir başlık kabul eder ve bunu Veri Çerçevesi (DataFrame) sütun adları olarak kullanır. Excel dosyasındaki ilk satırın başlık değil, bir veri olduğu düşünüldüğünde, yani sadece verilerden oluşan excel dosyası ile çalıştığımızda, **header=None** parametresi kullanılmalıdır. Bu durumda Başlık (sütun adlarını) belirtmek için **names** parametresi kullanılır.

İlk olarak **OSD** uzantılı bir dosyayı çalışmamıza dahil edip içeriğine bakalım.

In [24]:
import pandas as pd
basliksiz = pd.read_excel("Veri_Setleri/basliksiz.ods")
basliksiz.head()

Unnamed: 0,9,82,246
0,7,78,180
1,8,83,565
2,6,82,486
3,4,37,615
4,2,18,341


Gördüğünüz gibi ilk satır başlık değil, veriden oluşuyor. Bunu **header=None** ve **names** parametreleri ile düzenleyelim.

In [25]:
baslik = ["Birler", "Onlar", "Yüzler"]
basliksiz = pd.read_excel("Veri_Setleri/basliksiz.ods", header = None, names = baslik )
basliksiz.head()

Unnamed: 0,Birler,Onlar,Yüzler
0,9,82,246
1,7,78,180
2,8,83,565
3,6,82,486
4,4,37,615


Aylara göre doğum sayılarını barındıran dosyamızı çalışmamıza dahil edip ilk 5 veriye göz atalım.

In [26]:
dogumlar = pd.read_excel("Veri_Setleri/AyaGöreDoğumlar.xlsx")
dogumlar.head()

Unnamed: 0,Yıl,Toplam,Ocak,Şubat,Mart,Nisan,Mayıs,Haziran,Temmuz,Ağustos,Eylül,Ekim,Kasım,Aralık
0,2001,1323341,170397,103476,107912,102585,110391,111722,119752,120963,109590,103662,92554,70337
1,2002,1229555,155065,103446,102175,95976,99501,102627,109747,108061,99701,96216,89285,67755
2,2003,1198927,138670,89548,101046,92574,99531,104644,109225,109159,98766,94838,89542,71384
3,2004,1222484,141538,94596,100696,100801,102214,105728,111102,110425,98492,94840,90833,71219
4,2005,1244041,142311,94234,100529,97441,106833,108536,111066,111430,103273,103310,92364,72714


## sheet_name Parametresi

Excel dosyamızın içinde birden fazla çalışma sayfası (sekme) bulunması halinde, istediğimiz çalışma sayfasına erişebilmek için, **sheet_name** parametresini kullanmalıyız.

In [27]:
dogumlar = pd.read_excel("Veri_Setleri/AyaGöreDoğumlar.xlsx", sheet_name = "ortalama")
dogumlar.head()

Unnamed: 0,Yıl,Toplam,Ortalama
0,2001,1323341,110278.416667
1,2002,1229555,102462.916667
2,2003,1198927,99910.583333
3,2004,1222484,101873.666667
4,2005,1244041,103670.083333


Gördüğünüz gibi, kodumuza **sheet_name = "ortalama"** ibaresi ekleyerek, aynı excel dosyasının **ortalama** isimli çalışma sayfasındaki verileri, çalışmamıza veri çerçevesi olarak ekledik.

Birden fazla çalışma sayfasını, çalışmamıza dahil etmek (içe aktarmak) istersek, **sheet_name** parametresine bir liste girdisi vermeliyiz. Bu durumda çıktı, bir **sözlük yapısı (dict)** olacaktır.

In [None]:
dogumlar = pd.read_excel("Veri_Setleri/AyaGöreDoğumlar.xlsx", sheet_name = ["ortalama", "2001-2021"])
dogumlar

## İndeks değerlerini Ayarlamak

## index_col() Fonksiyonu

Veri Çerçevemiz içerisinde bulunan sütunlardan birini, indeks değeri olarak ayarlamak istersek, **index_col()** fonksiyonunu kullanabiliriz.