# Pandas

Pandas veri bilimcileri için Python'da muhtemelen en çok kullanılan pakettir. NumPy üzerine inşa edilmiş bir paket olarak, veri manipülasyon, organizasyon ve modelleme için çok önemlidir. Burada paketin temel işlevlerinin yanı sıra temel veri yapısı olan “veri çerçevesi / data frame”ni tanıtacağız. Önce kısaltması “pd” olan paketi import etmemiz gerekiyor. Ayrıca NumPy'yi import edeceğiz.


In [1]:
import pandas as pd
import numpy as np



## Veri Çerçevesi / The Data Frame

Veri çerçevesi, kolon adları ve satır indeksleme gibi birkaç ek özellik içeren bir NumPy dizisi gibidir. Muhtemelen veri bilim adamlarının verileri işleyişindeki birincil yoldur. Csv dosyalarından, veritabanlarını sorgulayarak veya açıkça gibi farklı şekillerde bir veri çerçevesi oluşturabilirsiniz. Ilk veri çerçeveniz için, bir önceki ödevde oluşturduğumuz 2 boyutlu diziyi hatırlayalım. Veri çerçevesi oluşturmak için pd.DataFrame () fonksiyonunu kullanın ve bir NumPy dizisinde geçirin:



In [31]:
my_array = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
df = pd.DataFrame(my_array)
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7



__Şimdi ilk veri çerçeveniz var!__

Excel'e aşina iseniz, Çoğu Pandas size tanıdık gelebilir. Veri çerçeveleri, isim verilebilen satır ve kolonlar olarak düzenlenmiştir. Kolonlar kolon adları, satırlar ise bir indeks numarası ile (varsayılan  olarak sıfır ile başlayarak) etiketlenir. Veri çerçevesinin oluşturulması sırasında veya sonrasında hem kolon isimlerini hem de indeksleri ayarlayabilirsiniz. Her iki df için de ayarlayalım.


In [32]:
df.columns = ['first', 'this', 'that', 'last']
df.index = ['row_1', 'row_2']
df

Unnamed: 0,first,this,that,last
row_1,0,1,2,3
row_2,4,5,6,7


İşte bu daha iyi görünüyor.
İlk başta veri çerçevesini oluşturmak için pd.DataFrame () fonksiyonunu çağırdığınızda kolon ve indeks adlarını columns = veya index= anahtar kelime argümanları aracılığıyla da ayarlayabilirsiniz.


In [33]:
df2 = pd.DataFrame(
    my_array,
    columns=['first', 'this', 'that', 'last'],
    index=['row_1', 'row_2'])
df2

Unnamed: 0,first,this,that,last
row_1,0,1,2,3
row_2,4,5,6,7


Hangi yöntemi kullanırsanız kullanın, artık etiketli satır ve sütunlara sahip bir veri çerçevemiz var. Bu veri çerçeveleriyle çalışmak için yararlı olacaktır, çünkü bu elemanları kolayca kontrol edilebilir ve kodunuzu daha doğal ve okunması daha basit hale getirir.

Not: Muhtemelen iki yanında boşluk olan ” = “i atama için, “==”i ise karşılaştırma için kullanıyorsunuz. Python'da, okunabilirliği geliştirmek ve anahtar kelime argumanları değişken atamalarından ayırt etmeyi kolaylaştırmak için “=”in iki yanında boşluk kullanılmaması alışkanlığı yerleşmiştir.

#### Daha Fazla Veri Ekleme

Veri çerçevelerinin gerçekten ne yapabileceğini göstermek için biraz fazlasını yapmamız gerekir. Listeler aracılığıyla adlandırılmış sütunlara sahip bir veri çerçevesini bir araya getirelim. pd.DataFrame () fonksiyonunu çağırarak ve satır isimleri olarak kullanmak istediğiniz  indeksleri geçirerek boş bir veri çerçevesi oluşturabilirsiniz. Ardından df ['COLUMN_NAME'] = [LIST_OF_VALUES] kullanarak sütun ekleyin. Örnek:


In [2]:
# This list will become our row names.
names = ['Ahmet',
         'Ayşe',
         'Hagi',
         'Alex',
         'Gomis',
         'Hüseyin',
         'İpek',
         'Duru',
         'Einstein',
         'Franklin']

# Create an empty data frame with named rows.
purchases = pd.DataFrame(index=names)

# Add our columns to the data frame one at a time.
purchases['country'] = ['US', 'CAN', 'CAN', 'US', 'CAN', 'US', 'US', 'US', 'CAN', 'US']
purchases['ad_views'] = [16, 42, 32, 13, 63, 19, 65, 23, 16, 77]
purchases['items_purchased'] = [2, 1, 0, 8, 0, 5, 7, 3, 0, 5]
purchases 

Unnamed: 0,country,ad_views,items_purchased
Ahmet,US,16,2
Ayşe,CAN,42,1
Hagi,CAN,32,0
Alex,US,13,8
Gomis,CAN,63,0
Hüseyin,US,19,5
İpek,US,65,7
Duru,US,23,3
Einstein,CAN,16,0
Franklin,US,77,5


In [6]:
print(purchases["country"])

Ahmet        US
Ayşe        CAN
Hagi        CAN
Alex         US
Gomis       CAN
Hüseyin      US
İpek         US
Duru         US
Einstein    CAN
Franklin     US
Name: country, dtype: object


Bunun belirli bir yılda bir e-ticaret web sitesinin birkaç kullanıcısı için satın alma ve tarama geçmişi olduğunu varsayalım. Sayfa görüntüleme sayısı, sitede yükledikleri sayfa sayısı ve satın almalar (purchases) da o yıl satın aldıkları ürün sayısıdır.

Şimdi bir şeyler yapabileceğimiz bir veri çerçevemiz var. İlk olarak bir sütunu nokta notasyonu veya braket (köşeli parantez) notasyonu kullanan bir dizi olarak çağırabileceğinize dikkat edin: df.column_name veya df ['column_name'] her ikisi de çalışıyor. Bu nedenle purchases['Name'], e-ticaret sitesini hem ziyaret eden hem de satın alan kullanıcıların adlarını döndürür. Braket notasyonu genellikle tercih edilir ve burada braket notasyonunu kullanacağız.

Pandalar ayrıca önceki verilerimizden yeni bir sütun oluşturmayı da çok kolaylaştırıyor. Diyelim ki
sayfa görüntüleme başına satın alınan öğelerin ortalaması için bir sütun oluşturmak ve sütunu items_purch_per_view olarak adlandırmak istiyoruz. Bunu tek satırlık kod olarak yapabiliriz:

In [9]:
purchases['items_purch_per_ad'] = purchases['items_purchased'] / purchases['ad_views']
purchases

Unnamed: 0,country,ad_views,items_purchased,items_purch_per_ad
Ahmet,US,16,2,0.125
Ayşe,CAN,42,1,0.02381
Hagi,CAN,32,0,0.0
Alex,US,13,8,0.615385
Gomis,CAN,63,0,0.0
Hüseyin,US,19,5,0.263158
İpek,US,65,7,0.107692
Duru,US,23,3,0.130435
Einstein,CAN,16,0,0.0
Franklin,US,77,5,0.064935


In [19]:
purchases.groupby("country").sum()

Unnamed: 0_level_0,ad_views,items_purchased,items_purch_per_ad
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
CAN,153,1,0.02381
US,213,30,1.306605


Yalnızca bu değerleri görmek istiyorsak ve bunları veri çerçevemizde yeni bir sütun olarak saklamak zorunda değilsek, bu işlevi yalnızca purchases['items_purch_per_ad']’e atamadan çalıştırabiliriz. Her kullanıcı için görüntülenme başına satın alma değerlerini döndürecektir.


In [36]:
purchases['items_purchased'] / purchases['ad_views']

Ahmet       0.125000
Ayşe        0.023810
Hagi        0.000000
Alex        0.615385
Gomis       0.000000
Hüseyin     0.263158
İpek        0.107692
Duru        0.130435
Einstein    0.000000
Franklin    0.064935
dtype: float64

Bir veri çerçevesi kendi içinde harikadır. Gösterdiğimiz gibi, açıkça etiketli satır ve indeksli verileri  kolayca depolamanıza olanak tanır. Ancak, bazen sadece bu verilerin bir alt kümesiyle çalışmak istersiniz. Bunun için verileri seçmek ya da gruplamak isteyeceksiniz.

Aslında, en temel indeksleme formunu veya sütun isimlerinin braketli parantezli  "seçim/selection"ini zaten anlattık. Satın alma verilerimizde daha önce yaptığımız şeyi hatırlayın:


In [37]:
purchases['country']

Ahmet        US
Ayşe        CAN
Hagi        CAN
Alex         US
Gomis       CAN
Hüseyin      US
İpek         US
Duru         US
Einstein    CAN
Franklin     US
Name: country, dtype: object

Bu verileri "country" adlı sütundan döndürür. Ancak, daha sofistike bir seçim için Pandas veri çerçeve indeksleme yöntemlerini kullanmamız gerekecek.

## .loc ve .iloc ile Temel Seçimler / Basic Selects with .loc and .iloc


[`.loc`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html) satır ve sütunları indeksleyen bir seçicidir. İlk önce satır dizinini seçer, sonra sütun adı (varsa) seçer.  [`.iloc`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iloc.html) aynı şeyi indeksler üzerinde yapar. Örneğin, purchases veri çerçevesinde 'George' satırını seçmek için, sadece 'Hagi' stringini braket notasyonu ile purchases.loc’a geçiririz: 

In [38]:
purchases.loc['Hagi']

country               CAN
ad_views               32
items_purchased         0
items_purch_per_ad      0
Name: Hagi, dtype: object

To select the column 'country' we would use:

In [39]:
purchases.loc[:, 'country']

Ahmet        US
Ayşe        CAN
Hagi        CAN
Alex         US
Gomis       CAN
Hüseyin      US
İpek         US
Duru         US
Einstein    CAN
Franklin     US
Name: country, dtype: object

Yukarıdaki ':', bir liste veya dizgeyi dilimlerkenki gibi çalışır ve veri çerçevesinin başından sonuna kadar tüm satırları seçer. Son olarak Hagi’nin ülkesini seçmek için, ikisini şu şekilde birleştirdik:


In [40]:
purchases.loc['Hagi', 'country']

'CAN'

Yukarıda belirttiğimiz gibi, listelerde olduğu gibi, satırda ve sütunda .iloc kullanarak tamsayı indeksleme yapabilirsiniz. Örneğin:


In [41]:
purchases.iloc[1:3, 1]

Ayşe    42
Hagi    32
Name: ad_views, dtype: int64

Yukarıdaki dilimleme sözdizimini tekrar kullandık, bu sefer ikinci satır ile başlayıp dördüncü satıra kadar,ama bu satır dahil değil, ve sonra ikinci sütunu (indeks sütun olarak sayılmadan) yaptığımıza dikkat edin.

## Koşullu Seçim / Conditional Selection

Koşullu seçim için .loc veya belirli bir kriteri sağlayan tüm girdileri seçerek de kullanabilirsiniz. Bu runtime’da çalışan isimsiz fonksiyonlar tanımlamak için izin veren bir yapı olan __lambda__ yı kullanacaktır. Satır veya sütun üzerinde bir koşul oluşturmak için lambda işlevini kullanırız.

<div class="note">`Not`: Aşağıda <code>lambda</code> söz dizimine giriş yapacağız, ancak bu derste fazla kullanmayacağız ve derinlemesine devam etmeyeceğiz. Eğer anonim fonksiyonlar oluşturmak için <code>lambda</code> kullanma hakkında daha fazla şey öğrenmek istiyorsanız <code>lambda</code> hakkındaki Python <a href="https://docs.python.org/3.6/tutorial/controlflow.html#lambda-expressions"> dökümantasyonuna</a>, ya da buradaki <a href="https://pythonconquerstheuniverse.wordpress.com/2011/08/29/lambda_tutorial/"> daha detaylı</a> öğretici dokümana bakabilirsiniz.</div>

Bir kez daha satın alma veri çerçevesine dönelim. Örneğimiz için diyelim ki birden fazla alım yapan bireyler için tüm sütunları istiyoruz.  Bu göreceli olarak basit bir kod satırı ile yapılır.


In [42]:
purchases.loc[lambda df: purchases['items_purchased'] > 1, :]

Unnamed: 0,country,ad_views,items_purchased,items_purch_per_ad
Ahmet,US,16,2,0.125
Alex,US,13,8,0.615385
Hüseyin,US,19,5,0.263158
İpek,US,65,7,0.107692
Duru,US,23,3,0.130435
Franklin,US,77,5,0.064935


Satırları seçiyoruz, böylece lambda braketler içindeki ilk maddedir. Girişi df olarak tanımlarız çünkü o bir veri çerçevesi alır. Sonra her bir satırın değerlendirileceği koşulu tanımlarız. “,”  dilimleme sözdiziminin aynısıdır ve yukarıdaki gibi aynı mantığı kullanan tüm sütunları istediğimiz anlamına gelir. Boolean mantığını kullanarak bunu yapmanın daha basit bir yolu vardır ve ayrıca oldukça yaygındır.


In [43]:
purchases[purchases['items_purchased'] > 1]

Unnamed: 0,country,ad_views,items_purchased,items_purch_per_ad
Ahmet,US,16,2,0.125
Alex,US,13,8,0.615385
Hüseyin,US,19,5,0.263158
İpek,US,65,7,0.107692
Duru,US,23,3,0.130435
Franklin,US,77,5,0.064935


Bu benzer bir mantıktır, ancak açık indeksleme eksikliği onu biraz daha az sağlam kılar. Açık indeksleme kullanarak .loc ile yapılan ilk örnek daha sağlamdır, ancak [boolean indeksleme](http://pandas.pydata.org/pandas-docs/stable/indexing.html#boolean-indexing) ile yapılan ikinci örnek daha yaygındır ve kolayca okunabilir. Seçiminizi akıllıca yapın.

## Groups

Burada tanıtacağımız için son bir şey var, gruplandırma(grouping) ve toplama(aggregation). [`.groupby()`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html) metodunu kullanarak ve sütun adında ileterek veri çerçevenizdeki grupları oluşturabilirsiniz. Haydi deneyin.

Site kullanıcısının ülkesi olarak gruplandırılmak istersek, tek yapmamız gereken:


In [44]:
purchases.groupby('country')

<pandas.core.groupby.DataFrameGroupBy object at 0x7fd3a6deed30>

Ama bakın, bu satırı çalıştırdığınızda, artık verilerinizi döndürmez. Gruplandırılmış bir nesneyi referanslayan bir satır döndürür, ancak nesneyi değil. Çünkü bir şey döndürmek istiyorsak, o gruplarda bir şeyler yapmamız gerekiyor. Burada kullanabileceğiniz çeşitli yöntemler var. Bazıları .sum () veya .count () gibi yerleşiktir(built in). Daha da büyük olasılıklar için .aggregate (numpy_function) kullanabilirsiniz. Hangi grubun daha fazla sayfa görüntüleme ve satın alma işlemi olduğunu öğrenmek için bunu kullanalım.


In [45]:
purchases.groupby('country').mean()
# Don't want to take the mean of all columns? Try this:
# purchases.groupby('country')['column_name'].mean()

Unnamed: 0_level_0,ad_views,items_purchased,items_purch_per_ad
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
CAN,38.25,0.25,0.005952
US,35.5,5.0,0.217767


Artık her bir sütunun ortalamasını görebilirsiniz. Kanadalı ziyaretçiler kişi başı daha fazla reklam görüyor ancak çok daha az ürün satın alıyor gibi görünür. Bunlar bir veri çerçevesinin içindeki verilerin seçilmesinin temelleridir. Detaylı bir bakış için pandas dokümanlarında [Dizin Oluşturma ve Veri Seçme / Indexing and Selecting Data](http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing) ile ilgili kısma bakın. 


## Dosyalarla Çalışmak

Şimdiye kadarki örneklerde, metinleri elle yazarak Pandas veri çerçevelerini oluşturduk. Bunu yapmak gerçek veri kümeleri ile sıkıcı veya imkansız olacak, böylece neredeyse her zaman Pandas’a verileri dosyalardan (CSV dosyaları gibi), API’ler kullanarak web’den veya veritabanlarından ve diğer büyük veri depolarından yükleyeceksiniz.

Bu bölümde, Panda'lara oluşturduğunuz veya indirdiğiniz CSV, JSON ve XML dosyalarını nasıl yükleyeceğinizi göstereceğiz. Ayrıca, vanilla Python'u kullanarak dosyalarla çalışmayı kısaca anlatacağız. Dosyalarınız iyi kodlanmış ve doğru biçimlendirilmişse ve verileriniz temizse, dosya yükleme oldukça basittir. Ama bu her zaman böyle değildir. Hatalı verilerle uğraşmak bir veri bilimcisi olmanın en büyük zorluklarındandır ve her ortama uyan bir çözümü yoktur. Burada kolay durumları gösterecek ve sizi daha fazla okumaya yönelteceğiz.


### Pandas ile dosya açma
#### CSV dosyaları

CSV(Virgülle Ayrılmış Değerler / Comma Seperated Values) dosyaları, yapılandırılmış yablo verileri için yaygın bir dosya biçimidir. Microsoft Excel, Google Sheets ve Python komut dosyalarından üretimleri kolaydır. Aynı zamanda üzerinde çalışmak da kolaydır: onları herhangi bir metin editöründe açabilir ve okuyabilirsiniz. Eğer bunu yaparsanız CSV'nin yalnızca her sütundaki değerlerin virgülle ayrıldığı ve satırların birbirinden yeni satırlarla ayrıldığı bir metin dosyası olduğunu görürsünüz. Uygun yapılarından ve basitliklerinden dolayı CSV’ler ile çalışmak son derece yaygındır.

Burada, önceki bölümlerde gördüğünüz aynı satın alma verilerine sahip örnek bir CSV dosyası kullanıyoruz. Bir CSV'nin Pandalara yüklenmesinin temelleri basittir. Daha önceden kaydettiğiniz purchase.csv dosyasını sadece bu tek satır kod ile yükleyebilirsiniz. 


In [20]:
df = pd.read_csv('data/purchases.csv', index_col=0)
print(df)

         country  ad_views  items_purchased  items_purch_per_ad
Ahmet         US        16                2            0.125000
Ayşe         CAN        42                1            0.023810
Hagi         CAN        32                0            0.000000
Alex          US        13                8            0.615385
Gomis        CAN        63                0            0.000000
Hüseyin       US        19                5            0.263158
İpek          US        65                7            0.107692
Duru          US        23                3            0.130435
Einstein     CAN        16                0            0.000000
Franklin      US        77                5            0.064935


Pandas read_csv () metodu, okumak istediğiniz dosyanın yolunu temsil eden bir string alır ve bir veri çerçeve nesnesini döndürür. Yukarıdaki örnekte üzerinde çalıştığımız CSV dosyası veri dizini içindedir.

Read_csv () için gereken tek argüman dosya yoludur, ancak farklı bağlamlarda kullanışlı olan onlarca opsiyonel anahtar kelime argümanları mevcuttur. Bununla ilgili dokümantasyona bakabilirsiniz.

Veri bilimcisi olarak çalışırken, genellikle bir dosyaya veri çıkışı yapmak istersiniz. CSV’ler muhtemelen bunun için en iyisidir. Bir CSV dosyası oluşturmak ve veri çerçevenizi yazmak için ``df.to_csv()`` kullanın:

Yukarıdaki .to_csv () öğesine iletilen tek argüman, çıkarmak istediğiniz dosyanın yoludur(path), ancak çıktı dosyanızı değiştirmek için kullanabileceğiniz başka opsiyonel anahtar kelime argümanları da vardır. Sen ayrıca, dosya oluşturmayı atlamak ve yapıştırabileceğiniz veya başka yerlere göndereceğiniz bir string döndürmek için yol argümanını vermeyebilirsiniz.

### JSON

CSV dosyaları size güzel ve sağlam bir yapı sunarken, JSON ve XML gibi yaygın formatlar daha özelleştirilebilir ve esnek veri depolamaya olanak tanır. Ham yapılandırılmamış metinden farklı olarak JSON ve XML'in bazı yapı gereksinimleri vardır ve bunlar yarı yapılandırılmış dosyalar olarak bilinir.

Yarı yapılandırılmış verilerin bu esnekliği çoğu zaman ek karmaşıklık maliyetine yol açar. JSON verileri derinlemesine yuvalanabilir ve verileri çalışmak istediğiniz forma sokana kadar önemli miktarda işlem yapmanız gerekebilir.

JSON, "JavaScript Nesne Notasyonu / JavaScript Object Notation" anlamına gelir ve bir JavaScript nesnesini bir string olarak temsil etmenin bir yoludur. JavaScript'teki "Nesneler", tam olarak Python sözlükleri(dictionary) gibi anahtar/değer çifti koleksiyonlarıdır. Python sözlükleri hakkında bildiğiniz hemen hemen her şey doğrudan JavaScript nesnelerine çevrilir, böylelikle "JSON"’un "Python Sözlük Notasyonu" anlamına geldiğini ve JSON'un sanki bir Python sözlüğünün string olarak temsil edilmiş hali gibi davrandığını  hayal edebilirsiniz.

CSV dosyaları gibi, JSON dosyaları insan tarafından okunabilir ve sizin de en sevdiğiniz metin editörüyle açıp keşfedebilmeniz gerekir. Bu, yeni JSON ile çalışırken özellikle nasıl yapılandırıldığından emin değilsiniz yararlıdır. Metin editörünüzdeki bilgisayarınızın belleğine sığmayacak kadar büyük olan büyük JSON dosyalarını açmak çok zor olabilir ancak bunun için  şimdilik endişelenmeyeceğiz.

read_json () ile bir JSON dosyasından bir veri çerçevesi oluşturabilirsiniz:


In [47]:
df = pd.read_json('data/purchases.json')
df

Unnamed: 0.1,Unnamed: 0,ad_views,country,items_purch_per_ad,items_purchased
0,Ahmet,16,US,0.125,2
1,Ayşe,42,CAN,0.02381,1
2,Hagi,32,CAN,0.0,0
3,Alex,13,US,0.615385,8
4,Gomis,63,CAN,0.0,0
5,Hüseyin,19,US,0.263158,5
6,İpek,65,US,0.107692,7
7,Duru,23,US,0.130435,3
8,Einstein,16,CAN,0.0,0
9,Franklin,77,US,0.064935,5


Yine, gereken tek argüman dosya yoludur, ancak read_json () fonksiyonunu farklı seçeneklerle çalıştırmak için diğer anahtar kelime argümanlarını iletebilirsiniz. Daha fazla bilgi için dokümanlara ve iç içe(nested) JSON’u normalize etmek için pandas.io.json.json_normalize ()’ye bakabilirsiniz. Veri çerçevelerinizi dosyalara yazmak için genellikle CSV'yi tercih etmelisiniz, ancak .to_json’u bir bir veri çerçevesini JSON dosyası olarak yazmak için ``df.to_json('my_data.json')`` olarak kullanabilirsiniz.

Daha yaygın kullanım, JSON verilerini web üzerinden göndermektir. Bunun için daha sonra işleyip göndereceğimiz bir JSON stringi oluşturmak için bir argüman olmadan: to_json () şeklinde kullanırız. 
``serialized_purchases = df.to_json()``

### XML

JSON gibi XML veya "eXtensible Markup Language", hiyerarşik bir yarı yapılandırılmış veri biçimidir. Her ikisi de veriyi web üzerinden aktarmak için yaygın olarak kullanılır, ancak daha yeni JSON formatı bu günlerde eski ve daha basit XML formatına göre daha yaygındır. HTML ile çalışmışsanız etiketlerin açılması veya kapatılması veya "markup/işaretlenmesi" gibi XML sözdizimine aşinasınızdır. Pandas, XML için read_csv () ve read_json () öğeleri gibi fonksiyonlara sahip değildir. Bu nedenle, XML dosyalarını okumak ve onları bir öğe ağacına dönüştürmek için Python standart kitaplığından xml modülünü kullanırız. Bir element ağacına sahip olduğumuzda, bunu Pandas’a besleyebileceğimiz bir listeye manuel olarak işleyeceğiz.


In [48]:
import xml.etree.ElementTree as ET

# Load and parse the XML file into a tree.
tree = ET.parse('data/purchases.xml')

# Find the root of the tree. This is the node of the tree where we'll
# start our iteration.
root = tree.getroot()

# Define a custom function to loop over our tree, extract values, and
# return a two-dimensional list.
def xml_to_list(root):
    result = []
    for row in root:
        row_list = []
        for column in row:
            row_list.append(column.text)
        result.append(row_list)
    return result
    
# Feed our two-dimensional list into Pandas.
df = pd.DataFrame(xml_to_list(root))
print(df)

          0    1   2  3
0    George   US  16  2
1      John  CAN  42  1
2    Thomas  CAN  32  0
3     James   US  13  8
4    Andrew  CAN  63  0
5    Martin   US  19  5
6   William   US  65  7
7   Zachary   US  23  3
8   Millard  CAN  16  0
9  Franklin   US  77  5


Yukarıdaki özel xml_to_list () fonksiyonu, çalıştığımız belirli XML dosyası için tasarlanmıştır.  Farklı bir şekilde yapılandırılmış XML ile çalışıyorsanız, XML ağacınızın üzerinde farkl bir şekilde yinelemeniz(iterate) gerekir. 

Burada elementi ağaçlarıyla ve ağaç nesnelerini yinelemek ilgili detaylara girmeyeceğiz. İsterseniz resmi xml.etree.ElementTree dokümanında daha fazla okuyabilirsiniz. Kendinizi XML ile herhangi bir detayda çalışırken bulursan hızlı ve XML ile çalışmak için kullanışlı bir araç koleksiyonu olan 
lxml paketine göz atmak isteyebilirrsiniz.

Bir veri bilimcisi olarak, genellikle size verilen veri dosyalarının biçimini seçemezsiniz, bu yüzden burada XML'i ele alıyoruz. Veri dosyalarını oluştururken muhtemelen XML’den kaçınmanız gerekir
çünkü XML işlemek için daha fazla çalışmak gerekebilir. CSV’ler, bir dosyaya veri yazmak için en iyi seçimdir. Yarı yapılandırılmış bir formata ihtiyacınız varsa, XML üzerinden JSON'u tercih edin.


### Python open()

Yukarıda ele aldığımız dosya yükleme tekniklerinin her biri, belirli bir türdeki dosyaları (CSV, JSON, XML) açmak ve yüklemek için pakete özgü yollardır. Python, open () işleviyle istediğiniz herhangi bir dosyayı açmak için daha genel amaçlı bir yol sunuyor.


In [49]:
# Let's open the purchases.csv file, create a file object, and print out the
# file text line by line.
with open('data/purchases.json') as file:
    text = file.readlines()
    print("This file is {} lines long".format(len(text)))
    for line in text:
        print(line)


This file is 1 lines long
{"Unnamed: 0":{"0":"Ahmet","1":"Ay\u015fe","2":"Hagi","3":"Alex","4":"Gomis","5":"H\u00fcseyin","6":"\u0130pek","7":"Duru","8":"Einstein","9":"Franklin"},"country":{"0":"US","1":"CAN","2":"CAN","3":"US","4":"CAN","5":"US","6":"US","7":"US","8":"CAN","9":"US"},"ad_views":{"0":16,"1":42,"2":32,"3":13,"4":63,"5":19,"6":65,"7":23,"8":16,"9":77},"items_purchased":{"0":2,"1":1,"2":0,"3":8,"4":0,"5":5,"6":7,"7":3,"8":0,"9":5},"items_purch_per_ad":{"0":0.125,"1":0.0238095238,"2":0.0,"3":0.6153846154,"4":0.0,"5":0.2631578947,"6":0.1076923077,"7":0.1304347826,"8":0.0,"9":0.0649350649}}


Yukarıdaki örnekte, daha sonra çalışabileceğimiz bir dosya nesnesi oluşturmak için open () fonksiyonunu kullanıyoruz. Ardından, listenin her bir öğesi, giriş dosyamızdaki bir satır olan stringlerin listesini oluşturmak için dosya nesnesinin .readlines () metodunu kullanırız. I/O dokümantasyonunda  .readlines () ve diğer dosya nesnesi metotları hakkında daha fazla bilgi edinebilirsiniz.

Open () ile bir dosya açmak onu kapatana kadar açık bırakacaktır. .close () dosya nesnesi metodu
bir dosyayı kapatır. Kaynakları tutan dosyaları el ile kapatmayı unutmak çok kolaydır ve beklenmedik bir soruna neden olur. Neyse ki, Python bize “with” ifadesini sunar, böylelikle yukarıdaki nedenle .close () işlevini kullanmayı hatırlamamız gerekmez, çünkü “with” ile açılan dosyalar ifadeden çıkıldıktan sonra sonra otomatik olarak kapatılır. Bu yöntem dosyaları el ile açarken başka zorlayıcı bir sebebiniz yoksa kullanılabilecek en iyi yöntemdir.

Veri bilimcisi olarak ürettiğiniz veri dosyalarının neredeyse tamamı CSV veya JSON dosyaları olacak bu yüzden dosyalara yazmak için Python I/O fonksiyonlarını kullanmayı daha fazla anlatmayacağız. Bu konuyla ilgili herhangi bir ek kaynak isterseniz resmi Python dokümanlarının dosyalara okuma ve yazma bölümüne bakın.


### Encoding hakkında birkaç not

Çalıştığınız tüm dosyalar insan tarafından okunabilir karakterlerden yapılmış gibi görünüyor, ancak siz aslında bit olarak, yani birler ve sıfırlar olarak saklanır. Bu tabii ki bazı sorulara sebep olur:  Hangi karakterleri kullanabileceğinizi nereden biliyorsunuz ve birleri ve sıfırları bu özel karakterlere nasıl çeviriyorsunuz?

Bugün bunun net bir cevabı var: Unicode ve UTF-8. Python 3'teki tüm stringler Unicode’dur ve UTF-8 mümkün olduğunda Python'un kullandığı varsayılan kodlamadır. Ancak, bazı dosyalar eski olduğundan veya onları oluşturmak için kullanılan yazılım eski olduğundan farklı kodlamalarla oluşturulan dosyalarla karşılaşabilirsiniz. Maalesef bir dosyanın kodlamasını otomatik olarak belirlemek ve sonra doğru olarak kodunu çözmek mümkün değildir. Kodlama hatalarıyla karşılaştığınızda muhtemel kodlamayı tahmin etmeniz ve deneme yanılma yapmanız gerekir

Yukarıda da belirtildiği gibi, Microsoft Windows burada oldukça suçludur. Windows'un İngilizce sürümleri, cp1252 kodlamasını, Kiril Windows sürümleri cp1251 kodlamasını vb. kullanır. Eğer dosyanızın kodlamasını manuel olarak belirleyemediyseniz Chardet ile istatistiksel bir saptamayı deneyebilirsiniz.

Unicode, bilgisayar tarihine yakından bağlı olan derin bir konudur. Eğer unicode’un hızlı bir pratiğiyle ve geçmişine genel bakış ile ilgileniyorsanız Python belgelerinde bulunan “Unicode HOWTO” bölümü bunun için biçilmiş kaftandır.