### DataFrame

DataFrame'ler satırları ve sütunları olan iki boyutlu etiketli veri yapısıdır. Seriler için bir excel dosyasındaki bir sütunu temsil ettiğini belirtmiştik. DataFrame'leri de excelin tamamı olarak düşünebiliriz.

# ![title](dataframe.png)

#### DataFrame Oluşturma

**pandas.DataFrame(data, index, columns)**

* data -> Veri kümemiz
* index-> index zorunlu alan değildir. Varsayılan olarak 0 dan başlar n adet veri için n-1 indexine kadar devam eder.
* columns -> Opsiyoneldir. Veri için sütun adlarını tanımlamamız için kullanılır. Eğer bir tanımlama yapmadıysak 0 ile n-1 arasında değer alacaktır.

Pandas kütüphanesi Python dilinin doğrudan bir parçası değildir. Bu yüzden ayrıca kurulması ve program içerisinde tanımlanması yani import edilmesi gerekmektedir.

pip install pandas

In [4]:
import pandas as pd

#### Boş Bir DataFrame Oluşturma

In [5]:
df = pd.DataFrame()

print(df)

Empty DataFrame
Columns: []
Index: []


#### Listeler ile DataFrame Oluşturma

In [6]:
df = pd.DataFrame(["Paris", "Berlin", "Roma", "Ankara"])
df

Unnamed: 0,0
0,Paris
1,Berlin
2,Roma
3,Ankara


Columns ve index değerlerine herhangi bir atama yapmadığımız için 0'dan başlayacak şekilde değerler atandı.

In [7]:
df = pd.DataFrame(["Paris", "Berlin", "Roma", "Ankara"], columns=["Başkentler"])
df

Unnamed: 0,Başkentler
0,Paris
1,Berlin
2,Roma
3,Ankara


#### Bir Dictionary'den DataFrame Oluşturma

In [8]:
data = {'Food':['Ekmek', 'Elma', 'Dondurma', 'Bisküvi'], 'Calories':[100, 50, 180, 90]}
df = pd.DataFrame(data)
print(df)

       Food  Calories
0     Ekmek       100
1      Elma        50
2  Dondurma       180
3   Bisküvi        90


Dictionary'deki Food ve Calories key değerleri bizim oluşturduğumuz DataFrame için sütun görevini almaktadırlar.

#### Serilerden DataFrame Oluşturma

In [9]:
data = {
    'data1': pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e']),
    'data2': pd.Series([5, 6, 7, 8], index=['a', 'b', 'c', 'd'])
    }

df = pd.DataFrame(data)
df

Unnamed: 0,data1,data2
a,1,5.0
b,2,6.0
c,3,7.0
d,4,8.0
e,5,


Görüldüğü gibi DataFrame oluşturulurken data2 de e indexi olmadığı için NaN olarak eklendi.

titanic.csv dosyamızı okumayla başlayalım ve sırasıyla bir DataFrame üzerinde yapılacak işlemleri ele alalım.

In [None]:
import pandas as pd

df = pd.read_csv(r"D:\MyProject\python-libraries\Veri-Bilimi-icin-Temel-Python-Kutuphaneleri\Data\titanic.csv")

**head()**

head() metodu, veri setimiz içerisindeki ilk n (yazılmadığı durumda da varsayılan olarak 5) satırını döndürmek için kullanılır.

In [23]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


**tail()**

tail() metodu, veri setimiz içerisindeki son n (yazılmadığı durumda da varsayılan olarak 5) satırını döndürmek için kullanılır.

In [22]:
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


**describe()**

describe() metodu, veri setimiz içerisindeki sayısal değerlerin yüzdelik oranları, ortalama, standart sapma vb. gibi bazı temel istatiksel bilgilerini almak için kullanılır.

In [26]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


Görüldüğü gibi sayısal olarak toplam yolcu sayısı, ortalama, standart sapma, min. max. değerleri ve son olarak yüzdesel oranları ile veri setimizin istatistiksel açıklama bilgisini describe() metodu ile alabiliyoruz.

Bu çıktı ile veri setimiz üzerinde ilk çıkarımları yapabiliriz. Örneğin; count bize sütundaki NaN olmayan değerlerin adedini verir. Veri setimizde 891 satırının olduğunu ve **Age** sütununun NaN değerlere sahip olduğunu görebiliyoruz.