### DataFrame

DataFrame'ler satırları ve sütunları olan iki boyutlu etiketli veri yapısıdır. Seriler için bir excel dosyasındaki bir sütunu temsil ettiğini belirtmiştik. DataFrame'leri de excelin tamamı olarak düşünebiliriz.

# ![title](dataframe.png)

#### DataFrame Oluşturma

**pandas.DataFrame(data, index, columns)**

* data -> Veri kümemiz
* index-> index zorunlu alan değildir. Varsayılan olarak 0 dan başlar n adet veri için n-1 indexine kadar devam eder.
* columns -> Opsiyoneldir. Veri için sütun adlarını tanımlamamız için kullanılır. Eğer bir tanımlama yapmadıysak 0 ile n-1 arasında değer alacaktır.

Pandas kütüphanesi Python dilinin doğrudan bir parçası değildir. Bu yüzden ayrıca kurulması ve program içerisinde tanımlanması yani import edilmesi gerekmektedir.

pip install pandas

In [4]:
import pandas as pd

#### Boş Bir DataFrame Oluşturma

In [5]:
df = pd.DataFrame()

print(df)

Empty DataFrame
Columns: []
Index: []


#### Listeler ile DataFrame Oluşturma

In [6]:
df = pd.DataFrame(["Paris", "Berlin", "Roma", "Ankara"])
df

Unnamed: 0,0
0,Paris
1,Berlin
2,Roma
3,Ankara


Columns ve index değerlerine herhangi bir atama yapmadığımız için 0'dan başlayacak şekilde değerler atandı.

In [7]:
df = pd.DataFrame(["Paris", "Berlin", "Roma", "Ankara"], columns=["Başkentler"])
df

Unnamed: 0,Başkentler
0,Paris
1,Berlin
2,Roma
3,Ankara


#### Bir Dictionary'den DataFrame Oluşturma

In [8]:
data = {'Food':['Ekmek', 'Elma', 'Dondurma', 'Bisküvi'], 'Calories':[100, 50, 180, 90]}
df = pd.DataFrame(data)
print(df)

       Food  Calories
0     Ekmek       100
1      Elma        50
2  Dondurma       180
3   Bisküvi        90


Dictionary'deki Food ve Calories key değerleri bizim oluşturduğumuz DataFrame için sütun görevini almaktadırlar.

#### Serilerden DataFrame Oluşturma

In [9]:
data = {
    'data1': pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e']),
    'data2': pd.Series([5, 6, 7, 8], index=['a', 'b', 'c', 'd'])
    }

df = pd.DataFrame(data)
df

Unnamed: 0,data1,data2
a,1,5.0
b,2,6.0
c,3,7.0
d,4,8.0
e,5,


Görüldüğü gibi DataFrame oluşturulurken data2 de e indexi olmadığı için NaN olarak eklendi.

titanic.csv dosyamızı okumayla başlayalım ve sırasıyla bir DataFrame üzerinde yapılacak işlemleri ele alalım.

In [None]:
import pandas as pd

df = pd.read_csv(r"D:\MyProject\python-libraries\Veri-Bilimi-icin-Temel-Python-Kutuphaneleri\Data\titanic.csv")

**head()**

head() metodu, veri setimiz içerisindeki ilk n (yazılmadığı durumda da varsayılan olarak 5) satırını döndürmek için kullanılır.

In [23]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


**tail()**

tail() metodu, veri setimiz içerisindeki son n (yazılmadığı durumda da varsayılan olarak 5) satırını döndürmek için kullanılır.

In [22]:
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


**info()**

Veri setimiz hakkında özet bilgi almak için kullanılır.

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


info() metodu ile veri setimiz hakkında;

* Toplamda 12 değişken(sütun) ve 891 satırdan oluştuğu bilgisine
* 2 adet float, 5 adet integer, 5 adet kategorik değişkenden oluştuğu bilgisine
* Sütun bazlı olarak NaN değer içermeyen veri adedi bilgisine ulaşabiliriz.

**describe()**

describe() metodu, veri setimiz içerisindeki sayısal değerlerin yüzdelik oranları, ortalama, standart sapma vb. gibi bazı temel istatiksel bilgilerini almak için kullanılır.

In [26]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


Görüldüğü gibi sayısal olarak toplam yolcu sayısı, ortalama, standart sapma, min. max. değerleri ve son olarak yüzdesel oranları ile veri setimizin istatistiksel açıklama bilgisini describe() metodu ile alabiliyoruz.

Bu çıktı ile veri setimiz üzerinde ilk çıkarımları yapabiliriz. Örneğin; count bize sütundaki NaN olmayan değerlerin adedini verir. Veri setimizde 891 satırının olduğunu ve **Age** sütununun NaN değerlere sahip olduğunu görebiliyoruz.

**dtypes**

Veri setimizde yer alan her sütunun veri türünü döndürür.

In [29]:
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

**columns**

Veri setimizdeki sütun bilgilerini almak için kullanılır.

In [30]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Veri setini okuma sırasında sadece istediğimiz sütun bilgilerini **usecols** parametresi ile belirtip çekebiliriz.

In [10]:
import pandas as pd
df = pd.read_csv(r"D:\MyProject\python-libraries\Veri-Bilimi-icin-Temel-Python-Kutuphaneleri\Data\titanic.csv", usecols=["PassengerId", "Name", "Sex", "Age"])

df.head()

Unnamed: 0,PassengerId,Name,Sex,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,5,"Allen, Mr. William Henry",male,35.0


**rename() columns**

Sütun isimlerini yeniden adlandırmak istediğimizde kullanılır.

In [11]:
df.rename(columns={"PassengerId":"yolcu_id", "Name":"yolcu_ismi", "Sex":"cinsiyet"}, inplace=True)

df.head()

Unnamed: 0,yolcu_id,yolcu_ismi,cinsiyet,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,5,"Allen, Mr. William Henry",male,35.0


**Sütun verisine erişim**

İstediğimiz sütun verisine iki şekilde erişebiliriz.

In [4]:
df.yolcu_ismi

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: yolcu_ismi, Length: 891, dtype: object

In [5]:
df["yolcu_ismi"]

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: yolcu_ismi, Length: 891, dtype: object

**Sütun değerlerini birleştirme**

İki sütun değerini birleştirip yeni bir sütun oluşturabiliriz. Cinsiyet ve isim bilgilerini tek bir sütunda gösterelim.

In [12]:
df["sex_name"] = df.cinsiyet+ " - " + df.yolcu_ismi
df.head()

Unnamed: 0,yolcu_id,yolcu_ismi,cinsiyet,Age,sex_name
0,1,"Braund, Mr. Owen Harris",male,22.0,"male - Braund, Mr. Owen Harris"
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,"female - Cumings, Mrs. John Bradley (Florence ..."
2,3,"Heikkinen, Miss. Laina",female,26.0,"female - Heikkinen, Miss. Laina"
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,"female - Futrelle, Mrs. Jacques Heath (Lily Ma..."
4,5,"Allen, Mr. William Henry",male,35.0,"male - Allen, Mr. William Henry"


**isnull() | notnull()**

Bir veri seti ile çalışırken veri eksik değerler içerebilir. Bu istediğimiz bir durum değildir. Pandas'da isnull() ve notnull() metodları bir veri setinde null değerleri kontrol etmek ve yönetmek için kullanılır.

**df.isnull()** -> ile kontrol etmek istersek veri setimizdeki her değer için null ise **True**, null değilse **False** değerini gösterir. **df.notnull()** da bu işlemin tam tersidir. null değilse **True**, null ise **False** değerini gösterir.

In [60]:
df.isnull()

Unnamed: 0,yolcu_id,yolcu_ismi,cinsiyet,sex_name
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
...,...,...,...,...
886,False,False,False,False
887,False,False,False,False
888,False,False,False,False
889,False,False,False,False


In [61]:
df.notnull()

Unnamed: 0,yolcu_id,yolcu_ismi,cinsiyet,sex_name
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True
4,True,True,True,True
...,...,...,...,...
886,True,True,True,True
887,True,True,True,True
888,True,True,True,True
889,True,True,True,True


Bu iki metodu tüm sütunlar üzerinde değil de istediğimiz sütun üzerinde de yapabiliriz.

In [62]:
pd.isnull(df.yolcu_ismi)

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: yolcu_ismi, Length: 891, dtype: bool

**dropna()**

Veri seti içerisinde yer alan NaN değerlere sahip sütun ya da satırları veri setimizden kaldırmak istediğimizde kullanırız. Bir sütunu kaldırmak istediğimizi düşünelim. Birçok NaN değerine sahip bir sütunu kaldırmadan öncesinde o sütuna default bir değer verilip verilmeyeceğine bakılabilir. Örneğin bir maçta yapılan faul sayısının tutulduğu bir sütunu düşününce bu değerin NaN olması bize o maçta herhangi bir faul olmadığı bilgisini de veriyor olabilir. Bu yüzden bu sütunu kaldırmak yerine 0 değeri ile doldurabiliriz. Bizim veri setimizde Age değeri bir değer ile doldurulamayacak bir değer. Yaşı olmayan yolcunun olma olasılığının da olmadığını göz önünde bulundurursak kaldırabiliriz Age değeri NaN olan satırları.

In [88]:
print("İşlem yapılmadan önce toplam NaN değeri: ", pd.isnull(df.Age).sum())
print("Toplam satır sayısı: ", df.shape[0])

df.dropna(subset=["Age"], axis=0, inplace=True)

print("İşlem yapılmadan önce toplam NaN değeri: ", pd.isnull(df.Age).sum())
print("Toplam satır sayısı: ", df.shape[0])

İşlem yapılmadan önce toplam NaN değeri:  177
Toplam satır sayısı:  891
İşlem yapılmadan önce toplam NaN değeri:  0
Toplam satır sayısı:  714


Bu şekilde Age sütununda eksik veri içeren satırları veri setimizden kaldırmış olduk.

Silme işleminde herhangi bir sütun belirtmeden herhangi bir NaN değeri içeren satırları ya da tüm değerleri NaN olan satırları da silebiliriz.

In [89]:
df.dropna(axis = 0, how ='any')

Unnamed: 0,yolcu_id,yolcu_ismi,cinsiyet,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,5,"Allen, Mr. William Henry",male,35.0
...,...,...,...,...
885,886,"Rice, Mrs. William (Margaret Norton)",female,39.0
886,887,"Montvila, Rev. Juozas",male,27.0
887,888,"Graham, Miss. Margaret Edith",female,19.0
889,890,"Behr, Mr. Karl Howell",male,26.0


**how** parametresine **any** yazdığımızda herhangi bir değerin NaN olması o satırın silinmesini sağlar. **all** şeklinde yazarsak da satırdaki tüm değerlerin NaN olması gerekir o satırın silinmesi için.

**drop ile sütun silme**

In [13]:
df.drop('sex_name', axis=1, inplace=True)

df.head()

Unnamed: 0,yolcu_id,yolcu_ismi,cinsiyet,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,5,"Allen, Mr. William Henry",male,35.0


axis=1 sütunu temsil eder. sex_name sütununu bu şekilde silmiş olduk.

**fillna()**

Veri setimiz içerisinde yer alan NaN değerleri kaldırmak yerine istediğimiz değerlerle doldurmak istediğimiz durumlarda kullanılır. Burada önemli olan eksik verileri hangi değerle dolduracağımız. Dolduracağınız değer analizi etkileyecektir. Bu yüzden önemli bir sütunu o sütunun ortalama değerini bulup ortalama değer ile doldurabiliriz ya da 0 değeri ile doldururuz. Bu tamamen yapacağımız analize ve sütunun hangi değeri taşıyor olduğu bilgisine bağlıdır.

In [76]:
print("İşlem yapılmadan önce toplam NaN değeri: ", pd.isnull(df.Age).sum())

df["Age"].fillna(0, inplace = True)

print("İşlem yapıldıktan sonra toplam NaN değeri: ",  pd.isnull(df.Age).sum())

İşlem yapılmadan önce toplam NaN değeri:  177
İşlem yapıldıktan sonra toplam NaN değeri:  0


Bu şekilde NaN değerleri 0 ile doldurmuş olduk. Yaş bilgisini ortalama bilgi ile doldurmak isteseydik 0 yerine **df.Age.mean()** kullanırdık.