<font color='green'> 
**Youtube - James Briggs Kanalı - TensorFlow Essentials Serisi**
    
Input Data Pipelines - TensorFlow Essentials #4 - James Briggs anlattı.
</font>

**Video:** [Input Data Pipelines - TensorFlow Essentials #4](https://www.youtube.com/watch?v=f6XVfgJTbp4&list=PLIUOU7oqGTLh6hTOjTbpkEOY-N4Kizpp4&index=4) 

### İçindekiler

**Reading the Data from Memory**
*   As List
*   As Numpy Array
*   As Pandas Dataframe

**Reading the Data from File**
*   With Tensorflow
*   With Pandas


In [None]:
import tensorflow as tf
import pandas as pd
import numpy as np

### 1. Datayı Memory'den Okumak

#### Liste olarak okuyoruz datamızı

In [None]:
inputs = [200, 321, 42, 35]
labels = [1, 0, 1, 0]

In [None]:
type(inputs)

list

In [None]:
dataset = tf.data.Dataset.from_tensor_slices((inputs, labels))  
for item in dataset:
    print(item)

# Virgüle kadarki kısım input, sonrası output şeklinde 

(<tf.Tensor: shape=(), dtype=int32, numpy=200>, <tf.Tensor: shape=(), dtype=int32, numpy=1>)
(<tf.Tensor: shape=(), dtype=int32, numpy=321>, <tf.Tensor: shape=(), dtype=int32, numpy=0>)
(<tf.Tensor: shape=(), dtype=int32, numpy=42>, <tf.Tensor: shape=(), dtype=int32, numpy=1>)
(<tf.Tensor: shape=(), dtype=int32, numpy=35>, <tf.Tensor: shape=(), dtype=int32, numpy=0>)


#### Numpy array olarak okuyoruz datamızı

In [None]:
# Numpy array olarak okumak istiyoruz datamızı.
inputs = np.asarray(inputs)
labels = np.asarray(labels)
inputs

array([200, 321,  42,  35])

In [None]:
type(inputs)

numpy.ndarray

In [None]:
dataset = tf.data.Dataset.from_tensor_slices((inputs, labels))
for item in dataset:
    print(item)

(<tf.Tensor: shape=(), dtype=int64, numpy=200>, <tf.Tensor: shape=(), dtype=int64, numpy=1>)
(<tf.Tensor: shape=(), dtype=int64, numpy=321>, <tf.Tensor: shape=(), dtype=int64, numpy=0>)
(<tf.Tensor: shape=(), dtype=int64, numpy=42>, <tf.Tensor: shape=(), dtype=int64, numpy=1>)
(<tf.Tensor: shape=(), dtype=int64, numpy=35>, <tf.Tensor: shape=(), dtype=int64, numpy=0>)


#### Pandas dataframe'i olarak okuyoruz datamızı

In [None]:
df = pd.DataFrame({
    'inputs': [200, 321,  42,  35], 'labels': [1, 0, 1, 0]
    })

In [None]:
df

Unnamed: 0,inputs,labels
0,200,1
1,321,0
2,42,1
3,35,0


İşlemleri en kolay şekilde yapabilmek için bunu numpy arraye çevirmek gerekecek.

In [None]:
df['inputs'].values

array([200, 321,  42,  35])

In [None]:
dataset = tf.data.Dataset.from_tensor_slices((df['inputs'].values, df['labels'].values))

for item in dataset:
    print(item)

(<tf.Tensor: shape=(), dtype=int64, numpy=200>, <tf.Tensor: shape=(), dtype=int64, numpy=1>)
(<tf.Tensor: shape=(), dtype=int64, numpy=321>, <tf.Tensor: shape=(), dtype=int64, numpy=0>)
(<tf.Tensor: shape=(), dtype=int64, numpy=42>, <tf.Tensor: shape=(), dtype=int64, numpy=1>)
(<tf.Tensor: shape=(), dtype=int64, numpy=35>, <tf.Tensor: shape=(), dtype=int64, numpy=0>)


Fakat burada int64 tipinde data üretmiş olduk yukarıda bu int32'ydi.

### 2. Datayı Dosyadan Okumak

#### Tensorflow ile Okumak

Kaggle'daki [Titanic](https://www.kaggle.com/c/titanic/data) datası kullanıldı. 

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

import os
os.chdir("/content/gdrive/My Drive/Personal Studies/Artificial Intelligence/Tensorflow Tutorial 2.0 Beginner Tutorials (Youtube - Aladdin Persson)/Titanic")

Mounted at /content/gdrive


In [None]:
dataset = tf.data.experimental.make_csv_dataset(
    "train.csv",
    batch_size=16, # her seferinde 16 row okuyacağız
    field_delim=',', # field_delim='|' veya '\t' veya '-' gibi şeyler yazabiliriz. 
    select_columns = ['PassengerId','Survived','Pclass'], # label_name olarak seçtiğimiz column burada da olmalı
    label_name='Survived'
)

In [None]:
for item in dataset.take(3): # 3 burada batchi ifade ediyor.
    print(item)  

(OrderedDict([('PassengerId', <tf.Tensor: shape=(16,), dtype=int32, numpy=
array([482, 236, 384, 733, 695, 669, 711, 293, 778, 736, 500, 398, 353,
       140, 235, 850], dtype=int32)>), ('Pclass', <tf.Tensor: shape=(16,), dtype=int32, numpy=array([2, 3, 1, 2, 1, 3, 1, 2, 3, 3, 3, 2, 3, 1, 2, 1], dtype=int32)>)]), <tf.Tensor: shape=(16,), dtype=int32, numpy=array([0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1], dtype=int32)>)
(OrderedDict([('PassengerId', <tf.Tensor: shape=(16,), dtype=int32, numpy=
array([444, 269, 516,  62, 601,  57,  31, 722, 452,  54,  71, 328, 714,
       584, 532, 437], dtype=int32)>), ('Pclass', <tf.Tensor: shape=(16,), dtype=int32, numpy=array([2, 1, 1, 1, 2, 2, 1, 3, 3, 2, 2, 2, 3, 1, 3, 3], dtype=int32)>)]), <tf.Tensor: shape=(16,), dtype=int32, numpy=array([1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0], dtype=int32)>)
(OrderedDict([('PassengerId', <tf.Tensor: shape=(16,), dtype=int32, numpy=
array([335, 158,  55, 679, 445, 248, 772,   2, 371, 127, 686, 694

`tf.data.experimental.make_csv_dataset` kodunu kullandığımızda otomatik olarak shuffle etmiş oluyoruz datayı. 

#### Pandas ile Okumak

In [None]:
data = pd.read_csv('train.csv')
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
data.shape

(891, 12)

In [None]:
dataset = tf.data.Dataset.from_tensor_slices((data[['Pclass','Age','Parch']].values, data['Survived'].values))

In [None]:
for item in dataset:
    print(item)

In [None]:
for item in dataset.take(1):
    print(item)

(<tf.Tensor: shape=(3,), dtype=float64, numpy=array([ 3., 22.,  0.])>, <tf.Tensor: shape=(), dtype=int64, numpy=0>)


Her şeyin shuffled ve batched olmasını istiyoruz. 

In [None]:
dataset = dataset.shuffle(10000).batch(16, drop_remainder=True)  


*   `dataset = dataset.shuffle(10000)` datasetin büyüklüğünden daha büyük bir sayı yazıyoruz. Burada, veri kümesi ne kadar büyükse ve ne kadar az karıştırılıysa, bu sayıya o kadar büyük bir sayı ekliyoruz. Dolayısıyla, çok temsili olmayan bir numunemiz veya serimiz varsa, içeriye yazacağımız sayıyı artırmamız gerekir.
*   `drop_remainder=True`nun olayı batchleri alırken geride bir şey kalırsa onları almıyor.




 