## Notasyon - Yazım Kurallarımız

Kursumuz boyunca kullanacağımız temel notasyon şu şekilde olacaktır:

**n:** 

Elimizdeki veri setinin her bir gözlem değeri. 

`Satır Sayısı` aslında.

Örneğin, Maaş verilerini tutan Wage.csv'deki her bir satır bir erkeğe ait maaş verisini tutyordu.

İşte toplam satır sayısına n diyeceğiz.

**p:**

Değişken sayısı.

Veri içindeki her bir kriter yani `Sütun Sayısıdır`.

Örneğin, Maaş verilerindeki sütunlar: year, age, sex, maritl, rage, education ...

**$x_{ij} $:**

i'inci satır, j'inci sütundaki değer.

Yani, i'inci gözlem değeri için j'inci değişken.

i = 1, 2, 3, ..., n

j = 1, 2, 3, ..., p

**$X$:**

Tüm verileri tutan girdi (input) matrisi.

n satır, p sütun -> $n * p$

$$
X = \begin{bmatrix}
x_{11} & x_{12} &...& x_{1p}\\
x_{21} & x_{12} &...& x_{1p}\\
.&.&.&.\\
x_{n1} & x_{n2} &...& x_{np}
\end{bmatrix}
$$

Her bir satır bir gözlem olduğu için -> $x_i$

$$x_i = \begin{bmatrix}
x_{i1} & x_{i2} &...& x_{ip}
\end{bmatrix}$$

Her bir sütun bir değişken olduğu için -> $x_j$

$$x_j = \begin{bmatrix}
x_{1j}\\
x_{2j}\\
...\\
x_{nj}
\end{bmatrix}$$

**$y$:**

Herbir gözlem (veri satırı) değerinin sonucu. 

Label olarak geçer.

Her satırın aslında gerçekte ne olduğunu tuttuğumuz değişken.

n satır -> **$n * 1$**

$$y = \begin{bmatrix}
y_{1}\\
y_{2}\\
...\\
y_{n}
\end{bmatrix}$$

Verimiz aslında şu şekildedir: 
$$\{(x1, y1), (x2, y2), (x3, y3), ..., (xn, yn)\}$$

Yani her bir satır -> $(gözlem, label)$

![image.png](attachment:image.png)

**Örnek:**

Wage.csv datasını inceleyip,

**X, y** olarak Input, Output değişkenlerimizi tanımlayalım:

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('Wage.csv', index_col=0)

In [3]:
df.describe()

Unnamed: 0,year,age,logwage,wage
count,3000.0,3000.0,3000.0,3000.0
mean,2005.791,42.414667,4.653905,111.703608
std,2.026167,11.542406,0.351753,41.728595
min,2003.0,18.0,3.0,20.085537
25%,2004.0,33.75,4.447158,85.38394
50%,2006.0,42.0,4.653213,104.921507
75%,2008.0,51.0,4.857332,128.680488
max,2009.0,80.0,5.763128,318.34243


Bakınız, 3000 satır var yani 3000 adet bağımsız gözlem var:

**n = 3000**

In [4]:
df.head()

Unnamed: 0,year,age,sex,maritl,race,education,region,jobclass,health,health_ins,logwage,wage
231655,2006,18,1. Male,1. Never Married,1. White,1. < HS Grad,2. Middle Atlantic,1. Industrial,1. <=Good,2. No,4.318063,75.043154
86582,2004,24,1. Male,1. Never Married,1. White,4. College Grad,2. Middle Atlantic,2. Information,2. >=Very Good,2. No,4.255273,70.47602
161300,2003,45,1. Male,2. Married,1. White,3. Some College,2. Middle Atlantic,1. Industrial,1. <=Good,1. Yes,4.875061,130.982177
155159,2003,43,1. Male,2. Married,3. Asian,4. College Grad,2. Middle Atlantic,2. Information,2. >=Very Good,1. Yes,5.041393,154.685293
11443,2005,50,1. Male,4. Divorced,1. White,2. HS Grad,2. Middle Atlantic,2. Information,1. <=Good,1. Yes,4.318063,75.043154


In [5]:
df.columns

Index(['year', 'age', 'sex', 'maritl', 'race', 'education', 'region',
       'jobclass', 'health', 'health_ins', 'logwage', 'wage'],
      dtype='object')

In [6]:
df.columns.size

12

12 adet sütunumuz var ama bunların bir tanesi özel bir sütun.

**wage** sütunu aslında sonuç, yani `Label` sütunu.

Onu değişkenlerden ayırmamız lazım.

In [7]:
degiskenler = ['year', 'age', 'sex', 'maritl', 'race', 'education', 'region',
               'jobclass', 'health', 'health_ins', 'logwage']
len(degiskenler)

11

Label'i ayırdığımıza göre geriye kalan sütunlar değişkenlerimiz olacak.

**p = 11**

Tüm değişkenleri tutan matris -> $X$

In [8]:
# input variable -> X

X = df[degiskenler]

In [9]:
X.columns

Index(['year', 'age', 'sex', 'maritl', 'race', 'education', 'region',
       'jobclass', 'health', 'health_ins', 'logwage'],
      dtype='object')

In [10]:
# output variable -> y

y = df['wage']

In [12]:
y.head(10)

231655     75.043154
86582      70.476020
161300    130.982177
155159    154.685293
11443      75.043154
376662    127.115744
450601    169.528538
377954    111.720849
228963    118.884359
81404     128.680488
Name: wage, dtype: float64

In [13]:
len(y)

3000

**Örnek:**

i = 4 olsun

Yani 4. satırı getirelim. (index = 3)

In [14]:
X

Unnamed: 0,year,age,sex,maritl,race,education,region,jobclass,health,health_ins,logwage
231655,2006,18,1. Male,1. Never Married,1. White,1. < HS Grad,2. Middle Atlantic,1. Industrial,1. <=Good,2. No,4.318063
86582,2004,24,1. Male,1. Never Married,1. White,4. College Grad,2. Middle Atlantic,2. Information,2. >=Very Good,2. No,4.255273
161300,2003,45,1. Male,2. Married,1. White,3. Some College,2. Middle Atlantic,1. Industrial,1. <=Good,1. Yes,4.875061
155159,2003,43,1. Male,2. Married,3. Asian,4. College Grad,2. Middle Atlantic,2. Information,2. >=Very Good,1. Yes,5.041393
11443,2005,50,1. Male,4. Divorced,1. White,2. HS Grad,2. Middle Atlantic,2. Information,1. <=Good,1. Yes,4.318063
...,...,...,...,...,...,...,...,...,...,...,...
376816,2008,44,1. Male,2. Married,1. White,3. Some College,2. Middle Atlantic,1. Industrial,2. >=Very Good,1. Yes,5.041393
302281,2007,30,1. Male,2. Married,1. White,2. HS Grad,2. Middle Atlantic,1. Industrial,2. >=Very Good,2. No,4.602060
10033,2005,27,1. Male,2. Married,2. Black,1. < HS Grad,2. Middle Atlantic,1. Industrial,1. <=Good,2. No,4.193125
14375,2005,27,1. Male,1. Never Married,1. White,3. Some College,2. Middle Atlantic,1. Industrial,2. >=Very Good,1. Yes,4.477121


In [15]:
# 4. satır input
# x4

X.iloc[3,:]

year                        2003
age                           43
sex                      1. Male
maritl                2. Married
race                    3. Asian
education        4. College Grad
region        2. Middle Atlantic
jobclass          2. Information
health            2. >=Very Good
health_ins                1. Yes
logwage                 5.041393
Name: 155159, dtype: object

In [16]:
# 4. satır output
# y4

y.iloc[3]

154.68529299563