# SORU 1

Bir liste içerisinde tam sayı alan ve bu listedeki tüm negatif sayıları kaldırılmış yeni bir liste döndüren bir `remove_negatives` fonksiyonu yazınız.

**ÖRNEK KULLANIM:**

`numbers = [-10, 15, -20, 30, 0, -5]` listesi verildiğinde

```
[15, 30, 0]
```

sonucuna sahip olmalısınız.

In [13]:
def remove_negatives(numbers):
    return list(filter(lambda x: x >= 0, numbers))

In [14]:
numbers = [-10, 15, -20, 30, 0, -5]
print(remove_negatives(numbers))

[15, 30, 0]


# SORU 2

Tam sayılardan oluşan bir liste verildiğinde, bu listenin ortalamasını (`mean`), ortancasını (`median`), tepe değerini (`mode`), varyansını (`variance`), standart sapmasını (`standard deviation`) ve ortalamanın %95 güven düzeyinde güven aralığını (`confidence interval of the mean at 95% confidence level`) bir sözlük olarak döndüren bir fonksiyon yazınız.

**ORTALAMA:**

$$
\bar{x} = \frac{\sum_{i=1}^{n} x_{i}}{n}
$$

**ORTANCA:** Ortanca hesaplanırken, elinizdeki verinin örneklem büyüklüğünün (`n`) tek veya çift sayı olmasına göre işlem yapmalısınız. Önce elinizdeki veri küçükten büyüğe sıralanır. Bu sıralanmış listenin en ortası, (%50'nci yüzdelik) ortancası (medyanı) verir.

$$
\bar{x}^{\prime}=\left\{\begin{array}{lll}
x_i, & i=\frac{n+1}{2} & n \text { tek ise } \\
\frac{x_i+x_{i+1}}{2} & i=\frac{n}{2} & n \text { çift ise }
\end{array}\right.
$$

Burada `i`'nin tam sayı olduğuna dikkat ediniz!

**TEPE DEĞERİ::** Veri kümesinde bulunan değişkenin en çok tekrar eden değeridir.

**VARYANS:**

$$
Var(x) = \frac{\sum_{i=1}^{n} \left(x_{i} - \bar{x}\right)^{2}}{n}
$$

**STANDART SAPMA:** Varyansın kareköküdür.

**ORTALAMANIN %95 GÜVEN DÜZEYİNDE GÜVEN ARALIĞI**:

$$
P\left(\bar{x} - 1.96 \times \text{standart hata} \leq \mu \leq \bar{x} + 1.96 \times \text{standart hata}  \right) =  0.95
$$

Burada, ortalamanın standart hatası, standart sapmanın, $\sqrt{n}$ bölümnesiyle bulunur.

* Bu soruyu cevaplarken **hiç bir kütüphane (library) kullanımı olmaması gerekmektedir** (Örneğin, `math`, `numpy`, `statistics` ve bunun gibi...). Yani, `import`kullanamazsınız.
* Herhangi bir listenin uzunluğu bulmak için Python'un yerleşik fonksiyonu olan `len` fonksiyonunu kullanabilirsiniz.
* Herhangi bir listenin toplamını bulmak için Python'un yerleşik fonksiyonu olan `sum` fonksiyonunu kullanabilirsiniz.
* z tablo değerini 1.96 alabilirsiniz. 
* **Tepe değerini hesaplarken set comprehension kullanmalısınız**.
* **Varyansı hesaplarken list comprehension kullanmalısınız**.

**ÖRNEK KULLANIM:**

`input_list = [12, 2, 3, 5, 5, 6, 5, 1, 4]` listesi verildiğinde

```
{'mean': 4.777777777777778,
 'median': 5,
 'mode': 5,
 'variance': 8.839506172839505,
 'standard_deviation': 2.9731307022799225,
 'confidence_interval_mean': [2.8353323856215615, 6.720223169933994]}
```

sonucuna sahip olmalısınız.

In [7]:
def get_statistics(input_list):
    """
    This function returns statistics of a list of numbers
    """
    n = len(input_list)
    mean = sum(input_list) / n

    sorted_input_list = sorted(input_list)
    
    if n % 2 == 0:
        median = (sorted_input_list[int(n/2 - 1)] + sorted_input_list[int(n/2)]) / 2
    else:
        median = sorted_input_list[int((n + 1) / 2)]
        
    number_counts = {i:input_list.count(i) for i in input_list}
    mode = max(input_list, key= lambda k: number_counts[k])
    
    variance = sum([(i - mean)**2 for i in input_list]) / n
    
    standard_deviation = variance ** 0.5
    standard_error = standard_deviation / (n ** 0.5)
    z_score = 1.96
    confidence_interval_mean = [mean - z_score * standard_error, mean + z_score * standard_error]
    return {'mean': mean, 
           'median': median,
           'mode': mode,
           'variance': variance,
           'standard_deviation': standard_deviation,
           'confidence_interval_mean': confidence_interval_mean}

In [8]:
input_list = [12, 2, 3, 5, 5, 6, 5, 1, 4]
get_statistics(input_list)

{'mean': 4.777777777777778,
 'median': 5,
 'mode': 5,
 'variance': 8.839506172839505,
 'standard_deviation': 2.9731307022799225,
 'confidence_interval_mean': [2.8353323856215615, 6.720223169933994]}

# SORU 3. Ki-Kare Bağımsızlıklık Testi

Bir 2x2 çapraz tablosu bir listelerin listesi (list of lists) olarak alan ve iki kategorik değişken arasındaki bağımsızlığı test etmek için Ki-kare (Chi-square) istatistiğini hesaplayan bir `chi_square_test` fonksiyonu yazın.

Örneğin, `table = [[a, b], [c, d]]` çapraz tablosu istatistik biliminde aşağıdaki gibi gösterilir:

![](https://github.com/mmuratarat/turkish/blob/master/_posts/images/FEF210_midterm2024.png?raw=true)

Burada `a`, `b`, `c` ve `d` hücrelerine gözlenen sıklıklar (observed frequencies) adı verilir.

Burada öncelikle `a`, `b`, `c` ve `d` hücrelerinin beklenen sıklıkları (expected frequencies) hesaplanmalıdır. Bu hesaplamalar şu şekilde yapılır:

$$
expected\_a = \frac{(a + b)(a + c)}{n}
$$

$$
expected\_b = \frac{(a + b) \times (b + d)}{n}
$$

$$
expected\_c = \frac{(c + d) \times (a + c)}{n}
$$

ve

$$
expected\_d = \frac{(c + d) \times (b + d)}{n}
$$

Daha sonra Ki-kare test istatistiği aşağıdaki gibi hesaplanır:

$$
\chi^{2}_{test} = \sum \frac{\left(O_{i} - E{i} \right)^{2}}{E_{i}}
$$

O, gözlenen (observed) sıklıklardır.

E, beklenen (expected) sıklıklardır.

**ÖRNEK KULLANIM:**

`table = [[10, 20], [30, 40]]` listelerin listesi verildiğinde

```
0.7936507936507936
```

sonucuna sahip olmalısınız.

In [16]:
def chi_square_test(table):
    # Observed values
    a, b = table[0]
    c, d = table[1]
    n = a + b + c + d
    
    # Expected values
    expected_a = (a + b) * (a + c) / n
    expected_b = (a + b) * (b + d) / n
    expected_c = (c + d) * (a + c) / n
    expected_d = (c + d) * (b + d) / n
    
    # Chi-square calculation
    chi2 = ((a - expected_a) ** 2 / expected_a +
            (b - expected_b) ** 2 / expected_b +
            (c - expected_c) ** 2 / expected_c +
            (d - expected_d) ** 2 / expected_d)
    
    return chi2

In [17]:
table = [[10, 20], [30, 40]]
print(chi_square_test(table))  

0.7936507936507936


# SORU 4

Tek bir değişkende (univariate variable) var olan aykırı değerlerin tespiti (outlier detection) için en kolay yöntem Kutu Grafiği (Boxplot) yöntemidir. Bu grafiği aşağıda görebilirsiniz:

![](https://github.com/mmuratarat/turkish/blob/master/_posts/images/FEF210_midterm_2024_boxplot.png?raw=true)

Dağılımı dört eşit parçaya bölen yüzdelikler 25. yüzdelik, 50. yüzdelik ve 75. yüzdeliktir. Bunlara çeyrek değer denilmektedir.

Bu grafiği çizmeden önce ilk olarak elimizdeki değişken küçükten büyüğe doğru sıralanır ve daha sonra bu değişkenin 1. Çeyreklik (25'inci yüzdelik - Q1), 2. Çeyreklik (50'inci yüzdelik - Q2 - Medyan - Ortanca) ve 3. Çeyreklik (75'inci yüzdelik - Q3) ölçütleri hesaplanır.

Daha sonra 3. Çeyreklik ve 1. Çeyreklik arasındaki fark olan Çeyrek Değer Aralığı (Interquartile Range - `IQR = Q3 - Q1`) hesaplanır.

Son adım olarak alt sınır (lower bound) ve üst sınır (upper bound) hesaplanır.

Alt sınıf `q1 - 1.5 * iqr` formülasyonu ile, üst sınır ise `q3 + 1.5 * iqr` formülasyonu ile hesaplanır.

Q1 ve Q3'ün kodları aşağıda verilmiştir.

```
# Calculate Q1 (25th percentile)
q1_index = (n + 1) * 0.25
q1 = sorted_data[int(q1_index) - 1] + (q1_index - int(q1_index)) * (sorted_data[int(q1_index)] - sorted_data[int(q1_index) - 1])
```

```
# Calculate Q3 (75th percentile)
q3_index = (n + 1) * 0.75
q3 = sorted_data[int(q3_index) - 1] + (q3_index - int(q3_index)) * (sorted_data[int(q3_index)] - sorted_data[int(q3_index) - 1])    
```

`find_outliers` isimli bir fonksiyon yazarak aykırı değerlerin olduğu bir listeyi, alt sınırı ve üst sınırı **SIRASIYLA** bir demet (tuple) olarak döndürünüz.

* Bu soruyu cevaplarken **hiç bir kütüphane (library) kullanımı olmaması gerekmektedir** (Örneğin, `math`, `numpy`, `statistics` ve bunun gibi...). Yani, `import`kullanamazsınız.
* Listeyi sıralamak için Python'un yerleşik fonksiyonu olan `sorted` fonksiyonunu kullanabilirsiniz.
* Herhangi bir listenin uzunluğu bulmak için Python'un yerleşik fonksiyonu olan `len` fonksiyonunu kullanabilirsiniz.
* **Aykırı değerleri bulurken list comprehension kullanmalısınız!**

**ÖRNEK KULLANIM:**

`data = [10, 12, 14, 15, 15, 15, 16, 18, 19, 100] ` listesini tek değişkenli değişken olarak kullanabilirsiniz.

In [24]:
def find_outliers(data):
    # Sort the data
    sorted_data = sorted(data)
    n = len(sorted_data)
    
    # Calculate Q1 (25th percentile)
    q1_index = (n + 1) * 0.25
    q1 = sorted_data[int(q1_index) - 1] + (q1_index - int(q1_index)) * (sorted_data[int(q1_index)] - sorted_data[int(q1_index) - 1])
    
    # Calculate Q3 (75th percentile)
    q3_index = (n + 1) * 0.75
    q3 = sorted_data[int(q3_index) - 1] + (q3_index - int(q3_index)) * (sorted_data[int(q3_index)] - sorted_data[int(q3_index) - 1])
    
    # Calculate IQR
    iqr = q3 - q1
    
    # Define outlier bounds
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    
    # Identify outliers
    outliers = [x for x in data if x < lower_bound or x > upper_bound]
    
    return outliers, lower_bound, upper_bound

In [25]:
data = [2, 10, 12, 14, 15, 15, 15, 16, 18, 19, 100, 105] 
outliers, lower_bound, upper_bound = find_outliers(data)

In [26]:
outliers

[2, 100, 105]

In [27]:
lower_bound

3.125

In [28]:
upper_bound

28.125