\begin{array}{|l|l|}
\hline
 \textbf{სასწავლო კურსის სახელწოდება} &\text{მონაცემთა ანალიტიკა (Python)}   \\
\hline
 \textbf{ლექტორი} & \text{ირაკლი გოგატიშვილი} \\
\hline
\textbf{სტუდენტის სახელი და გვარი} & \text{ სახელი გვარი }  \\
\hline
\end{array}

 **ფორმულები და კოდები**

1. აღწერილობითი სტატისტიკა:

   ფორმულები:
   - საშუალო: $\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$
   - მედიანა: განაწილების შუა მნიშვნელობა.
   - მოდა: ყველაზე ხშირად გამეორებადი მნიშვნელობა მონაცემებში.
   - დისპერსია: $\sigma^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$
   - სტანდარტული გადახრა: $\sigma = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}}$
   - ასიმეტრია: $Skewness = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^3}{s^3}$

   - ექსცესი: $\text{Kurtosis} = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^4}{s^4}$

   Python-ის კოდი:
   ```python
   import pandas as pd

   data = pd.read_csv('data.csv')
   print(data.describe())

   print("საშუალო:", data['column'].mean())
   print("მედიანა:", data['column'].median())
   print("მოდა:", data['column'].mode())
   print("დისპერსია:", data['column'].var())
   print("სტანდარტული გადახრა:", data['column'].std())
   print("ასიმეტრია:", data['column'].skew())
   print("ექსცესი:", data['column'].kurtosis())

   data['column'].hist(bins=20, color='skyblue')
   data['column'].plot(kind='kde', color='orange')
   ```

2. ამოვარდნილი მნიშვნელობების (outliers) აღმოჩენა:

   ფორმულები:
   - Z-ქულა: $z = \frac{x - \mu}{\sigma}$
   - ინტერკვარტილური დიაპაზონი (IQR): $IQR = Q3 - Q1$
   - გადახრები Z-ქულის გამოყენებით: მნიშვნელობები, რომლებიც აკმაყოფილებენ $|z| > 3$
   - გადახრები IQR-ის გამოყენებით: მნიშვნელობები, რომლებიც ნაკლებია $Q1 - 1.5 \times IQR$ ან მეტია $Q3 + 1.5 \times IQR$

   Python-ის კოდი:
   ```python
   import numpy as np
   import pandas as pd

   data = pd.read_csv('data.csv')
   z_scores = np.abs(stats.zscore(data['column']))
   outliers_z = data[z_scores > 3]

   q1 = data['column'].quantile(0.25)
   q3 = data['column'].quantile(0.75)
   iqr = q3 - q1
   outliers_iqr = data[(data['column'] < q1 - 1.5 * iqr) | (data['column'] > q3 + 1.5 * iqr)]

   data.boxplot(column=['column'])
   ```

3. ჰიპოთეზის ტესტირება:
   ფორმულები:
   - Z-ტესტი:
   $$Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}}$$
   - 1-შერჩევიანი t-ტესტი:
   $$t = \frac{\bar{x} - \mu}{\frac{s}{\sqrt{n}}}$$
   - 2-შერჩევიანი t-ტესტი:
   $$t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}$$
   - დაკავშირებული შერჩევების t-ტესტი (Paired t-test):
   $$t = \frac{\bar{d}}{s_d / \sqrt{n}}$$
   - p-მნიშვნელობა: ნულოვანი ჰიპოთეზის ქვეშ ტესტის სტატისტიკის ან უფრო ექსტრემალური მნიშვნელობების დაკვირვების ალბათობა.

   Python-ის კოდი:
   ```python
   from scipy import stats

   # Z-ტესტი
   sample_mean = 10.5
   population_mean = 10
   population_std = 2.5
   sample_size = 100
   z_statistic = (sample_mean - population_mean) / (population_std / np.sqrt(sample_size))
   p_value = 2 * (1 - stats.norm.cdf(abs(z_statistic)))
   print("Z-ტესტი:")
   print("Z სტატისტიკა:", z_statistic)
   print("p-მნიშვნელობა:", p_value)

   # 1-შერჩევიანი t-ტესტი
   sample_mean = 2.8
   sample_std = 0.9
   sample_size = 25
   population_mean = 3
   t_statistic, p_value = stats.ttest_1samp(stats.norm.rvs(loc=sample_mean, scale=sample_std, size=sample_size), population_mean)
   print("\n1-შერჩევიანი t-ტესტი:")
   print("t სტატისტიკა:", t_statistic)
   print("p-მნიშვნელობა:", p_value)

   # 2-შერჩევიანი t-ტესტი
   sample1_mean = 85
   sample1_std = 10
   sample1_size = 30
   sample2_mean = 82
   sample2_std = 12
   sample2_size = 35
   t_statistic, p_value = stats.ttest_ind_from_stats(sample1_mean, sample1_std, sample1_size, sample2_mean, sample2_std, sample2_size)
   print("\n2-შერჩევიანი t-ტესტი:")
   print("t სტატისტიკა:", t_statistic)
   print("p-მნიშვნელობა:", p_value)

   # დაკავშირებული შერჩევების t-ტესტი (Paired t-test)
   before_treatment = [85, 92, 78, 88, 95]
   after_treatment = [90, 96, 82, 91, 99]
   t_statistic, p_value = stats.ttest_rel(before_treatment, after_treatment)
   print("\nდაკავშირებული შერჩევების t-ტესტი (Paired t-test):")
   print("t სტატისტიკა:", t_statistic)
   print("p-მნიშვნელობა:", p_value)
   ```

  ამ კოდში:
  1. Z-ტესტისთვის ვითვლით Z სტატისტიკას ფორმულის გამოყენებით და p-მნიშვნელობას `stats.norm.cdf()` ფუნქციის საშუალებით.
  2. 1-შერჩევიანი t-ტესტისთვის ვიყენებთ `stats.ttest_1samp()` ფუნქციას, რომელიც იღებს შერჩევის მონაცემებს და პოპულაციის საშუალოს, და აბრუნებს t სტატისტიკას და p-მნიშვნელობას.
  3. 2-შერჩევიანი t-ტესტისთვის ვიყენებთ `stats.ttest_ind_from_stats()` ფუნქციას, რომელიც იღებს ორი შერჩევის საშუალოს, სტანდარტულ გადახრას და ზომას, და აბრუნებს t სტატისტიკას და p-მნიშვნელობას.
  4. დაკავშირებული შერჩევების t-ტესტისთვის (Paired t-test) ვიყენებთ `stats.ttest_rel()` ფუნქციას, რომელიც იღებს ორ დაკავშირებულ შერჩევას და აბრუნებს t სტატისტიკას და p-მნიშვნელობას.

  ეს კოდი გვიჩვენებს, თუ როგორ უნდა ჩავატაროთ სხვადასხვა ტიპის ჰიპოთეზის ტესტები Python-ში SciPy ბიბლიოთეკის გამოყენებით.

4. კორელაციური ანალიზი:

   ფორმულები:
   - პირსონის კორელაციის კოეფიციენტი: $r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}$

   Python-ის კოდი:
   ```python
   import pandas as pd

   data = pd.read_csv('data.csv')
   correlation_coef = data['column1'].corr(data['column2'], method='pearson')
   print("კორელაციის კოეფიციენტი:", correlation_coef)

   pd.plotting.scatter_matrix(data[['column1', 'column2']])
   ```
5. პირობითი ალბათობა:

 ფორმულები:

 - პირობითი ალბათობა: $P(A|B) = \frac{P(A \cap B)}{P(B)}$

 - ბაიესის ფორმულა: $P(A|B) = \frac{\sum_{i=1}^{n} P(B|A_i)P(A_i)}{\sum_{i=1}^{n} P(B|A_i)P(A_i) + \sum_{i=1}^{n} P(B|\neg A_i)P(\neg A_i)}$

  ამოცანა:
  ერთ სამედიცინო კვლევაში შეისწავლეს ახალი წამლის ეფექტურობა. ცნობილია, რომ ამ დაავადების მქონე პაციენტების 40% კარგად რეაგირებს ამ წამალზე. კვლევისას შემთხვევით შეარჩიეს ამ დაავადების მქონე 1000 პაციენტი და დაუნიშნეს ახალი წამალი. მათგან 420-მა აჩვენა დაავადების სიმპტომების შემსუბუქება. გამოთვალეთ:
  1. რა არის ალბათობა, რომ შემთხვევით შერჩეული პაციენტი, რომელიც კარგად რეაგირებს წამალზე, იგრძნობს სიმპტომების შემსუბუქებას?
  2. რა არის ალბათობა, რომ შემთხვევით შერჩეული პაციენტი, რომელიც არ რეაგირებს კარგად წამალზე, მაინც იგრძნობს სიმპტომების შემსუბუქებას?

  Python-ის კოდი:

  ```python
  import numpy as np

  # მოცემული ინფორმაცია
  P_responds_well = 0.4
  P_responds_poorly = 1 - P_responds_well
  num_patients = 1000
  num_relief = 420

  # თეორიული ალბათობების გამოთვლა
  P_relief_given_responds_well = 0.42
  P_relief_given_responds_poorly = (num_relief - num_patients * P_responds_well * P_relief_given_responds_well) / (num_patients * P_responds_poorly)

  print("თეორიული ალბათობები:")
  print("P(შემსუბუქება | კარგად რეაგირება) =", P_relief_given_responds_well)
  print("P(შემსუბუქება | ცუდად რეაგირება) =", P_relief_given_responds_poorly)

  # სიმულაციის ფუნქცია
  def simulate_patients(num_simulations):
      num_relief_responds_well = 0
      num_relief_responds_poorly = 0
      
      for _ in range(num_simulations):
          responds_well = np.random.choice([True, False], p=[P_responds_well, P_responds_poorly])
          
          if responds_well:
              relief = np.random.choice([True, False], p=[P_relief_given_responds_well, 1 - P_relief_given_responds_well])
              if relief:
                  num_relief_responds_well += 1
          else:
              relief = np.random.choice([True, False], p=[P_relief_given_responds_poorly, 1 - P_relief_given_responds_poorly])
              if relief:
                  num_relief_responds_poorly += 1
      
      simulated_P_relief_given_responds_well = num_relief_responds_well / (num_simulations * P_responds_well)
      simulated_P_relief_given_responds_poorly = num_relief_responds_poorly / (num_simulations * P_responds_poorly)
      
      return simulated_P_relief_given_responds_well, simulated_P_relief_given_responds_poorly

  # სიმულაციის შედეგები
  num_simulations = 100000
  simulated_P_relief_given_responds_well, simulated_P_relief_given_responds_poorly = simulate_patients(num_simulations)

  print("\nსიმულაციის შედეგები:")
  print("P(შემსუბუქება | კარგად რეაგირება) =", simulated_P_relief_given_responds_well)
  print("P(შემსუბუქება | ცუდად რეაგირება) =", simulated_P_relief_given_responds_poorly)
  ```

  ამ კოდში:
  1. ჯერ ვითვლით თეორიულ ალბათობებს ფორმულების გამოყენებით.
  2. შემდეგ ვქმნით `simulate_patients()` ფუნქციას, რომელიც ატარებს სიმულაციას მოცემული რაოდენობის პაციენტებისთვის და ითვლის სიმულირებულ ალბათობებს.
  3. ბოლოს, ვატარებთ სიმულაციას 100,000-ჯერ და ვბეჭდავთ სიმულაციის შედეგებს.

6. მონაცემთა გაწმენდა:

   Python-ის კოდი:
   ```python
   import pandas as pd

   data = pd.read_csv('data.csv')
   data['column'].fillna(data['column'].mean(), inplace=True)

   data['column'].hist(bins=20)
   data['column'].plot(kind='kde')
   ```

8. ნდობის ინტერვალი:

  ცალმხრივი და ორმხრივი ნდობის ინტერვალის ფორმულები და შესაბამისი Python კოდები:

  ფორმულები:
  - ორმხრივი ნდობის ინტერვალი:
  $$CI_{two-sided} = \bar{x} \pm z_{\alpha/2} \left( \frac{\sigma}{\sqrt{n}} \right)$$

  - ცალმხრივი (ზედა) ნდობის ინტერვალი:
  $$CI_{upper} = \bar{x} + z_{\alpha} \left( \frac{\sigma}{\sqrt{n}} \right)$$

  - ცალმხრივი (ქვედა) ნდობის ინტერვალი:
  $$CI_{lower} = \bar{x} - z_{\alpha} \left( \frac{\sigma}{\sqrt{n}} \right)$$

  Python-ის კოდი:
  ```python
  import numpy as np
  from scipy import stats

  data = pd.read_csv('data.csv')
  sample_mean = data['column'].mean()
  sample_std = data['column'].std()
  sample_size = len(data)

  # ორმხრივი ნდობის ინტერვალი
  confidence_level_two_sided = 0.95
  alpha_two_sided = 1 - confidence_level_two_sided
  z_critical_two_sided = stats.norm.ppf(1 - alpha_two_sided / 2)
  margin_of_error_two_sided = z_critical_two_sided * (sample_std / np.sqrt(sample_size))
  confidence_interval_two_sided = (sample_mean - margin_of_error_two_sided, sample_mean + margin_of_error_two_sided)
  print("ორმხრივი ნდობის ინტერვალი:", confidence_interval_two_sided)

  # ცალმხრივი (ზედა) ნდობის ინტერვალი
  confidence_level_upper = 0.95
  alpha_upper = 1 - confidence_level_upper
  z_critical_upper = stats.norm.ppf(1 - alpha_upper)
  margin_of_error_upper = z_critical_upper * (sample_std / np.sqrt(sample_size))
  confidence_interval_upper = (sample_mean, sample_mean + margin_of_error_upper)
  print("ცალმხრივი (ზედა) ნდობის ინტერვალი:", confidence_interval_upper)

  # ცალმხრივი (ქვედა) ნდობის ინტერვალი
  confidence_level_lower = 0.95
  alpha_lower = 1 - confidence_level_lower
  z_critical_lower = stats.norm.ppf(alpha_lower)
  margin_of_error_lower = z_critical_lower * (sample_std / np.sqrt(sample_size))
  confidence_interval_lower = (sample_mean - margin_of_error_lower, sample_mean)
  print("ცალმხრივი (ქვედა) ნდობის ინტერვალი:", confidence_interval_lower)
  ```

  ამ კოდში:
  1. ორმხრივი ნდობის ინტერვალისთვის ვიყენებთ `stats.norm.ppf(1 - alpha_two_sided / 2)` ფუნქციას კრიტიკული მნიშვნელობის `z_critical_two_sided`-ის გამოსათვლელად, სადაც `alpha_two_sided` არის `1 - confidence_level_two_sided`.

  2. ცალმხრივი (ზედა) ნდობის ინტერვალისთვის ვიყენებთ `stats.norm.ppf(1 - alpha_upper)` ფუნქციას კრიტიკული მნიშვნელობის `z_critical_upper`-ის გამოსათვლელად, სადაც `alpha_upper` არის `1 - confidence_level_upper`.

  3. ცალმხრივი (ქვედა) ნდობის ინტერვალისთვის ვიყენებთ `stats.norm.ppf(alpha_lower)` ფუნქციას კრიტიკული მნიშვნელობის `z_critical_lower`-ის გამოსათვლელად, სადაც `alpha_lower` არის `1 - confidence_level_lower`.

  4. შემდეგ ვითვლით ცდომილების ზღვარს (`margin_of_error`) თითოეული ნდობის ინტერვალისთვის შესაბამისი კრიტიკული მნიშვნელობის გამოყენებით.

  5. ბოლოს, ვბეჭდავთ ორმხრივ, ცალმხრივ (ზედა) და ცალმხრივ (ქვედა) ნდობის ინტერვალებს.

  ეს კოდი გვაძლევს საშუალებას გამოვთვალოთ ორმხრივი და ცალმხრივი ნდობის ინტერვალები მოცემული მონაცემებისთვის სხვადასხვა ნდობის დონეების გამოყენებით.

10. სტატისტიკური ძალის ანალიზი (Power Analysis):

    ფორმულები:
    ძირითადი კომპონენტები:
    - **ეფექტის ზომა:** ექსპერიმენტული ეფექტის სიდიდის რაოდენობრივი საზომია. ძალის ანალიზის კონტექსტში, ის ასრულებს გადამწყვეტ როლს, რადგან გვეხმარება, განვსაზღვროთ შერჩევის ზომა, რომელიც საჭიროა კვლევაში ეფექტის აღმოსაჩენად. რაც უფრო დიდია ეფექტის ზომა, მით ნაკლები მონაწილეა საჭირო იგივე ძალის ეფექტის აღმოსაჩენად.
      
      ეფექტის საზომად შეიძლება გამოვიყენოთ კოენის d (Cohen's d), რომელიც ანგარიშობს ორი ჯგუფის საშუალოებს შორის სხვაობას სტანდარტული გადახრის ერთეულებში:
    
      $d = \frac{{\bar{X}_1 - \bar{X}_2}}{{s}}$, სადაც $\bar{X}_1$ და $\bar{X}_2$ შერჩევათა საშუალოებია
    
      $s = \sqrt{\frac{{s_1^2 + s_2^2}}{2}}$, სადაც $s_1^2$ და $s_2^2$ შერჩევათა დისპერსიებია.
    
    - მცირე ეფექტი: $d \approx 0.2$
    - საშუალო ეფექტი: $d \approx 0.5$
    - მაღალი ეფექტი: $d \approx 0.8$ ან ზევით
    
    - **შერჩევის ზომა (n):** დაკვირვებების რაოდენობა თითოეულ ჯგუფში.
    - **მნიშვნელოვნების დონე (α):** I ტიპის შეცდომის დაშვების ალბათობა, რაც ნიშნავს ნულოვანი ჰიპოთეზის უარყოფას, როდესაც ის სიმართლეა. α-ს ჩვეულებრივი მნიშვნელობაა 0.05 I ტიპის შეცდომის 5%-იანი შანსისთვის.
    - **სიძლიერე (1 - β):** ჩვეულებრივ, მკვლევარები მიზნად ისახავენ 80%-იან სიძლიერეს, რაც ნიშნავს, რომ II ტიპის შეცდომის (β) ალბათობა არის 20%.

 ამოცანა:

 ფეხბურთის გუნდის მწვრთნელს სურს შეადაროს ორი სხვადასხვა ვარჯიშის რეჟიმის გავლენა მოთამაშეების სიჩქარეზე. მან შემთხვევით შეარჩია 50 მოთამაშე და გაყო ისინი ორ ჯგუფად. პირველმა ჯგუფმა ივარჯიშა ერთი რეჟიმით, ხოლო მეორემ - მეორეთი. ვარჯიშის შემდეგ, მან გაზომა თითოეული მოთამაშის სიჩქარე 100 მეტრზე სირბილში. მწვრთნელს სურს განსაზღვროს, თუ რამდენი მოთამაშე უნდა ჰყავდეს თითოეულ ჯგუფში, რათა აღმოაჩინოს საშუალო ეფექტის ზომა (d = 0.5) 5%-იანი მნიშვნელოვნების დონითა (α) და 80%-იანი ძალით (1 - β).

  Python-ის კოდი:

  ```python
  from statsmodels.stats.power import TTestIndPower
  
  # მოცემული პარამეტრები
  effect_size = 0.5  # საშუალო ეფექტის ზომა (Cohen's d)
  alpha = 0.05  # მნიშვნელოვნების დონე (α)
  power = 0.8  # სასურველი ძალა (1 - β)
  
  # ძალის ანალიზის ჩატარება
  analysis = TTestIndPower()
  sample_size = analysis.solve_power(effect_size=effect_size, alpha=alpha, power=power, nobs1=None, ratio=1.0)
  
  print(f"საჭირო შერჩევის ზომა თითოეულ ჯგუფში: {int(sample_size)}")
  ```
  ამ კოდში:
    1. ჯერ განვსაზღვრავთ სასურველ პარამეტრებს: ეფექტის ზომას (Cohen's d), მნიშვნელოვნების დონეს (α) და ძალას (1 - β).
    2. შემდეგ ვქმნით `TTestIndPower` ობიექტს `statsmodels.stats.power` მოდულიდან, რომელიც გვეხმარება ძალის ანალიზის ჩატარებაში.
    3. `solve_power()` მეთოდის გამოყენებით ვპოულობთ საჭირო შერჩევის ზომას თითოეულ ჯგუფში მოცემული პარამეტრების მიხედვით.
    4. ბოლოს, ვბეჭდავთ საჭირო შერჩევის ზომას.
  
  ამ შემთხვევაში, მწვრთნელს დასჭირდება დაახლოებით 63 მოთამაშე თითოეულ ჯგუფში (სულ 128 მოთამაშე), რათა აღმოაჩინოს საშუალო ეფექტის ზომა 5%-იანი მნიშვნელოვნების დონითა და 80%-იანი ძალით.
  
11. Boxplot-ის ვიზუალიზაცია:
    Python-ის კოდი:
    ```python
    import pandas as pd

    data = pd.read_csv('data.csv')
    data.boxplot(column='column', by='group')
    ```

12. მონაცემთა ტრანსფორმაცია:
    ```python
    import numpy as np
    import pandas as pd

    data = pd.read_csv('data.csv')
    transformed_data = np.log(data['column'])

    fig, axs = plt.subplots(1, 2, figsize=(12, 4))
    data['column'].hist(bins=20, ax=axs[0])
    axs[0].set_title('საწყისი განაწილება')
    transformed_data.hist(bins=20, ax=axs[1])
    axs[1].set_title('ტრანსფორმირებული განაწილება')
    plt.tight_layout()
    plt.show()

    fig, axs = plt.subplots(1, 2, figsize=(12, 4))
    data['column'].plot(kind='kde', ax=axs[0])
    axs[0].set_title('საწყისი განაწილება')
    transformed_data.plot(kind='kde', ax=axs[1])
    axs[1].set_title('ტრანსფორმირებული განაწილება')
    plt.tight_layout()
    plt.show()
    ```


In [2]:
import numpy as np
import pandas as pd

# მონაცემების გენერირება
np.random.seed(105)
num_patients = 100000
patient_ids = np.arange(1, num_patients + 1)
blood_pressure = np.random.normal(loc=120, scale=15, size=num_patients).astype(int)
cholesterol_levels = np.random.poisson(lam=200, size=num_patients)
gender = np.random.choice(['Male', 'Female'], size=num_patients)
treatment_outcome = np.random.choice(['Successful', 'Unsuccessful'], size=num_patients, p=[0.75, 0.25])
hospital_stay = np.random.gamma(shape=2, scale=3, size=num_patients)

# ასაკის ველი
age_mean = 50
age_std = 15
age = np.round(np.random.normal(loc=age_mean, scale=age_std, size=num_patients)).astype(int)
age = np.clip(age, 18, 100)

# მკურნალობის წლები გამოტოვებული მნიშვნელობებით
years_of_treatment = np.random.poisson(lam=3, size=num_patients).astype(float)
missing_treatment_indices = np.random.choice(num_patients, size=int(0.1 * num_patients), replace=False)
years_of_treatment[missing_treatment_indices] = np.nan

medical_data = {
    'patient_id': patient_ids,
    'blood_pressure': blood_pressure,
    'cholesterol': cholesterol_levels,
    'gender': gender,
    'treatment_outcome': treatment_outcome,
    'hospital_stay': hospital_stay,
    'age': age,
    'years_of_treatment': years_of_treatment
}

data = pd.DataFrame(medical_data)
