***Кореляція між витратами на рекламу та кількістю продажів.***

**Коефіцієнт кореляції Пірсона (Pearson Correlation Coefficient)** вимірює лінійний зв’язок між двома кількісними змінними. Працює з даними, які є неперервними та нормально розподіленими. В інших випадках (кількісні дискретні або рангові змінні) може давати неточні результати.

In [None]:
import pandas as pd
from scipy.stats import pearsonr

# Data for e-commerce example
data = {"Ad Spend": [500, 1000, 1500, 2000], "Sales": [50, 110, 150, 200]}
df = pd.DataFrame(data)

# Calculate p-value
print(f"Test statistic and p-value: {pearsonr(df['Ad Spend'], df['Sales'])}")

# Calculate Pearson correlation
pearson_corr = df["Ad Spend"].corr(df["Sales"])
print(f"Pearson Correlation: {pearson_corr}")


Test statistic and p-value: PearsonRResult(statistic=np.float64(0.9970972362566877), pvalue=np.float64(0.002902763743312331))
Pearson Correlation: 0.9970972362566876


Оскільки p-value < 0.05, взаємозв'язок між витратами на рекламу та продажами є статистично значущим. За величиною коефіцієнта кореляції, приблизно 0.997, робимо висновок, що змінні мають сильний прямий зв'язок.

***Кореляція між рейтингом продуктів і задоволеністю клієнтів.***

**Коефіцієнт Спірмена (Spearman Rank Correlation)** (вимірює монотонний зв’язок між змінними, тобто показує, чи змінюються вони постійно в одному напрямку або в різних. Цей метод підходить для ранжованих або порядкових даних, а також для кількісних даних (у тому числі дискретних), які не є нормально розподіленими.)

In [None]:
import pandas as pd
from scipy.stats import spearmanr

# Example data with rankings
data = {"Product Rating": [1, 2, 3, 4, 5], "Customer Satisfaction": [2, 3, 7, 5, 9]}
df = pd.DataFrame(data)

# Calculate p-value
print(
    f"Test statistic and p-value: {spearmanr(df['Product Rating'], df['Customer Satisfaction'])}"
)


# Calculate Spearman correlation
spearman_corr = df["Product Rating"].corr(
    df["Customer Satisfaction"], method="spearman"
)
print(f"Spearman Correlation: {spearman_corr}")


Test statistic and p-value: SignificanceResult(statistic=np.float64(0.8999999999999998), pvalue=np.float64(0.03738607346849874))
Spearman Correlation: 0.8999999999999998


Дивлячись на p-value та величину кореляції, робимо висновок, що рейтинг товарів та рівень задоволеності клієнтів мають статистично значущий сильний прямий зв'язок.

***Кореляція між ранжуванням найкращих продавців у місяць і кількістю проданих товарів.***

**Коефіцієнт Кендалла (Kendall’s Tau)** використовується для вимірювання асоціацій між змінними на основі ранжування. Він більш стійкий до аномалій у даних порівняно зі Спірменом. Також коефіцієнт Кендалла здатний вимірювати нелінійні взаємозв'язки.

In [None]:
import pandas as pd
from scipy.stats import kendalltau

# Example with Kendall's Tau
data = {"Seller Rank": [1, 2, 3, 4], "Sales Units": [400, 350, 300, 250]}
df = pd.DataFrame(data)

# Calculate p-value
print(f"Test statistic and p-value: {kendalltau(df['Seller Rank'], df['Sales Units'])}")

# Calculate Kendall's Tau correlation
kendall_corr = df["Seller Rank"].corr(df["Sales Units"], method="kendall")
print(f"Kendall Correlation: {kendall_corr}")


Test statistic and p-value: SignificanceResult(statistic=np.float64(-1.0), pvalue=np.float64(0.08333333333333333))
Kendall Correlation: -1.0


Ми отримали цікавий результат. Коефіцієнт Кендалла дорівнює -1, що, здається, вказує на ідеальну негативну кореляцію між змінними. Але при цьому p-value = 0.08, що перевищує стандартний поріг у 5 %, тому ми не маємо достатньо підстав для прийняття альтернативної гіпотези (про ненульову кореляцію). Отже, отриманий взаємозв'язок не є статистично значущим. Це може бути пов'язано із дуже малою вибіркою.