In [195]:
import pandas as pd
import numpy as np
import seaborn as sns
import statsmodels.formula.api as smf
from statsmodels.formula.api import ols

In [187]:
df = pd.read_excel('Financial analyst test.xlsx', skiprows = [1], header = 1)

In [188]:
df = df.drop('Unnamed: 0', axis = 1)
df.head()

Unnamed: 0,Year,Quarter,Month,Employee,Cost Object,Paid FTE,Salary,Overhead,Total Expenses
0,2010,Q3,Sep,Employee 102,::DC/GO/CIS/BY/Minsk,0.555556,722.2222,341.1389,1063.3611
1,2010,Q4,Oct,Employee 102,::DC/GO/CIS/BY/Minsk,1.0,1300.0,637.2292,1937.2292
2,2010,Q4,Nov,Employee 102,::DC/GO/CIS/BY/Minsk,1.0,1300.0,589.6518,1889.6518
3,2010,Q1,Mar,Employee 17,::DC/GO/CIS/BY/Minsk,0.6875,398.75,362.1535,760.9035
4,2010,Q2,Apr,Employee 17,::DC/GO/CIS/BY/Minsk,1.0,699.9999,677.8367,1377.8366


In [189]:
df['Year'] = pd.to_datetime(df.Year, format = '%Y').dt.year

In [190]:
month_mapping = {
    'Jan': 1,'Feb': 2,'Mar': 3,'Apr': 4,'May': 5,'Jun': 6,'Jul': 7,'Aug': 8,'Sep': 9,'Oct': 10,'Nov': 11,'Dec': 12
}

# Заменяем названия месяцев на номера месяцев
df['Month'] = df['Month'].apply(lambda x: month_mapping[x])
df = df.rename(columns = {'Total Expenses':'Total_Expenses'})

In [191]:
df.head(3)

Unnamed: 0,Year,Quarter,Month,Employee,Cost Object,Paid FTE,Salary,Overhead,Total_Expenses
0,2010,Q3,9,Employee 102,::DC/GO/CIS/BY/Minsk,0.555556,722.2222,341.1389,1063.3611
1,2010,Q4,10,Employee 102,::DC/GO/CIS/BY/Minsk,1.0,1300.0,637.2292,1937.2292
2,2010,Q4,11,Employee 102,::DC/GO/CIS/BY/Minsk,1.0,1300.0,589.6518,1889.6518


In [193]:
costs1 = df.groupby(['Year', 'Month'], as_index = False).agg({'Total_Expenses': 'mean', 
                                                              'Employee' : 'count', 
                                                              'Salary': 'mean', 
                                                              'Overhead' : 'mean'})
df_mean = costs1[costs1.Month.isin([5,8])]
df_mean = df_mean.rename(columns = {'Total_Expenses' : 'Total_Expenses_avg','Employee':'Employee_count', 'Salary':'Salary_avg', 'Overhead':'Overhead_avg'})
df_mean

Unnamed: 0,Year,Month,Total_Expenses_avg,Employee_count,Salary_avg,Overhead_avg
2,2010,5,1524.104589,27,993.706533,530.398056
5,2010,8,1497.428416,32,913.362547,584.065869


#### Почему расходы выросли и как на дельту повлияло изменение струкруры команды, изменение зарплаты и оверхедов в денежном выражении?

In [None]:
#Применим регрессионный анализ

In [194]:
result = smf.ols('Total_Expenses_avg ~ Employee_count + Salary_avg + Overhead_avg', data = df_mean).fit()
print(result.summary())

  return 1 - (np.divide(self.nobs - self.k_constant, self.df_resid)
  * (1 - self.rsquared))
  return np.dot(wresid, wresid) / self.df_resid


                            OLS Regression Results                            
Dep. Variable:     Total_Expenses_avg   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                    nan
Method:                 Least Squares   F-statistic:                       nan
Date:                Sun, 13 Aug 2023   Prob (F-statistic):                nan
Time:                        13:51:17   Log-Likelihood:                 51.228
No. Observations:                   2   AIC:                            -98.46
Df Residuals:                       0   BIC:                            -101.1
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                     coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------
Intercept          0.0014        inf        

In [197]:
#sns.pairplot(data = df_mean, kind = 'reg')

In [None]:
Средняя доля всех расходов на человека уменьшилась за период с мая по август с 1524.1 до 1497.4.
Уравнение регрессии для Средней доли расходов на человека выглядит следующим образом:
   
 Total_Expenses_avg = 0.0014 + 0.0615*Employee_count + 1.0008*Salary_avg + 0.9954*Overhead_avg
    
Коэффициент 0.0615  при независимой переменной Employee_count (структура команды) демонстрирует нам:
Насколько изменяется ожидаемое значение Средней доли расходов на человека при единичном изменении независимой переменной 
Employee_count при условии, что все остальные независимые переменные не изменяются.
Коэффициент 1.0008  при независимой переменной Salary_avg (средняя з/п) демонстрирует нам:
Насколько изменяется ожидаемое значение Средней доли расходов на человека при единичном изменении независимой переменной 
Salary_avg при условии, что все остальные независимые переменные не изменяются.
Коэффициент 0.9954 при независимой переменной Overhead_avg (средний уровень накладных расходов на члена команды) демонстрирует нам:
Насколько изменяется ожидаемое значение Средней доли расходов на человека при единичном изменении независимой переменной 
Overhead_avg при условии, что все остальные независимые переменные не изменяются.
    


### Теперь посчитаем влияние факторов в денежном выражении

In [198]:
costs1 = df.groupby(['Year', 'Month'], as_index = False).agg({'Total_Expenses': 'sum', 
                                                              'Employee' : 'count', 
                                                              'Salary': 'mean', 
                                                              'Overhead' : 'mean'})
df_mean = costs1[(costs1.Month == 5) | (costs1.Month == 8)]
df_mean = df_mean.rename(columns = {'Total_Expenses' : 'Total_Expenses_sum','Employee':'Employee_count', 'Salary':'Salary_avg', 'Overhead':'Overhead_avg'})
df_mean

Unnamed: 0,Year,Month,Total_Expenses_sum,Employee_count,Salary_avg,Overhead_avg
2,2010,5,41150.8239,27,993.706533,530.398056
5,2010,8,47917.7093,32,913.362547,584.065869


In [199]:
may = df_mean[df_mean['Month'] == 5]
august = df_mean[df_mean['Month'] == 8]
may_sum_expenses = may.Total_Expenses_sum.sum()
august_sum_expenses = august.Total_Expenses_sum.sum()
expenses_diff = august_sum_expenses - may_sum_expenses
Employee_count_diff = august.Employee_count.sum() - may.Employee_count.sum()
Salary_avg_diff = august.Salary_avg.sum() - may.Salary_avg.sum()
Overhead_avg_diff = august.Overhead_avg.sum() - may.Overhead_avg.sum()

In [200]:
# Посчитаем влияние структуры команды, изменения зарплаты и оверхедов на общие расходы в денежном эквиваленте
Employee_count_impact = Employee_count_diff * may.Salary_avg.sum()
Salary_avg_impact = may.Employee_count.sum() * Salary_avg_diff
Overhead_avg_impact = may.Employee_count.sum() * Overhead_avg_diff
Total_impact = Employee_count_impact + Salary_avg_impact + Overhead_avg_impact

In [201]:
print('Изменение в общих расходах Мая и Августа:', expenses_diff.round(2))
print('Влияние увеличения количества членов команды на общие расходы:', Employee_count_impact.round(2))
print('Влияние уменьшения средней зарплаты на общие расходы:', Salary_avg_impact.round(2))
print('Влияние увеличения среднего уровня накладных расходов на общие расходы:', Overhead_avg_impact.round(2))
print('Общее влияние факторов на общие расходы:', Total_impact.round(2))

Изменение в общих расходах Мая и Августа: 6766.89
Влияние увеличения количества членов команды на общие расходы: 4968.53
Влияние уменьшения средней зарплаты на общие расходы: -2169.29
Влияние увеличения среднего уровня накладных расходов на общие расходы: 1449.03
Общее влияние факторов на общие расходы: 4248.28
