# Ekonometria - Case Study
Obliczenia dla studium przypadku


### Przygotowanie


Instalacja i importowanie bibliotek (część jest już domyślnie zainstalowana przez Google)

**Wykorzystane biblioteki i zastosowanie:**

**pandas** - do pracy z danymi, w tym przypadku konkretnie do przechowywania danych w formie dwuwymiarowej tabeli

**sklearn** - zestaw narzędzi do realizacji zadań nauczania maszynowego, tutaj wykorzystano tylko model regresji liniowej

**statsmodels** - pozwala przeprowadzać obliczenia i testy statystyczne; tak jak sklearn pozwoli przeprowadzić estymację parametrów KMNK, ale tutaj dodatkowo można wygenerować statystyczne podsumowanie modelu

In [None]:
# ten fragment jest uruchamiany tylko jeden raz - przy tworzeniu projektu
pip install sklearn
pip install statsmodels

SyntaxError: ignored

In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm

# Meta (Facebook)
**Studium Przypadku - Finalne**

## Przygotowanie danych:

In [None]:
# dane pochodzące z treści zadania

dane2009_2017 = {'indeks_roku': [1,2,3,4,5,6,7,8,9],
        'przychod': [777,1974,3711,5089,7872,12466,17928,27638,40653],
        'zysk': [229,606,1000,53,1500,2940,3688,10217,15934],
        'zatrudnienie': [1218,2127,3200,4619,6337,9199,12691,17048,25105],
        'uzytkownicy': [1104,2071,3064,3919,4682,5336,6067,7014,8143],
        'koszty': [548,1368,2711,5036,6372,9526,14240,17421,24719]
        }

dane2009_2017_users = {'uzytkownicy_kwartalnie': [100,197,242,305,360,431,482,
                                                  550,608,680,739,
                                  800,845,901,955,1007,1056,1110,1155,1189,
                                  1228,1276,1317,1350,1393,1441,1490,1545,1591,
                                  1654,1712,1788,1860,1936,2006,2072,2129],
        'indeks_kwartalu': [7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,
                            25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,
                            42,43],}


# dane pochodzące z treści zadania rozszerzone o lata 2018 - 2021

dane2009_2021 = {'indeks_roku': [1,2,3,4,5,6,7,8,9,10,11,12,13],
        'przychod': [777,1974,3711,5089,7872,12466,17928,27638,40653,55838,70697,
                     85965,117929],
        'zysk': [229,606,1000,53,1500,2940,3688,10217,15934,22112,18485,29146,
                 39370],
        'zatrudnienie': [1218,2127,3200,4619,6337,9199,12691,17048,25105,35587,
                         44942,58604,71970],
        'uzytkownicy': [1104,2071,3064,3919,4682,5336,6067,7014,8143,9021,9736,
                        10841,11570],
        'koszty': [548,1368,2711,5036,6372,9526,14240,17421,24719,33726,52212,
                   56819,78559],
        }


df_do_2017 = pd.DataFrame(dane2009_2017)
df_do_2021 = pd.DataFrame(dane2009_2021)
df_do_2017_users = pd.DataFrame(dane2009_2017_users)

**Estymacja parametrów**


## Przychód jako zmienna zależna od liczby użytkowników i zatrudnienia

Zadeklarowanie listy zmiennych objaśnianych (y) oraz objaśniających (x):

In [None]:
x = df_do_2017[['zatrudnienie', 'uzytkownicy']]
y = df_do_2017['przychod']

print(x)

   zatrudnienie  uzytkownicy
0          1218         1104
1          2127         2071
2          3200         3064
3          4619         3919
4          6337         4682
5          9199         5336
6         12691         6067
7         17048         7014
8         25105         8143


In [None]:
x = sm.add_constant(x)

model = sm.OLS(y, x)

  x = pd.concat(x[::order], 1)


In [None]:
estymacja = model.fit()

a0 = estymacja.params['const']
a1 = estymacja.params['zatrudnienie']
a2 = estymacja.params['uzytkownicy']


In [None]:
print(estymacja.summary())

                            OLS Regression Results                            
Dep. Variable:               przychod   R-squared:                       0.998
Model:                            OLS   Adj. R-squared:                  0.997
Method:                 Least Squares   F-statistic:                     1515.
Date:                Sat, 21 Jan 2023   Prob (F-statistic):           7.72e-09
Time:                        15:31:59   Log-Likelihood:                -69.789
No. Observations:                   9   AIC:                             145.6
Df Residuals:                       6   BIC:                             146.2
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
const         -492.3111    767.978     -0.641   



## Liczba użytkowników w funkcji czasu

In [None]:
x = df_do_2017_users['indeks_kwartalu']
y = df_do_2017_users['uzytkownicy_kwartalnie']

print(y)

0      100
1      197
2      242
3      305
4      360
5      431
6      482
7      550
8      608
9      680
10     739
11     800
12     845
13     901
14     955
15    1007
16    1056
17    1110
18    1155
19    1189
20    1228
21    1276
22    1317
23    1350
24    1393
25    1441
26    1490
27    1545
28    1591
29    1654
30    1712
31    1788
32    1860
33    1936
34    2006
35    2072
36    2129
Name: uzytkownicy_kwartalnie, dtype: int64


In [None]:
x = sm.add_constant(x)

model = sm.OLS(y, x)

  x = pd.concat(x[::order], 1)


In [None]:
estymacja = model.fit()

a0 = estymacja.params['const']
a1 = estymacja.params['indeks_kwartalu']


In [None]:
print(estymacja.summary())

                              OLS Regression Results                              
Dep. Variable:     uzytkownicy_kwartalnie   R-squared:                       0.995
Model:                                OLS   Adj. R-squared:                  0.995
Method:                     Least Squares   F-statistic:                     7729.
Date:                    Sat, 21 Jan 2023   Prob (F-statistic):           1.18e-42
Time:                            15:31:59   Log-Likelihood:                -187.07
No. Observations:                      37   AIC:                             378.1
Df Residuals:                          35   BIC:                             381.4
Df Model:                               1                                         
Covariance Type:                nonrobust                                         
                      coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------
co

## Wielkość zatrudnienia jako zmienna zależna od liczby użytkowników

In [None]:
x = df_do_2017['uzytkownicy']
y = df_do_2017['zatrudnienie']

print(x)

0    1104
1    2071
2    3064
3    3919
4    4682
5    5336
6    6067
7    7014
8    8143
Name: uzytkownicy, dtype: int64


In [None]:
x = sm.add_constant(x)

model = sm.OLS(y, x)

  x = pd.concat(x[::order], 1)


In [None]:
estymacja = model.fit()

a0 = estymacja.params['const']
a1 = estymacja.params['uzytkownicy']



In [None]:
print(estymacja.summary())

                            OLS Regression Results                            
Dep. Variable:           zatrudnienie   R-squared:                       0.890
Model:                            OLS   Adj. R-squared:                  0.874
Method:                 Least Squares   F-statistic:                     56.63
Date:                Sat, 21 Jan 2023   Prob (F-statistic):           0.000134
Time:                        15:31:59   Log-Likelihood:                -83.135
No. Observations:                   9   AIC:                             170.3
Df Residuals:                       7   BIC:                             170.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
const       -5902.0191   2199.084     -2.684      



## Rozbudowanie modeli o dane do 2021 roku

### Przychód jako zmienna zależna od liczby użytkowników i zatrudnienia



In [None]:
x = df_do_2021[['zatrudnienie', 'uzytkownicy']]
y = df_do_2021['przychod']

In [None]:
x = sm.add_constant(x)

model = sm.OLS(y, x)

  x = pd.concat(x[::order], 1)


In [None]:
estymacja = model.fit()

a0 = estymacja.params['const']
a1 = estymacja.params['zatrudnienie']
a2 = estymacja.params['uzytkownicy']


In [None]:
print(estymacja.summary())

                            OLS Regression Results                            
Dep. Variable:               przychod   R-squared:                       0.996
Model:                            OLS   Adj. R-squared:                  0.995
Method:                 Least Squares   F-statistic:                     1237.
Date:                Sat, 21 Jan 2023   Prob (F-statistic):           1.06e-12
Time:                        15:31:59   Log-Likelihood:                -119.02
No. Observations:                  13   AIC:                             244.0
Df Residuals:                      10   BIC:                             245.7
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
const        -1470.7073   2307.987     -0.637   



### Liczba użytkowników w funkcji czasu

In [None]:
dane2009_2021_users = {'uzytkownicy_kwartalnie': [100,197,242,305,360,431,482,
                                                  550,608,680,739,800,845,901,
                                                  955,1007,1056,1110,1155,1189,
                                                  1228,1276,1317,1350,1393,1441,
                                                  1490,1545,1591,1654,1712,1788,
                                                  1860,1936,2006,2072,2129,2196,
                                                  2234,2271,2320,2375,2414,2449,
                                                  2498,2603,2701,2740,2797,2853,
                                                  2895,2910,2912],
        'indeks_kwartalu': [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,
                            21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,
                            38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53],}

df_do_2021_users = pd.DataFrame(dane2009_2021_users)

In [None]:
x = df_do_2021_users['indeks_kwartalu']
y = df_do_2021_users['uzytkownicy_kwartalnie']

print(y)

0      100
1      197
2      242
3      305
4      360
5      431
6      482
7      550
8      608
9      680
10     739
11     800
12     845
13     901
14     955
15    1007
16    1056
17    1110
18    1155
19    1189
20    1228
21    1276
22    1317
23    1350
24    1393
25    1441
26    1490
27    1545
28    1591
29    1654
30    1712
31    1788
32    1860
33    1936
34    2006
35    2072
36    2129
37    2196
38    2234
39    2271
40    2320
41    2375
42    2414
43    2449
44    2498
45    2603
46    2701
47    2740
48    2797
49    2853
50    2895
51    2910
52    2912
Name: uzytkownicy_kwartalnie, dtype: int64


In [None]:
x = sm.add_constant(x)

model = sm.OLS(y, x)

  x = pd.concat(x[::order], 1)


In [None]:
estymacja = model.fit()

a0 = estymacja.params['const']
a1 = estymacja.params['indeks_kwartalu']


In [None]:
print(estymacja.summary())

                              OLS Regression Results                              
Dep. Variable:     uzytkownicy_kwartalnie   R-squared:                       0.998
Model:                                OLS   Adj. R-squared:                  0.998
Method:                     Least Squares   F-statistic:                 2.306e+04
Date:                    Sat, 21 Jan 2023   Prob (F-statistic):           2.06e-69
Time:                            15:31:59   Log-Likelihood:                -269.26
No. Observations:                      53   AIC:                             542.5
Df Residuals:                          51   BIC:                             546.5
Df Model:                               1                                         
Covariance Type:                nonrobust                                         
                      coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------
co

### Wielkość zatrudnienia jako zmienna zależna od liczby użytkowników

In [None]:
x = df_do_2021['uzytkownicy']
y = df_do_2021['zatrudnienie']

print(y)

0      1218
1      2127
2      3200
3      4619
4      6337
5      9199
6     12691
7     17048
8     25105
9     35587
10    44942
11    58604
12    71970
Name: zatrudnienie, dtype: int64


In [None]:
x = sm.add_constant(x)

model = sm.OLS(y, x)

  x = pd.concat(x[::order], 1)


In [None]:
estymacja = model.fit()

a0 = estymacja.params['const']
a1 = estymacja.params['uzytkownicy']


In [None]:
print(estymacja.summary())

                            OLS Regression Results                            
Dep. Variable:           zatrudnienie   R-squared:                       0.870
Model:                            OLS   Adj. R-squared:                  0.859
Method:                 Least Squares   F-statistic:                     73.85
Date:                Sat, 21 Jan 2023   Prob (F-statistic):           3.29e-06
Time:                        15:31:59   Log-Likelihood:                -135.42
No. Observations:                  13   AIC:                             274.8
Df Residuals:                      11   BIC:                             276.0
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
const       -1.862e+04   5371.020     -3.466      



## Prognoza na 2022 rok

###Przychód

model: Y = 1.6094X1 – 0.0402X2 – 1470.7073


dane prognozowane na rok 2022:




In [86]:
a1 = 1.6094
a2 = -0.0402
a0 = -1470.7073

zatrudnienie = 61712.40335296
uzytkownicy = 12405.7824



In [87]:
forecast = (a1 * zatrudnienie) + (a2 * uzytkownicy) + a0
print(forecast)

97350.52220377383


###Liczba użytkowników

Model: Y = 54.0943X + 99.2286
szukane indeksy kwartałów: 54, 55, 56, 57

In [75]:
a1 = 54.094
a0 = 99.2286

In [81]:
forecast = (a1 * 54 + a0) + (a1 * 55 + a0) + (a1 * 56 + a0) + (a1 * 57 + a0)
print(forecast)


12405.7824
3182.5866


Wielkość zatrudnienia

In [82]:
a1 = 6.4754
a0 = -18620
users_forecast = 12405.7824

In [83]:
forecast = (a1 * users_forecast + a0)
print(forecast)

61712.40335296
