# Econometrics

<div dir = "rtl">
اقتصادسنجی

## First session

<div dir = 'rtl'>
نخستین جلسه

### The goal of this activity is to replicate our Excel calculations of $R^2$ in Python. We will compute the averages, determine the slope ($\beta_1$) and intercept ($\beta_0$), and calculate the total sum of squares (SST) and sum of squared errors (SSE) to derive the $R^2$ value.

<div dir='rtl'>
هدف این فعالیت این است که محاسبات ضریب تعیین را که در اکسل انجام دادیم، در پایتون انجام دهیم. میانگین دو داده، شیب، عرض از مبدا را محاسبه خواهیم کرد و بعد با محاسبه‌ی 
SST
و
SSE
ضریب تعیین را محاسبه خواهیم کرد.


### First of all, we need to understand what Python recognizes and what it does not. We will start with some numbers to see if they are recognized.

<div dir = "rtl">
در ابتدا باید بفهمیم پایتون چه چیزی را تشخیص می‌دهد و چه چیزی را تشخیص نمی‌دهد. با اعداد شروع می‌کنیم تا ببینیم پایتون آنها را شناسایی می‌کند یا خیر. 

In [1]:
5

5

In [None]:
5+5 #this is addition

10

### We can use # to comment in our codes. Python will not read what comes after #.

<div dir ="rtl">
از # در کدها می‌توانیم برای کامنت گذاشتن استفاده کنیم. پایتون آنها را نمی‌خواند. 

In [4]:
5 - 5

0

In [2]:
5 * 5

25

In [None]:
5**5 #

3125

In [3]:
5 / 5

1.0

### We see that Python is capable of understanding numbers and supports mathematical operations such as addition (+), subtraction (-), multiplication (*), exponentiation (**), and division (/).

<div dir = "rtl">
مشاهده می‌کنیم که پایتون توانایی شناسایی اعداد را دارد و از عملیات‌های ریاضی مانند جمع (+)، تفریق (-)، ضرب (*)، توان (**) و تقسیم (/) پشتیبانی می‌کند. 

In [66]:
2.34
3.56
4.78
5.9
6.12

6.12

### The above code and its result do not imply that Python only recognizes the number 6.12; rather, it demonstrates how memory works in Python. All numbers are read and recognized, but the last value stored in memory is 6.12.

<div dir ="rtl">
کد بالا و نتیجه‌اش دلالت بر این ندارند که پایتون تنها عدد 6.12 را می‌شناسد، بلکه این کد نشان می‌دهد که کارکرد مموری در پایتون چگونه است: همه‌ی اعداد خوانده و شناسایی می‌شوند ولی تنها آخرین عدد در مموری باقی می‌ماند.

### To address this issue, we can assign each number to a variable. By doing so, we ensure that all values are stored in memory, making it easy to call them whenever needed. For example:

<div dir ="rtl">
برای رفع این مشکل، می‌توانیم برای هر عدد یک متغیر اختصاص دهیم. با انجام این کار، اطمینان حاصل می‌کنیم که همه مقادیر در حافظه ذخیره می‌شوند و به راحتی می‌توان آن‌ها را در هر زمان که لازم بود به فراخوانی کرد. به عنوان مثال:

In [5]:
obs1 = 2.34
obs2 = 3.56
obs3 = 4.78
obs4 = 5.9
obs5 = 6.12

In [6]:
obs2

3.56

In [7]:
obs3

4.78

### Another way to ensure that all numbers are processed in Python, rather than just the last one stored in memory, is to use the print function. By printing each number, we can display all of them in the output. For example:

<div dir ="rtl">
راه دیگر برای اطمینان از اینکه همه‌ی اعداد و نه فقط آخرین عدد در پایتون پردازش می‌شوند، استفاده از تابع پرینت است. با پرینت هر عدد می‌توانیم همه‌ی آنها را در خروجی نمایش دهیم. به عنوان مثال:

In [8]:
print(2.34)
print(3.56)
print(4.78)
print(5.9)
print(6.12)

2.34
3.56
4.78
5.9
6.12


## Functions take some arguments, perform operations on them, and return a result. For example, consider the following function:

<div dir = "rtl">
توابع تعدادی آرگومان  می گیرند، عملیاتی را روی آنها انجام می‌دهند و نتیجه را برمی‌گردانند. به عنوان مثال، تابع  زیر را در نظر بگیرید:
<div>


### $f(x,y) = xy$
### $f(1, 2) = 1 \times 2 = 2$
### $(3, 2) = 3 \times 2 = 6$

### We can also print defined variables

<div dir = "rtl">
همچنین می‌توانیم متغیرهای تعریف شده را پرینت بگیریم

In [10]:
print(obs2)
print(obs1)
print(obs3)
print(obs5)

3.56
2.34
4.78
6.12


### If we attempt to call an undefined variable in Python, the interpreter will raise an error. For example, if we try to use a variable that hasn't been defined, we will encounter a NameError:

<div dir = "rtl">
اگر بخواهیم یک متغیر تعریف نشده را در پایتون فراخوانی کنیم، پایتون خطا می‌دهد. به عنوان مثال، اگر بخواهیم از متغیری استفاده کنیم که تعریف نشده است، با یک NameError مواجه می‌شویم:

In [11]:
example_error

NameError: name 'example_error' is not defined

### We can also assign multiple numbers to a single variable

<div dir = "rtl">
همچنین می‌توانیم چند عدد را به یک متغیر مرتبط کنیم

In [74]:
data1 = 2.34, 3.56, 4.78, 5.9, 6.12

In [76]:
data1

(2.34, 3.56, 4.78, 5.9, 6.12)

### Assigning variables helps us streamline our code by reducing redundancy. By storing a value in a variable, we can use that variable in calculations whenever needed, rather than repeating the same number multiple times. For example, if we have a constant value that we need to use in several calculations, we can assign it to a variable and reference that variable instead:

In [12]:
constant_value = 5
result1 = constant_value * 2
result2 = constant_value + 3

In [13]:
print(result1)
print(result2)

10
8


## What Does Python Recognize These Values and Variables As?

<div dir ="rtl">
پایتون این متغیرها و این مقادیر به عنوان چه چیزی می‌شناسد؟

In [91]:
type(5)

int

### Integers

<div dir = "rtl">
عدد صحیح

In [14]:
type(obs5)

float

### Floating point numbers

<div dir = "rtl">
اعداد اعشاری

In [95]:
type(print)

builtin_function_or_method

### print is known as a function

<div dir = "rtl">
پرینت به عنوان یک تابع شناسایی می‌شود

### Up to now, we have understood that some concepts are already known and defined in Python, such as built-in functions like print() and type(), as well as data types like integers (e.g., 5) and floats (e.g., 5.2). However, there are certain mathematical constants, such as π (pi) and e (the base of natural logarithms), that are not predefined in Python:

<div dir ="rtl">
تاکنون متوجه شده‌ایم که برخی از مفاهیم از قبل در پایتون شناخته شده و تعریف شده‌اند، مانند توابع  print و type، و همچنین انواع داده‌ها مانند اعداد صحیح (مثلاً 5) و اعداد اعشاری (مثلاً 5.2). با این حال، همه چیز برای پایتون تعریف نشده است مانند π (pi) و e (پایه لگاریتم‌های طبیعی):

In [99]:
pi

NameError: name 'pi' is not defined

## But, we can define them by ourselves:

<div dir = "rtl">
اما می‌توانیم خودمان تعریفش کنیم

In [101]:
pi = 3.14

In [103]:
print(pi)

3.14


## While 3.14 is a common approximation of π, it is not the most precise value. To obtain a more accurate representation of π, we can use libraries that provide this constant with greater precision. For example, the math library in Python includes a more accurate value for π:

<div dir = "rtl">
در حالی که 3.14 یک تقریب رایج از π است، ولی دقیق ترین مقدارآن  نیست. برای به دست آوردن نمایش دقیق‌تری از π، می‌توانیم از کتابخانه‌هایی استفاده کنیم که این عدد را با دقت بیشتری ارائه می‌کنند. به عنوان مثال، کتابخانه math در پایتون دارای مقدار دقیق تری برای π است:

In [105]:
import math

In [107]:
math.pi

3.141592653589793

In [111]:
e = 2.718

In [115]:
e

2.718

In [117]:
math.e

2.718281828459045

## To use libraries in Python, we typically import them at the beginning of our script. However, if we want to avoid repeatedly calling functions or constants from a library, we can assign them to variables. For example, to use the constant e from the math library, we can import the library and then define a variable:

<div dir = 'rtl'>
برای استفاده از کتابخانه‌ها در پایتون، آنها را در ابتدای کد خود وارد می کنیم. با این حال، اگر بخواهیم از فراخوانی مکرر توابع یا ثابت ها از یک کتابخانه جلوگیری کنیم، می‌توانیم آنها را به متغیرها اختصاص دهیم. به عنوان مثال، برای استفاده از ثابت e از کتابخانه ریاضی، می‌توانیم کتابخانه را وارد کنیم و سپس یک متغیر تعریف کنیم:

In [18]:
import math

e = math.e

e

2.718281828459045

## To delete a defined variable we can do the following:

In [19]:
del e

In [20]:
e

NameError: name 'e' is not defined

# Replicating the analysis of the excel in Python

<div dir = 'rtl'>
تکرار تجزیه و تحلیل اکسل در پایتون

## First, we need to read the Excel file in our Python environment. Since Python does not recognize Excel files by default, we will use a library called pandas to import the Excel file. To install the pandas library, run the following command in your terminal or command prompt:

<div dir = "rtl">
ابتدا باید فایل اکسل را در محیط پایتون خود بخوانیم. از آنجایی که پایتون فایل‌های اکسل را به‌طور پیش‌فرض تشخیص نمی‌دهد، از کتابخانه‌ای به نام pandas برای وارد کردن فایل اکسل استفاده می‌کنیم. برای نصب کتابخانه pandas، دستور زیر را در ترمینال یا خط فرمان خود اجرا کنید:

In [120]:
pip install pandas

Defaulting to user installation because normal site-packages is not writeableNote: you may need to restart the kernel to use updated packages.



## Installing openpyxl library is a good idea too.

In [122]:
#pip install openpyxl

# reading the excel file

In [22]:
import pandas 

### We will use the read_excel() function from the pandas library to read an Excel file. In the first argument of this function, we provide the path to the file. If the Excel file is in the same folder as our Python script, we can simply provide the file name along with its format. In the second argument, we specify the name of the sheet we want to import into our Python environment. Here’s an example:

<div dir = "rtl">
ما از تابع read_excel از کتابخانه pandas برای خواندن یک فایل اکسل استفاده می‌کنیم.

در اولین آرگومان این تابع، مسیر فایل را مشخص می‌كنیم. اگر فایل اکسل در همان پوشه‌ی کد پایتون ما باشد، می‌توانیم به سادگی نام فایل را همراه با فرمت آن به تابع بدهیم. در آرگومان دوم، نام برگه‌ای (شیت) را که می‌خواهیم به محیط پایتون وارد کنیم، مشخص می‌کنیم.

مثال:

In [23]:
pandas.read_excel("first session data.xlsx", sheet_name = "Sheet2")

Unnamed: 0,Y,X
0,2.34,1.23
1,3.56,2.45
2,4.78,3.67
3,5.9,4.89
4,6.12,5.01
5,7.45,6.34
6,8.67,7.56
7,9.89,8.78
8,10.23,9.12
9,11.45,10.34


### In this example, first_session_data.xlsx is the name of the Excel file, and "Sheet2" is the name of the sheet we are interested in. This will load the specified sheet into a pandas DataFrame, allowing us to work with the data easily.

<div dir = 'rtl'>
 در این مثال، first_session_data.xlsx نام فایل اکسل است، و "Sheet2" نام برگه‌ای است که ما در پایتون فراخوانی‌اش کردیم

### To view the first five rows or the last five rows of a DataFrame loaded from an Excel file, we can use the head() and tail() methods provided by pandas.

<div dir = 'rtl'>
 برای مشاهده پنج سطر اول یا پنج سطر آخر یک شیت اکسل، می‌توانیم از متدهای 
 ()head 
 و 
 ()tail 
 ارائه شده توسط کتابخانه pandas استفاده کنیم.

In [24]:
pandas.read_excel("first session data.xlsx", sheet_name = "Sheet2").head()

Unnamed: 0,Y,X
0,2.34,1.23
1,3.56,2.45
2,4.78,3.67
3,5.9,4.89
4,6.12,5.01


In [25]:
pandas.read_excel("first session data.xlsx", sheet_name = "Sheet2").tail()

Unnamed: 0,Y,X
25,27.67,26.56
26,28.89,27.78
27,29.01,28.9
28,30.23,29.12
29,31.45,30.34


### When we import pandas using the statement import pandas, we must use the full name each time we want to call a function from the library. However, we can simplify this by using an alias. By importing pandas as pd, we can shorten our code and make it more readable. Here’s how to do it:

<div dir = 'rtl'>
وقتی کتابخانه pandas را با استفاده از عبارت import pandas وارد می‌کنیم، هر بار که می‌خواهیم تابعی را از کتابخانه فراخوانی کنیم باید از نام کامل یعنی pandas استفاده کنیم. با این حال، ما می‌توانیم با استفاده از نام مستعار این کار را ساده کنیم. با وارد کردن pandas به صورت pd، می‌توانیم کد خود را کوتاه کرده و خواناتر کنیم. برای نمونه:

In [26]:
import pandas as pd

### To store the contents of an Excel file in our Python environment, we can define a variable for it. This allows us to easily access and manipulate the data later in our code.

<div dir = 'rtl'>
برای حفظ محتویات یک فایل اکسل در محیط پایتون خود می‌توانیم یک متغیر برای آن تعریف کنیم. اینکار به ما امکان می‌دهد به راحتی به داده ها دسترسی داشته باشیم و بر روی آنها عملیات‌هایی انجام دهیم.

In [30]:
data = pd.read_excel("first session data.xlsx", sheet_name = "Sheet2")

In [32]:
data.head() # similar to pd.read_excel("first session data.xlsx", sheet_name = "Sheet2").head()

Unnamed: 0,Y,X
0,2.34,1.23
1,3.56,2.45
2,4.78,3.67
3,5.9,4.89
4,6.12,5.01


In [33]:
#data.tail()

In [36]:
type(data)

pandas.core.frame.DataFrame

In [37]:
type(pd.read_excel)

function

### From the output of data.head(), we can see that our DataFrame contains two columns named Y and X. To access these columns, we can simply use their names within square brackets.

<div dir = 'rtl'>
از خروجی ()data.head، می‌توانیم ببینیم که DataFrame ما شامل دو ستون به نام‌های Y و X است. برای دسترسی به این ستون‌ها، می‌توانیم به سادگی از نام آنها در کروشه یا قلاب استفاده کنیم.

In [None]:
data['X']

0    1.23
1    2.45
2    3.67
3    4.89
4    5.01
Name: X, dtype: float64

In [153]:
X = data['X']
Y = data['Y']

In [157]:
Y.head()

0    2.34
1    3.56
2    4.78
3    5.90
4    6.12
Name: Y, dtype: float64

# Calculating $R^2$

<div dir = 'rtl'>
محاسبه‌ی ضریب تعیین

## Covariance and Variance

- Variance measures how far a set of numbers is spread out from their average value. It quantifies the degree of variation in a dataset.

- Covariance indicates the direction of the linear relationship between two variables. A positive covariance means that as one variable increases, the other tends to increase, while a negative covariance indicates that as one variable increases, the other tends to decrease.

### Calculating Covariance

- To calculate the covariance between two columns in a pandas DataFrame, we can use the .cov() method. Here's how to do it:

<div dir = 'rtl'>

## کوواریانس و واریانس

- واریانس نشان می‌دهد که مجموعه‌ای از اعداد چقدر از مقدار متوسط ​​خود فاصله دارند. درجه تغییرات در یک مجموعه داده را کمی می‌کند.

- کوواریانس جهت رابطه خطی بین دو متغیر را نشان می‌دهد. کوواریانس مثبت به این معنی است که با افزایش یک متغیر، متغیر دیگر تمایل به افزایش دارد، در حالی که کوواریانس منفی نشان می‌دهد که با افزایش یک متغیر، متغیر دیگر تمایل به کاهش دارد.

## محاسبه کوواریانس

- برای محاسبه کوواریانس بین دو ستون در دیتافریم کتابخانه pandas، می‌توانیم از متد ()cov استفاده کنیم:

In [168]:
Y.cov(X)

77.22165045977012

In [170]:
covariance_x_and_y = Y.cov(X)

In [172]:
covariance_x_and_y

77.22165045977012

## Variance can be calculated using the .var() method in pandas. This method computes the variance of a specified column in a DataFrame.

<div dir = 'rtl'>
واریانس را می‌توان با استفاده از متد .var() در pandas محاسبه کرد. این متد واریانس یک ستون مشخص شده در یک DataFrame را محاسبه می‌کند.

In [176]:
X.var()

77.92727229885058

In [178]:
variance_x = X.var()

## $\beta_1 = \frac{cov(x,y)}{var(x)}$

In [183]:
beta_1 = covariance_x_and_y / variance_x

In [185]:
beta_1

0.9909451233404603

## Average (or mean)

<div dir = "rtl">
میانگین

In [188]:
mean_y = Y.mean()
mean_x = X.mean()

## $\beta_0 = \bar Y - \beta_1 \times \bar X $

In [192]:
beta_0 = mean_y - beta_1 * mean_x
beta_0

1.1182687074381494

## $SST = \sum (Y- \bar Y)^2$

In [195]:
SST = ((Y - mean_y)**2).sum()
SST

2222.4144966666668

## $\hat Y = \beta_0 + \beta_1 \times X_i$

In [199]:
y_hat = beta_0 + beta_1 * X
y_hat.head()

0    2.337131
1    3.546084
2    4.755037
3    5.963990
4    6.082904
Name: X, dtype: float64

## $SSE = \sum (Y-\hat Y)^2$

In [201]:
SSE = ((Y - y_hat)**2).sum()
SSE

3.264376423753273

## $R^2 = 1 - \frac{SSE}{SST}$

In [203]:
R_squared = 1 - SSE / SST

In [205]:
R_squared

0.9985311576986878

# Exercise

- Use the data on the third sheet of the excel file and do the same analysis in Python.