## 07-Introduction to NumPy

Plan:

- Creating arrays
- Multi-dimensional arrays
- Randomly generated arrays
- Element-wise operations
- Comparison operations
- Logical operations
- Summarizing operations

In [1]:
import numpy as np

#### Creating arrays

In [2]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [3]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [4]:
np.full(10, 2.5)


array([2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5])

In [5]:
a = np.array([1, 2, 3, 5, 7, 12])
a

array([ 1,  2,  3,  5,  7, 12])

In [8]:
a[2] = 10
a

array([ 1,  2, 10,  5,  7, 12])

#### Multi-dimensional arrays

1. Tạo mảng (Array Creation): Tạo mảng từ danh sách, từ dãy số, từ các giá trị ngẫu nhiên hoặc đặc biệt (như ma trận đơn vị, ma trận toàn số 0 hoặc số 1).
2. Truy cập và chỉnh sửa phần tử (Indexing and Slicing): Truy cập và thao tác trên các phần tử trong mảng, từ các thao tác cơ bản đến nâng cao như fancy indexing và boolean indexing.

In [9]:
np.zeros((5, 2))

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [10]:
n = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

In [12]:
n[0, 1] = 20
n

array([[ 1, 20,  3],
       [ 4,  5,  6],
       [ 7,  8,  9]])

#### Randomly generated arrays


In [13]:
np.random.seed(2)
100 * np.random.rand(5, 2)

array([[43.59949021,  2.59262318],
       [54.96624779, 43.53223926],
       [42.03678021, 33.0334821 ],
       [20.4648634 , 61.92709664],
       [29.96546737, 26.68272751]])

In [14]:
np.random.seed(2)
np.random.randn(5, 2)

array([[-0.41675785, -0.05626683],
       [-2.1361961 ,  1.64027081],
       [-1.79343559, -0.84174737],
       [ 0.50288142, -1.24528809],
       [-1.05795222, -0.90900761]])

In [15]:
np.random.seed(2)
np.random.randint(low=0, high=100, size=(5, 2))

array([[40, 15],
       [72, 22],
       [43, 82],
       [75,  7],
       [34, 49]])

Khi làm việc với dữ liệu số và phân tích khoa học trong Python, NumPy là một thư viện cốt lõi cung cấp nhiều chức năng mạnh mẽ. Dưới đây là các chức năng chính khi nhắc đến là phải dùng NumPy:

### 1. **Xử lý và thao tác trên mảng nhiều chiều (Multidimensional Arrays)**
   - **Tạo mảng (Array Creation):** Tạo mảng từ danh sách, từ dãy số, từ các giá trị ngẫu nhiên hoặc đặc biệt (như ma trận đơn vị, ma trận toàn số 0 hoặc số 1).
     - `np.array()`, `np.zeros()`, `np.ones()`, `np.eye()`, `np.arange()`, `np.linspace()`
   - **Truy cập và chỉnh sửa phần tử (Indexing and Slicing):** Truy cập và thao tác trên các phần tử trong mảng, từ các thao tác cơ bản đến nâng cao như fancy indexing và boolean indexing.
     - `array[index]`, `array[start:stop:step]`

### 2. **Phép toán số học trên mảng (Array Mathematics)**
   - **Phép toán phần tử (Element-wise operations):** Thực hiện các phép toán số học cơ bản (cộng, trừ, nhân, chia) trên từng phần tử của mảng.
     - `+`, `-`, `*`, `/`, `np.add()`, `np.subtract()`, `np.multiply()`, `np.divide()`
   - **Hàm toán học (Mathematical functions):** Tính toán các hàm toán học như hàm mũ, logarit, căn bậc hai, sin, cos, v.v.
     - `np.exp()`, `np.log()`, `np.sqrt()`, `np.sin()`, `np.cos()`

### 3. **Đại số tuyến tính (Linear Algebra)**
   - **Nhân ma trận (Matrix Multiplication):** Thực hiện nhân ma trận và các phép tính đại số tuyến tính khác.
     - `np.dot()`, `np.matmul()`, `array @ array`
   - **Giải hệ phương trình (Solving Linear Systems):** Giải các hệ phương trình tuyến tính.
     - `np.linalg.solve()`
   - **Phân rã ma trận (Matrix Decomposition):** Phân rã ma trận SVD, phân rã Cholesky, phân rã LU.
     - `np.linalg.svd()`, `np.linalg.cholesky()`, `scipy.linalg.lu()`
   - **Tính định thức và nghịch đảo ma trận (Determinant and Inverse):** Tính định thức và nghịch đảo của ma trận.
     - `np.linalg.det()`, `np.linalg.inv()`

### 4. **Thao tác với hình dạng của mảng (Array Shape Manipulation)**
   - **Thay đổi hình dạng (Reshaping):** Thay đổi hình dạng của mảng mà không thay đổi dữ liệu.
     - `np.reshape()`, `array.ravel()`
   - **Chuyển vị mảng (Transposing):** Chuyển vị các mảng (đổi hàng thành cột và ngược lại).
     - `np.transpose()`, `array.T`

### 5. **Tổng hợp và thống kê (Aggregation and Statistics)**
   - **Tính toán các giá trị tổng hợp (Aggregation):** Tính tổng, trung bình, min, max, phương sai, và độ lệch chuẩn trên toàn bộ mảng hoặc dọc theo các trục.
     - `np.sum()`, `np.mean()`, `np.min()`, `np.max()`, `np.var()`, `np.std()`
   - **Tính toán các giá trị xếp hạng (Ranking):** Sắp xếp mảng và tính toán các giá trị trung vị, phần trăm.
     - `np.sort()`, `np.median()`, `np.percentile()`

### 6. **So sánh và lập chỉ mục (Comparison and Indexing)**
   - **So sánh phần tử (Element-wise comparison):** So sánh từng phần tử trong mảng với các giá trị khác.
     - `np.equal()`, `np.not_equal()`, `np.greater()`, `np.less()`, `np.array_equal()`
   - **Chỉ mục Boolean (Boolean Indexing):** Chọn phần tử thỏa mãn điều kiện nhất định.
     - `array[condition]`
   - **Chỉ mục Fancy (Fancy Indexing):** Chọn các phần tử bằng cách sử dụng danh sách các chỉ số.
     - `array[[list_of_indices]]`

### 7. **Xử lý dữ liệu từ file (File I/O)**
   - **Đọc và ghi dữ liệu (Reading and Writing Data):** Đọc dữ liệu từ file văn bản hoặc lưu mảng vào file.
     - `np.loadtxt()`, `np.savetxt()`, `np.save()`, `np.load()`

### 8. **Sao chép và gán mảng (Copying and Assigning Arrays)**
   - **Sao chép mảng (Copying Arrays):** Tạo bản sao nông hoặc sao sâu của mảng.
     - `array.copy()`, `array.view()`

### 9. **Các hàm đặc biệt (Special Functions)**
   - **Hàm ngẫu nhiên (Random Functions):** Tạo các giá trị ngẫu nhiên hoặc mảng ngẫu nhiên.
     - `np.random.random()`, `np.random.randint()`, `np.random.normal()`

### Kết luận
NumPy là một công cụ mạnh mẽ và linh hoạt dành cho khoa học dữ liệu và tính toán khoa học, cung cấp nhiều chức năng quan trọng từ xử lý mảng, thao tác ma trận, đến các phép toán thống kê và xử lý dữ liệu. Khi nhắc đến việc làm việc với các tập dữ liệu lớn hoặc cần thực hiện các phép toán toán học nhanh và hiệu quả trong Python, NumPy là lựa chọn hàng đầu.

### 2. **Phép toán số học trên mảng (Array Mathematics)**
   - **Phép toán phần tử (Element-wise operations):** Thực hiện các phép toán số học cơ bản (cộng, trừ, nhân, chia) trên từng phần tử của mảng.
     - `+`, `-`, `*`, `/`, `np.add()`, `np.subtract()`, `np.multiply()`, `np.divide()`
   - **Hàm toán học (Mathematical functions):** Tính toán các hàm toán học như hàm mũ, logarit, căn bậc hai, sin, cos, v.v.
     - `np.exp()`, `np.log()`, `np.sqrt()`, `np.sin()`, `np.cos()`

In [16]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [20]:
b = (10 + (a * 2)) ** 2 / 100
b

array([1.  , 1.44, 1.96, 2.56, 3.24])

In [21]:
a / b + 10

array([10.        , 10.69444444, 11.02040816, 11.171875  , 11.2345679 ])

#### Comparison operations


In [23]:
a

array([0, 1, 2, 3, 4])

In [24]:
a >= 2

array([False, False,  True,  True,  True])

In [25]:
b

array([1.  , 1.44, 1.96, 2.56, 3.24])

In [26]:
a > b

array([False, False,  True,  True,  True])

In [27]:
a[a > b]

array([2, 3, 4])

#### Summarizing operations


In [28]:
a

array([0, 1, 2, 3, 4])

In [31]:
a.std()

1.4142135623730951

In [30]:
n.min()

1

## 1.8 Linear algebra refresher

Plan:

- Vector operations
- Multiplication
- Vector-vector multiplication
- Matrix-vector multiplication
- Matrix-matrix multiplication
- Identity matrix
- Inverse

### Vector operations

In [32]:
u = np.array([2, 4, 5, 6])

In [33]:
2 * u

array([ 4,  8, 10, 12])

In [34]:
v = np.array([1, 0, 0, 2])

In [35]:
u + v

array([3, 4, 5, 8])

In [36]:
u * v

array([ 2,  0,  0, 12])

### Multiplication

In [37]:
v.shape[0]

4

In [38]:
def vector_vector_multiplication(u, v):
    assert u.shape[0] == v.shape[0]

    n = u.shape[0]

    result = 0.0

    for i in range(n):
        result = result + u[i] * v[i]

    return result

In [39]:
vector_vector_multiplication(u, v)

14.0

In [40]:
u.dot(v)

14

In [41]:
U = np.array([
    [2, 4, 5, 6],
    [1, 2, 1, 2],
    [3, 1, 2, 1],
])

In [42]:
U.shape


(3, 4)

In [43]:
def matrix_vector_multiplication(U, v):
    assert U.shape[1] == v.shape[0]

    num_rows = U.shape[0]

    result = np.zeros(num_rows)

    for i in range(num_rows):
        result[i] = vector_vector_multiplication(U[i], v)

    return result

In [44]:
matrix_vector_multiplication(U, v)


array([14.,  5.,  5.])

In [45]:
U.dot(v)

array([14,  5,  5])

In [46]:
V = np.array([
    [1, 1, 2],
    [0, 0.5, 1],
    [0, 2, 1],
    [2, 1, 0],
])

In [47]:
def matrix_matrix_multiplication(U, V):
    assert U.shape[1] == V.shape[0]

    num_rows = U.shape[0]
    num_cols = V.shape[1]

    result = np.zeros((num_rows, num_cols))

    for i in range(num_cols):
        vi = V[:, i]
        Uvi = matrix_vector_multiplication(U, vi)
        result[:, i] = Uvi

    return result

In [48]:
matrix_matrix_multiplication(U, V)

array([[14. , 20. , 13. ],
       [ 5. ,  6. ,  5. ],
       [ 5. ,  8.5,  9. ]])

In [49]:
U.dot(V)


array([[14. , 20. , 13. ],
       [ 5. ,  6. ,  5. ],
       [ 5. ,  8.5,  9. ]])

#### Identity matrix

In [50]:
I = np.eye(3)

In [51]:
v

array([1, 0, 0, 2])

In [52]:
V.dot(I)

array([[1. , 1. , 2. ],
       [0. , 0.5, 1. ],
       [0. , 2. , 1. ],
       [2. , 1. , 0. ]])

#### Inverse

In [53]:
Vs = V[[0, 1, 2]]
Vs

array([[1. , 1. , 2. ],
       [0. , 0.5, 1. ],
       [0. , 2. , 1. ]])

In [54]:
Vs_inv = np.linalg.inv(Vs)
Vs_inv

array([[ 1.        , -2.        ,  0.        ],
       [ 0.        , -0.66666667,  0.66666667],
       [ 0.        ,  1.33333333, -0.33333333]])

In [55]:
Vs_inv.dot(Vs)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

#### 1.9 Introduction to Pandas


- Data Frames
- Series
- Index
- Accessing elements
- Element-wise operations
- Filtering
- String operations
- Summarizing operations
- Missing values
- Grouping
- Getting the NumPy arrays

In [58]:
import numpy as np
import pandas as pd

#### DataFrames

In [59]:
data = [
    ['Nissan', 'Stanza', 1991, 138, 4, 'MANUAL', 'sedan', 2000],
    ['Hyundai', 'Sonata', 2017, None, 4, 'AUTOMATIC', 'Sedan', 27150],
    ['Lotus', 'Elise', 2010, 218, 4, 'MANUAL', 'convertible', 54990],
    ['GMC', 'Acadia',  2017, 194, 4, 'AUTOMATIC', '4dr SUV', 34450],
    ['Nissan', 'Frontier', 2017, 261, 6, 'MANUAL', 'Pickup', 32340],
]

columns = [
    'Make', 'Model', 'Year', 'Engine HP', 'Engine Cylinders',
    'Transmission Type', 'Vehicle_Style', 'MSRP'
]

In [61]:
df = pd.DataFrame(data, columns=columns)
df

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP
0,Nissan,Stanza,1991,138.0,4,MANUAL,sedan,2000
1,Hyundai,Sonata,2017,,4,AUTOMATIC,Sedan,27150
2,Lotus,Elise,2010,218.0,4,MANUAL,convertible,54990
3,GMC,Acadia,2017,194.0,4,AUTOMATIC,4dr SUV,34450
4,Nissan,Frontier,2017,261.0,6,MANUAL,Pickup,32340


In [62]:
data = [
    {
        "Make": "Nissan",
        "Model": "Stanza",
        "Year": 1991,
        "Engine HP": 138.0,
        "Engine Cylinders": 4,
        "Transmission Type": "MANUAL",
        "Vehicle_Style": "sedan",
        "MSRP": 2000
    },
    {
        "Make": "Hyundai",
        "Model": "Sonata",
        "Year": 2017,
        "Engine HP": None,
        "Engine Cylinders": 4,
        "Transmission Type": "AUTOMATIC",
        "Vehicle_Style": "Sedan",
        "MSRP": 27150
    },
    {
        "Make": "Lotus",
        "Model": "Elise",
        "Year": 2010,
        "Engine HP": 218.0,
        "Engine Cylinders": 4,
        "Transmission Type": "MANUAL",
        "Vehicle_Style": "convertible",
        "MSRP": 54990
    },
    {
        "Make": "GMC",
        "Model": "Acadia",
        "Year": 2017,
        "Engine HP": 194.0,
        "Engine Cylinders": 4,
        "Transmission Type": "AUTOMATIC",
        "Vehicle_Style": "4dr SUV",
        "MSRP": 34450
    },
    {
        "Make": "Nissan",
        "Model": "Frontier",
        "Year": 2017,
        "Engine HP": 261.0,
        "Engine Cylinders": 6,
        "Transmission Type": "MANUAL",
        "Vehicle_Style": "Pickup",
        "MSRP": 32340
    }
]

In [64]:
df = pd.DataFrame(data)
df

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP
0,Nissan,Stanza,1991,138.0,4,MANUAL,sedan,2000
1,Hyundai,Sonata,2017,,4,AUTOMATIC,Sedan,27150
2,Lotus,Elise,2010,218.0,4,MANUAL,convertible,54990
3,GMC,Acadia,2017,194.0,4,AUTOMATIC,4dr SUV,34450
4,Nissan,Frontier,2017,261.0,6,MANUAL,Pickup,32340


In [65]:
df.head(n=2)

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP
0,Nissan,Stanza,1991,138.0,4,MANUAL,sedan,2000
1,Hyundai,Sonata,2017,,4,AUTOMATIC,Sedan,27150


#### Series

In [66]:
df.Engine HP

SyntaxError: invalid syntax (3565581565.py, line 1)

In [67]:
df['Engine HP']

0    138.0
1      NaN
2    218.0
3    194.0
4    261.0
Name: Engine HP, dtype: float64

In [68]:
df['id'] = [1, 2, 3, 4, 5]

In [69]:
df['id'] = [10, 20, 30, 40, 50]

In [70]:
df

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP,id
0,Nissan,Stanza,1991,138.0,4,MANUAL,sedan,2000,10
1,Hyundai,Sonata,2017,,4,AUTOMATIC,Sedan,27150,20
2,Lotus,Elise,2010,218.0,4,MANUAL,convertible,54990,30
3,GMC,Acadia,2017,194.0,4,AUTOMATIC,4dr SUV,34450,40
4,Nissan,Frontier,2017,261.0,6,MANUAL,Pickup,32340,50


# Index

In [71]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [72]:
df.Make.index


RangeIndex(start=0, stop=5, step=1)

In [73]:
df.index = ['a', 'b', 'c', 'd', 'e']

In [74]:
df

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP,id
a,Nissan,Stanza,1991,138.0,4,MANUAL,sedan,2000,10
b,Hyundai,Sonata,2017,,4,AUTOMATIC,Sedan,27150,20
c,Lotus,Elise,2010,218.0,4,MANUAL,convertible,54990,30
d,GMC,Acadia,2017,194.0,4,AUTOMATIC,4dr SUV,34450,40
e,Nissan,Frontier,2017,261.0,6,MANUAL,Pickup,32340,50


In [75]:
df.iloc[[1, 2, 4]]

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP,id
b,Hyundai,Sonata,2017,,4,AUTOMATIC,Sedan,27150,20
c,Lotus,Elise,2010,218.0,4,MANUAL,convertible,54990,30
e,Nissan,Frontier,2017,261.0,6,MANUAL,Pickup,32340,50


In [76]:
df = df.reset_index(drop=True)

In [77]:
df

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP,id
0,Nissan,Stanza,1991,138.0,4,MANUAL,sedan,2000,10
1,Hyundai,Sonata,2017,,4,AUTOMATIC,Sedan,27150,20
2,Lotus,Elise,2010,218.0,4,MANUAL,convertible,54990,30
3,GMC,Acadia,2017,194.0,4,AUTOMATIC,4dr SUV,34450,40
4,Nissan,Frontier,2017,261.0,6,MANUAL,Pickup,32340,50


#### Element-wise operations

In [78]:
df['Engine HP'] * 2

0    276.0
1      NaN
2    436.0
3    388.0
4    522.0
Name: Engine HP, dtype: float64

In [79]:
df['Year'] >= 2015

0    False
1     True
2    False
3     True
4     True
Name: Year, dtype: bool

#### Filtering

In [80]:
df[ df['Make'] == 'Nissan']

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP,id
0,Nissan,Stanza,1991,138.0,4,MANUAL,sedan,2000,10
4,Nissan,Frontier,2017,261.0,6,MANUAL,Pickup,32340,50


In [81]:
df[(df['Make'] == 'Nissan') & (df['Year'] >= 2015)]

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP,id
4,Nissan,Frontier,2017,261.0,6,MANUAL,Pickup,32340,50


#### String operations

In [82]:
'machine learning zoomcamp'.replace(' ', '_')

'machine_learning_zoomcamp'

In [83]:
df['Vehicle_Style'].str.lower()

0          sedan
1          sedan
2    convertible
3        4dr suv
4         pickup
Name: Vehicle_Style, dtype: object

In [85]:
df['Vehicle_Style'] = df['Vehicle_Style'].str.replace(' ', '_').str.lower()
df

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP,id
0,Nissan,Stanza,1991,138.0,4,MANUAL,sedan,2000,10
1,Hyundai,Sonata,2017,,4,AUTOMATIC,sedan,27150,20
2,Lotus,Elise,2010,218.0,4,MANUAL,convertible,54990,30
3,GMC,Acadia,2017,194.0,4,AUTOMATIC,4dr_suv,34450,40
4,Nissan,Frontier,2017,261.0,6,MANUAL,pickup,32340,50


#### Summarizing operations

In [87]:
print(df.describe().round(2))

print(df.nunique())

          Year  Engine HP  Engine Cylinders      MSRP     id
count     5.00       4.00              5.00      5.00   5.00
mean   2010.40     202.75              4.40  30186.00  30.00
std      11.26      51.30              0.89  18985.04  15.81
min    1991.00     138.00              4.00   2000.00  10.00
25%    2010.00     180.00              4.00  27150.00  20.00
50%    2017.00     206.00              4.00  32340.00  30.00
75%    2017.00     228.75              4.00  34450.00  40.00
max    2017.00     261.00              6.00  54990.00  50.00
Make                 4
Model                5
Year                 3
Engine HP            4
Engine Cylinders     2
Transmission Type    2
Vehicle_Style        4
MSRP                 5
id                   5
dtype: int64


#### Grouping

SELECT 
    transmission_type,
    AVG(MSRP)
FROM
    cars
GROUP BY
    transmission_type

In [91]:
df.groupby('Transmission Type').MSRP.mean()

Transmission Type
AUTOMATIC    30800.000000
MANUAL       29776.666667
Name: MSRP, dtype: float64

# Getting the NumPy arrays

In [92]:
df.MSRP.values

array([ 2000, 27150, 54990, 34450, 32340])

In [93]:
df.to_dict(orient='records')

[{'Make': 'Nissan',
  'Model': 'Stanza',
  'Year': 1991,
  'Engine HP': 138.0,
  'Engine Cylinders': 4,
  'Transmission Type': 'MANUAL',
  'Vehicle_Style': 'sedan',
  'MSRP': 2000,
  'id': 10},
 {'Make': 'Hyundai',
  'Model': 'Sonata',
  'Year': 2017,
  'Engine HP': nan,
  'Engine Cylinders': 4,
  'Transmission Type': 'AUTOMATIC',
  'Vehicle_Style': 'sedan',
  'MSRP': 27150,
  'id': 20},
 {'Make': 'Lotus',
  'Model': 'Elise',
  'Year': 2010,
  'Engine HP': 218.0,
  'Engine Cylinders': 4,
  'Transmission Type': 'MANUAL',
  'Vehicle_Style': 'convertible',
  'MSRP': 54990,
  'id': 30},
 {'Make': 'GMC',
  'Model': 'Acadia',
  'Year': 2017,
  'Engine HP': 194.0,
  'Engine Cylinders': 4,
  'Transmission Type': 'AUTOMATIC',
  'Vehicle_Style': '4dr_suv',
  'MSRP': 34450,
  'id': 40},
 {'Make': 'Nissan',
  'Model': 'Frontier',
  'Year': 2017,
  'Engine HP': 261.0,
  'Engine Cylinders': 6,
  'Transmission Type': 'MANUAL',
  'Vehicle_Style': 'pickup',
  'MSRP': 32340,
  'id': 50}]

# Homework

Question 1:What's the version of Pandas that you installed?

Answer: 2.2.2

In [2]:
import pandas as pd
import numpy as ny

In [3]:
pd.__version__

'2.2.2'

In [5]:
import requests

url = 'https://raw.githubusercontent.com/alexeygrigorev/datasets/master/housing.csv'
response = requests.get(url)

# Save the content to a file
with open('housing.csv', 'wb') as file:
    file.write(response.content)


In [7]:
# Read csv and save it to df
df = pd.read_csv('housing.csv')

Question 2: How many columns are in the dataset?
-> Answer: 10

In [11]:
df.columns

Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
       'total_bedrooms', 'population', 'households', 'median_income',
       'median_house_value', 'ocean_proximity'],
      dtype='object')

**Question 3: Which columns in the dataset have missing values?**

Answer: total_bedrooms

In [15]:
df.isnull().sum()

longitude               0
latitude                0
housing_median_age      0
total_rooms             0
total_bedrooms        207
population              0
households              0
median_income           0
median_house_value      0
ocean_proximity         0
dtype: int64

**Question 4: How many unique values does the ocean_proximity column have?**

*Answer: 5*

In [19]:
len(df.ocean_proximity.unique())

5

**Question 6:**

1. Calculate the average of total_bedrooms column in the dataset.
2. Use the fillna method to fill the missing values in total_bedrooms with the mean value from the previous step.
3. Now, calculate the average of total_bedrooms again.
4. Has it changed?

Has it changed?

*Answer: No*

In [35]:
average_bedrooms_before = round(df['total_bedrooms'].mean(),3)
average_bedrooms_before

537.871

In [32]:
# Fill missing values in total_bedrooms with the calculated mean
df['total_bedrooms'].fillna(average_bedrooms_before, inplace=True)

In [36]:
# Calculate the average of the total_bedrooms column again
average_bedrooms_after = round(df['total_bedrooms'].mean(),3)
average_bedrooms_after

537.871

In [37]:
if average_bedrooms_before == average_bedrooms_after:
    print("The average has not changed.")
else:
    print("The average has changed.")

The average has not changed.


### Question 7

1. Select all the options located on islands.
2. Select only columns `housing_median_age`, `total_rooms`, `total_bedrooms`.
3. Get the underlying NumPy array. Let's call it `X`.
4. Compute matrix-matrix multiplication between the transpose of `X` and `X`. To get the transpose, use `X.T`. Let's call the result `XTX`.
5. Compute the inverse of `XTX`.
6. Create an array `y` with values `[950, 1300, 800, 1000, 1300]`.
7. Multiply the inverse of `XTX` with the transpose of `X`, and then multiply the result by `y`. Call the result `w`.
8. What's the value of the last element of `w`?

**Note:** You just implemented linear regression. We'll talk about it in the next lesson.

- -1.4812
- 0.001
- *5.6992*
- 23.1233


In [46]:
import numpy as np


# 1. Select the columns
island_df = df[df.ocean_proximity == 'ISLAND']
island_df = island_df[['housing_median_age', 'total_rooms', 'total_bedrooms']]

X = island_df.values  # 2. Convert to NumPy array

# 3. Compute XTX
XTX = X.T.dot(X)

# 4. Compute the inverse of XTX
XTX_inv = np.linalg.inv(XTX)

# 5. Create the array y
y = np.array([950, 1300, 800, 1000, 1300])

# 6. Calculate w = XTX_inv * X.T * y
w = XTX_inv.dot(X.T).dot(y)

# 7. Print the last element of w
last_element_of_w = w[-1]
print("The last element of w is:", last_element_of_w)


The last element of w is: 5.699229455065565
