<a href="https://colab.research.google.com/github/XTMay/Python_Beginner/blob/main/Notebook/Lec_1_Python_Basics_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lesson 01: Python Basics for Data Science

**目标**：掌握 Python 的基本语法、变量、数据结构和控制流程，为后续的数据处理和分析打下基础。




## 📚 课程提纲


### 1️⃣ Python 简介
#### 💻 什么是 Python？

[Welcome to Python](https://www.python.org/)

Python 是一种高级、通用、解释型的编程语言，由 Guido van Rossum 于 1991 年发布。它以语法简洁、易读性强、开发效率高著称，非常适合初学者入门，也足以支撑大型系统开发。

`✅ 一句话理解：Python 就像英文一样自然，它让写代码更接近人类思维。`

[tutorial](https://docs.python.org/3.15/tutorial/index.html)

#### 📊 为什么 Python 广泛应用于数据科学？

#### Python 有大量用于数学运算和分析工具的库
	•	Pandas – 用于结构化数据操作，例如导入 CSV 文件、创建 DataFrame、数据清洗和预处理。
	•	Numpy – 数学计算库，提供强大的 N 维数组对象、线性代数运算、傅里叶变换等功能。
	•	Matplotlib – 用于数据可视化，绘制各种图表。
	•	SciPy – 包含线性代数模块及其他科学计算工具。


| 优势 | 说明 |
|------|------|
| 📚 丰富的科学计算库 | 如 NumPy（数值计算）、pandas（数据处理）、Matplotlib/Seaborn（可视化）、scikit-learn（机器学习）等，使得数据处理变得高效而轻松。 |
| 🧠 强大的 AI / ML 支持 | 包括 TensorFlow、PyTorch、XGBoost、LightGBM 等深度学习和建模框架，几乎所有主流 AI 工具都有 Python 接口。 |
| 🛠️ 简洁易学，代码可读性强 | 相比 R 或 Java，Python 更容易学习和维护，非常适合非程序员背景的数据分析师、科研人员。 |
| 🌍 强大的社区和生态系统 | 无论是初学者教程、开源项目还是技术问答（如 StackOverflow），Python 的数据科学社区非常活跃，遇到问题容易找到解决方案。 |
| 📈 跨平台和可扩展性 | Python 可以在 Windows / Mac / Linux 上运行，也能与 C/C++/Java 等语言集成，非常灵活。 |

# Python 面向对象编程（OOP）关键字及中文解释表

| 关键字 / 概念          | 英文关键词               | 说明（中文）                                                       |
|-----------------------|-------------------------|--------------------------------------------------------------------|
| 类                    | Class                   | 定义对象的模板或蓝图，描述一类事物的属性和行为                     |
| 对象                  | Object / Instance       | 根据类创建的具体实例，具有类定义的属性和方法                       |
| 方法                  | Method                  | 定义在类中的函数，用于描述对象的行为                               |
| 属性                  | Attribute               | 类或对象中存储的数据，用于描述对象的状态                           |
| 继承                  | Inheritance             | 子类继承父类的属性和方法，实现代码复用和层次结构                   |
| 多态                  | Polymorphism            | 不同类的对象对同一消息（方法调用）作出不同的响应                   |
| 封装                  | Encapsulation           | 将数据和方法包装在类内部，隐藏实现细节，保护对象的状态            |
| 构造函数              | Constructor (`__init__`) | 类被实例化时自动调用的方法，用于初始化对象属性                     |
| 继承父类构造函数      | super()                 | 用于调用父类的方法，通常用于子类中调用父类的构造函数               |
| 私有属性/方法        | Private Attribute/Method | 以双下划线开头（如 `__name`），在类外部不可直接访问               |
| 公有属性/方法        | Public Attribute/Method  | 默认访问权限，类内外均可访问                                       |
| 类变量                | Class Variable          | 属于类的变量，所有实例共享                                         |
| 实例变量              | Instance Variable       | 属于对象的变量，每个实例拥有独立副本                               |
| 抽象类                | Abstract Class          | 不能被实例化，只能被继承，通常包含抽象方法（接口规范）            |
| 抽象方法              | Abstract Method         | 只声明不实现的方法，子类必须实现                                   |
| 接口                  | Interface               | 定义规范，约束类必须实现某些方法（Python中通过抽象基类实现）      |

---

# Python 面向对象编程相关基础关键字及中文解释表

| 关键字 / 概念    | 英文关键词        | 说明（中文）                                                |
|-----------------|------------------|-------------------------------------------------------------|
| 变量            | Variable         | 用于存储数据的命名空间，值可以改变                          |
| 数据类型        | Data Type        | 数据的种类，如整数(int)、浮点数(float)、字符串(str)等       |
| 条件语句        | Conditional      | 根据条件执行不同代码，如 if、elif、else                      |
| 循环            | Loop             | 重复执行代码块，如 for、while                               |
| 函数            | Function         | 封装可复用代码块，用 def 定义                                |
| 参数            | Parameter        | 传递给函数的变量                                            |
| 返回值          | Return Value     | 函数执行后输出的结果                                        |
| 模块            | Module           | 包含代码的文件或库，用于组织和复用代码                       |
| 异常处理        | Exception Handling | 用 try-except 捕获和处理运行时错误                         |
| 类              | Class            | 面向对象编程的模板，定义属性和方法                           |
| 对象            | Object           | 类的实例，具体的数据和行为实体                               |
| 继承            | Inheritance      | 子类继承父类的属性和方法                                    |
| 多态            | Polymorphism     | 不同对象对相同方法调用有不同响应                            |
| 封装            | Encapsulation    | 隐藏内部实现，保护对象数据                                  |
| 构造函数        | Constructor      | 用 __init__ 初始化对象属性                                   |
| 私有变量/方法   | Private Member   | 以双下划线开头，外部不可访问                                |

---

In [3]:
print("Hello World!") # Function: print, parameter: "Hello World!"

Hello World!


In [4]:
print("Hello, Data Science! 👋")

Hello, Data Science! 👋


### 2️⃣ 变量与基本数据类型

	•	常见类型：int, float, str, bool
	•	类型检查与转换：type(), int(), float(), str()

In [5]:
name = "Alice"
age = 28
height = 1.65
is_data_scientist = False

In [6]:
print(name, age, height, is_data_scientist)

Alice 28 1.65 False


In [8]:
print(type(height))

<class 'float'>


In [11]:
print(type(True))

<class 'bool'>


- True: 1, False: 0

In [13]:
True and False

False

In [14]:
False or True

True

In [15]:
is_data_scientist = False

In [19]:
type("123")

str

In [20]:
int(is_data_scientist)

0

In [22]:
int('dsgdh')

ValueError: invalid literal for int() with base 10: 'dsgdh'

### 	用户输入函数（Data Collection）

In [23]:
user_name = input("请输入你的名字：")
print("欢迎加入数据科学世界，", user_name)

请输入你的名字：May
欢迎加入数据科学世界， May


In [24]:
user_name

'May'

### 3️⃣ 常见数据结构

#### 🔹 List（列表）— 数据集基本容器

In [25]:
lst = []

In [26]:
cities = ["Tokyo", "New York", "London"]

In [27]:
cities

['Tokyo', 'New York', 'London']

In [32]:
cities = cities + ['Shanghai']

In [46]:
cities

['New York', 'London', 'Shanghai', 'Seattle', 'Chicago']

In [34]:
cities.append('Seattle')

In [36]:
cities.append("Chicago") # List use append

In [39]:
cities.remove('Tokyo')

In [42]:
cities[3]

'Seattle'

In [48]:
len(cities)

5

In [49]:
cities[2:len(cities)] # idx_0 <= idx < idx_1

['Shanghai', 'Seattle', 'Chicago']

In [56]:
'123456' + '789'

'123456789'

In [55]:
len('123456' + '789')

9

In [57]:
lst_test = [123, "123", 123.45, True]

In [58]:
lst_test[-1]

True

In [61]:
lst_test[-6:-2]

[123, '123']

#### 🔹 Dict（字典）— 类似数据库中键值结构 (key-value)

In [62]:
person = {"name": "Alice", "age": 28, "score": [98, 87, 66]} # key: value(any type)

In [63]:
person

{'name': 'Alice', 'age': 28, 'score': [98, 87, 66]}

In [65]:
print(person["age"])

28


In [66]:
person.items()

dict_items([('name', 'Alice'), ('age', 28), ('score', [98, 87, 66])])

In [67]:
person["name"] = 'May'

In [74]:
person['height'] = 1.78

In [81]:
person

{'name': 'May', 'age': 28, 'score': [98, 100, 66], 'height': 1.78}

In [77]:
score = person["score"]

In [78]:
height

1.78

In [79]:
height = 1.6
height

1.6

In [82]:
dic_test = {1: '1', '2': 2}

In [83]:
dic_test[1]

'1'

In [84]:
dic_test = {3.14: '1', 4.23: 2}

In [85]:
dic_test[3.14]

'1'

In [86]:
dic_test = {True: 1, False: 0}

In [87]:
dic_test[True]

1

In [88]:
dic_test = {"list": {"1": 1, "5": 5}, "dict": {"key": "value", "key2": "value2"}}

In [89]:
dic_test

{'list': {'1': 1, '5': 5}, 'dict': {'key': 'value', 'key2': 'value2'}}

In [90]:
dic_test["dict"]["key2"]

'value2'

In [91]:
dic_test_2 = {[1, 2, 3]: "test"} # key: int, float, str, bool, value:  any

TypeError: unhashable type: 'list'

- Key: Unique

In [None]:
person['height'] = 164 # add an item/update

In [None]:
person

In [None]:
person['age'] = 18

In [92]:
person

{'name': 'May', 'age': 28, 'score': [98, 100, 66], 'height': 1.78}

In [93]:
person['score']

[98, 100, 66]

In [97]:
person['Total'] = sum(person['score'])

In [98]:
person

{'name': 'May',
 'age': 28,
 'score': [98, 100, 66],
 'height': 1.78,
 'Total': 264}

#### 🔹 Tuple（元组）& Set（集合）

[], {}

In [107]:
coordinates = (35.6, 139.6, 99, 88, 100) # Tuple 不可修改

In [108]:
coordinates

(35.6, 139.6, 99, 88, 100)

In [109]:
coordinates[1:3]

(139.6, 99)

In [102]:
coordinates[1] = 123 # 'tuple' object does not support item assignment

TypeError: 'tuple' object does not support item assignment

In [110]:
unique_items = set(["1", "2", "2", 3, True, False, True, 3.14])  # Set 自动去重

In [112]:
s = set()

In [113]:
s.add("1")

In [115]:
s

{'1'}

In [116]:
s.add(1)

In [117]:
s

{1, '1'}

In [118]:
s.add('1')

In [119]:
s

{1, '1'}

In [124]:
s.add(False)

In [125]:
s

{1, '1', False}

In [126]:
s.add(True)
s

{1, '1', False}

In [127]:
s.add(0)
s

{1, '1', False}

In [128]:
s.remove(False)

In [129]:
s

{1, '1'}

In [111]:
unique_items

{'1', '2', 3, 3.14, False, True}

### 4️⃣ 控制流程

#### 🔸 条件判断：if / elif / else

In [None]:
score = 85

In [None]:
if score >= 90:
    print("优秀")
elif 60 <= score < 80:
    print("及格")
else:
    print("不及格")

- condition 1 **AND** condition 2
- condition 1 **OR** condition 2

In [None]:
True or False

In [None]:
height = 170

In [None]:
if height > 170 and height < 2:
  print("high")
elif height <= 170 or height > 164: # height < 170 AND height >= 160
  print("medium")
else:
  print("low")

#### 🔸 循环结构：for / while

In [None]:
lst = [1, 2, 3]

In [None]:
for item in lst:
  print(item)

In [None]:
for i in range(1, 15, 5):
    print("Data point", i)

In [None]:
n = 0

In [None]:
while n < 6:
    print("循环次数:", n)
    if n == 4:
      n += 1
      continue

    n += 1
    print('n+1')


In [None]:
# continue/break : continue: skip loop, continue next loop, break: jump

In [None]:
# 在1 到 20 之间 「1， 20」， 如果是偶数（2， 4， 6， 8， 10），(2 * 2)计算这个数字的平方，并打印输出

In [None]:
for i in range(1, 21):
  if i % 2 == 0:
    print(i, i ** 2)

In [None]:
# 偶数 n % 2 == 0
i = 2

In [None]:
for i in range(1, 21): # 死循环 1， 20
  # 偶数
  if i % 2 == 0:
    print(i * i)
  # 奇数
  elif i % 2 == 1:
    print(i * i * i)

### 5️⃣ 课堂练习

In [None]:
name = input("你的名字：")
city = input("你最想去的数据城市：")
print(f"{name} 想成为一位在 {city} 工作的数据科学家！")

In [None]:
def calculate_bmi(weight, height): # function
    return weight / (height ** 2)

bmi = calculate_bmi(60, 1.65)
print("你的 BMI 为：", bmi)

## 数据分析

In [2]:
import pandas as pd

df_movie = pd.read_csv('/content/drive/MyDrive/AI_Lecture/AI_Data_Scientist/dataset/Netflix_Dataset_Movie.csv')
print(df_movie.head())

   Movie_ID  Year                          Name
0         1  2003               Dinosaur Planet
1         2  2004    Isle of Man TT 2004 Review
2         3  1997                     Character
3         4  1994  Paula Abdul's Get Up & Dance
4         5  2004      The Rise and Fall of ECW


In [None]:
# convert df_movie['Year'] to list
lst_year = df_movie['Year'].tolist()
lst_year

In [None]:
lst_movie = list(df_movie['Year'])
lst_movie

In [None]:
type(lst_movie)

In [None]:
# convert df_movie['Name'] df_movie['Year'] as dictionary
movie_dict = df_movie.set_index('Name')['Year'].to_dict()
movie_dict

In [None]:
df_rating = pd.read_csv('/content/drive/MyDrive/AI_Lecture/AI_Data_Scientist/dataset/Netflix_Dataset_Rating.csv')
print(df_rating.head())

In [None]:
# 电影数据
movies = [
    {"1": "Dinosaur Planet"},
    {"2":"Isle of Man TT 2004 Review"}
]

# 评分数据
ratings = [
    {"User_ID": 712664, "Rating": 5, "Movie_ID": 3},
    {"User_ID": 1331154, "Rating": 4, "Movie_ID": 3},
    {"User_ID": 2632461, "Rating": 3, "Movie_ID": 3},
    {"User_ID": 44937, "Rating": 5, "Movie_ID": 3},
    {"User_ID": 656399, "Rating": 4, "Movie_ID": 3},
]

### 📌 课后练习题

#### ✅ Q1：输出所有电影名称

用 for 循环遍历 movies 列表，并打印所有电影的名称（Name 字段）。


In [None]:
movies[:10]

In [None]:
type(movies[0])

In [None]:
for movie in movies:
  for key, val in movie.items():
    print(val)

#### ✅ Q2：找出年份1990 < Year <= 2000 年的电影

写一个程序，找出并输出 1990 < Year <= 2000 的所有电影名称。

In [None]:
movie_dict = df_movie.set_index('Name')['Year'].to_dict()
for name, year in movie_dict.items():
  if 1990 < year <= 2000:
    print(name)


#### ✅ Q3：计算电影 ID 为 3 的平均评分

从 ratings 中提取所有 Movie_ID == 3 的评分，并计算平均分（四舍五入保留 1 位小数）。

提示：

In [None]:
df_rating.head(10)

In [None]:
ratings_id_3 = df_rating[df_rating['Movie_ID'] == 3]['Rating'].tolist()
ratings_id_3[:10]

In [None]:
total = 0
count = 0
for score in ratings_id_3:
    total += score
    count += 1
average = round(total / count, 1)
print("Movie_ID == 3 的平分均", average)

#### ✅ Q4：把评分记录中的电影名也加上（字典合并练习）

用 for 循环，将每条评分(rating)记录补充上该电影的名称（来自 movies），并组成一个新列表 ratings_with_name：

输出示例：

In [None]:
{
  'User_ID': 712664,
  'Rating': 5,
  'Movie_ID': 3,
  'Name': 'Character'
}

In [None]:
movie_dict = df_movie.set_index('Movie_ID')['Name'].to_dict()
movie_dict.get(3)

In [None]:
lst_all = []
for idx in range(len(df_rating)):
  dic_user_rating_movie = {}
  # print(df_rating.iloc[idx])
  dic_user_rating_movie['User_ID'] = int(df_rating.iloc[idx]['User_ID'])
  dic_user_rating_movie['Rating'] = int(df_rating.iloc[idx]['Rating'])

  movie_id = df_rating.iloc[idx]['Movie_ID']
  dic_user_rating_movie['Movie_ID'] = int(movie_id)
  dic_user_rating_movie['Name'] = movie_dict[int(movie_id)]
  lst_all.append(dic_user_rating_movie)

  if idx > 5000:
    break

In [None]:
lst_all[:10]

In [None]:
int('123')

#### ✅ Q5（挑战题）：统计每部电影的评分人数

输出格式：



```
Character: 4人
Dinosaur Planet: 0人
...
```


提示：
	•	用字典统计：{"Movie_Name": count}

In [None]:
import collections

In [None]:
dic_cnt = collections.defaultdict(int) # initialize a dictionary
dic_cnt

In [None]:
{key:value} # value --> int (0)

In [None]:
for i in range(len(lst_all)):
  movie_name = lst_all[i]['Name']
  dic_cnt[movie_name] += 1 # dic_cnt[movie_name] = 0
dic_cnt