## 数据结构基础

### 1. 创建 Series 和 DataFrame

**创建 Series**

Series 是 Pandas 中的一维数组，类似于 Python 的列表或 NumPy 的一维数组。它可以包含任何数据类型，并且具有一个与之关联的索引。

In [2]:
import pandas as pd

data = [10, 20, 30, 40]

# 创建一个简单的 Series
s = pd.Series(data)
print("Series:")
print(s)

# 指定自定义索引
s_with_index = pd.Series(data, index=['a', 'b', 'c', 'd'])
print("\n带有自定义索引的 Series:")
print(s_with_index)

Series:
0    10
1    20
2    30
3    40
dtype: int64

带有自定义索引的 Series:
a    10
b    20
c    30
d    40
dtype: int64


创建 DataFrame

DataFrame 是 Pandas 中的二维数组，类似于电子表格或 SQL 表格。它由多列组成，每一列都是一个 Series。

In [4]:
# 创建一个简单的 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [30, 25, 35],
    'Salary': [70000, 60000, 80000]
}
df = pd.DataFrame(data)
print("\nDataFrame:")
print(df)

# 指定自定义索引
df_with_index = pd.DataFrame(data, index=['A', 'B', 'C'])
print("\n带有自定义索引的 DataFrame:")
print(df_with_index)


DataFrame:
      Name  Age  Salary
0    Alice   30   70000
1      Bob   25   60000
2  Charlie   35   80000

带有自定义索引的 DataFrame:
      Name  Age  Salary
A    Alice   30   70000
B      Bob   25   60000
C  Charlie   35   80000


###  2. 索引和切片

#### a.使用标签索引

通过行标签和列标签访问特定的数据。

In [11]:
# 选择单行
print("\n选择单行（标签为 'A' 的行）:")
print(df_with_index.loc['A'])


# 选择单列
print("\n选择单列（'Name' 列）:")
print(df_with_index['Name'])

# 选择多行
print("\n选择多行（标签为 'A' 和 'B' 的行）:")
print(df_with_index.loc[['A', 'B']])



选择单行（标签为 'A' 的行）:
Name      Alice
Age          30
Salary    70000
Name: A, dtype: object

选择单列（'Name' 列）:
A      Alice
B        Bob
C    Charlie
Name: Name, dtype: object

选择多行（标签为 'A' 和 'B' 的行）:
    Name  Age  Salary
A  Alice   30   70000
B    Bob   25   60000


#### b. 使用位置索引

通过行和列的位置来访问数据。

In [15]:
# 选择第一行
print("\n选择第一行（位置为 0 的行）:")
print(df.iloc[0])

# 选择第一列
print("\n选择第一列（位置为 0 的列）:")
print(df.iloc[:, 0])

# 选择特定位置的值（第一行第一列）
print("\n选择第一行第一列的值:")
print(df.iat[0, 0])  # 输出 'Alice'


选择第一行（位置为 0 的行）:
Name      Alice
Age          30
Salary    70000
Name: 0, dtype: object

选择第一列（位置为 0 的列）:
0      Alice
1        Bob
2    Charlie
Name: Name, dtype: object

选择第一行第一列的值:
Alice


###  3. 选择和过滤数据

您可以根据条件选择和过滤数据。

In [18]:
# 选择年龄大于 30 的人
filtered_df = df[df['Age'] > 30]
print("\n年龄大于 30 的人:")
print(filtered_df)

# 选择工资在 60000 到 70000 之间的人
filtered_salary = df[(df['Salary'] >= 60000) & (df['Salary'] <= 70000)]
print("\n工资在 60000 到 70000 之间的人:")
print(filtered_salary)


年龄大于 30 的人:
      Name  Age  Salary
2  Charlie   35   80000

工资在 60000 到 70000 之间的人:
    Name  Age  Salary
0  Alice   30   70000
1    Bob   25   60000


###  4.  常用属性

- shape
  
  返回 DataFrame 的形状（行数和列数）。

In [20]:
print("\nDataFrame 的形状:")
print(df.shape)  # (行数, 列数)


DataFrame 的形状:
(3, 3)


- dtypes
  
  返回每一列的数据类型。

In [22]:
print("\nDataFrame 每列的数据类型:")
print(df.dtypes)


DataFrame 每列的数据类型:
Name      object
Age        int64
Salary     int64
dtype: object


- index
  
  返回 DataFrame 的索引。

In [24]:
print("\nDataFrame 的索引:")
print(df.index)


DataFrame 的索引:
RangeIndex(start=0, stop=3, step=1)


- columns
  
  返回 DataFrame 的列名。

In [25]:
print("\nDataFrame 的列名:")
print(df.columns)


DataFrame 的列名:
Index(['Name', 'Age', 'Salary'], dtype='object')
