# DataFrame基本介绍

**DataFrame**是python中特有的数据结构，是**最重要**的数据结构，也是一个二维的带有标签（行和列）的数据结构
- DataFrame每一列可以是不同的数据类型（如整型、浮点型、字符串等）。
- DataFrame可以通过标签或索引快速访问和操作数据
- DataFrame本质上是一个**类excel表格**的数据结构，有行和列：
|    | 列1 | 列2 | 列3 |
|----|-----|-----|-----|
| 行1 | 值  | 值  | 值  |
| 行2 | 值  | 值  | 值  |
| 行3 | 值  | 值  | 值  |
- DataFrame的组成部分：
    - **数据**：存储在 DataFrame 中的实际值
    - **行索引（index）**：每一行的标签，用于标识行
    - **列标签（columns）**：每一列的标签，用于标识列

# DataFrame的创建

## 从字典创建
字典的键会成为 DataFrame 的列名，值会成为列数据。

In [1]:
import pandas as pd

# 从字典创建 DataFrame
data_dict = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, 23, 34, 29],
    'City': ['New York', 'Paris', 'Berlin', 'London']
}
df_dict = pd.DataFrame(data_dict)
df_dict

Unnamed: 0,Name,Age,City
0,John,28,New York
1,Anna,23,Paris
2,Peter,34,Berlin
3,Linda,29,London


## 从列表的列表创建
外层列表代表行，内层列表代表列。

In [2]:
# 从列表的列表创建 DataFrame
data_list = [
    ['John', 28, 'New York'],
    ['Anna', 23, 'Paris'],
    ['Peter', 34, 'Berlin'],
    ['Linda', 29, 'London']
]
df_list = pd.DataFrame(data_list, columns=['Name', 'Age', 'City'])
df_list

Unnamed: 0,Name,Age,City
0,John,28,New York
1,Anna,23,Paris
2,Peter,34,Berlin
3,Linda,29,London


## 从 NumPy 数组创建
提供一个二维 NumPy 数组。

In [3]:
import numpy as np
# 从 NumPy 数组创建 DataFrame
data_array = np.array([
    [1, 'John', 28],
    [2, 'Anna', 23],
    [3, 'Peter', 34],
    [4, 'Linda', 29]
])
df_array = pd.DataFrame(data_array, columns=['ID', 'Name', 'Age'])
df_array

Unnamed: 0,ID,Name,Age
0,1,John,28
1,2,Anna,23
2,3,Peter,34
3,4,Linda,29


## 从 Series 创建 DataFrame
通过 `pd.Series()` 创建。

In [4]:
# 从 Series 创建 DataFrame
data_series = pd.Series({
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, 23, 34, 29]
})
df_series = data_series.to_frame()
df_series

Unnamed: 0,0
Name,"[John, Anna, Peter, Linda]"
Age,"[28, 23, 34, 29]"


# DataFrame的索引

DataFrame中的索引（index）是用于标识每一行数据的唯一标签，索引使得DataFrame具有更高的灵活性和可操作性，每一行数据都可以通过索引进行访问、选择、修改或删除。

In [5]:
import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'],
        'age': [25, 30, 35],
        'city': ['New York', 'Los Angeles', 'Chicago']}

df = pd.DataFrame(data)
df

Unnamed: 0,name,age,city
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


## 使用.index查看索引

In [6]:
df.index

RangeIndex(start=0, stop=3, step=1)

## 使用 .set_index()设置索引

- `set_index(keys, drop=True, inplace=False)`：
  - `keys`：可以是一个或多个列名。
  - `drop=True`：决定是否删除用作索引的列。True表示删除，False表示保留 
  - `inplace=False`：决定是否在原地修改 `DataFrame` 或返回一个新的 `DataFrame`。

In [7]:
df.set_index('city')

Unnamed: 0_level_0,name,age
city,Unnamed: 1_level_1,Unnamed: 2_level_1
New York,Alice,25
Los Angeles,Bob,30
Chicago,Charlie,35


## 使用 .reset_index()重置索引

- `reset_index(drop=False, inplace=False)`：
  - `drop=False`：决定是否删除旧的索引而不是添加为列。
  - `inplace=False`：决定是否在原地修改 `DataFrame` 或返回一个新的 `DataFrame`。

In [8]:
import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'],
        'age': [25, 30, 35],
        'city': ['New York', 'Los Angeles', 'Chicago']}

df = pd.DataFrame(data)
df = df.set_index('name')
df

Unnamed: 0_level_0,age,city
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Alice,25,New York
Bob,30,Los Angeles
Charlie,35,Chicago


In [9]:
df.reset_index()

Unnamed: 0,name,age,city
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


In [10]:
df.reset_index().reset_index()

Unnamed: 0,index,name,age,city
0,0,Alice,25,New York
1,1,Bob,30,Los Angeles
2,2,Charlie,35,Chicago


In [11]:
df.reset_index().reset_index(drop=True)

Unnamed: 0,name,age,city
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


# 访问DataFrame中的元素

In [12]:
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
        'Age': [28, 23, 34, 29],
        'City': ['New York', 'Paris', 'Berlin', 'London']}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,City
0,John,28,New York
1,Anna,23,Paris
2,Peter,34,Berlin
3,Linda,29,London


## 通过列名访问

直接使用列名作为 `DataFrame` 的属性或通过方括号索引。

In [13]:
# 通过列名访问
df['Name']

0     John
1     Anna
2    Peter
3    Linda
Name: Name, dtype: object

## 通过属性访问

使用点符号访问列，类似于访问对象的属性

In [14]:
# 通过属性访问
df.Name

0     John
1     Anna
2    Peter
3    Linda
Name: Name, dtype: object

## 通过 `.loc[]` 访问

`df.loc[row_labels, column_labels]`：
- row_labels：行标签
- column_labels：列标签

In [15]:
# 按照标签进行检索
df.loc[2,'Name']

'Peter'

## 通过 `.iloc[]` 访问

`df.iloc[row_indexer, column_indexer]`
- row_indexer：行索引
- column_indexer：列索引

In [16]:
# 按照索引index进行检索
df.iloc[1,1] # 第一行第一列

23

In [17]:
# 按照索引index进行检索
df.iloc[1,:] # 第一行

Name     Anna
Age        23
City    Paris
Name: 1, dtype: object

In [18]:
# 按照索引index进行检索
df.iloc[:,1] # 第一列

0    28
1    23
2    34
3    29
Name: Age, dtype: int64

## 根据条件过滤 DataFrame

使用条件表达式（布尔值）来过滤行。

In [19]:
df['Age'] > 30

0    False
1    False
2     True
3    False
Name: Age, dtype: bool

In [20]:
# 根据条件过滤 DataFrame
# 过滤年龄大于 30 的行
df[df['Age'] > 30]

Unnamed: 0,Name,Age,City
2,Peter,34,Berlin


# 修改 DataFrame

In [21]:
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
        'Age': [28, 23, 34, 29],
        'City': ['New York', 'Paris', 'Berlin', 'London']}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,City
0,John,28,New York
1,Anna,23,Paris
2,Peter,34,Berlin
3,Linda,29,London


## 修改列数据：直接对列进行赋值

直接使用列名对整列数据进行修改。

In [22]:
df['City'] = ['Chengdu', 'Beijing', 'Nanjing', 'Shanghai']
df

Unnamed: 0,Name,Age,City
0,John,28,Chengdu
1,Anna,23,Beijing
2,Peter,34,Nanjing
3,Linda,29,Shanghai


In [23]:
df['Country'] = 'China'
df

Unnamed: 0,Name,Age,City,Country
0,John,28,Chengdu,China
1,Anna,23,Beijing,China
2,Peter,34,Nanjing,China
3,Linda,29,Shanghai,China


## 修改行数据：使用 `loc` 方法

使用 `loc` 方法可以在指定位置修改行数据

In [24]:
# 使用 loc 直接添加
df.loc[len(df)] = ['Nina', 35, 'Moscow', 'RUS']
df

Unnamed: 0,Name,Age,City,Country
0,John,28,Chengdu,China
1,Anna,23,Beijing,China
2,Peter,34,Nanjing,China
3,Linda,29,Shanghai,China
4,Nina,35,Moscow,RUS


## 修改单个元素

使用`.loc[]` 或 `.iloc[]`可以修改 `DataFrame` 中的单个元素。

In [25]:
# 使用 .loc[] 修改
df.loc[0, 'City'] = 'London'
df

Unnamed: 0,Name,Age,City,Country
0,John,28,London,China
1,Anna,23,Beijing,China
2,Peter,34,Nanjing,China
3,Linda,29,Shanghai,China
4,Nina,35,Moscow,RUS


In [26]:
# 使用 .iloc[] 修改
df.iloc[0, 2] = 'Pairs'
df

Unnamed: 0,Name,Age,City,Country
0,John,28,Pairs,China
1,Anna,23,Beijing,China
2,Peter,34,Nanjing,China
3,Linda,29,Shanghai,China
4,Nina,35,Moscow,RUS


## 修改满足条件的多个元素

使用条件过滤（布尔值）和赋值可以修改满足特定条件的多个元素。

In [27]:
# 修改满足条件的多个元素
df.loc[df['Age'] > 30, 'City'] = 'New York'
df

Unnamed: 0,Name,Age,City,Country
0,John,28,Pairs,China
1,Anna,23,Beijing,China
2,Peter,34,New York,China
3,Linda,29,Shanghai,China
4,Nina,35,New York,RUS


# 删除 DataFrame 元素

## 使用 `drop` 方法删除行或列

**特性**：
- `drop` 方法可以删除行或列。
- 可以指定删除的轴（行或列）。

**主要方法**：
- `drop(labels, axis=1)`：axis=1表示删除列。
- `drop(labels, axis=0)`：axis=0表示删除行。
- `inplace=True`：在原地修改。
- `inplace=False`：不在原地修改。

In [28]:
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
        'Age': [28, 23, 34, 29],
        'City': ['New York', 'Paris', 'Berlin', 'London']}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,City
0,John,28,New York
1,Anna,23,Paris
2,Peter,34,Berlin
3,Linda,29,London


In [29]:
# 删除列 'City'
df.drop('City', axis=1, inplace=False)

Unnamed: 0,Name,Age
0,John,28
1,Anna,23
2,Peter,34
3,Linda,29


In [30]:
# 删除行索引为 0 的行
df.drop(0, axis=0, inplace=False)

Unnamed: 0,Name,Age,City
1,Anna,23,Paris
2,Peter,34,Berlin
3,Linda,29,London


## 使用 `del` 语句删除

`del dataframe.column_name`：删除列。

In [31]:
# 使用 del 删除列 'Age'
del df['Age']
df

Unnamed: 0,Name,City
0,John,New York
1,Anna,Paris
2,Peter,Berlin
3,Linda,London
