## 数据访问和数据抽取 
1. 数据抽取：提取部分数据生成一个新的DataFrame或Series。比如使用loc[], iloc[],查询(),切片等方法进行抽取。  
2. 数据访问：直接访问数据,但不生成新对象。比如通过loc[], iloc[], at[]等方法直接访问某个或某些元素的值。  
3. 提取内容：数据抽取可以用于提取行列的部分数据,而数据访问更适合定位到某个或几个具体的数据点。  

### 数据抽取


In [1]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 
                   'B': [4, 5, 6],
                   'C': [7, 8, 9]})
print(df)
# 抽取A列生成一个新的Series
A = df['A'] 
print(type(A))

# 抽取前2行数据生成一个新的DataFrame
df2 = df.loc[0:1]
print(type(df2))

   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9
<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


### 数据访问

In [2]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 
                   'B': [4, 5, 6],
                   'C': [7, 8, 9]})
print(df)
# 访问单个元素
a = df.at[0, 'A']  
print(a)

# 访问多个元素
b_c = df.iloc[1, [1, 2]]
print(b_c)
print(type(b_c))
b_c = df.iloc[1, 1]
print(type(b_c))


   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9
1
B    5
C    8
Name: 1, dtype: int64
<class 'pandas.core.series.Series'>
<class 'numpy.int64'>


## 数据抽取
### 抽取一行数据
示例：抽取一行名为“明日”的考试成绩数据

In [3]:
import pandas as pd
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
data = [[110,105,99],[105,88,115],[109,120,130],[112,115]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
print(df)
df1=df.loc['明日']
#df1=df.iloc[0]
print(df1)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN
语文    110.0
数学    105.0
英语     99.0
Name: 明日, dtype: float64


### 抽取多行数据
示例：抽取多行考试成绩数据

In [4]:
import pandas as pd
data = [[110,105,99],[105,88,115],[109,120,130],[112,115]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
df1=df.loc[['明日','高袁圆']]
#df1=df.iloc[[0,2]]
print(df1)
print('----------------')
#抽取连续任意多行数据
print(df.loc['明日':'二月二']) #从“明日”到“二月二”
print(df.loc[:'七月流火':])     #第1行到“七月流火”,有冒号和没有冒号一样
print(df.iloc[0:4])            #第1行到第4行
print(df.iloc[1::])            #第2行到最后1行

        语文  数学   英语
明日     110   105   99.0
高袁圆   109   120  130.0
----------------
          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN
          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN
          语文  数学   英语
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


### 抽取指定列数据
1. 直接使用列名
2. 使用loc属性和iloc属性

In [5]:
import pandas as pd
data = [[110,105,99],[105,88,115],[109,120,130],[112,115]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
#抽取指定列数据——直接使用列名
df = pd.DataFrame(data=data, index=name, columns=columns)
df1=df[['语文','数学']]
print(df1)

          语文  数学
明日       110   105
七月流火   105    88
高袁圆     109   120
二月二     112   115


In [6]:
import pandas as pd
data = [[110,105,99],[105,88,115],[109,120,130],[112,115]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
#抽取指定列数据——使用loc方法和iloc方法
print(df.loc[:,['语文','数学']])   #抽取“语文”和“数学”
print(df.iloc[:,[0,1]])            #抽取第1列和第2列
print(df.loc[:,'语文':])           #抽取从“语文”开始到最后一列
print(df.iloc[:,:2])               #连续抽取从1列开始到第3列

          语文  数学
明日       110   105
七月流火   105    88
高袁圆     109   120
二月二     112   115
          语文  数学
明日       110   105
七月流火   105    88
高袁圆     109   120
二月二     112   115
          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN
          语文  数学
明日       110   105
七月流火   105    88
高袁圆     109   120
二月二     112   115


### 抽取指定行/列数据
抽取指定行、列数据主要使用loc属性和iloc属性

In [7]:
import pandas as pd
data = [[110,105,99],[105,88,115],[109,120,130],[112,115]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
df = pd.DataFrame(data=data, index=name, columns=columns)

#抽取指定行列数据
print(df.loc['七月流火','英语'])              # “英语”成绩，输出的是数据
print(type(df.loc['七月流火','英语']))   #输出结果是一个数，不是数据，是由于“df.loc[七月流火，英语]没有使用方括号，导致输出的数据不是DataFrame类型。
print(df.loc[['七月流火'],['英语']])          #“七月流火”的“英语”成绩
print(df.loc[['七月流火'],['数学','英语']])   #“七月流火”的“数学”和“英语”成绩

115.0
<class 'numpy.float64'>
           英语
七月流火  115.0
          数学   英语
七月流火    88  115.0


In [None]:
import pandas as pd
data = [[110,105,99],[105,88,115],[109,120,130],[112,115]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
print(df)
print(df.iloc[[1],[2]])                       #第2行第3列
print(df.iloc[1:,[2]])                        #第2行到最后一行的第3列
print(df.iloc[1:,[0,2]])                      #第2行到最后一行的第1列和第3列
print(df.iloc[:,2])                           #所有行，第3列

### 中括号的重要性

In [None]:
import pandas as pd
data = [[110,105,99],[105,88,115],[109,120,130],[112,115]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
# 中括号的重要性
print(df.iloc[1,2])           #第一行的第3列
print(df.iloc[[1],[2]])


### 抽取指定条件数据
示例：抽取语文成绩大于105，数学成绩大于88的数据

In [None]:
import pandas as pd
data = [[110,105,99],[105,88,115],[109,120,130],[112,115]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
df = pd.DataFrame(data=data, index=name, columns=columns)

#按指定条件抽取数据
print(df)
df1=df.loc[(df['语文'] > 105) & (df['数学'] >88)]
print(df1)


### 数据抽取题目

1. 有以下DataFrame,请抽取name和gender两列:

| name | age | gender |  
|-|-|-|  
| 张三 | 25 | 男 |
| 李四 | 26 | 女 |
| 王五 | 24 | 男 |

2. 有以下DataFrame,请抽取class为2班和3班的所有数据:

| name | class | gender |
|-|-|-|
| 张三 | 1班 | 男 |  
| 李四 | 2班 | 女 |
| 王五 | 3班 | 男 |

3. 有以下DataFrame,请抽取数学成绩低于95分的所有行:

| name | math |
|-|-|
| 张三 | 96 |
| 李四 | 90 |
| 王五 | 91 |

4. 有以下DataFrame,请抽取第2列和第3列的数据:

| A | B | C |
|-|-|-|
| 1 | 2 | 3 |
| 4 | 5 | 6 | 
| 7 | 8 | 9 |

5. 有以下DataFrame,请抽取王五和李四两行name和english两列的数据:

| name | english | math | 
|-|-|-|
| 张三 | 80 | 78 |
| 李四 | 75 | 92 |
| 王五 | 81 | 84 |



In [2]:
import pandas as pd

# 数据抽取题目

# 1. 有以下DataFrame，请抽取name和gender两列:
data1 = {
    'name': ['张三', '李四', '王五'],
    'age': [25, 26, 24],
    'gender': ['男', '女', '男']
}
df1 = pd.DataFrame(data1)
selected_columns1 = df1[['name', 'gender']]
print("1. 有以下DataFrame，请抽取name和gender两列:")
print(selected_columns1)

1. 有以下DataFrame，请抽取name和gender两列:
  name gender
0   张三      男
1   李四      女
2   王五      男


In [3]:
# 2. 有以下DataFrame，请抽取class为2班和3班的所有数据:
data2 = {
    'name': ['张三', '李四', '王五'],
    'class': ['1班', '2班', '3班'],
    'gender': ['男', '女', '男']
}
df2 = pd.DataFrame(data2)
selected_rows2 = df2[df2['class'].isin(['2班', '3班'])]
print("\n2. 有以下DataFrame，请抽取class为2班和3班的所有数据:")
print(selected_rows2)

0    False
1     True
2     True
Name: class, dtype: bool

2. 有以下DataFrame，请抽取class为2班和3班的所有数据:
  name class gender
1   李四    2班      女
2   王五    3班      男


In [None]:
# 3. 有以下DataFrame，请抽取数学成绩低于95分的所有行:
data3 = {
    'name': ['张三', '李四', '王五'],
    'math': [96, 90, 91]
}
df3 = pd.DataFrame(data3)
selected_rows3 = df3[df3.loc[:,'math'] < 95]
print("\n3. 有以下DataFrame，请抽取数学成绩低于95分的所有行:")
print(selected_rows3)

In [None]:
# 4. 有以下DataFrame，请抽取第2列和第3列的数据:
data4 = {
    'A': [1, 4, 7],
    'B': [2, 5, 8],
    'C': [3, 6, 9]
}
df4 = pd.DataFrame(data4)
selected_columns4 = df4.iloc[:, 1:3]
print("\n4. 有以下DataFrame，请抽取第2列和第3列的数据:")
print(selected_columns4)

In [None]:
# 5. 有以下DataFrame，请抽取王五和李四两行name和english两列的数据:
data5 = {
    'name': ['张三', '李四', '王五'],
    'english': [80, 75, 81],
    'math': [78, 92, 84]
}
df5 = pd.DataFrame(data5)
selected_data5 = df5.loc[df5['name'].isin(['王五', '李四']), ['name', 'english']]
print("\n5. 有以下DataFrame，请抽取王五和李四两行name和english两列的数据:")
print(selected_data5)

### isin() 方法
isin() 方法可以传递一个包含多个值的列表，用于过滤 DataFrame 中符合条件的行。

In [8]:
import pandas as pd

# 创建DataFrame
data = {'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix'],
        'Population (millions)': [8.4, 3.9, 2.7, 2.3, 1.7]}
df = pd.DataFrame(data)

# 选择包含特定城市的行
selected_cities = df[df['City'].isin(['New York', 'Chicago', 'Phoenix'])]
print("Selected Cities:\n", selected_cities)

# 选择不包含特定城市的行
excluded_cities = df[~df['City'].isin(['Los Angeles', 'Houston'])]
print("\nExcluded Cities:\n", excluded_cities)

# 使用多个条件组合 isin() #选择城市为'New York'或'Chicago'，且人口大于2.5百万的行。
selected_cities = df[df['City'].isin(['New York', 'Chicago']) & (df['Population (millions)'] > 2.5)]
print("\nSelected Cities with Population > 2.5 million:\n", selected_cities)

# 使用 isin() 过滤出多列条件
selected_data = df[df['City'].isin(['New York', 'Chicago']) & df['Population (millions)'].isin([8.4, 2.7])]
print("\nSelected Data with City and Population Criteria:\n", selected_data)

Selected Cities:
        City  Population (millions)
0  New York                    8.4
2   Chicago                    2.7
4   Phoenix                    1.7

Excluded Cities:
        City  Population (millions)
0  New York                    8.4
2   Chicago                    2.7
4   Phoenix                    1.7

Selected Cities with Population > 2.5 million:
        City  Population (millions)
0  New York                    8.4
2   Chicago                    2.7

Selected Data with City and Population Criteria:
        City  Population (millions)
0  New York                    8.4
2   Chicago                    2.7


## 数据操作
### 增加数据

1. 列数据增加  
直接为dataframe对象赋值  
使用loc属性再dataframe对象的最后增加一列  
在指定位置插入一列

In [4]:
import pandas as pd
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
data = [[110,105,99],[105,88,115],[109,120,130],[112,115,140]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
df1 = pd.DataFrame(data=data, index=name, columns=columns)
df2 = pd.DataFrame(data=data, index=name, columns=columns)
df3 = pd.DataFrame(data=data, index=name, columns=columns)

#增加数据——按列增加数据
df1['物理']=[88,79,60,50]  #直接改变了原来的数据
print(df1)
#增加数据,使用loc方法
df2.loc[:,'物理'] = [88,79,60,50]   #在最后插入“物理”一列，其值为等号右边数据
print(df2)
#增加数据，使用insert方法
wl =[88,79,60,50]
df3.insert(1,'物理',wl) #在第1列后面插入“物理”，其值为wl的数值。
print(df3)

          语文  数学  英语  物理
明日       110   105    99    88
七月流火   105    88   115    79
高袁圆     109   120   130    60
二月二     112   115   140    50
          语文  数学  英语  物理
明日       110   105    99    88
七月流火   105    88   115    79
高袁圆     109   120   130    60
二月二     112   115   140    50
          语文  物理  数学  英语
明日       110    88   105    99
七月流火   105    79    88   115
高袁圆     109    60   120   130
二月二     112    50   115   140


2. 按行增加数据  
增加一行数据主要使用loc属性实现。  
增加多行数据主要使用字典结合append()方法实现。  
示例：增加一行“钱多多”同学的成绩

In [5]:
import pandas as pd
data = [[110,105,99],[105,88,115],[109,120,130],[112,115,140]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
df = pd.DataFrame(data=data, index=name, columns=columns)

# #按行增加数据，增加一行数据
# df.loc['钱多多'] = [100,120,99]
# print(df)
#按行增加数据，增加多行数据
df_insert = pd.DataFrame({'语文':[100,123,138],'数学':[120,142,60],'英语':[99,139,99]},index = ['钱多多','童年','无名'])
print(df_insert)
df1 = df.append(df_insert)
print(df1)

        语文  数学  英语
钱多多   100   120    99
童年     123   142   139
无名     138    60    99
          语文  数学  英语
明日       110   105    99
七月流火   105    88   115
高袁圆     109   120   130
二月二     112   115   140
钱多多     100   120    99
童年       123   142   139
无名       138    60    99


  df1 = df.append(df_insert)


### 修改数据

1. 修改列标题  
使用DataFrame对象的cloumns属性直接赋值  
使用rename()方法修改列标题  
示例：将“数学”修改为“数学（上）”

In [6]:
import pandas as pd
data = [[110,105,99],[105,88,115],[109,120,130],[112,115,140]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
df = pd.DataFrame(data=data, index=name, columns=columns)

# 修改“数学”的列名
df.columns=['语文','数学（上）','英语']
print(df)

# 使用rename()
# 参数inplace为True，表示直接修改df;否则，不修改df，只返回修改后的数据。
df.rename(columns = {'语文':'语文（上）','数学':'数学（上）','英语':'英语（上）'},inplace = True)
print(df)

          语文  数学（上）  英语
明日       110         105    99
七月流火   105          88   115
高袁圆     109         120   130
二月二     112         115   140
          语文（上）  数学（上）  英语（上）
明日             110         105          99
七月流火         105          88         115
高袁圆           109         120         130
二月二           112         115         140


2. 修改行标题  
使用DataFrame对象的index属性直接赋值  
使用rename()方法修改列标题  
示例：将行标题统一修改为数字编号


In [7]:
import pandas as pd
data = [[110,105,99],[105,88,115],[109,120,130],[112,115,140]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
df = pd.DataFrame(data=data, index=name, columns=columns)

df.index=list('1234')
print(df)

# #使用rename属性
# #参数inplace为True，表示直接修改df;否则，不修改df，只返回修改后的数据。
# df.rename({'明日':1,'七月流火':2,'高袁圆':3,'二月二':4},axis=0,inplace = True)
# print(df)

   语文  数学  英语
1   110   105    99
2   105    88   115
3   109   120   130
4   112   115   140


3. 修改数据：使用loc属性和iloc属性  
* 使用loc属性   
修改整行数据  
修改整列数据  
修改某一数据    
* 使用iloc属性修改数据  

示例：修改学生成绩数据


In [None]:
import pandas as pd
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
data = [[110,105,99],[105,88,115],[109,120,130],[112,115,140]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
print(df)
#修改整行数据
df.loc['明日']=[120,115,109]

# #各科成绩均加10分
# df.loc['明日']=df.loc['明日']+10

# #修改整列数据
# df.loc[:,'语文']=[115,108,112,118]

# #修改某一数据
# df.loc['明日','语文']=115

# #使用iloc方法修改数据
# df.iloc[0,0]=115                   #修改某一数据
# df.iloc[:,0]=[115,108,112,118]    #修改整列数据
# df.iloc[0,:]=[120,115,109]        #修改整行数据

print(df)

### 删除数据
使用drop()方法
1. 删除行列数据
2. 删除特定条件的行

In [None]:
import pandas as pd
data = [[110,105,99],[105,88,115],[109,120,130],[112,115,140]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
df1 = pd.DataFrame(data=data, index=name, columns=columns)
df2 = pd.DataFrame(data=data, index=name, columns=columns)
print(df1)
#删除行列数据，一行一行的演示
#df1.drop(['数学'],axis=1,inplace=True)                       #删除某列
# df1.drop(columns='数学',inplace=True)                      #删除columns为“数学”的列
# df1.drop(['明日','二月二'],inplace=True)                    #删除某行
# df1.drop(index='明日',inplace=True)                        #删除index为“明日”的行
# df1.drop(labels='明日', axis=0,inplace=True)               #删除行标签为“明日”的行
# df1.drop(labels='数学', axis=1,inplace=True)               #删除列标签为“数学” 的列
# print(df1)

#删除特定条件的行
# print(df2[df2['数学'].isin([88])])
# df2.drop(index=df[df['数学'].isin([88])].index[0],inplace=True)    #删除“数学”包含88的行


print(df2[df2['语文']<110])
df2.drop(index=df2[df2['语文']<110].index[0],inplace=True)           #删除“语文”成绩小于110的行
# 注意：语文成绩有两人小于110，但是只删除了第一个
print(df2)

### 数据增删改题目

6. 有以下DataFrame,请添加一列gender,值分别为['男','女','男']:

| name | age | 
|-|-|
| 张三 | 25 |
| 李四 | 26 |  
| 王五 | 24 |

7. 有以下DataFrame,请删除name这一列:

| name | age | gender |
|-|-|-| 
| 张三 | 25 | 男 |
| 李四 | 26 | 女 |
| 王五 | 24 | 男 |

8. 有以下DataFrame,请将score的所有值加10:

| name | score | 
|-|-|
| 张三 | 80 |
| 李四 | 75 |
| 王五 | 81 |

9. 有以下DataFrame,请将english这一列名称修改为en:

| name | english | math |
|-|-|-|  
| 张三 | 80 | 78 |
| 李四 | 75 | 92 |
| 王五 | 81 | 84 |

10. 有以下DataFrame,请增加一行数据,name为赵六,english为85,math为90:

| name | english | math |
|-|-|-|
| 张三 | 80 | 78 |  
| 李四 | 75 | 92 |
| 王五 | 81 | 84 |
