# Pandas怎样新增数据列？
在进行数据分析时，经常需要按照一定条件创建新的数据列，然后进行下一步分析。

1. 直接赋值 <br>
2. df.apply方法<br>
3. df.assign方法<br>
4. 按条件选择分组分别赋值

In [None]:
import pandas as pd

## 0. 读取csv数据到DataFrame

In [None]:
fpath = "../datas/weather_20230115134249.csv"
df = pd.read_csv(fpath)

In [None]:
df.head()

## 1. 直接赋值的方法
实例：清理温度列，变成数字类型

In [None]:
# 替换掉温度的后缀℃
# 注意：这里直接对df["气温(度)"]操作，是直接作用在原始数据上的
# ':' 表示所有行
df.loc[:, "气温(度)"] = df["气温(度)"].str.replace("℃", "").astype("float")
df.dtypes

实例：计算温度差

In [None]:
# 注意，df["气温(度)"]其实是一个Series，后面的减法返回的是Series
df.loc[:, "温差(度)"] = df["气温(度)"] - 2

In [None]:
df.head()

##  2. df.apply方法
Apply a function along an axis of the DataFrame.

Object passed to the function are Series objects whose index is either the DataFrame's index(axis=0) or the DataFrame's columns(axis=1).

实例：添加一列温度类型：
* 如果最高温度大于30度就是高温
* 低于-5度就是低温
* 否则就是常温

In [None]:
def get_temperature_type(x):
    if x["气温(度)"] > 30:
        return '高温'
    elif x["气温(度)"] < -5:
        return '低温'
    return '常温'


# 注意需要设置axis==1,这是Series的index是columns
df.loc[:, "温度类型"] = df.apply(get_temperature_type, axis=1)

In [None]:
# 查看 温度类型的计数
df["温度类型"].value_counts()

In [None]:
df.head()

## 3.df.assign方法
Assign new columns to a DataFrame.
Return a new object with all original columns in addition to new ones.

实例：将温度从摄氏度变成华氏度

In [None]:
# 可以同时添加多个新的列
df.assign(
    #摄氏度转华氏度
    tem_fahrenheit=lambda x: x["气温(度)"] * 9 / 5 + 32
)

## 4. 按条件选择分组分别赋值
按条件先选择温度，然后对这部分数据赋值新列<br>
实例：温度减去10度小于15度，则认为温差大

In [None]:
# 先创建空列（这是第一种创建新列的方法）？广播
df['wencha_type'] = ''
# df.head(n=10)
df.loc[df["气温(度)"] - 10 < 15, "wencha_type"] = "温差大"
df.loc[df["气温(度)"] - 10 >= 15, "wencha_type"] = "温差正常"

In [None]:
df.head()

In [None]:
df["wencha_type"].value_counts()