## Pandas
强⼤⽽灵活的数据分析⼯具,提供了易于使⽤的数据结构和数据分析⼯具,特别适合处理表格型数据（如 Excel 表格、数据库表等）

In [41]:
import pandas as pd
import numpy as np

### pandas库的常用方法


In [None]:
'''
这些方法都是直接通过 pandas 库调用的，它们不特定于 DataFrame 对象，尽管某些方法（如 pd.concat() 和 pd.merge()）经常与 DataFrame 一起使用。
1. 数据类型转换
pd.to_numeric(): 将输入转换为数值类型。
pd.to_datetime(): 将输入转换为日期时间对象。
pd.to_timedelta(): 将输入转换为时间间隔（timedelta）对象。
pd.factorize(): 将输入转换为分类类型或整数编码。
2. 数据创建
pd.Series(): 创建一个 Series 对象。
pd.DataFrame(): 创建一个 DataFrame 对象。
pd.date_range(): 生成一个日期范围的索引。
pd.period_range(): 生成一个周期范围的索引。
pd.interval_range(): 生成一个间隔范围的索引。
pd.Index(): 创建一个索引对象。
3. 数据读取
pd.read_csv(): 从 CSV 文件中读取数据。
pd.read_excel(): 从 Excel 文件中读取数据。
pd.read_sql(): 从 SQL 数据库中读取数据。
pd.read_json(): 从 JSON 文件中读取数据。
pd.read_html(): 从 HTML 文件中读取表格数据。
4. 数据写入
pd.DataFrame.to_csv(): 将 DataFrame 写入 CSV 文件。
pd.DataFrame.to_excel(): 将 DataFrame 写入 Excel 文件。
pd.DataFrame.to_sql(): 将 DataFrame 写入 SQL 数据库。
pd.DataFrame.to_json(): 将 DataFrame 写入 JSON 文件。
5. 数据合并
pd.concat(): 沿着一个轴将多个 pandas 对象连接在一起。
pd.merge(): 根据一个或多个键将不同 pandas 对象中的行连接起来。
6. 数据处理
pd.cut(): 将数据分割成离散的区间。
pd.qcut(): 根据分位数将数据分割成离散的区间。
pd.get_dummies(): 将分类变量转换为虚拟/指示变量。
7. 数据聚合
pd.Grouper(): 用于分组操作的帮助器。
pd.eval(): 使用字符串表达式进行快速计算。
pd.pandas.eval(): 在 DataFrame 上进行字符串表达式计算。
8. 窗口函数
pd.rolling_window(): 为时间序列数据提供滚动窗口计算。
pd.expanding_window(): 为时间序列数据提供扩展窗口计算。
pd.ewm(): 提供指数加权移动平均计算。
9. 其他
pd.isnull(): 检测缺失值。
pd.notnull(): 检测非缺失值。
pd.isna(): 检测缺失值。
pd.notna(): 检测非缺失值。
pd.unique(): 返回输入数组中的唯一值。
pd.value_counts(): 计算数组中值的频率。
'''

### ⼀维数据结构 Series 
 类似表格中的一个列（column）,这个列有每个元素的index值,但没有列名（和dataframe对比）

In [42]:
# 创建Series 

# 从列表创建 Series ,指定了index
s1 = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
# 没有指定index,则自动生成0,1,2序列
s2=pd.Series([10, 20, 30, 40])
# 从键值对类型数据结构(如字典)创建 
s3 = pd.Series({'a': 10, 'b': 20, 'c': 30, 'd': 40})
print(s1)
print('--------------')
print(s2)
print('--------------')
print(s3)
print('--------------')


# Series 的访问

# 用index值访问
print("s1['a']:", s1['a'])
print("s3['b']:", s3['b'])
# 用序号访问
# print(s1[2]) 这个用法在未来会淘汰,尽量使用loc和iloc索引和切片
print(s1.iloc[2])
print('--------------')
# 切片和list和numpy类似
s4 = s3.iloc[1:3]  # 获取索引为1到2的值
print(s4)
print('--------------')




a    10
b    20
c    30
d    40
dtype: int64
--------------
0    10
1    20
2    30
3    40
dtype: int64
--------------
a    10
b    20
c    30
d    40
dtype: int64
--------------
s1['a']: 10
s3['b']: 20
30
--------------
b    20
c    30
dtype: int64
--------------


In [43]:
# Series 的基本操作

s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])

# 添加元素和赋值
# 为特定的索引标签赋值
s['a'] = 10  # 将索引标签 'a' 对应的元素修改为 10
# 通过赋值给新的索引标签来添加元素
s['e'] = 5  # 在 Series 中添加一个新的元素,索引标签为 'e'
print(s)
print('--------------')

# 删除元素
# 使用 del 删除指定索引标签的元素。
del s['a']  # 删除索引标签 'a' 对应的元素
print(s)
print('--------------')


# 使用 drop 方法删除一个或多个索引标签，并返回一个新的 Series。
s_dropped = s.drop(['b'])  # 返回一个删除了索引标签 'b' 的新 Series,原s的数据不会修改
print(s)
print('--------------')
s.drop(['b'],inplace=True) #直接在s上操作
print(s)
print('--------------')

a    10
b     2
c     3
d     4
e     5
dtype: int64
--------------
b    2
c    3
d    4
e    5
dtype: int64
--------------
b    2
c    3
d    4
e    5
dtype: int64
--------------
c    3
d    4
e    5
dtype: int64
--------------


In [44]:
# Series 的属性
print(s1.index)   # 索引
print('--------------')
print(s1.values)  # 数据
print('--------------')
print(s1.dtype)   # 数据类型
print('--------------')
print(s1.shape)   # 形状
print('--------------')
print(s1.size)    # 元素个数
print('--------------')


Index(['a', 'b', 'c', 'd'], dtype='object')
--------------
[10 20 30 40]
--------------
int64
--------------
(4,)
--------------
4
--------------


In [45]:
# Series 的+-*/ ><

series = pd.Series([1, 2, 3, 4])
series1 = pd.Series([2, 3, 4, 5],index=['a','b','c','d'])
print(series+series1)
print('--------------')
# print(series-series1)
# print(series*series1)
# print(series/series1)
# pandas会将索引相同的元素进行+-*/操作,如果所有索引都不一样,则每一列都是空值

print(series>2) #和numpy类似,会直接返回一个类型为bool的series
print('--------------')
ss=series>2
# bool索引 pandas和numpy在这些地方很互通
print(series[ss])
print('--------------')
# 过滤
filtered_series = series[series > 2]  # 选择大于2的元素

0   NaN
1   NaN
2   NaN
3   NaN
a   NaN
b   NaN
c   NaN
d   NaN
dtype: float64
--------------
0    False
1    False
2     True
3     True
dtype: bool
--------------
2    3
3    4
dtype: int64
--------------


In [46]:

# 算术运算
result = series * 2  # 所有元素乘以2
print(result)
print('--------------')
# 数学函数
import numpy as np
result = np.sqrt(series)  # 对每个元素取平方根
print(result)
print('--------------')
#统计函数
print(series.sum())  # 输出 Series 的总和
print(series.mean())  # 输出 Series 的平均值
print(series.max())  # 输出 Series 的最大值
print(series.min())  # 输出 Series 的最小值
print(series.std())  # 输出 Series 的标准差

0    2
1    4
2    6
3    8
dtype: int64
--------------
0    1.000000
1    1.414214
2    1.732051
3    2.000000
dtype: float64
--------------
10
2.5
4
1
1.2909944487358056


In [47]:
#其他方法
s=pd.Series(range(1,10))
# 获取描述统计信息
print(s.describe())
print('--------------')
# 获取最大值和最小值的索引
max_index = s.idxmax()
min_index = s.idxmin()

print(s.head())  # 前几个元素，默认是前 5 个
print('--------------')
print(s.tail())  # 后几个元素，默认是后 5 个
print('--------------')
print(s.sum())   # 求和
print(s.mean())  # 平均值
print(s.std())   # 标准差
print(s.min())   # 最小值
print(s.max())   # 最大值

count    9.000000
mean     5.000000
std      2.738613
min      1.000000
25%      3.000000
50%      5.000000
75%      7.000000
max      9.000000
dtype: float64
--------------
0    1
1    2
2    3
3    4
4    5
dtype: int64
--------------
4    5
5    6
6    7
7    8
8    9
dtype: int64
--------------
45
5.0
2.7386127875258306
1
9


### 二维数据结构Dataframe

DataFrame 用于表示二维表格型数据。

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。

DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（每个Series共同用一个列索引）。

DataFrame 提供了各种功能来进行数据访问、筛选、分割、合并、重塑、聚合以及转换等操作。

#### DataFrame的创建


In [48]:
# pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
'''
data:DataFrame 的数据部分,可以是字典、二维数组、Series、DataFrame 或其他可转换为 DataFrame 的对象.如果不提供此参数,则创建一个空的 DataFrame.
index:DataFrame 的行索引,用于标识每行数据.可以是列表、数组、索引对象等.如果不提供此参数,则创建一个默认的整数索引.
columns:DataFrame 的列索引,用于标识每列数据.可以是列表、数组、索引对象等.如果不提供此参数,则创建一个默认的整数索引.
dtype:指定 DataFrame 的数据类型.可以是 NumPy 的数据类型,例如 np.int64、np.float64 等.如果不提供此参数,则根据数据自动推断数据类型.
copy:是否复制数据.默认为 False,表示不复制数据.如果设置为 True,则复制输入的数据.
'''

#用列表创建DataFrame
data = [['Google', 10], ['Runoob', 12], ['Wiki', 13]]
# 不管是列索引(columns)还是行索引(index),只要没有在参数中定义，自动设置为range(n)
df1 = pd.DataFrame(data, columns=['Site', 'Age'])
print(df1)
print('--------------')

# 用字典创建DataFrame
data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}
# 字典的键为列索引(columns),字典的值为数据，行索引需要指定，否则自动设置为range(n)
df2 = pd.DataFrame(data)
print (df2)
print('--------------')

# 用ndarray创建DataFrame
ndarray_data = np.array([
    ['Google', 10],
    ['Runoob', 12],
    ['Wiki', 13]
])
# 和列表一样，外层为列,内层的为行
df3 = pd.DataFrame(ndarray_data, columns=['Site', 'Age'])
print(df3)
print('--------------')

# 用Series创建DataFrame
s1 = pd.Series(['Alice', 'Bob', 'Charlie'],index=['a','b','c'])
# Series自带了行索引(index)，可以指定列索引(columns)
s2 = pd.Series([25, 30, 35],index=['a','b','c'])
s3 = pd.Series(['New York', 'Los Angeles', 'Chicago'],index=['a','b','c'])
df4 = pd.DataFrame({'Name': s1, 'Age': s2, 'City': s3})
df4['Name'] = df4['Name'].astype(str)
df4['Age'] = df4['Age'].astype(float)
print(df4)

     Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13
--------------
     Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13
--------------
     Site Age
0  Google  10
1  Runoob  12
2    Wiki  13
--------------
      Name   Age         City
a    Alice  25.0     New York
b      Bob  30.0  Los Angeles
c  Charlie  35.0      Chicago


#### DataFrame的访问

In [49]:

# DataFrame访问列时直接用列名，访问行时用iloc和loc，其中iloc是按位置访问，loc是按标签访问
print(df4['Name'])
print('--------------')
print(df4.loc['a'])
print('--------------')
print(df4.iloc[0])
print('--------------')

# DataFrame的切片
# DataFrame行切片时用iloc和loc，其中iloc是按位置切片，loc是按标签切片
# DataFrame不能先切列再切片行，只能先切片行再切片列
# 如果使用loc，行和列都只能用标签值，不能用位置值
# 如果使用iloc，行和列都只能用位置值，不能用标签值
print(df4[['Name', 'Age']])  # 提取多列
print('--------------')
# print(df4[1:3])              #切片建议使用loc和iloc，这个语法的切片在写整数时是按行切片，在写字符串列表时是按列切片，不规范
# print('--------------')
print(df4.loc[:, 'Name'])     # 提取单列
print('--------------')
print(df4.iloc[1:3, [0, 1]])  # 使用.iloc和整数来提取指定行列

a      Alice
b        Bob
c    Charlie
Name: Name, dtype: object
--------------
Name       Alice
Age         25.0
City    New York
Name: a, dtype: object
--------------
Name       Alice
Age         25.0
City    New York
Name: a, dtype: object
--------------
      Name   Age
a    Alice  25.0
b      Bob  30.0
c  Charlie  35.0
--------------
a      Alice
b        Bob
c    Charlie
Name: Name, dtype: object
--------------
      Name   Age
b      Bob  30.0
c  Charlie  35.0


#### DataFrame的常用属性和方法

In [None]:
# DataFrame的属性
print(df4.shape)     # 形状
print(df4.columns)   # 列名
print(df4.index)     # 索引
print(df4.dtypes)    # 数据类型
print('--------------')


# DataFrame的常用方法
print(df4.head())    # 前几行数据,默认是前 5 行
print('--------------')
print(df4.tail())    # 后几行数据,默认是后 5 行
print('--------------')
print(df4.info())    # 数据信息
print('--------------')
print(df4.describe())# 描述信息
print('--------------')
print(df4['Age'].mean())    # 求平均值
print(df4['Age'].sum())     # 求和

'''
1. 转换操作
df.transpose(): 转置 DataFrame,行变成列,列变成行。
df.melt(): 将 DataFrame 从宽格式转换为长格式。
df.pivot(): 根据 DataFrame 中的值重建索引,类似于 Excel 中的数据透视表。
2. 缺失值处理
df.dropna(): 删除含有缺失值的行或列。
df.fillna(): 用指定值填充缺失值。
df.isna(): 检测缺失值,返回布尔型 DataFrame。
df.notna(): 检测非缺失值,返回布尔型 DataFrame。
3. 填充方法
df.ffill(): 向前填充,用前一个非NaN值填充NaN值。
df.bfill(): 向后填充,用后一个非NaN值填充NaN值。
4. 数据重塑
df.stack(): 将列索引转换为行索引,降低维度。
df.unstack(): 将行索引转换为列索引,提升维度。
df.droplevel(): 删除 MultiIndex 中的某个级别。
5. 数据排序
df.sort_values(): 根据 DataFrame 的列值进行排序。
df.sort_index(): 根据 DataFrame 的索引进行排序。
6. 数据选择
df.loc[]: 通过索引标签进行数据选择。
df.iloc[]: 通过索引位置进行数据选择。
df.at[]: 通过标签快速访问单个标量。
df.iat[]: 通过位置快速访问单个标量。
7. 数据合并
pd.concat(): 沿着一条轴将多个对象堆叠到一起。
df.append(): 将其他 DataFrame 添加到当前 DataFrame 的末尾。
pd.merge(): 根据 DataFrame 的一个或多个键将不同的 DataFrame 合并在一起。
8. 数据聚合
df.groupby(): 对 DataFrame 中的数据进行分组,并应用函数。
df.agg(): 对 DataFrame 中的列应用一个或多个聚合函数。
df.transform(): 对 DataFrame 中的数据进行转换,返回与原始数据相同形状的结果。
9. 数据统计描述
df.describe(): 计算各列的基本统计信息。
df.count(): 计算非空值的数量。
df.max(), df.min(): 计算最大值和最小值。
df.mean(), df.median(): 计算平均值和中位数。
10. 数据复制
df.copy(): 复制 DataFrame 的数据。
这些方法涵盖了从数据预处理、数据操作到数据分析的多个方面,是处理 pandas DataFrame 时经常使用的工具。
'''


(3, 3)
Index(['Name', 'Age', 'City'], dtype='object')
Index(['a', 'b', 'c'], dtype='object')
Name     object
Age     float64
City     object
dtype: object
--------------
      Name   Age         City
a    Alice  25.0     New York
b      Bob  30.0  Los Angeles
c  Charlie  35.0      Chicago
--------------
      Name   Age         City
a    Alice  25.0     New York
b      Bob  30.0  Los Angeles
c  Charlie  35.0      Chicago
--------------
<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, a to c
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    3 non-null      object 
 1   Age     3 non-null      float64
 2   City    3 non-null      object 
dtypes: float64(1), object(2)
memory usage: 204.0+ bytes
None
--------------
        Age
count   3.0
mean   30.0
std     5.0
min    25.0
25%    27.5
50%    30.0
75%    32.5
max    35.0
--------------
30.0
90.0


#### DataFrame的修改

In [56]:
# 单个元素的修改

# 使用二维索引定位后修改
df4.loc['b','Name'] = 'Tom'
print(df4)
print('--------------')



# 整行/列的修改

# 整行的修改
df4.loc['b'] = ['Tom',24,'beijing']
print(df4)
print('--------------')
# 整列的修改
df4['Name'] = ['Jack','Lucy','Mike']
print(df4)
print('--------------')

# 元素的删除 DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

# 删除列
df4_removecolumn=df4.drop('Name',axis=1)
print(df4_removecolumn)
print('--------------')
# 删除行
df4_removeindex=df4.drop('b')
print(df4_removeindex)
print('--------------')
# 删除多行(删除多列类似)
df4_removemultipleindex=df4.drop(['a','b'])
print(df4_removemultipleindex)

   Name   Age      City
a  Jack  25.0  New York
b   Tom  24.0   beijing
c  Mike  35.0   Chicago
--------------
   Name   Age      City
a  Jack  25.0  New York
b   Tom  24.0   beijing
c  Mike  35.0   Chicago
--------------
   Name   Age      City
a  Jack  25.0  New York
b  Lucy  24.0   beijing
c  Mike  35.0   Chicago
--------------
    Age      City
a  25.0  New York
b  24.0   beijing
c  35.0   Chicago
--------------
   Name   Age      City
a  Jack  25.0  New York
c  Mike  35.0   Chicago
--------------
   Name   Age     City
c  Mike  35.0  Chicago


In [13]:
#修改index和columns

#修改index
df4.index = ['A','B','C']
print(df4)
print('--------------')
#修改columns
df4.columns = ['Name','Age','Address']
print(df4)
print('--------------')
#修改index和columns的名称/默认为None
df4.index.name = 'No.'
df4.columns.name = 'Info'
print(df4)
print('--------------')



# 重置和更换index
df_reset = df4.reset_index(drop=True)
print(df_reset)
# 将一列设置为index，类似于数据库的更换主键
df_set = df_reset.set_index('Address')
print(df_set)



# 转换列的类型
df4['Address'] = df4['Address'].astype(np.unicode_)

   Name   Age      City
A  Jack  25.0  New York
B  Lucy  24.0   beijing
C  Mike  35.0   Chicago
--------------
   Name   Age   Address
A  Jack  25.0  New York
B  Lucy  24.0   beijing
C  Mike  35.0   Chicago
--------------
Info  Name   Age   Address
No.                       
A     Jack  25.0  New York
B     Lucy  24.0   beijing
C     Mike  35.0   Chicago
--------------
Info  Name   Age   Address
0     Jack  25.0  New York
1     Lucy  24.0   beijing
2     Mike  35.0   Chicago
Info      Name   Age
Address             
New York  Jack  25.0
beijing   Lucy  24.0
Chicago   Mike  35.0


In [None]:
# DataFrame 合并


data = [['Google', 10], ['Runoob', 12], ['Wiki', 13]]
df1 = pd.DataFrame(data, columns=['Site', 'Age'],index=['one', 'two', 'three'])
print(df1)
print('--------------')
data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}
df2 = pd.DataFrame(data,index=['one', 'two', 'three'])
print (df2)
print('--------------')



# 纵向合并
# 如果默认索引相同，纵向合并可以智能调整
# ignore_index=True, 会重新设置索引,否则可能会出现重复索引
print(pd.concat(objs=[df1, df2], axis=0, join='outer', ignore_index=True))
print('--------------')
# 横向合并
print(pd.merge(df1, df2, on=None)) #on默认为None，就是自然连接，相同的列会合并，如果on设置为一个列，只有这个列会被合并



         Site  Age
one    Google   10
two    Runoob   12
three    Wiki   13
--------------
         Site  Age
one    Google   10
two    Runoob   12
three    Wiki   13
--------------
         Site  Age
one    Google   10
two    Runoob   12
three    Wiki   13
one    Google   10
two    Runoob   12
three    Wiki   13
--------------
     Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13


In [15]:
# 数据透视和数据逆透视
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Subject': ['Math', 'Math', 'Science', 'Science'],
    'Score': [90, 85, 95, 80]
}
df = pd.DataFrame(data)
print(df)
print('--------------')
# 使用 pivot 函数将长格式转换为宽格式(有点像把表按columns(指的是这个函数里的参数)进行分组，columns的每一个取值为一个新列)
df_pivot = df.pivot(index='Name', columns='Subject', values='Score')
print("Pivot 结果：")
print(df_pivot)
print('--------------')
# 使用 melt 函数将宽格式转换为长格式(把除了id_vars和value_name的列合并起来,类名变为var_name)
df_melt = df_pivot.reset_index().melt(id_vars='Name', value_name='score', var_name='Subject')
print("Melt 结果：")
print(df_melt)


      Name  Subject  Score
0    Alice     Math     90
1      Bob     Math     85
2  Charlie  Science     95
3    David  Science     80
--------------
Pivot 结果：
Subject  Math  Science
Name                  
Alice    90.0      NaN
Bob      85.0      NaN
Charlie   NaN     95.0
David     NaN     80.0
--------------
Melt 结果：
      Name  Subject  score
0    Alice     Math   90.0
1      Bob     Math   85.0
2  Charlie     Math    NaN
3    David     Math    NaN
4    Alice  Science    NaN
5      Bob  Science    NaN
6  Charlie  Science   95.0
7    David  Science   80.0


### 用pandas进行数据清洗
处理数据缺失、数据格式错误、错误数据或重复数据


#### 定义什么是空值

In [None]:
# 示例文件property-data.csv中包含的空数据有四种：n/a  NA  --  na
df = pd.read_csv('property-data.csv')
print(df)
print('-------------------------------')
# 可以看到n/a和NA都被识别为了空数据,成了NAN,而--和na没有被识别None,修改的是源数据
# 要定义什么是空数据,就要用到na_values参数
zero_values = ["na", "--"]
df1 = pd.read_csv('property-data.csv', na_values = zero_values)
# read_csv函数会将n/a和NA都识别为空值,na_values中是用户定义的额外的空值
print(df1)


           PID  ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0      PUTNAM            Y            3        1  1000
1  100002000.0   197.0   LEXINGTON            N            3      1.5    --
2  100003000.0     NaN   LEXINGTON            N          NaN        1   850
3  100004000.0   201.0    BERKELEY           12            1      NaN   700
4          NaN   203.0    BERKELEY            Y            3        2  1600
5  100006000.0   207.0    BERKELEY            Y          NaN        1   800
6  100007000.0     NaN  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0   213.0     TREMONT            Y            1        1   NaN
8  100009000.0   215.0     TREMONT            Y           na        2  1800
-------------------------------
           PID  ST_NUM     ST_NAME OWN_OCCUPIED  NUM_BEDROOMS NUM_BATH   SQ_FT
0  100001000.0   104.0      PUTNAM            Y           3.0        1  1000.0
1  100002000.0   197.0   LEXINGTON            N   

#### 清洗空值

In [None]:
# 删除带有空值的行/列


# DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
'''
axis: 默认为 0,表示逢空值剔除整行,如果设置参数 axis=1 表示逢空值去掉整列。
how: 默认为 'any' 如果一行（或一列）里任何一个数据有出现 NA 就去掉整行,如果设置 how='all' 一行（或列）都是 NA 才去掉这整行。
thresh: 设置需要多少非空值的数据才可以保留下来的。
subset: 如果axis=0，设置想要检查的列。如果是多个列,可以使用列名的 list 作为参数。
inplace: 如果设置 True,将计算得到的值直接覆盖之前的值并返回 None,修改的是源数据。
'''
# 删除有空值的列
new_df1 = df1.dropna()
print('只有一行没有空值')
print(new_df1)
print('-------------------------------')

# 删除有空值的行
new_df2 = df1.dropna(axis=1)
print('只有 ST_NAME这一列没有空值')
print(new_df2)
print('-------------------------------')

# 根据特定列有没有空值删除行
new_df3=df1.dropna(subset=['ST_NUM'])
print('ST_NUM这一列有两个空值,所以删除了两行')
print(new_df3)
print('-------------------------------')


# 根据特定行有没有空值删除列
new_df4=df1.dropna(axis=1,subset=[2])
print('2这一行有两个空值,所以删除了两列')
print(new_df4)

只有一行没有空值
           PID  ST_NUM ST_NAME OWN_OCCUPIED  NUM_BEDROOMS NUM_BATH   SQ_FT
0  100001000.0   104.0  PUTNAM            Y           3.0        1  1000.0
-------------------------------
只有 ST_NAME这一列没有空值
      ST_NAME
0      PUTNAM
1   LEXINGTON
2   LEXINGTON
3    BERKELEY
4    BERKELEY
5    BERKELEY
6  WASHINGTON
7     TREMONT
8     TREMONT
-------------------------------
ST_NUM这一列有两个空值,所以删除了两行
           PID  ST_NUM    ST_NAME OWN_OCCUPIED  NUM_BEDROOMS NUM_BATH   SQ_FT
0  100001000.0   104.0     PUTNAM            Y           3.0        1  1000.0
1  100002000.0   197.0  LEXINGTON            N           3.0      1.5     NaN
3  100004000.0   201.0   BERKELEY           12           1.0      NaN   700.0
4          NaN   203.0   BERKELEY            Y           3.0        2  1600.0
5  100006000.0   207.0   BERKELEY            Y           NaN        1   800.0
7  100008000.0   213.0    TREMONT            Y           1.0        1     NaN
8  100009000.0   215.0    TREMONT            Y    

In [39]:
# 替换空值

# DataFrame.fillna(value=None, method=None, axis=0, inplace=False, limit=None, downcast=None)
'''
value:用于填充缺失值的值。可以是标量、字典、Series或DataFrame。如果是字典,可以针对不同的列指定不同的填充值。
method:用于填充缺失值的方法。对于时间序列数据,可以是 'ffill'（前向填充,即用前面的非空值填充后面的空值）或 'bfill'（后向填充,即用后面的非空值填充前面的空值）。!!这个参数不久后会弃用,直接用df.bfill和df.ffill方法
axis:指定填充的轴。0 或 'index' 表示按行填充,1 或 'columns' 表示按列填充。主要是配合method参数和value参数使用
inplace:如果为True,则在原DataFrame上进行操作,不返回新的DataFrame。
limit:如果指定了方法,这是连续填充的最大数量。在达到这个限制后,剩余的缺失值将不会被填充。
downcast:尝试将数据转换为更小的数据类型（如果可能）。
'''

# 对df1的SQ_FT列进行前向填充
df1_SQFT_ffill=df1['SQ_FT'].ffill()
print(df1_SQFT_ffill)
print('-------------------------------')

# mean(),median() 和 mode() 方法计算列的均值、中位数值和众数进行替换。
# 以对SQ_FT列进行均值填充为例
df1_SQFT_meanfill=df1['SQ_FT'].fillna(df1['SQ_FT'].mean())
print(df1_SQFT_meanfill)


0    1000.0
1    1000.0
2     850.0
3     700.0
4    1600.0
5     800.0
6     950.0
7     950.0
8    1800.0
Name: SQ_FT, dtype: float64
-------------------------------
0    1000.0
1    1100.0
2     850.0
3     700.0
4    1600.0
5     800.0
6     950.0
7    1100.0
8    1800.0
Name: SQ_FT, dtype: float64


In [None]:
# 处理错误数据(删除或替换)


# 日期格式错误
# pd.to_datetime函数是将数据转换为日期格式
data = {
  "Date": ['2020/12/01', '2020/12/02' , '20201226'],
  "duration": [50, 40, 45]
}

df_date = pd.DataFrame(data, index = ["day1", "day2", "day3"])
# 日期格式错误
print(df_date['Date'].dtype)
df_date['Date'] = pd.to_datetime(df_date['Date'], format='mixed')
# 修改后格式正确
print(df_date['Date'].dtype)
print(df_date.to_string())


# 条件筛选错误数据并进行处理(单个值修改,整行删除等)
person = {
  "name": ['Google', 'Runoob' , 'Taobao'],
  "age": [50, 200, 12345]    
}

df_age = pd.DataFrame(person)

for x in df_age.index:
  if df_age.loc[x, "age"] > 120:
    #修改
    df_age.loc[x, "age"] = 120
    #整行删除
    #df_age.drop(x, inplace = True)

print(df_age)



object
datetime64[ns]
           Date  duration
day1 2020-12-01        50
day2 2020-12-02        40
day3 2020-12-26        45
     name  age
0  Google   50
1  Runoob  120
2  Taobao  120


In [66]:
# 处理重复数据


# df.duplicated() 和 df.drop_duplicates()
# df.duplicated() 方法返回一个布尔类型的 Series 对象，表示每一行是否为重复行。
# df.drop_duplicates() 方法返回一个新的 DataFrame 对象，其中重复行被删除。


person = {
  "name": ['Google', 'Runoob', 'Runoob', 'Taobao'],
  "age": [50, 40, 40, 23]  
}
df_person = pd.DataFrame(person)

print(df_person.duplicated())
print('----------------------------------------')
print('原数据')
print(df_person)
print('去重后')
print(df_person.drop_duplicates())




0    False
1    False
2     True
3    False
dtype: bool
----------------------------------------
原数据
     name  age
0  Google   50
1  Runoob   40
2  Runoob   40
3  Taobao   23
去重后
     name  age
0  Google   50
1  Runoob   40
3  Taobao   23
