## Panda 数据分析常用函数（上）

### 1. 导入模块

In [1]:
import pandas as pd
import numpy as np

### 2. 创建数据集并读取
**创建数据集**

In [2]:
data = pd.DataFrame({
    "id":np.arange(101,111),                                # np.arange会自动输出范围内的数据，这里会输出101~110的id号。
    "date":pd.date_range(start="20200310",periods=10),      # 输出日期数据，设置周期为10，注意这里的周期数应该与数据条数相等。
    "money":[5,4,65,-10,15,20,35,16,6,20],                  # 设置一个-10的坑，下面会填（好惨，自己给自己挖坑，幸亏不准备跳~）
    "product":['苏打水','可乐','牛肉干','老干妈','菠萝','冰激凌','洗面奶','洋葱','牙膏','薯片'],
    "department":['饮料','饮料','零食','调味品','水果',np.nan,'日用品','蔬菜','日用品','零食'],                # 再设置一个空值的坑
    "origin":['China',' China','America','China','Thailand','China','america','China','China','Japan']     # 再再设置一个america的坑
})
data

Unnamed: 0,id,date,money,product,department,origin
0,101,2020-03-10,5,苏打水,饮料,China
1,102,2020-03-11,4,可乐,饮料,China
2,103,2020-03-12,65,牛肉干,零食,America
3,104,2020-03-13,-10,老干妈,调味品,China
4,105,2020-03-14,15,菠萝,水果,Thailand
5,106,2020-03-15,20,冰激凌,,China
6,107,2020-03-16,35,洗面奶,日用品,america
7,108,2020-03-17,16,洋葱,蔬菜,China
8,109,2020-03-18,6,牙膏,日用品,China
9,110,2020-03-19,20,薯片,零食,Japan


**数据写入和读取**

In [3]:
data.to_csv("shopping.csv", index=False)
# index = False表示不加索引，否则会多一行索引
data = pd.read_csv("shopping.csv")

### 3. 数据查看

**数据集基础信息查询**

In [4]:
# 数据的形状
data.shape

(10, 6)

In [5]:
# 所有列的数据类型
data.dtypes

# 某一列的数据类型
# data['id'].dtype      

id             int64
date          object
money          int64
product       object
department    object
origin        object
dtype: object

In [6]:
# 数据的维度
data.ndim

2

In [7]:
# 行索引
data.index

RangeIndex(start=0, stop=10, step=1)

In [8]:
# 列索引
data.columns

Index(['id', 'date', 'money', 'product', 'department', 'origin'], dtype='object')

In [9]:
# 查看对象值
data.values

array([[101, '2020-03-10', 5, '苏打水', '饮料', 'China'],
       [102, '2020-03-11', 4, '可乐', '饮料', ' China'],
       [103, '2020-03-12', 65, '牛肉干', '零食', 'America'],
       [104, '2020-03-13', -10, '老干妈', '调味品', 'China'],
       [105, '2020-03-14', 15, '菠萝', '水果', 'Thailand'],
       [106, '2020-03-15', 20, '冰激凌', nan, 'China'],
       [107, '2020-03-16', 35, '洗面奶', '日用品', 'america'],
       [108, '2020-03-17', 16, '洋葱', '蔬菜', 'China'],
       [109, '2020-03-18', 6, '牙膏', '日用品', 'China'],
       [110, '2020-03-19', 20, '薯片', '零食', 'Japan']], dtype=object)

**数据集集体情况查询**

In [10]:
data.head() # 显示头部几行（默认5行）

Unnamed: 0,id,date,money,product,department,origin
0,101,2020-03-10,5,苏打水,饮料,China
1,102,2020-03-11,4,可乐,饮料,China
2,103,2020-03-12,65,牛肉干,零食,America
3,104,2020-03-13,-10,老干妈,调味品,China
4,105,2020-03-14,15,菠萝,水果,Thailand


In [11]:
data.tail() # 显示尾部几行（默认5行）

Unnamed: 0,id,date,money,product,department,origin
5,106,2020-03-15,20,冰激凌,,China
6,107,2020-03-16,35,洗面奶,日用品,america
7,108,2020-03-17,16,洋葱,蔬菜,China
8,109,2020-03-18,6,牙膏,日用品,China
9,110,2020-03-19,20,薯片,零食,Japan


In [12]:
data.info() # 数据集相关信息概览：索引情况、列数据类型、非空值、内存使用情况

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
id            10 non-null int64
date          10 non-null object
money         10 non-null int64
product       10 non-null object
department    9 non-null object
origin        10 non-null object
dtypes: int64(2), object(4)
memory usage: 608.0+ bytes


In [13]:
data.describe()    # 快速综合统计结果

Unnamed: 0,id,money
count,10.0,10.0
mean,105.5,17.6
std,3.02765,20.576146
min,101.0,-10.0
25%,103.25,5.25
50%,105.5,15.5
75%,107.75,20.0
max,110.0,65.0


### 4. 数据清洗

**查看异常值**

In [14]:
# 当然，现在这个数据集很小，可以直观地发现异常值
for i in data:
    print(i+": "+str(data[i].unique()))   

id: [101 102 103 104 105 106 107 108 109 110]
date: ['2020-03-10' '2020-03-11' '2020-03-12' '2020-03-13' '2020-03-14'
 '2020-03-15' '2020-03-16' '2020-03-17' '2020-03-18' '2020-03-19']
money: [  5   4  65 -10  15  20  35  16   6]
product: ['苏打水' '可乐' '牛肉干' '老干妈' '菠萝' '冰激凌' '洗面奶' '洋葱' '牙膏' '薯片']
department: ['饮料' '零食' '调味品' '水果' nan '日用品' '蔬菜']
origin: ['China' ' China' 'America' 'Thailand' 'america' 'Japan']


**空值检测**

In [15]:
data.isnull()
# data['department'].isnull()  # 查看某一列的空值

Unnamed: 0,id,date,money,product,department,origin
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,True,False
6,False,False,False,False,False,False
7,False,False,False,False,False,False
8,False,False,False,False,False,False
9,False,False,False,False,False,False


In [16]:
# 将空值判断进行汇总，更加直观，ascending默认为True，升序。
data.isnull().sum().sort_values(ascending=False)

department    1
origin        0
product       0
money         0
date          0
id            0
dtype: int64

In [17]:
# Detect missing values.
# data.isna() 

# Whether each element in the DataFrame is contained in values.
# data.isin()
df = pd.DataFrame({'num_legs': [2, 4], 'num_wings': [2, 0]},
                  index=['falcon', 'dog'])
df.isin([2])

Unnamed: 0,num_legs,num_wings
falcon,True,True
dog,False,False


**空值处理**

In [18]:
# pandas.DataFrame.fillna（value = None，method = None，inplace = False）

# value：用于填充的值，可以是具体值、字典和数组，不能是列表；
# method：填充方法，有 ffill(填充上一个值) 和 bfill（填充下一个值） 等；
# inplace默认无False，如果为True，则将修改此对象上的所有其他视图。

data['department'].fillna(method="bfill")
# 替换为具体值，并且在原对象值上进行修改
# data['department'].fillna(value="冷冻食品",inplace=True)    

0     饮料
1     饮料
2     零食
3    调味品
4     水果
5    日用品
6    日用品
7     蔬菜
8    日用品
9     零食
Name: department, dtype: object

**空格处理**

In [19]:
for i in data:
    if pd.api.types.is_object_dtype(data[i]):
        data[i] = data[i].str.strip()
data['origin'].unique()

array(['China', 'America', 'Thailand', 'america', 'Japan'], dtype=object)

**大小写转换**

In [20]:
# data['origin'].str.title()         # 将首字母大写
# data['origin'].str.capitalize()    # 将首字母大写
# data['origin'].str.upper()         # 全部大写
# data['origin'].str.lower()         # 全部小写

**数据替换**

In [21]:
# 将 America 替换为 America
data['origin'].replace("america", "America", inplace=True)
data['origin']

0       China
1       China
2     America
3       China
4    Thailand
5       China
6     America
7       China
8       China
9       Japan
Name: origin, dtype: object

In [22]:
data['money'].replace(-10,np.nan,inplace=True)                    # 将负值替换为空值
data['money'].replace(np.nan,data['money'].mean(),inplace=True)   # 将空值替换为均值
data['money']

0     5.000000
1     4.000000
2    65.000000
3    20.666667
4    15.000000
5    20.000000
6    35.000000
7    16.000000
8     6.000000
9    20.000000
Name: money, dtype: float64

**数据删除(方法一)**

In [23]:
#去掉 origin 为 American 的行
data1 = data[data.origin != 'America']
data1

Unnamed: 0,id,date,money,product,department,origin
0,101,2020-03-10,5.0,苏打水,饮料,China
1,102,2020-03-11,4.0,可乐,饮料,China
3,104,2020-03-13,20.666667,老干妈,调味品,China
4,105,2020-03-14,15.0,菠萝,水果,Thailand
5,106,2020-03-15,20.0,冰激凌,,China
7,108,2020-03-17,16.0,洋葱,蔬菜,China
8,109,2020-03-18,6.0,牙膏,日用品,China
9,110,2020-03-19,20.0,薯片,零食,Japan


In [24]:
#去掉所有包含Japan的行    不等于Japan的行为真，则返回
data2=data[(data != 'Japan').all(1)]    
data2

  result = method(y)


Unnamed: 0,id,date,money,product,department,origin
0,101,2020-03-10,5.0,苏打水,饮料,China
1,102,2020-03-11,4.0,可乐,饮料,China
2,103,2020-03-12,65.0,牛肉干,零食,America
3,104,2020-03-13,20.666667,老干妈,调味品,China
4,105,2020-03-14,15.0,菠萝,水果,Thailand
5,106,2020-03-15,20.0,冰激凌,,China
6,107,2020-03-16,35.0,洗面奶,日用品,America
7,108,2020-03-17,16.0,洋葱,蔬菜,China
8,109,2020-03-18,6.0,牙膏,日用品,China


**数据删除(方法2)**

In [25]:
# # 默认删除后面出现的重复值，即保留第一次出现的重复值
data['origin'].drop_duplicates()

# 删除前面出现的重复值，即保留最后一次出现的重复值
# data['origin'].drop_duplicates(keep='last')

0       China
2     America
4    Thailand
9       Japan
Name: origin, dtype: object

In [26]:
data

Unnamed: 0,id,date,money,product,department,origin
0,101,2020-03-10,5.0,苏打水,饮料,China
1,102,2020-03-11,4.0,可乐,饮料,China
2,103,2020-03-12,65.0,牛肉干,零食,America
3,104,2020-03-13,20.666667,老干妈,调味品,China
4,105,2020-03-14,15.0,菠萝,水果,Thailand
5,106,2020-03-15,20.0,冰激凌,,China
6,107,2020-03-16,35.0,洗面奶,日用品,America
7,108,2020-03-17,16.0,洋葱,蔬菜,China
8,109,2020-03-18,6.0,牙膏,日用品,China
9,110,2020-03-19,20.0,薯片,零食,Japan


**数据格式转换**

In [27]:
data3 = data['id'].astype('str')    # 将id列的类型转换为字符串类型。

**更改列名称**

In [28]:
data4 = data.rename(columns={'id':'ID', 'origin':'产地'})     # 将id列改为ID，将origin改为产地。

In [29]:
data4

Unnamed: 0,ID,date,money,product,department,产地
0,101,2020-03-10,5.0,苏打水,饮料,China
1,102,2020-03-11,4.0,可乐,饮料,China
2,103,2020-03-12,65.0,牛肉干,零食,America
3,104,2020-03-13,20.666667,老干妈,调味品,China
4,105,2020-03-14,15.0,菠萝,水果,Thailand
5,106,2020-03-15,20.0,冰激凌,,China
6,107,2020-03-16,35.0,洗面奶,日用品,America
7,108,2020-03-17,16.0,洋葱,蔬菜,China
8,109,2020-03-18,6.0,牙膏,日用品,China
9,110,2020-03-19,20.0,薯片,零食,Japan
