# DataFrame

In [74]:
# dataframe的创建方式
import pandas as pd
import numpy as np

# 通过series创建
s1 = pd.Series([1,2,3,4,5])
s2 = pd.Series([6,7,8,9,10])
df = pd.DataFrame({'第一列':s1, '第二列':s2})
print(df)
print(type(df))
print(type(df['第一列']))

# 通过字典创建
df = pd.DataFrame(
    {
        'id':[1,2,3,4,5],
        'name':['tom', 'tom', 'jack', 'alice', 'bob', 'allen'],
        'age':[15,15,17,20,18,19],
        'score':[60.5,60.5,80,75,95,100]
    },index=[1,2,3,4,5,6],columns=['name', 'score', 'age'] # 隐藏id
)
print(df)

   第一列  第二列
0    1    6
1    2    7
2    3    8
3    4    9
4    5   10
<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>
    name  score  age
1    tom   60.5   15
2    tom   60.5   15
3   jack   80.0   17
4  alice   75.0   20
5    bob   95.0   18
6  allen  100.0   19


In [11]:
# DataFrame的属性
print('行索引：')
print(df.index)
print('列标签：')
print(df.columns)
print('值：')
print(df.values)

行索引：
Index([1, 2, 3, 4, 5], dtype='int64')
列标签：
Index(['name', 'score', 'age'], dtype='object')
值：
[['tom' 60.5 15]
 ['jack' 80.0 17]
 ['alice' 75.0 20]
 ['bob' 95.0 18]
 ['allen' 100.0 19]]


In [16]:
print('维度：', df.ndim)
print('数据类型：', df.dtypes,sep='\n')
print('形状：', df.shape)
print('元素个数：', df.size)

维度： 2
数据类型：
name      object
score    float64
age        int64
dtype: object
形状： (5, 3)
元素个数： 15


In [19]:
# 行列转置
print(df.T)
print(df.index)
print(df.columns)

          1     2      3     4      5
name    tom  jack  alice   bob  allen
score  60.5  80.0   75.0  95.0  100.0
age      15    17     20    18     19
Index([1, 2, 3, 4, 5], dtype='int64')
Index(['name', 'score', 'age'], dtype='object')


In [29]:
# 获取元素 loc iloc at iat
# 某行
print(df,'\n')
print(df.iloc[4],'\n')
print(df.iloc[4].to_frame().T,'\n')

print(df.loc[:,'name'])

    name  score  age
1    tom   60.5   15
2   jack   80.0   17
3  alice   75.0   20
4    bob   95.0   18
5  allen  100.0   19 

name     allen
score    100.0
age         19
Name: 5, dtype: object 

    name  score age
5  allen  100.0  19 

1      tom
2     jack
3    alice
4      bob
5    allen
Name: name, dtype: object


In [None]:
# 单个元素
print(df.at[3, 'score'])
print(df.iat[2,1])
print(df.loc[3,'score'])
print(df.iloc[2,1])



75.0
75.0
75.0
75.0
1      tom
2     jack
3    alice
4      bob
5    allen
Name: name, dtype: object


In [None]:
print(df['name'])
print(type(df['name']))
print(df[['name']])
print(type(df[['name']]))

print(df[['name','score']]) # 多列数据获取

1      tom
2     jack
3    alice
4      bob
5    allen
Name: name, dtype: object
<class 'pandas.core.series.Series'>
    name
1    tom
2   jack
3  alice
4    bob
5  allen
<class 'pandas.core.frame.DataFrame'>
    name  score
1    tom   60.5
2   jack   80.0
3  alice   75.0
4    bob   95.0
5  allen  100.0


In [45]:
# 查看部分数据
print(df.head(2))
print()
print(df.tail(3))

   name  score  age
1   tom   60.5   15
2  jack   80.0   17

    name  score  age
3  alice   75.0   20
4    bob   95.0   18
5  allen  100.0   19


In [48]:
# 使用布尔索引筛选数据
print(df.score>70)
print(df[(df.score>70) & (df.score<80)])

1    False
2     True
3     True
4     True
5     True
Name: score, dtype: bool
    name  score  age
3  alice   75.0   20


In [53]:
# 随机抽样
print(df.sample()) # 随机取一条
print()
print(df.sample(3))

  name  score  age
1  tom   60.5   15

    name  score  age
4    bob   95.0   18
5  allen  100.0   19
3  alice   75.0   20


In [54]:
print(df.isin(['jack', 20]))

    name  score    age
1  False  False  False
2   True  False  False
3  False  False   True
4  False  False  False
5  False  False  False


In [55]:
print(df.isna()) # 查看元素是否是缺失值

    name  score    age
1  False  False  False
2  False  False  False
3  False  False  False
4  False  False  False
5  False  False  False


In [63]:
print(df.sum())
print()
print(df['score'].sum())
print(df.score.max())
print(df.score.min())
print(df.score.mean()) # 平均数
print(df.score.median()) # 中位数
print(df.age.mode()) # 众数
print()
print(df.score.std()) # 标准差
print(df.score.var()) # 方差

name     tomjackaliceboballen
score                   410.5
age                        89
dtype: object

410.5
100.0
60.5
82.1
80.0
0    15
1    17
2    18
3    19
4    20
Name: age, dtype: int64

15.876082640248507
252.04999999999998


In [66]:
print(df.describe())

            score        age
count    5.000000   5.000000
mean    82.100000  17.800000
std     15.876083   1.923538
min     60.500000  15.000000
25%     75.000000  17.000000
50%     80.000000  18.000000
75%     95.000000  19.000000
max    100.000000  20.000000


In [76]:
print(df.count()) # 每一列非缺失值的个数
print(df.value_counts()) # 出现的次数
print(df.duplicated(subset=['age'])) # 查看是否重复

name     6
score    6
age      6
dtype: int64
name   score  age
tom    60.5   15     2
alice  75.0   20     1
allen  100.0  19     1
bob    95.0   18     1
jack   80.0   17     1
Name: count, dtype: int64
1    False
2     True
3    False
4    False
5    False
6    False
dtype: bool


In [None]:
print(df.sample(2)) # 随机抽样
print()
print(df)
print(df.cumsum())

  name  score  age
1  tom   60.5   15
2  tom   60.5   15

    name  score  age
1    tom   60.5   15
2    tom   60.5   15
3   jack   80.0   17
4  alice   75.0   20
5    bob   95.0   18
6  allen  100.0   19
                      name  score  age
1                      tom   60.5   15
2                   tomtom  121.0   30
3               tomtomjack  201.0   47
4          tomtomjackalice  276.0   67
5       tomtomjackalicebob  371.0   85
6  tomtomjackaliceboballen  471.0  104
    name  score  age
1    tom   60.5   15
2    tom   60.5   15
4  alice   75.0   20
3   jack   80.0   17
5    bob   95.0   18
6  allen  100.0   19


In [88]:
print(df.sort_values(by=['score', 'age'],ascending=[True,False]))

    name  score  age
1    tom   60.5   15
2    tom   60.5   15
4  alice   75.0   20
3   jack   80.0   17
5    bob   95.0   18
6  allen  100.0   19


In [None]:
''' 
案例1:学生成绩分析
场景:某班级的学生成绩数据如下,请完成以下任务:
1.计算每位学生的总分和平均分。
2.找出数学成绩高于90分或英语成绩高于85分的学生。
3.按总分从高到低排序,并输出前3名学生。
'''

In [113]:
import pandas as pd
data = {
    '姓名':['张三','李四','王五','赵六','钱七'],
    '数学':[85,92,78,88,95],
    '英语':[90,88,85,92,80],
    '物理':[75,80,88,85,90]
}
scores = pd.DataFrame(data)
print(scores)
scores['总分'] = scores[['数学','英语','物理']].sum(axis=1)
scores['平均分1'] = scores['总分'] / 3
scores['平均分2'] = scores[['数学', '英语', '物理']].mean(axis=1)
print('总分：',scores)

avg = scores[['数学', '英语', '物理']].mean(axis=0)
print(avg)

print(scores[(scores['数学']>90) | (scores['英语']>90)])

print(scores.sort_values('总分',ascending=False).head(3))

print(scores.nlargest(3, columns=['总分']))

   姓名  数学  英语  物理
0  张三  85  90  75
1  李四  92  88  80
2  王五  78  85  88
3  赵六  88  92  85
4  钱七  95  80  90
总分：    姓名  数学  英语  物理   总分       平均分1       平均分2
0  张三  85  90  75  250  83.333333  83.333333
1  李四  92  88  80  260  86.666667  86.666667
2  王五  78  85  88  251  83.666667  83.666667
3  赵六  88  92  85  265  88.333333  88.333333
4  钱七  95  80  90  265  88.333333  88.333333
数学    87.6
英语    87.0
物理    83.6
dtype: float64
   姓名  数学  英语  物理   总分       平均分1       平均分2
1  李四  92  88  80  260  86.666667  86.666667
3  赵六  88  92  85  265  88.333333  88.333333
4  钱七  95  80  90  265  88.333333  88.333333
   姓名  数学  英语  物理   总分       平均分1       平均分2
4  钱七  95  80  90  265  88.333333  88.333333
3  赵六  88  92  85  265  88.333333  88.333333
1  李四  92  88  80  260  86.666667  86.666667
   姓名  数学  英语  物理   总分       平均分1       平均分2
3  赵六  88  92  85  265  88.333333  88.333333
4  钱七  95  80  90  265  88.333333  88.333333
1  李四  92  88  80  260  86.666667  86.666667


In [122]:
''' 
案例2:销售数据分析
场景:某公司销售数据如下,请完成以下任务:
1.计算每种产品的总销售额(销售额=单价×销量)。
2.找出销售额最高的产品。
3.按销售额从高到低排序,并输出所有产品信息。
'''
import pandas as pd
data = {
    '产品名称' : ['A', 'B', 'C', 'D'],
    '单价' : [100, 150, 200, 120],
    '销量' : [50, 30, 20, 40]
}

df = pd.DataFrame(data)
df['总销售额'] = df['单价']*df['销量']
print(df)
print('总销售额最高：',df['总销售额'].max())
print(df.sort_values('总销售额',ascending=False))

  产品名称   单价  销量  总销售额
0    A  100  50  5000
1    B  150  30  4500
2    C  200  20  4000
3    D  120  40  4800
总销售额最高： 5000
  产品名称   单价  销量  总销售额
0    A  100  50  5000
3    D  120  40  4800
1    B  150  30  4500
2    C  200  20  4000


In [127]:
'''
案例3:电商用户行为分析
场景:某电商平台的用户行为数据如下,请完成以下任务:
1.计算每位用户的总消费金额(消费金额=商品单价×购买数量)
2.找出消费金额最高的用户,并输出其所有信息
3.计算所有用户的平均消费金额(保留2位小数)
4.统计电子产品的总购买数量
'''

import pandas as pd
data = {
    '用户ID':[101,102,103,104,105],
    '用户名':['Alice','Bob', 'Charlie','David', 'Eve'],
    '商品类别':['电子产品','服饰','电子产品','家居','服饰'],
    '商品单价':[1200,300,800,150,200],
    '购买数量':[1,3,2,5,4]
}
df = pd.DataFrame(data)
print(df)

   用户ID      用户名  商品类别  商品单价  购买数量
0   101    Alice  电子产品  1200     1
1   102      Bob    服饰   300     3
2   103  Charlie  电子产品   800     2
3   104    David    家居   150     5
4   105      Eve    服饰   200     4


In [133]:
df['总消费金额'] = df['商品单价'] * df['购买数量']
# df['平均消费金额']
df.nlargest(1, columns=['总消费金额'])
df['总消费金额'].mean
df[df['商品类别']=='电子产品']['购买数量'].sum()

np.int64(3)