In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pandas import Series,DataFrame
import seaborn as sns
%matplotlib inline
index=['语文','数学','英语','理综']
data1=[150,150,150,300]
s=Series(data=data1,index=index)
s

语文    150
数学    150
英语    150
理综    300
dtype: int64

**Series基本概念**  
1、它是一个定长的有序字典  
2、它有shape、size、index、values等属性  
3、功能方法：head()、tail()分别查看前n个和后n个值  
4、当索引对应的值，可能出现缺失数据显示NaN  
5、pd.isnull()、pd.notnull()或者自带isnull()、notnull()函数都可检测缺失数据  
6、使用bool型的列表访问数组对象  
7、Series对象本身及其实例都有一个name属性  

In [5]:
display(s.shape,s.size)

(4,)

4

In [6]:
s.values

array([150, 150, 150, 300], dtype=int64)

In [7]:
s.index

Index(['语文', '数学', '英语', '理综'], dtype='object')

In [8]:
s.head(2)

语文    150
数学    150
dtype: int64

In [11]:
dic={
    '语文':150,
    '数学':150,
    '英语':150,
    '理综':300
}

In [14]:
s=Series(data=data1,index=['语文','物理','数学','化学'])  #如果数据来源类型为list时，index与data两者没有强对应的关系；所以超出了范围也不会提示出错
s

语文    150
物理    150
数学    150
化学    300
dtype: int64

In [15]:
s=Series(data=dic,index=['语文','物理','数学','化学']) #如果data的数据类型为dict字典时，index与data就是强对应的关系，一旦索引超出范围就会提示出错
s

语文    150.0
物理      NaN
数学    150.0
化学      NaN
dtype: float64

In [16]:
s.isnull()

语文    False
物理     True
数学    False
化学     True
dtype: bool

In [18]:
s[s.isnull()]

物理   NaN
化学   NaN
dtype: float64

In [17]:
s.notnull()

语文     True
物理    False
数学     True
化学    False
dtype: bool

In [19]:
s[s.notnull()]

语文    150.0
数学    150.0
dtype: float64

In [20]:
#检查是否存在空值
s.isnull().any()

True

In [22]:
#为此series设置名称（在DataFrame中充当列名称）
s.name='Score'
s

语文    150.0
物理      NaN
数学    150.0
化学      NaN
Name: Score, dtype: float64

In [23]:
#根据值来排序
s.sort_values(ascending=True)

语文    150.0
数学    150.0
物理      NaN
化学      NaN
Name: Score, dtype: float64

In [24]:
#根据索引来排序
s.sort_index()

化学      NaN
数学    150.0
物理      NaN
语文    150.0
Name: Score, dtype: float64

In [25]:
#统计值出现的次数
s3=Series(data=np.random.randint(0,10,size=50))
s3

0     8
1     1
2     0
3     0
4     5
5     6
6     1
7     2
8     5
9     7
10    7
11    5
12    3
13    9
14    2
15    7
16    6
17    7
18    9
19    9
20    8
21    5
22    1
23    0
24    4
25    6
26    0
27    3
28    6
29    5
30    9
31    2
32    4
33    6
34    2
35    0
36    5
37    5
38    1
39    5
40    0
41    1
42    1
43    7
44    9
45    7
46    2
47    1
48    2
49    4
dtype: int32

In [26]:
s3.value_counts()

5    8
1    7
0    6
2    6
7    6
6    5
9    5
4    3
8    2
3    2
Name: count, dtype: int64

In [31]:
s1=Series(data=np.random.randint(0,100,size=5),index=list('ABCDE'))
s2=Series(data=np.random.randint(0,100,size=5),index=list('ABCDE'))
display(s1,s2)

A    46
B    17
C    34
D    41
E    33
dtype: int32

A    90
B     1
C    85
D    21
E    85
dtype: int32

**Series运算**  
1、numpy数组的运算也同样适用于Series  
2、Series之间的运算  
在运算中自动对齐不同索引的数据  
如果索引不对应，则应补NaN  
注意：要想保留所有的index，则需要使用  
add()加  
sub()减  
mul()乘  
div()除  
3、

In [33]:
#与一个数运算，广播机制运算
s1+1

A    47
B    18
C    35
D    42
E    34
dtype: int32

In [34]:
#Series之间的运算（索引对齐）
s1+s2

A    136
B     18
C    119
D     62
E    118
dtype: int32

In [35]:
s3=Series(data=np.random.randint(0,100,size=5),index=list('BCDEF'))
s3

B    24
C    37
D    27
E     4
F    76
dtype: int32

In [36]:
#因为索引对齐，所以两个Series对象中，索引只在某一个对象出现，而另外一个对象没有的话，就会出现NaN
s1+s3

A     NaN
B    41.0
C    71.0
D    68.0
E    37.0
F     NaN
dtype: float64

In [37]:
#如果要不出现上面的NaN的话，应该使用加、减、乘、除的运算函数中的fill_value= 来处理(0或1要看情况而定)
s1.add(s3,fill_value=0)

A    46.0
B    41.0
C    71.0
D    68.0
E    37.0
F    76.0
dtype: float64

In [38]:
#Series和numpy.array运算
s1

A    46
B    17
C    34
D    41
E    33
dtype: int32

In [39]:
n1=np.random.randint(0,10,size=5)
n1

array([3, 7, 1, 4, 2])

In [40]:
#属于广播运算
s1+n1

A    49
B    24
C    35
D    45
E    35
dtype: int32

In [43]:
n2=np.random.randint(0,10,size=(2,5))
n2

array([[0, 2, 4, 2, 4],
       [5, 2, 0, 0, 2]])

In [46]:
s1

A    46
B    17
C    34
D    41
E    33
dtype: int32

In [48]:
#Series不能直接与numpy的二维数组运算，因为两者的类型不一致
s1+n2

ValueError: Length of values (2) does not match length of index (5)

In [51]:
#可用s1.values先提取出Series对象中的所有值，而这些值会自动变成一个array数组的对象，这样就可以与numpy中的数组对象，类型上相一致，也就可以运算
#运算原理：不同维度间的数组运算，python编译器会自动进行数组维度的对齐扩展（广播运算）
s1.values+n2

array([[46, 19, 38, 43, 37],
       [51, 19, 34, 41, 35]])

**（2）DataFrame**  
*1、它是一个表格型的数据结构，可以看作是“由Series组成的字典”（共同使用一个索引）。它由按一定顺序排列的多列数据组成。既有行索引，也有列索引。*    
行索引：index  
列索引：columns    
值：values(numpy的二维数组)  


In [None]:
            python             java
index       python             java      列标签
lucy        15                 36
mery        65                 77
tom         85                 55
jack        14                 8
tony        2                  25
ironman     90                 65       data/values

行标签

*2、DataFrame创建*  
DataFrame(data=,columns=,index=)  
data：数据numpy.array  
columns：列索引  
index：行索引  


In [54]:
#方法1：用numpy.array来创建DataFrame
index=['lucy','mery','tom','jack','rose','tony']
columns=['python','java']
data=np.random.randint(50,100,size=(6,2))
df=DataFrame(data=data,columns=columns,index=index)
df

Unnamed: 0,python,java
lucy,78,69
mery,55,63
tom,50,69
jack,78,76
rose,81,99
tony,70,89


In [59]:
#方法2：用dict字典来创建
dic={
    'python':np.random.randint(0,100,size=6),
    'java':np.random.random(size=6)
}
index=['lucy','mery','tom','jack','rose','tony']
df2=DataFrame(data=dic,index=index)
df2

Unnamed: 0,python,java
lucy,41,0.074576
mery,24,0.916096
tom,71,0.39008
jack,75,0.400172
rose,87,0.345834
tony,22,0.609863


In [61]:
#说明每列中的数据类型可以不一致
df2.dtypes

python      int32
java      float64
dtype: object

In [62]:
#方法2：无索引名称，直接把姓名放入到列中
dic={
    'python':np.random.randint(0,100,size=6),
    'java':np.random.random(size=6),
    'name':['lucy','mery','tom','jack','rose','tony']
}
df2=DataFrame(data=dic)
df2

Unnamed: 0,python,java,name
0,12,0.863942,lucy
1,91,0.544578,mery
2,10,0.421465,tom
3,1,0.083382,jack
4,75,0.248285,rose
5,39,0.755087,tony


In [75]:
#方法3：从文件中读取数据来创建DataFrame
#前提条件：需要安装openpyxl库才行
#header  指定哪些行作为列标签，None为无
#index_col  指定哪些列作为行标签，None为无
pd.read_excel('rl.xlsx',sheet_name='客户信息',header=0,index_col=[0,1])


Unnamed: 0_level_0,Unnamed: 1_level_0,注册资本,客户类别,客户地址,省份,区域
客户代码,客户,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
100012,长城公司,280000,一般客户,河北省保定市高阳县,河北,北区
100026,长江公司,3610000,大客户,湖北省黄石市石灰窑区,湖北,南区
100086,黄河公司,42610000,大客户,河南省南阳市新野县,河南,南区
100118,黄山公司,2810000,大客户,安徽省芜湖市鸠江区,安徽,东区
100133,嵩山公司,8810000,一般客户,河南省平顶山市鲁山县,河南,南区
100607,庐山公司,15750000,一般客户,江西省赣州市,江西,南区
100671,峨眉山公司,390000,一般客户,四川省阿坝藏族羌族自治州理县,四川,北区
100865,泰山公司,220000,一般客户,山东省泰安市,山东,北区
101047,衡山公司,1190000,大客户,湖南省常德市武陵区,湖南,南区
101375,华山公司,240000,一般客户,陕西省宝鸡市岐山县,陕西,北区


In [78]:
#方法4：用Series数据来创建DataFrame
python=Series(data=np.random.randint(0,100,size=5),index=['lucy','mery','tom','jack','rose'],name='python')
python

lucy    77
mery    23
tom     89
jack    39
rose    27
Name: python, dtype: int32

In [83]:
#注意：Series中的name是作为DataFrame列中的字段名称
df=DataFrame(data=python)
df

Unnamed: 0,python
lucy,77
mery,23
tom,89
jack,39
rose,27


In [82]:
#python2=Series(data=np.random.randint(50,100,size=5),index=['lucy','mery','tom','jack','rose'],name='C++')

lucy    69
mery    62
tom     66
jack    82
rose    82
Name: python, dtype: int32

In [87]:
#支持拓展添加
df2=DataFrame()
df2['python']=[1,2,3]
df2

Unnamed: 0,python
0,1
1,2
2,3


In [89]:
df2['C++']=[11,22,33]
df2

Unnamed: 0,python,C++
0,1,11
1,2,22
2,3,33
