In [1]:
import numpy as np
import pandas as pd


### 数据结构Series创建

***pd.Series(data=None,index=None,dtype=None,name=None,copy=False)***

- data 输入的数据，可以是列表、常量、ndarry数组等，如果是字典，则保持参数顺序

- index 索引值，必须是可散列的（不可变数据类型（str、bytes和数值类型）），并且与数据个数相同，如果未提供，将默认为RangeIndex(0,1,2,...n)

- dtype 输出系列数据的类型，如果未指定，将从数据中推断

- name 为Series定义一个名称

- copy 表示对data进行拷贝,默认为False,仅影响Series和ndarry数组

In [None]:
# 列表作为数据创建Series
ar_list = [3,10,3,4,5]
print(type(ar_list))
# 使用列表创建Series
s1 = pd.Series(ar_list)
print(s1)
print(type(s1))

In [None]:
# 数组作为数据源
np_rand = np.arange(1,6)
# 使用数组创建Series
s1 = pd.Series(np_rand)
s1

- #### **通过index和values属性取得对应的标签和值**

In [None]:
# 默认为RangeIndex(0,1,2,...,n)
s1.index

In [None]:
# 可以强制转换为列表输出
list(s1.index)

In [None]:
# 返回Series的所有值,数据类型为ndarry
print(s1.values,type(s1.values))

- #### **通过标签取得对应的值，或者修改对应的值**

In [None]:
# 取得索引为1的数据
s1[1]

In [None]:
# 改变索引值为2的数值
s1[2] =50
s1

- #### **2) 字典作为数据源创建Series**

In [None]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d)
ser

- #### **通过index和values属性取得对应的标签和值**

In [None]:
# 标签索引
ser.index

In [None]:
# Series值
ser.values

- #### **通过标签取得对应的值或者修改对应的值**

In [None]:
ser['a']

In [None]:
ser['d'] = 4
ser

In [None]:
ser['5'] = 5
ser

### **其他参数介绍**

- #### **1) index参数**

索引值，必须是可散列的（不可变数据类型（str、bytes和数值类型）），并且与数据个数相同，如果未提供，将默认为RangeIndex(0,1,2,...n)

   - 使用“显式索引”的方法定义索引标签

In [None]:
data = np.array(['a','b','c','d'])
# 自定义标签索引(即显式索引)，需要和数据长度一致
s = pd.Series(data,index=[101,102,103,104])
s

  - #### **从指定索引的字典构造序列**

In [None]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d,index=['a','b','c'])
ser

- #### **当传递的索引值未匹配对应的字典键时，使用NaN(非数字)进行填充**

In [None]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d,index=['x','b','z'])
ser


输出: 

x    NaN

b    2.0

z    NaN 

**注意：索引首先使用字典中的键构建的，在此之后，用给定的索引值对序列重新编制索引，因此我们得到所有NaN**

- #### **通过匹配的索引值，改变创建Series数据的顺序**

In [None]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d,index=['c','b','a'])
ser

- #### **2) name参数**

我们可以给一个Series对象命名，也可以给一个Series数组中华的索引列起一个名字，pandas为我们设计好了对象的属性，并在设置了name属性值来进行名字的设定。

In [None]:
data1 = {
    "beijing" : 2000,
    "shanghai": 2400,
    "nanjing" : 2100,
}
dd =pd.Series(data1)
dd

In [None]:
dd = pd.Series(data1)
dd.name = "city_data"
print(dd)

In [None]:
# 使用Series创建DataFrame类型
df = pd.DataFrame(dd)
print(df,type(df))
print("="*60)
# 输出city_data列的数据和类型 
print(df['city_data'],type(df['city_data']))

- #### **3) copy参数**

copy表示对data进行拷贝，默认为false，仅影响Series和ndarry数组

In [None]:
# 数组作为源数据
np_rand =np.arange(1,6)
# 使用数组创建Series
s1 = pd.Series(np_rand)
s1

In [None]:
# 改变Series标签为1的值
s1[1] = 50

# 输出series对象s1
print("s1:\n",s1)

# 输出数组对象np_rand 数组也被改变了
print("np_rand:",np_rand)

In [None]:
# 当数据源非Series和ndarray时
# 数组作为数据源
my_list = [1,2,3,4,5,6]

# 使用数组创建Series
s2 = pd.Series(my_list)
s2

In [39]:
# 这个时候再改变s2[1]的值
s2[1] = 50
print("s2[1]:",s2[1])

# 输出s2
print("s2:",s2)

# 输出数组
print("mny_list:",my_list)

s2[1]: 50
s2: 0     1
1    50
2     3
3     4
4     5
5     6
dtype: int64
mny_list: [1, 2, 3, 4, 5, 6]


### **Series的索引/切片**

  ##### **1.下标索引**

类似于列表索引

In [40]:
s = pd.Series(np.random.rand(5))
print(s)
print(s[3],type(s[3]),s[3].dtype)

0    0.657885
1    0.747641
2    0.302070
3    0.136614
4    0.948114
dtype: float64
0.1366143899609651 <class 'numpy.float64'> float64


  ##### **1.标签索引**

  当索引为object类型时，既可以使用标签索引也可以使用位置索引
  
  Series类似于固定大小的dict,把index中的索引标签当做key，而把Series序列中的元素值当做value，然后通过index索引标签来访问或者修改元素值

- ##### 使用索标签访问单个元素值

In [42]:
s = pd.Series(np.random.rand(5),index=list("abcde"))
print(s['b'],type(s['b']),s['b'].dtype)

0.37894935536127183 <class 'numpy.float64'> float64


- ##### 使用索引标签访问多个元素值


In [43]:
s = pd.Series([6,7,8,9,10],index=list("abcde"))
print(s)
print(s[['a','b','c']])

a     6
b     7
c     8
d     9
e    10
dtype: int64
a    6
b    7
c    8
dtype: int64


### 切片

- Series使用标签切片运算与普通的python切片运算不同：Series使用标签切片时，其末端是包含的

- Series使用python切片运算即使用位置数值切片，其末端是不包含的

In [51]:
s = pd.Series(np.random.rand(10))
s

0    0.793476
1    0.062222
2    0.801096
3    0.428876
4    0.362986
5    0.763042
6    0.436813
7    0.496960
8    0.815205
9    0.595810
dtype: float64

**位置索引和标签索引刚好一致，使用切片时如果是数值会认为是python的切片运算，不包含末端**

In [53]:
s[1:3]

1    0.062222
2    0.801096
dtype: float64

In [58]:
s = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
print(s)
print(s[1:4])

a    1
b    2
c    3
d    4
e    5
dtype: int64
b    2
c    3
d    4
dtype: int64


In [61]:
s["a":"d"]

a    1
b    2
c    3
d    4
dtype: int64

### **Series数据结构 基本技巧**

#### **1.查看前几条和后几条数据**

In [None]:
s = pd.Series(np.random.rand(15))
s

In [5]:
# 默认查看前5条数据
print(s.head())
# 默认查看前1条数据
print(s.head(1))

0    0.450675
1    0.813971
2    0.171954
3    0.386955
4    0.458622
dtype: float64
0    0.450675
dtype: float64


In [6]:
# 默认查看后5条数据
print(s.tail())

10    0.962722
11    0.440672
12    0.186135
13    0.458089
14    0.937100
dtype: float64


#### **2.重新索引:reindex**

使用可选逻辑,使Series符合新索引

将NaN放在上一个索引中没有值的位置。除非新索引等同于当前索引，并且生成新对象。

In [7]:
s = pd.Series(np.random.rand(5),index=list("abcde"))
print("---------s---------")
print(s)

# 新索引在上一个索引中不存在，生成新对象时，对应的值，设置为NaN
s1 = s.reindex(list("cde12"))
print("========s1=========")
print(s1)

---------s---------
a    0.476459
b    0.612866
c    0.271284
d    0.733035
e    0.924979
dtype: float64
c    0.271284
d    0.733035
e    0.924979
1         NaN
2         NaN
dtype: float64


In [10]:
# 设置填充值
s2 = s.reindex(list("cde34"),fill_value=0)
print("========s2=========")
print(s2)

c    0.271284
d    0.733035
e    0.924979
3    0.000000
4    0.000000
dtype: float64


#### **3.对齐运算**

是数据清洗的重要过程，可以按索引对齐进行运算，如果没对齐的位置则补NaN，最后也可以填充NaN

In [11]:
s1 = pd.Series(np.random.rand(3),index=["Hud","Monica","QB"])

s2 = pd.Series(np.random.rand(3),index=["Monica","QB","QTY"])

print("----------s1----------")
print(s1)

print("==========s2==========")
print(s2)

print("#########s1+s2#########")
print(s1+s2)

----------s1----------
Hud       0.550945
Monica    0.057783
QB        0.970390
dtype: float64
Monica    0.965362
QB        0.575113
QTY       0.168200
dtype: float64
#########s1+s2#########
Hud            NaN
Monica    1.023144
QB        1.545503
QTY            NaN
dtype: float64


#### **4.删除和添加**

- **删除**

In [13]:
s = pd.Series(np.random.rand(5),index=list('abcde'))
print(s)
s1 = s.drop("b") # 返回删除后的值，原值不改变，默认inplace=False
print(s1)
print("==================")
print(s)

a    0.428700
b    0.933728
c    0.659028
d    0.535578
e    0.161516
dtype: float64
a    0.428700
c    0.659028
d    0.535578
e    0.161516
dtype: float64
a    0.428700
b    0.933728
c    0.659028
d    0.535578
e    0.161516
dtype: float64


In [14]:
# 如果希望原值发生变化
s = pd.Series(np.random.rand(5),index=list('abcde'))
s1 = s.drop("b",inplace=True) # 原值发生变化，返回None
print(s1)
print("================")
print(s)

None
a    0.772226
c    0.041444
d    0.924657
e    0.022856
dtype: float64


- **添加**

In [17]:
s = pd.Series(np.random.rand(5),index=list('abcde'))
print(s)

s["f"]=2.222222  # 有就添加 没有就修改
print("-=-=-=-=-=-=-=")
print(s)

a    0.531705
b    0.528711
c    0.383645
d    0.987342
e    0.088238
dtype: float64
-=-=-=-=-=-=-=
a    0.531705
b    0.528711
c    0.383645
d    0.987342
e    0.088238
f    2.222222
dtype: float64


#### **5.检测缺失值**

isnull()和notnull()用于检测Series中的缺失值，所谓缺失值，顾名思义就是值不存在、丢失、缺少

- isnull(): 如果为值不存在或者缺失，则返回True

- notnull(): 如果值不存在或者缺失，则返回False

In [None]:
s = pd.Series([1,2,3,None,5,6,None,8,9])
print(pd.isnull(s))
print(pd.notnull(s))

### **DataFrame数据类型**

DataFrame是Pandas的重要数据结构之一，也是在使用Pandas进行数据分析过程中最常用的结构之一，可以这么说，掌握了DataFrame的用法,你就拥有了学习数据分析的基本能力


#### **认识DataFrame结构**

DataFrame 一个表格型的数据结构，既有行标签(index),又有列标签(columns)，他也被称为异构数据表，所谓异构，指的是表格中的每列的数据类型可以不同，比如可以是字符串、浮点型、整型

- DataFrame数据结构的特点主要是:
  
  - DataFrame每一列标签值允许使用不同的数据类型 

  - DataFrame是表格型的数据结构，具有行和列

  - DataFrame中的每个数据值都可以被修改

  - DataFrame结构的行数和列数允许增加或者删除

  - DataFrame有两个方向的标签轴，分别是行标签和列标签

  - DataFrame可以对行和列执行算数运算



#### **创建DataFrame对象**

***pandas.DataFrame(data=None,index=None,columns=None,dtype=None,copy=None)***

- data：输入的数据，可以是ndarray，series，list，dict，标量以及一个DataFrame 

- index：行标签，如果没有传递index值，则默认行标签是Rangelndex（0，1，2..…，n），n代表data的元素个数。

- columns：列标签，如果没有传递columns值，则默认列标签是Rangelndex（0，1，2，…，n）

- dtype：要强制的数据类型。只允许使用一种数据类型。如果没有，自行推断

- copy：从输入复制数据。对于dict数据，copy=True，重新复制一份。对于DataFrame或ndarray输入，类似于copy=False



**Pandas Data是一个二维的数据结构，类似二维数组**

In [19]:
# 引入numpy和Pandas
import numpy as np
import pandas as pd

**1.使用普通列表创建**

In [23]:
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

   0
0  1
1  2
2  3
3  4
4  5


**2.使用嵌套列表的创建**

In [31]:
# 列表中的每个元素代表一行数据

data = [['Hud',24,"男"],["Monica",22,"女"],["Qb",1,"不详"]]

#不分配列标签
df = pd.DataFrame(data)
print(df)

print("------------分配列标签-------------")
df1 = pd.DataFrame(data,columns=["Name","Age","Sex"])
df1

        0   1   2
0     Hud  24   男
1  Monica  22   女
2      Qb   1  不详
------------分配列标签-------------


Unnamed: 0,Name,Age,Sex
0,Hud,24,男
1,Monica,22,女
2,Qb,1,不详


**3.指定数值元素的数据类型为float**

- 需要注意：dtype只能设置一个，设置多个列的数据类型，需要使用其他方式

In [29]:
data = [['Hud',24,"男"],["Monica",22,"女"],["Qb",1,"不详"]]
df = pd.DataFrame(data,columns=["Name","Age","Sex"],dtype=int)
df


Unnamed: 0,Name,Age,Sex
0,Hud,24,男
1,Monica,22,女
2,Qb,1,不详
