In [None]:
# Pandas的数据结构

In [1]:
import pandas as pd
from pandas import Series,DataFrame
import numpy as np

In [None]:
#  1.Series
# Series是一种类似于一维数组的对象，由下面两部分组成：
# values：一组数据（ndarray类型）
# index： 相关的数据索引标签

In [None]:
# 1） Series的创建
   """
    两种创建方式:
    (1)由列表或numpy数组创建
        默认索引为 0 到 N-1 的整数型索引
   """

In [3]:
# 由numpy数组创建
nd = np.array([1,2,3])
nd

array([1, 2, 3])

In [4]:
s = Series(nd)
s

0    1
1    2
2    3
dtype: int32

In [5]:
s = Series([1,2,3])
s

0    1
1    2
2    3
dtype: int64

In [6]:
type(s)

pandas.core.series.Series

In [7]:
# 设置Series的索引
s = Series(nd, index=list("ABC"))
s

A    1
B    2
C    3
dtype: int32

In [8]:
s = Series(nd, index=list("AAA"))
s

A    1
A    2
A    3
dtype: int32

In [9]:
s["A"]

A    1
A    2
A    3
dtype: int32

In [10]:
s = Series(data=np.random.randint(0,100,size=10),index=list("abcdefghik"))
s

a    27
b    75
c    93
d    69
e    36
f    40
g    19
h    36
i    81
k     3
dtype: int32

In [11]:
# 可以通过设置index参数指定索引   但是不可以修改单个索引，否则会报错
s.index = list("ABCDEFGHIK")
s

A    27
B    75
C    93
D    69
E    36
F    40
G    19
H    36
I    81
K     3
dtype: int32

In [None]:
"""
由ndarray创建的是引用，而不是副本。
对Series元素的更改也会改变原来的ndarray对象中的元素。（列表没有这种情况）
"""

In [12]:
nd = np.array([0,2,4,6])
s = Series(nd, index=["A","B","C","D"])
s

A    0
B    2
C    4
D    6
dtype: int32

In [13]:
s["D"] = 250
s

A      0
B      2
C      4
D    250
dtype: int32

In [14]:
nd

array([  0,   2,   4, 250])

In [None]:
# （2） 由字典创建

In [15]:
# index 指定索引 只是针对于字典创建的时候，索引可以多也可以少，但是如果使用numpy或者list创建的时候不能多也不能少
s = Series(data={"pi":3.14,"e":2.713,"g":0.618},index=["pi","e","g"])
s

pi    3.140
e     2.713
g     0.618
dtype: float64

In [None]:
# 2） Series的索引和切片
"""
可以使用中括号获取单个索引（此时返回的是元素类型），
或者中括号里一个列表或多个索引（此时返回的仍然是一个Series类型）。
分为显式索引和隐式索引
"""
# （1）显式索引：
    """
    使用index中的元素作为索引值
    使用 .loc[] 推荐
    注意，此时是闭区间
    """

In [16]:
s

pi    3.140
e     2.713
g     0.618
dtype: float64

In [17]:
# 第一种，直接使用中括号
s["e"]

2.713

In [18]:
# 第二种写法：使用loc
s.loc["e"]

2.713

In [19]:
# 取多个数据的时候，一定要写两个中括号，返回值：还是一个Series
s[["pi","g"]]

pi    3.140
g     0.618
dtype: float64

In [20]:
s.loc["g"]

0.618

In [25]:
s.loc[["g"]]

g    0.618
dtype: float64

In [None]:
# (2)隐式索引：
    """
    使用整数作为索引值
    使用 .iloc[] (推荐)
    注意，此时是半开区间
    """

In [21]:
s

pi    3.140
e     2.713
g     0.618
dtype: float64

In [22]:
s[0]

3.14

In [23]:
s[[0]]

pi    3.14
dtype: float64

In [24]:
s.iloc[0]

3.14

In [25]:
s.iloc[[0]]

pi    3.14
dtype: float64

In [None]:
"""
总结：显式索引使用中括号和loc(就写索引就行)
隐式索引使用中括号和iloc(整型数值)
一个中括号和两个中括号是不一样的（重要的）
"""

In [26]:
# 切片操作
s

pi    3.140
e     2.713
g     0.618
dtype: float64

In [27]:
s["pi":"g"]  #左闭右闭

pi    3.140
e     2.713
g     0.618
dtype: float64

In [28]:
s.loc["pi":"g"]  # 左闭右闭

pi    3.140
e     2.713
g     0.618
dtype: float64

In [29]:
s[0:3]  # 使用整型的时候  左闭右开 

pi    3.140
e     2.713
g     0.618
dtype: float64

In [30]:
s.iloc[0:3]  # 使用iloc进行切片的时候，都是左闭右开的

pi    3.140
e     2.713
g     0.618
dtype: float64

In [None]:
# 3) Series的基本概念
    """
    可以把Series看成一个定长的有序字典
    可以通过shape，size，index,values等得到series的属性
    """

In [31]:
s

pi    3.140
e     2.713
g     0.618
dtype: float64

In [32]:
s.shape

(3,)

In [33]:
s.size

3

In [34]:
s.index

Index(['pi', 'e', 'g'], dtype='object')

In [35]:
type(s.values)

numpy.ndarray

In [36]:
# 可以通过head(), tail() 快速查看Series对象的样式

In [37]:
data = pd.read_csv("./president_heights.csv")
type(data)

pandas.core.frame.DataFrame

In [38]:
type(data["name"])

pandas.core.series.Series

In [39]:
data["name"].head()  # head() 查看前指定个数个，默认是5个

0    George Washington
1           John Adams
2     Thomas Jefferson
3        James Madison
4         James Monroe
Name: name, dtype: object

In [40]:
data.tail()  # tail() 查看后指定个数个，默认是5个

Unnamed: 0,order,name,height(cm)
37,40,Ronald Reagan,185
38,41,George H. W. Bush,188
39,42,Bill Clinton,188
40,43,George W. Bush,182
41,44,Barack Obama,185


In [41]:
# 当索引没有对应的值时，可能出现缺失数据显示NaN（not a number）的情况

In [42]:
s = Series(data={'a':10,'b':20,'c':30},index=list("abcd"))
s

a    10.0
b    20.0
c    30.0
d     NaN
dtype: float64

In [43]:
"""
可以使用pd.isnull()，pd.notnull()，或自带isnull(),notnull()函数检测缺失数据
"""

'\n可以使用pd.isnull()，pd.notnull()，或自带isnull(),notnull()函数检测缺失数据\n'

In [44]:
#isnull :用来检测空值的   notnull:用来检测不是空值的
#返回元素是boolean 类型的值,如果为空的话,返回True; 如果不为空的话,返回False
pd.isnull(s)

a    False
b    False
c    False
d     True
dtype: bool

In [45]:
ind = s.isnull()
ind

a    False
b    False
c    False
d     True
dtype: bool

In [46]:
#检索， 如果是True的话， 就会赋值
s[ind]=100
s

a     10.0
b     20.0
c     30.0
d    100.0
dtype: float64

In [47]:
s.notnull() #和isnull刚好相反

a    True
b    True
c    True
d    True
dtype: bool

In [48]:
s = Series(data=np.random.randint(0,150,size=5),index=["Tom","Jerry","Spicke","Lisa","Sara"],name="猫和老鼠")
s

Tom       122
Jerry      24
Spicke    134
Lisa      132
Sara       89
Name: 猫和老鼠, dtype: int32

In [49]:
s = Series(data=np.random.randint(0,150,size=5),index=["Tom","Jerry","Spicke","Lisa","Sara"])
s.name = "猫和老鼠"
s

Tom        78
Jerry     109
Spicke     52
Lisa       95
Sara       64
Name: 猫和老鼠, dtype: int32

In [50]:
#注意：对于DataFrame而言，每一列数据其实都是一个Series，而且都是有name属性的

In [51]:
# 4） Series的运算
# （1） 适用于numpy的数组运算也适用于Series

In [52]:
s

Tom        78
Jerry     109
Spicke     52
Lisa       95
Sara       64
Name: 猫和老鼠, dtype: int32

In [53]:
s + 20

Tom        98
Jerry     129
Spicke     72
Lisa      115
Sara       84
Name: 猫和老鼠, dtype: int32

In [54]:
s.add(20)

Tom        98
Jerry     129
Spicke     72
Lisa      115
Sara       84
Name: 猫和老鼠, dtype: int32

In [55]:
# (2) Series之间的运算
    """
    在运算中自动对齐不同索引的数据
    如果索引不对应，则补NaN
    """

IndentationError: unexpected indent (<ipython-input-55-c6e5d15fb83b>, line 2)

In [56]:
s

Tom        78
Jerry     109
Spicke     52
Lisa       95
Sara       64
Name: 猫和老鼠, dtype: int32

In [57]:
s1 = Series(np.random.randint(0,150,size=4),index=["A","B","C","D"])
s1

A     48
B     51
C    104
D      2
dtype: int32

In [58]:
# 任何数加上一个NaN都是NaN
s + s1

A        NaN
B        NaN
C        NaN
D        NaN
Jerry    NaN
Lisa     NaN
Sara     NaN
Spicke   NaN
Tom      NaN
dtype: float64

In [59]:
# 注意：要想保留所有的index，则需要使用.add()函数

In [60]:
s1.add(s, fill_value=0)

A          48.0
B          51.0
C         104.0
D           2.0
Jerry     109.0
Lisa       95.0
Sara       64.0
Spicke     52.0
Tom        78.0
dtype: float64

In [61]:
# 2、DataFrame
"""
DataFrame是一个 [表格型] 的数据结构，可以看做是 [由Series组成的字典]（共用同一个索引）。
DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。
DataFrame既有行索引，也有列索引。

行索引：index
列索引：columns
值：values（numpy的二维数组）
"""

'\nDataFrame是一个 [表格型] 的数据结构，可以看做是 [由Series组成的字典]（共用同一个索引）。\nDataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。\nDataFrame既有行索引，也有列索引。\n\n行索引：index\n列索引：columns\n值：values（numpy的二维数组）\n'

In [62]:
# 1) DataFrame 的创建  行素银不能多也不能少， 多了和少了会报错的
"""
最常用的方法是传递一个字典来创建。
DataFrame以字典的键作为每一 [列] 的名称，以字典的值（一个数组）作为每一列。
此外，DataFrame会自动加上每一行的索引（和Series一样）。
同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。
"""

'\n最常用的方法是传递一个字典来创建。\nDataFrame以字典的键作为每一 [列] 的名称，以字典的值（一个数组）作为每一列。\n此外，DataFrame会自动加上每一行的索引（和Series一样）。\n同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。\n'

In [63]:
# 列索引不能多一个数 
df = DataFrame(data={"Python":[70,60,68,88],
                    "JAVA":[80,70,45,92],
                    "C++":[61,75,58,74]},index=["Tom","Jerry","Spicke","Sara"])
df

Unnamed: 0,Python,JAVA,C++
Tom,70,80,61
Jerry,60,70,75
Spicke,68,45,58
Sara,88,92,74


In [64]:
#列索引如果多的话，不会报错， 会补上NAN  
#列比行重要
df1 = DataFrame(data={"Python":[70,60,68,88],
                    "Java":[80,70,45,92],
                    "C++":[61,75,58,74]},
                index=["Tom","Jerry","Spicke","Sara"],
               columns = ["Python","Java","C++","C"])
df1

Unnamed: 0,Python,Java,C++,C
Tom,70,80,61,
Jerry,60,70,75,
Spicke,68,45,58,
Sara,88,92,74,


In [65]:
# DataFrame属性：values、columns、index、shape

In [66]:
df1.values

array([[70, 80, 61, nan],
       [60, 70, 75, nan],
       [68, 45, 58, nan],
       [88, 92, 74, nan]], dtype=object)

In [67]:
df1.columns

Index(['Python', 'Java', 'C++', 'C'], dtype='object')

In [68]:
df1.index

Index(['Tom', 'Jerry', 'Spicke', 'Sara'], dtype='object')

In [69]:
df1.shape

(4, 4)

In [70]:
df2 = DataFrame(data = np.random.randint(0,150,size = (4,4)),
               index = ["Tom","Jerry","Spicke","Sara"],
               columns = ["Python","Java","Ruby","Html"])
df2

Unnamed: 0,Python,Java,Ruby,Html
Tom,107,117,135,19
Jerry,35,12,83,58
Spicke,52,70,135,61
Sara,112,136,37,76


In [71]:
# 2) DataFrame的索引
#（1）对列进行索引
    """
    通过类似字典的方式
    通过属性的方式
    可以将DataFrame的列获取为一个Series。
    返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。
    """

IndentationError: unexpected indent (<ipython-input-71-1fd2fe7e4335>, line 3)

In [72]:
df2

Unnamed: 0,Python,Java,Ruby,Html
Tom,107,117,135,19
Jerry,35,12,83,58
Spicke,52,70,135,61
Sara,112,136,37,76


In [73]:
# 对列进行索引
df2["Python"]

Tom       107
Jerry      35
Spicke     52
Sara      112
Name: Python, dtype: int32

In [74]:
df2.Python

Tom       107
Jerry      35
Spicke     52
Sara      112
Name: Python, dtype: int32

In [75]:
#取出来两列数据,取多个的时候， 使用两个中括号
df2[["Python","Html"]]

Unnamed: 0,Python,Html
Tom,107,19
Jerry,35,58
Spicke,52,61
Sara,112,76


In [76]:
# (2) 对行进行索引
"""
使用.loc[]加index来进行行索引
使用.iloc[]加整数来进行行索引
同样返回一个Series，index为原来的columns。
"""

'\n使用.loc[]加index来进行行索引\n使用.iloc[]加整数来进行行索引\n同样返回一个Series，index为原来的columns。\n'

In [77]:
df2

Unnamed: 0,Python,Java,Ruby,Html
Tom,107,117,135,19
Jerry,35,12,83,58
Spicke,52,70,135,61
Sara,112,136,37,76


In [78]:
df2.loc["Tom"]

Python    107
Java      117
Ruby      135
Html       19
Name: Tom, dtype: int32

In [79]:
#两个中括号的时候，返回的数据类型就是原来要操作的数据类型
df2.loc[["Tom"]]

Unnamed: 0,Python,Java,Ruby,Html
Tom,107,117,135,19


In [80]:
df2.iloc[0]

Python    107
Java      117
Ruby      135
Html       19
Name: Tom, dtype: int32

In [81]:
df2.iloc[1]

Python    35
Java      12
Ruby      83
Html      58
Name: Jerry, dtype: int32

In [82]:
df2.iloc[[0]]

Unnamed: 0,Python,Java,Ruby,Html
Tom,107,117,135,19


In [83]:
# 只能行切片不能列切片
df2.loc["Tom":"Jerry"]

Unnamed: 0,Python,Java,Ruby,Html
Tom,107,117,135,19
Jerry,35,12,83,58


In [84]:
"""
总结：
行索引：直接使用中括号即可, 列索引的时候必须使用loc或者iloc
#切片的时候，不能列切片， 只能行切片
"""

'\n总结：\n行索引：直接使用中括号即可, 列索引的时候必须使用loc或者iloc\n#切片的时候，不能列切片， 只能行切片\n'

In [85]:
# (3) 对元素索引的方法
"""
使用列索引
使用行索引(iloc[3,1]相当于两个参数;iloc[[3,3]] 里面的[3,3]看做一个参数)
使用values属性（二维numpy数组）
"""

'\n使用列索引\n使用行索引(iloc[3,1]相当于两个参数;iloc[[3,3]] 里面的[3,3]看做一个参数)\n使用values属性（二维numpy数组）\n'

In [86]:
df2

Unnamed: 0,Python,Java,Ruby,Html
Tom,107,117,135,19
Jerry,35,12,83,58
Spicke,52,70,135,61
Sara,112,136,37,76


In [87]:
# 先行索引
df2.loc["Jerry"]["Java"]

12

In [88]:
# 列索引
df2["Ruby"]["Spicke"]

135

In [89]:
"""
注意：直接用中括号时：
            索引表示的是列索引
            切片表示的是行切片
"""

'\n注意：直接用中括号时：\n            索引表示的是列索引\n            切片表示的是行切片\n'

In [90]:
df2.iloc[0:3]["Html"]

Tom       19
Jerry     58
Spicke    61
Name: Html, dtype: int32

In [91]:
df2.loc[["Tom","Spicke"]]["Python"]

Tom       107
Spicke     52
Name: Python, dtype: int32

In [92]:
# 3）DataFrame的运算
# （1)DataFrame之间运算
    """
    同Series一样：
        在运算中自动对齐不同索引的数据
        如果索引不对应，则补NaN
    """

IndentationError: unexpected indent (<ipython-input-92-70272b7fb47c>, line 3)

In [None]:
df1

In [None]:
df2

In [None]:
df1 + df2

In [93]:
df1.add(df2,fill_value=0)

Unnamed: 0,C,C++,Html,Java,Python,Ruby
Tom,,61.0,19.0,197,177,135.0
Jerry,,75.0,58.0,82,95,83.0
Spicke,,58.0,61.0,115,120,135.0
Sara,,74.0,76.0,228,200,37.0


In [94]:
df3 = DataFrame(data=np.random.randint(0,100,size=(4,2)),
                index=["Lili","Merry","Pike","Dafu"],
                columns = ["Python","Java"])
df3

Unnamed: 0,Python,Java
Lili,10,41
Merry,59,35
Pike,31,82
Dafu,21,18


In [None]:
# （2）Series与DataFrame之间的运算
"""
使用Python操作符：以行为单位操作（参数必须是行），对所有行都有效。（类似于numpy中二维数组与一维数组的运算，但可能出现NaN）
使用pandas操作函数：
          axis=0：以列为单位操作（参数必须是列），对所有列都有效。
          axis=1：以行为单位操作（参数必须是行），对所有行都有效。
"""

In [95]:
df2

Unnamed: 0,Python,Java,Ruby,Html
Tom,107,117,135,19
Jerry,35,12,83,58
Spicke,52,70,135,61
Sara,112,136,37,76


In [98]:
s_row = df2.loc["Jerry"]
s_row

Python    35
Java      12
Ruby      83
Html      58
Name: Jerry, dtype: int32

In [99]:
s_columns = df2["Python"]
s_columns

Tom       107
Jerry      35
Spicke     52
Sara      112
Name: Python, dtype: int32

In [100]:
df2.add(s_row, axis="columns")

Unnamed: 0,Python,Java,Ruby,Html
Tom,142,129,218,77
Jerry,70,24,166,116
Spicke,87,82,218,119
Sara,147,148,120,134


In [101]:
# axis:轴 index或者0     columns或者是1    在Series 和DataFrame进行运算才会起作用， 而且一定要严格注意他的轴的问题 
df2.add(s_columns,axis=0)

Unnamed: 0,Python,Java,Ruby,Html
Tom,214,224,242,126
Jerry,70,47,118,93
Spicke,104,122,187,113
Sara,224,248,149,188
