### Pandas 数据结构 - Series
##### Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。

##### Series 由索引（index）和列组成，函数如下：

##### pandas.Series( data, index, dtype, name, copy)
参数说明：

##### data：一组数据(ndarray 类型)。

##### index：数据索引标签，如果不指定，默认从 0 开始。

##### dtype：数据类型，默认会自己判断。

##### name：设置名称。

##### copy：拷贝数据，默认为 False。

In [1]:
import pandas as pd

a = [1, 2, 3]

myvar = pd.Series(a)

print(myvar)

0    1
1    2
2    3
dtype: int64


In [2]:
a = ["Google", "Runoob", "Wiki"]

myvar = pd.Series(a, index = ["x", "y", "z"])

print(myvar)

x    Google
y    Runoob
z      Wiki
dtype: object


In [3]:
sites = {1: "Google", 2: "Runoob", 3: "Wiki"}

myvar = pd.Series(sites, index = [1, 2], name="RUNOOB-Series-TEST" )

print(myvar)

1    Google
2    Runoob
Name: RUNOOB-Series-TEST, dtype: object


### Pandas 数据结构 - DataFrame
##### DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

##### data：一组数据(ndarray、series, map, lists, dict 等类型)。

##### index：索引值，或者可以称为行标签。

##### columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。

##### dtype：数据类型。

##### copy：拷贝数据，默认为 False。

In [7]:
data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}

df = pd.DataFrame(data)

print (df)

     Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13


In [8]:
data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

# 指定索引
print(df.loc["day2"])

calories    380
duration     40
Name: day2, dtype: int64


### Pandas CSV 文件
##### CSV（Comma-Separated Values，逗号分隔值，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。

##### CSV 是一种通用的、相对简单的文件格式，被用户、商业和科学广泛应用。

##### Pandas 可以很方便的处理 CSV 文件，本文以 nba.csv 为例，你可以下载 nba.csv 或打开 nba.csv 查看。

In [10]:
df = pd.read_csv('basketball.csv')

print(df.to_string())

                  NAME POS  GP  MIN  PTS
0      Andrew Nembhard   G  25  760  272
1         Anton Watson   F  25  448  206
2            Ben Gregg   F  16  104   40
3        Chet Holmgren   C  25  659  361
4           Drew Timme   F  25  675  450
5        Hunter Sallis   G  25  372  119
6     Julian Strawther   G  25  647  308
7          Kaden Perry   F   8   53   14
8   Martynas Arlauskas   G  15   53   12
9         Matthew Lang   G  16   52   17
10       Nolan Hickman   G  25  474  156
11        Rasir Bolton   G  25  654  271
12         Will Graves   G  15   28   11


In [11]:
# 三个字段 name, site, age
nme = ["Google", "Runoob", "Taobao", "Wiki"]
st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"]
ag = [90, 40, 80, 98]
   
# 字典
dict = {'name': nme, 'site': st, 'age': ag}
     
df = pd.DataFrame(dict)
 
# 保存 dataframe
df.to_csv('site.csv')

In [12]:
df = pd.read_csv('basketball.csv')

print(df.head())

              NAME POS  GP  MIN  PTS
0  Andrew Nembhard   G  25  760  272
1     Anton Watson   F  25  448  206
2        Ben Gregg   F  16  104   40
3    Chet Holmgren   C  25  659  361
4       Drew Timme   F  25  675  450


In [13]:
df = pd.read_csv('basketball.csv')

print(df.tail())

                  NAME POS  GP  MIN  PTS
8   Martynas Arlauskas   G  15   53   12
9         Matthew Lang   G  16   52   17
10       Nolan Hickman   G  25  474  156
11        Rasir Bolton   G  25  654  271
12         Will Graves   G  15   28   11


In [14]:
df = pd.read_csv('basketball.csv')

print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   NAME    13 non-null     object
 1   POS     13 non-null     object
 2   GP      13 non-null     int64 
 3   MIN     13 non-null     int64 
 4   PTS     13 non-null     int64 
dtypes: int64(3), object(2)
memory usage: 648.0+ bytes
None


### Pandas JSON
##### JSON（JavaScript Object Notation，JavaScript 对象表示法），是存储和交换文本信息的语法，类似 XML。

##### JSON 比 XML 更小、更快，更易解析，更多 JSON 内容可以参考 JSON 教程。

##### Pandas 可以很方便的处理 JSON 数据，本文以 sites.json 为例，内容如下

In [16]:
data =[
    {
      "id": "A001",
      "name": "百科",
      "url": "www.baidu.com",
      "likes": 61
    },
    {
      "id": "A002",
      "name": "Google",
      "url": "www.google.com",
      "likes": 124
    },
    {
      "id": "A003",
      "name": "淘宝",
      "url": "www.taobao.com",
      "likes": 45
    }
]
df = pd.DataFrame(data)

print(df)

     id    name             url  likes
0  A001      百科   www.baidu.com     61
1  A002  Google  www.google.com    124
2  A003      淘宝  www.taobao.com     45


In [17]:
# 字典格式的 JSON                                                                                              
s = {
    "col1":{"row1":1,"row2":2,"row3":3},
    "col2":{"row1":"x","row2":"y","row3":"z"}
}

# 读取 JSON 转为 DataFrame                                                                                          
df = pd.DataFrame(s)
print(df)

      col1 col2
row1     1    x
row2     2    y
row3     3    z


In [18]:
URL = 'https://static.runoob.com/download/sites.json'
df = pd.read_json(URL)
print(df)

     id    name             url  likes
0  A001    菜鸟教程  www.runoob.com     61
1  A002  Google  www.google.com    124
2  A003      淘宝  www.taobao.com     45


### Pandas 数据清洗
##### 数据清洗是对一些没有用的数据进行处理的过程。

##### 很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况，如果要对使数据分析更加准确，就需要对这些没有用的数据进行处理。

##### 在这个教程中，我们将利用 Pandas包来进行数据清洗。

##### 如果我们要删除包含空字段的行，可以使用 dropna() 方法，语法格式如下：

##### DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
##### 参数说明：

##### axis：默认为 0，表示逢空值剔除整行，如果设置参数 axis＝1 表示逢空值去掉整列。
##### how：默认为 'any' 如果一行（或一列）里任何一个数据有出现 NA 就去掉整行，如果设置 how='all' 一行（或列）都是 NA 才去掉这整行。
##### thresh：设置需要多少非空值的数据才可以保留下来的。
##### subset：设置想要检查的列。如果是多个列，可以使用列名的 list 作为参数。
##### inplace：如果设置 True，将计算得到的值直接覆盖之前的值并返回 None，修改的是源数据。
##### 我们可以通过 isnull() 判断各个单元格是否为空。

In [19]:
missing_values = ["n/a", "na", "--"]
df = pd.read_csv('property-data.csv', na_values = missing_values)

print (df['NUM_BEDROOMS'])
print (df['NUM_BEDROOMS'].isnull())

0    3.0
1    3.0
2    NaN
3    1.0
4    3.0
5    NaN
6    2.0
7    1.0
8    NaN
Name: NUM_BEDROOMS, dtype: float64
0    False
1    False
2     True
3    False
4    False
5     True
6    False
7    False
8     True
Name: NUM_BEDROOMS, dtype: bool


In [20]:

df = pd.read_csv('property-data.csv')

new_df = df.dropna()

print(new_df.to_string())

           PID  ST_NUM    ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0     PUTNAM            Y            3        1  1000
1  100002000.0   197.0  LEXINGTON            N            3      1.5    --
8  100009000.0   215.0    TREMONT            Y           na        2  1800


In [21]:

df = pd.read_csv('property-data.csv')

df.dropna(subset=['ST_NUM'], inplace = True)

print(df.to_string())

           PID  ST_NUM    ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0     PUTNAM            Y            3        1  1000
1  100002000.0   197.0  LEXINGTON            N            3      1.5    --
3  100004000.0   201.0   BERKELEY           12            1      NaN   700
4          NaN   203.0   BERKELEY            Y            3        2  1600
5  100006000.0   207.0   BERKELEY            Y          NaN        1   800
7  100008000.0   213.0    TREMONT            Y            1        1   NaN
8  100009000.0   215.0    TREMONT            Y           na        2  1800


In [22]:
df = pd.read_csv('property-data.csv')

df['PID'].fillna(12345, inplace = True)

print(df.to_string())

           PID  ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0      PUTNAM            Y            3        1  1000
1  100002000.0   197.0   LEXINGTON            N            3      1.5    --
2  100003000.0     NaN   LEXINGTON            N          NaN        1   850
3  100004000.0   201.0    BERKELEY           12            1      NaN   700
4      12345.0   203.0    BERKELEY            Y            3        2  1600
5  100006000.0   207.0    BERKELEY            Y          NaN        1   800
6  100007000.0     NaN  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0   213.0     TREMONT            Y            1        1   NaN
8  100009000.0   215.0     TREMONT            Y           na        2  1800


In [23]:
df = pd.read_csv('property-data.csv')

x = df["ST_NUM"].median()

df["ST_NUM"].fillna(x, inplace = True)

print(df.to_string())

           PID  ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0      PUTNAM            Y            3        1  1000
1  100002000.0   197.0   LEXINGTON            N            3      1.5    --
2  100003000.0   203.0   LEXINGTON            N          NaN        1   850
3  100004000.0   201.0    BERKELEY           12            1      NaN   700
4          NaN   203.0    BERKELEY            Y            3        2  1600
5  100006000.0   207.0    BERKELEY            Y          NaN        1   800
6  100007000.0   203.0  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0   213.0     TREMONT            Y            1        1   NaN
8  100009000.0   215.0     TREMONT            Y           na        2  1800


In [24]:
# 第三个日期格式错误
data = {
  "Date": ['2020/12/01', '2020/12/02' , '20201226'],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

df['Date'] = pd.to_datetime(df['Date'])

print(df.to_string())

           Date  duration
day1 2020-12-01        50
day2 2020-12-02        40
day3 2020-12-26        45


In [25]:
person = {
  "name": ['Google', 'Runoob' , 'Taobao'],
  "age": [50, 200, 12345]    
}

df = pd.DataFrame(person)

for x in df.index:
  if df.loc[x, "age"] > 120:
    df.loc[x, "age"] = 120

print(df.to_string())

     name  age
0  Google   50
1  Runoob  120
2  Taobao  120


In [26]:
person = {
  "name": ['Google', 'Runoob', 'Runoob', 'Taobao'],
  "age": [50, 40, 40, 23]  
}
df = pd.DataFrame(person)

print(df.duplicated())

0    False
1    False
2     True
3    False
dtype: bool


In [27]:
persons = {
  "name": ['Google', 'Runoob', 'Runoob', 'Taobao'],
  "age": [50, 40, 40, 23]  
}

df = pd.DataFrame(persons)

df.drop_duplicates(inplace = True)
print(df)

     name  age
0  Google   50
1  Runoob   40
3  Taobao   23
