## Pandas
#### 一个强大的分析结构化数据的工具集，基础是 Numpy（提供高性能的矩阵运算）。
#### Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。
* Pandas 可以对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征。
* Pandas 的主要数据结构是 Series （一维数据）与 DataFrame（二维数据）。
* Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。

Pandas 提供了丰富的功能，包括：
* 数据清洗和预处理： Pandas被广泛用于清理和预处理数据，包括处理缺失值、异常值、重复值等。它提供了各种方法来使数据更适合进行进一步的分析。
* 数据分析和统计： Pandas使数据分析变得更加简单，通过DataFrame和Series的灵活操作，用户可以轻松地进行统计分析、汇总、聚合等操作。从均值、中位数到标准差和相关性分析，Pandas都提供了丰富的功能。
* 数据可视化： 将Pandas与Matplotlib、Seaborn等数据可视化库结合使用，可以创建各种图表和图形，从而更直观地理解数据分布和趋势。这对于数据科学家、分析师和决策者来说都是关键的。
* 时间序列分析： Pandas在处理时间序列数据方面表现出色，支持对日期和时间进行高效操作。这对于金融领域、生产领域以及其他需要处理时间序列的行业尤为重要。
* 机器学习和数据建模： 在机器学习中，数据预处理是非常关键的一步，而Pandas提供了强大的功能来处理和准备数据。它可以帮助用户将数据整理成适用于机器学习算法的格式。
* 数据库操作： Pandas可以轻松地与数据库进行交互，从数据库中导入数据到DataFrame中，进行分析和处理，然后将结果导回数据库。这在数据库管理和分析中非常有用。
* 实时数据分析： 对于需要实时监控和分析数据的应用，Pandas的高效性能使其成为一个强大的工具。结合其他实时数据处理工具，可以构建实时分析系统。


In [2]:
import pandas as pd
mydataset = {
  'sites': ["Google", "Runoob", "Wiki"],
  'number': [1, 2, 3]
}

myvar = pd.DataFrame(mydataset)

print(myvar)

    sites  number
0  Google       1
1  Runoob       2
2    Wiki       3


#### Series 是 Pandas 中的一种基本数据结构，类似于一维数组或列表，但具有标签（索引），使得数据在处理和分析时更具灵活性。
##### 创建 Series： 可以使用 pd.Series() 构造函数创建一个 Series 对象，传递一个数据数组（可以是列表、NumPy 数组等）和一个可选的索引数组。

In [8]:
import pandas as pd
import numpy as np
myvar1 = pd.Series([1,2,3])
myvar2 = pd.Series(np.array([1,2,3,4]))
print(myvar1)
print(myvar2)

a = ["Google", "Runoob", "Wiki"]

myvar3 = pd.Series(a, index = ['x', "y", "z"])

print(myvar3)



0    1
1    2
2    3
dtype: int64
0    1
1    2
2    3
3    4
dtype: int64
x    Google
y    Runoob
z      Wiki
dtype: object


In [9]:
## 使用字典来创建
import pandas as pd

sites = {1: "Google", 2: "Runoob", 3: "Wiki"}

myvar = pd.Series(sites)

print(myvar)


1    Google
2    Runoob
3      Wiki
dtype: object


## DataFrame

In [10]:
import pandas as pd

data = [['Google',10],['Runoob',12],['Wiki',13]]

df = pd.DataFrame(data,columns=['Site','Age'],dtype=float)

print(df)

### 如何修改值

     Site   Age
0  Google  10.0
1  Runoob  12.0
2    Wiki  13.0


In [17]:
## 读取csv
import pandas as pd

df = pd.read_csv('nba.csv')

# print(df.to_string()) # to_string() 用于返回 DataFrame 类型的数据，如果不使用该函数，则输出结果为数据的前面 5 行和末尾 5 行，中间部分以 ... 代替。


# 三个字段 name, site, age
nme = ["Google", "Runoob", "Taobao", "Wiki"]
st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"]
ag = [90, 40, 80, 98]

# 字典
dict = {'name': nme, 'site': st, 'age': ag}

df = pd.DataFrame(dict)

print(df)
# 保存 dataframe
df.to_csv('site.csv')

     name               site  age
0  Google     www.google.com   90
1  Runoob     www.runoob.com   40
2  Taobao     www.taobao.com   80
3    Wiki  www.wikipedia.org   98


## 读取JSON格式

In [19]:
json = [
   {
   "id": "A001",
   "name": "菜鸟教程",
   "url": "www.runoob.com",
   "likes": 61
   },
   {
   "id": "A002",
   "name": "Google",
   "url": "www.google.com",
   "likes": 124
   },
   {
   "id": "A003",
   "name": "淘宝",
   "url": "www.taobao.com",
   "likes": 45
   }
]
# JSON 对象与 Python 字典具有相同的格式，所以我们可以直接将 Python 字典转化为 DataFrame 数据：
import pandas as pd
df = pd.DataFrame(json)
print(df.to_string())

import pandas as pd


# 字典格式的 JSON
s = {
 "col1":{"row1":1,"row2":2,"row3":3},
 "col2":{"row1":"x","row2":"y","row3":"z"}
}
# 读取 JSON 转为 DataFrame
df = pd.DataFrame(s)
print(df)


     id    name             url  likes
0  A001    菜鸟教程  www.runoob.com     61
1  A002  Google  www.google.com    124
2  A003      淘宝  www.taobao.com     45
      col1 col2
row1     1    x
row2     2    y
row3     3    z


## 数据清洗: 是对一些没有用的数据进行处理的过程。


In [27]:
## eg2:
import pandas as pd

df = pd.read_csv('property-data.csv')

df.fillna(12345, inplace = True)

print(df.to_string())

           PID   ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH  SQ_FT
0  100001000.0    104.0      PUTNAM            Y            3        1   1000
1  100002000.0    197.0   LEXINGTON            N            3      1.5     --
2  100003000.0  12345.0   LEXINGTON            N        12345        1    850
3  100004000.0    201.0    BERKELEY           12            1    12345    700
4      12345.0    203.0    BERKELEY            Y            3        2   1600
5  100006000.0    207.0    BERKELEY            Y        12345        1    800
6  100007000.0  12345.0  WASHINGTON        12345            2   HURLEY    950
7  100008000.0    213.0     TREMONT            Y            1        1  12345
8  100009000.0    215.0     TREMONT            Y           na        2   1800


In [28]:
## eg2:
import pandas as pd

df = pd.read_csv('property-data.csv')

x = df["ST_NUM"].mean()

df["ST_NUM"].fillna(x, inplace = True)

print(df.to_string())


           PID      ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0  104.000000      PUTNAM            Y            3        1  1000
1  100002000.0  197.000000   LEXINGTON            N            3      1.5    --
2  100003000.0  191.428571   LEXINGTON            N          NaN        1   850
3  100004000.0  201.000000    BERKELEY           12            1      NaN   700
4          NaN  203.000000    BERKELEY            Y            3        2  1600
5  100006000.0  207.000000    BERKELEY            Y          NaN        1   800
6  100007000.0  191.428571  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0  213.000000     TREMONT            Y            1        1   NaN
8  100009000.0  215.000000     TREMONT            Y           na        2  1800


In [29]:
## eg3:Pandas 清洗错误数据
import pandas as pd

person = {
  "name": ['Google', 'Runoob' , 'Taobao'],
  "age": [50, 200, 12345]
}

df = pd.DataFrame(person)

for x in df.index:
    if df.loc[x, "age"] > 120:
      df.loc[x, "age"] = 120

print(df.to_string())


     name  age
0  Google   50
1  Runoob  120
2  Taobao  120


In [33]:
## eg4:Pandas 清洗重复数据
import pandas as pd

person = {
  "name": ['Google', 'Runoob', 'Runoob', 'Taobao'],
  "age": [50, 40, 40, 23]
}
df = pd.DataFrame(person)

df.drop_duplicates(inplace=True)
print(df)



     name  age
0  Google   50
1  Runoob   40
3  Taobao   23


## 其他常用函数

In [7]:
import pandas as pd

# 从 CSV 文件中读取数据
# df = pd.read_csv('data.csv')

# 从 Excel 文件中读取数据
# df = pd.read_excel('data.xlsx')

# 从 SQL 数据库中读取数据
import pymysql
import pandas as pd

# 创建数据库连接
conn = pymysql.connect(
    host='127.0.0.1',
    port=3306,
    user='root',
    password='123456',
    database='luntan'
)
# 使用 Pandas 的 read_sql 方法来执行 SQL 查询并将结果存储在 DataFrame 中
df = pd.read_sql('SELECT * FROM admin_user', conn)
# 打印 DataFrame
print(df)
# 关闭数据库连接
conn.close()


# 从 JSON 字符串中读取数据
# json_string = '{"name": "John", "age": 30, "city": "New York"}'
# df = pd.read_json(json_string)

# # 从 HTML 页面中读取数据
# url = 'https://www.runoob.com'
# dfs = pd.read_html(url)
# df = dfs[0] # 选择第一个数据框

                     id username  \
0   1456490813914058123      孟令云   
1   1456490813914058800       李悦   
2   1456494194804097026      罗富明   
3   1456505308627562498      逄晓龙   
4   1457359299063435265      张婧妍   
5   1468576664102436865   pxlong   
6   1648145170815180802      pxl   
7   1653957888860778497     pxl2   
8   1653958294013804546     pxl3   
9   1654269498544451586    pxl10   
10  1654273509767049217    pxl32   
11  1654317031727648769     test   
12  1654668635865698305    test2   
13  1654682651182845953    test3   
14  1656136641825255425     pxll   
15  1660561314403057666    pxl33   
16  1661170456390008833    pxll7   
17  1661218095001239553    pxll2   
18  1661243842348711937  pxltest   
19  1661278722310799361    pxll4   
20  1661618009464111106   pxl100   

                                             password  enabled  is_root  \
0                                              123456        1        0   
1   $2a$10$SFJxT8381W4sj6E/yeGu/utSNSxX4J7gnCX7fN4...    

>补充

#### plt.scatter()
plt.scatter() 是 Matplotlib 库中用于创建散点图的函数。这个函数的功能是在坐标轴上绘制两个变量的数据点集合，通常用于观察两个变量之间的关系。使用 plt.scatter()，你可以自定义散点的大小、颜色、透明度等属性，从而根据数据点的某些特征来可视化它们。例如，可以根据数据点的一个特征来变化颜色，或者根据另一个特征来调整点的大小。这使得散点图成为探索性数据分析中的一个重要工具，可以帮助理解数据的分布和模式。
#### 切片
df.iloc[0:100, 4]
选取前100行的第4列的数据