## Pandas Series

Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。

**Series 特点：**
- **索引：** 每个 Series 都有一个索引，它可以是整数、字符串、日期等类型。如果没有显式指定索引，Pandas 会自动创建一个默认的整数索引。从0开始递增
- **数据类型：** Series 可以容纳不同数据类型的元素，包括整数、浮点数、字符串等。

Series 是 Pandas 中的一种基本数据结构，类似于一维数组或列表，但具有标签（索引），使得数据在处理和分析时更具灵活性。

以下是关于 Pandas 中的 Series 的详细介绍： 

**创建 Series：** 可以使用 `pd.Series()` 构造函数创建一个 Series 对象，传递一个数据数组（可以是列表、NumPy 数组等）和一个可选的索引数组。


In [None]:
# pandas.Series( data, index, dtype, name, copy)
""" 
data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。
"""
# 使用列表创建series数据结构
import pandas as pd
a = [1,2,3,4]
b = pd.Series(a) # 使用列表创建series数据结构
print(b) # 索引 + 数据
print(type(b)) # <class 'pandas.core.series.Series'>

0    1
1    2
2    3
3    4
dtype: int64
<class 'pandas.core.series.Series'>


In [8]:
# 使用np中的数组创建
import pandas as pd
import numpy  as np
# 使用np中的数组创建
a = np.array([1.1, 2.2, 3.3])
# b = pd.Series(a)
b = pd.Series(a, index=["a", "b", "c"])
# b = pd.Series(a, index=[100, "b", "c"])
print(b)

a    1.1
b    2.2
c    3.3
dtype: float64


In [12]:
c = pd.Series(b, index=["a", "b"]) # 用新的索引重新构造 Series，只保留 "a" 和 "b"
print(c)

a    1.1
b    2.2
dtype: float64


In [15]:
# 使用字典创建series
sites = {1: "Google", 9: "Baidu", 3: "Souhu"} # 使用字典创建series
print(type(sites)) # 字典
var = pd.Series(sites)
var

<class 'dict'>


1    Google
9     Baidu
3     Souhu
dtype: object

In [18]:
var = pd.Series(sites, index=[1, 9]) # 只取1和9对应的值
var

1    Google
9     Baidu
dtype: object

## Pandas DataFrame

#### DataFrame 简介

**DataFrame** 是 Pandas 中最常用的二维表格型数据结构，它包含有序的列，每一列可以是不同的数据类型（如数值、字符串、布尔值等）。  
可以将 DataFrame 理解为一个“由多个 Series 按列组合而成”的表格结构，既有 **行索引**，也有 **列索引**。

---

#### DataFrame 的特点

1. 行和列
- 每一列就是一个 Series，可以有不同的数据类型。
- 每一行都有一个行索引，用于唯一标识。

2. 二维结构
- DataFrame 是一个二维的数据容器，结构类似于 Excel 表格。
- 它是多个 Series **共享一个行索引**组合而成。

3. 数据类型灵活
- 每一列可以是整数、浮点数、字符串、布尔值等。
- **每列独立定义数据类型**，互不影响，更加灵活。


In [None]:
# pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
"""
data：数据内容，可为字典、列表、二维数组、Series、字典组成的列表等格式。
index：行索引标签，默认从 0 开始的整数索引。
columns：列名列表，默认从数据中推断。
dtype：指定整体数据类型，默认自动推断。
copy：是否复制数据，默认 False。
"""

In [19]:
# 使用字典创建Dataframe
import pandas as pd

data = {
    '姓名': ['张三', '李四', '王五'],
    '年龄': [25, 30, 28],
    '城市': ['北京', '上海', '广州']
}

df = pd.DataFrame(data, index=[1,2,3])
df

Unnamed: 0,姓名,年龄,城市
1,张三,25,北京
2,李四,30,上海
3,王五,28,广州


In [22]:
# 使用列表创建
data = [
    ['张三', 25, '北京'],
    ['李四', 30, '上海'],
    ['王五', 28, '广州']
]

df = pd.DataFrame(data, columns=['姓名', '年龄', '城市']) # 需要指定列名
# df = pd.DataFrame(data) # 需要指定列名
df

Unnamed: 0,姓名,年龄,城市
0,张三,25,北京
1,李四,30,上海
2,王五,28,广州


In [23]:
# 字典嵌套列表创建
sites = {"web_name":["Google","Baidu","Souhu"], "age":[1,3,9]}
print(type(sites))
var = pd.DataFrame(sites)
var

<class 'dict'>


Unnamed: 0,web_name,age
0,Google,1
1,Baidu,3
2,Souhu,9


In [24]:
# 列表嵌套字典
lst1 = [
    {"姓名":"qy","年龄":18,"存款":"100元"},
    {"姓名":"qc","年龄":19,"存款":"1000元"}
]
lst2 = pd.DataFrame(lst1)
lst2

Unnamed: 0,姓名,年龄,存款
0,qy,18,100元
1,qc,19,1000元


In [25]:
# 使用Series创建,创建多个series
ser1=pd.Series(["张三","李四","王五"]) # 列表创建serious
print(ser1)
ser2 = pd.Series([18,20,22])
ser3 = pd.Series([21.2,22.2,23.2])
data = pd.DataFrame({"name":ser1,"age":ser2,"money":ser3})
data.index = ["a","b","c"]
data

0    张三
1    李四
2    王五
dtype: object


Unnamed: 0,name,age,money
a,张三,18,21.2
b,李四,20,22.2
c,王五,22,23.2


In [28]:
# 使用Series创建，推荐写法
data = {
    "name":pd.Series(["张三","李四","王五"]),
    "age":pd.Series([18,20,22]),
    "money":pd.Series([21.2,22.2,23.2])
}
print(type(data))
df = pd.DataFrame(data)
df

<class 'dict'>


Unnamed: 0,name,age,money
0,张三,18,21.2
1,李四,20,22.2
2,王五,22,23.2


In [None]:
# 使用numpy数组创建
import numpy as np
import pandas as pd

data = np.array([[1, 2], [3, 4]])
df = pd.DataFrame(data, columns=['A', 'B'], index=['C', 'D'])
print(df)

   A  B
C  1  2
D  3  4


## 读取数据 

In [None]:
# pandas 读取 CSV 数据
import pandas as pd

data = pd.read_csv("TianQi.csv") # 使用相对路径
data.head() # 默认输出前五行

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2017-01-01,5℃,-3℃,霾~晴,南风,1-2级,450,严重污染,6
1,2017-01-02,7℃,-6℃,晴~霾,南风,1-2级,246,重度污染,5
2,2017-01-03,5℃,-5℃,霾,南风,1-2级,320,严重污染,6
3,2017-01-04,6℃,-5℃,霾,北风,1-2级,360,严重污染,6
4,2017-01-05,2℃,-4℃,霾,北风,1-2级,280,重度污染,5


In [36]:
# pandas 读取 json 文件
import pandas as pd

df = pd.read_json('a.json')
print("df:")
print(df)
print(type(df))

df:
   id    name                url  age
0   1    点头教育  www.diantouedu.cn   10
1   2  Google     www.google.com  100
2   3      淘宝     www.taobao.com   50
<class 'pandas.core.frame.DataFrame'>


In [38]:
# pandas 读取 excel 文件
import pandas as pd
df = pd.read_excel("student_excel.xlsx")
df.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,,,,
1,,姓名,科目,分数
2,,小明,语文,85
3,,,数学,80
4,,,英语,90


## 创建数据

In [39]:
import pandas as pd

# 创建字典数据
data = {
    '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
    '年龄': [25, 30, 35, 40, 45],
    '性别': ['男', '男', '女', '男', '女'],
    '存款': [10000, 20000, 30000, 40000, 50000]
}

# 将数据转换为DataFrame
df = pd.DataFrame(data)
print(df)
# 将DataFrame写入Excel文件
df.to_excel('b.xlsx', index=False) # index=False：不写入行索引

print("Excel文件生成成功！")

   姓名  年龄 性别     存款
0  张三  25  男  10000
1  李四  30  男  20000
2  王五  35  女  30000
3  赵六  40  男  40000
4  钱七  45  女  50000
Excel文件生成成功！


## 数据分析及简单清洗

In [43]:
# 天气数据分析
import pandas as pd
df = pd.read_csv("TianQi.csv")
df.head(10) # 输出前十行

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2017-01-01,5℃,-3℃,霾~晴,南风,1-2级,450,严重污染,6
1,2017-01-02,7℃,-6℃,晴~霾,南风,1-2级,246,重度污染,5
2,2017-01-03,5℃,-5℃,霾,南风,1-2级,320,严重污染,6
3,2017-01-04,6℃,-5℃,霾,北风,1-2级,360,严重污染,6
4,2017-01-05,2℃,-4℃,霾,北风,1-2级,280,重度污染,5
5,2017-01-06,4℃,-2℃,霾,南风,1-2级,234,重度污染,5
6,2017-01-07,2℃,-3℃,小雪,无持续风向,微风,206,重度污染,5
7,2017-01-08,5℃,-4℃,阴~晴,北风,1-2级,59,良,2
8,2017-01-09,3℃,-5℃,晴,南风,1-2级,42,优,1
9,2017-01-10,4℃,-6℃,晴,北风,3-4级,46,优,1


In [44]:
# 设定索引为日期，方便按日期筛选
df.set_index('ymd', inplace=True) # 就地进行更改
print(df.index)
df.head()

Index(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04', '2017-01-05',
       '2017-01-06', '2017-01-07', '2017-01-08', '2017-01-09', '2017-01-10',
       ...
       '2019-12-22', '2019-12-23', '2019-12-24', '2019-12-25', '2019-12-26',
       '2019-12-27', '2019-12-28', '2019-12-29', '2019-12-30', '2019-12-31'],
      dtype='object', name='ymd', length=1095)


Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2017-01-01,5℃,-3℃,霾~晴,南风,1-2级,450,严重污染,6
2017-01-02,7℃,-6℃,晴~霾,南风,1-2级,246,重度污染,5
2017-01-03,5℃,-5℃,霾,南风,1-2级,320,严重污染,6
2017-01-04,6℃,-5℃,霾,北风,1-2级,360,严重污染,6
2017-01-05,2℃,-4℃,霾,北风,1-2级,280,重度污染,5
