## 导入pandas库与numpy库

Pandas库与NumPy库之间存在密切的关系。事实上，Pandas是建立在NumPy之上的一个数据处理和分析工具，它提供了更高级的数据结构和操作，使数据处理更加简单和高效。

NumPy（Numerical Python）是Python科学计算的核心库之一。它提供了一个强大的多维数组对象（ndarray），用于存储和处理大型数据集。NumPy还提供了许多用于数组操作的函数，例如数学运算、线性代数、随机数生成等。

Pandas的主要数据结构是DataFrame和Series。DataFrame是一个表格型的数据结构，它由多个行和列组成，每列可以是不同的数据类型。Series是一维数组，类似于NumPy的ndarray，但增加了索引功能。Pandas提供了丰富的函数和方法来操作和处理这些数据结构。

Pandas库在底层使用NumPy来存储和操作数据，因此你可以将NumPy的ndarray对象作为输入直接传递给Pandas的DataFrame或Series对象，并使用Pandas提供的功能进行数据分析和处理。此外，Pandas还提供了用于读取和写入各种数据格式（如CSV、Excel、SQL数据库等）的工具，以及用于数据清洗、转换、聚合等常见任务的功能。

总而言之，Pandas是基于NumPy构建的高级数据处理工具，它简化了数据处理和分析的过程，并提供了更多高级功能，使得数据科学工作更加方便和高效。

In [1]:
import numpy as np
import pandas as pd

### The Pandas Series Object

Pandas Series（中文可以称为序列）是Pandas库中的一种数据结构，它类似于一维数组或列表，但与普通的数组或列表不同，Series对象具有索引和标签功能。

Series由两部分组成：索引和值。

索引是Series对象中每个元素的唯一标识符，而值则是对应于每个索引的数据，索引是可以重复的`(这是可字典不同的)`。索引可以是整数、字符串或其他数据类型，并且可以根据需要自定义。

每个值可以是任何Python数据类型。

可以使用多种方式创建一个Series对象，例如从列表、数组、字典等数据结构来创建`(创建的时候是可以选择index的)`。下面是一个创建Series对象的例子：

```python
import pandas as pd

data = [10, 20, 30, 40, 50]
series = pd.Series(data)

print(series)
```

输出结果如下所示：

```
0    10
1    20
2    30
3    40
4    50
dtype: int64
```

在这个例子中，我们使用一个包含整数的列表作为输入数据来创建了一个Series对象。默认情况下，Pandas将自动生成一个整数索引。你可以看到输出结果中每个值的前面都有一个索引（0, 1, 2, 3, 4），而dtype表示每个值的数据类型（在这个例子中是整数）。

Series对象提供了许多便捷的方法和函数来操作和处理数据。可以使用索引来选择单个元素或一组元素，还可以使用条件表达式或逻辑运算符来过滤Series对象中的数据。此外，Series对象还支持数学运算、统计计算、排序等常见操作。



In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [3]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [4]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [5]:
data[1]

0.5

In [6]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Series结构看起来和numpy的一维数组类似但是提供了更多的操作方法，他也是可以转化为one-dimensional NumPy array。
他的index是可以自定义的，也可以作为字典使用。


In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

访问


In [8]:
data['b']

0.5

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [10]:
data[5]

0.5

In [11]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [12]:
population['California']

38332521

In [13]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Series可以做到类似字典的效果，但是比字典操作起来更加的灵活，还可以看到类型

构造Series类

允许非唯一的索引值

In [14]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 2, 3, 7])
data

2    0.25
2    0.50
3    0.75
7    1.00
dtype: float64

In [15]:
data[2]

2    0.25
2    0.50
dtype: float64

pd.Series()

```python

class Series(
    data: Scalar | _ListLike | dict[int, Any] | dict[_str, Any] | None = ...,
    index: Axes | None = ...,
    *,
    dtype: Dtype = ...,
    name: Hashable = ...,
    copy: bool = ...
)

```

In [16]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

一个数据多次填充索引

In [17]:
data1 = pd.Series(5, index=[100, 200, 300])
data1

100    5
200    5
300    5
dtype: int64

In [18]:
data1[100] = 8
data1

100    8
200    5
300    5
dtype: int64

（之前的版本是可以是字典但是，index会是排好序的key）
```
d = {2:'a', 1:'b', 3:'c'}
s = pd.Series(d).sort_index()
print(s)
```
结果
```
1    b
2    a
3    c
dtype: object
```


In [19]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

In [20]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

In [21]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
pd.Series(population_dict, index=['California', 'California', 'California', 'California'])

California    38332521
California    38332521
California    38332521
California    38332521
dtype: int64

不能多了也不可以少

In [22]:
# data = pd.Series([0.25, 0.5, 0.75, 1.0],
#                  index=[2, 2, 3, 7, 3, 7])

In [23]:
# data = pd.Series([0.25, 0.5, 0.75, 1.0],
#                  index=[2, 3, 7])

### The Pandas DateFrame Object

和数组的一维到二维类似

`DataFrame` 可以看做是 `Series` 从一维到二维的扩展

one-dimensional array to two-demensional array

In [24]:
area_dict = {'California': 423967, 'New York': 141297, 'Texas': 695662,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
New York      141297
Texas         695662
Florida       170312
Illinois      149995
dtype: int64

In [25]:
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

顺序不同的两个也是可以合并的，扩展的时候要注意。

In [26]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Florida,19552860,170312
Illinois,12882135,149995
New York,19651127,141297
Texas,26448193,695662


Like the Series object, the DataFrame has an index attribute that gives access to the index labels <br />

`DataFrame` 和 `Series` 一样具有 `index`用来访问行

In [27]:
states.index


Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

Additionally, the DataFrame has a columns attribute, which is an Index object holding the column labels<br />

`columns`用来访问列

In [28]:
states.columns

Index(['population', 'area'], dtype='object')

Similarly, we can also think of a DataFrame as a specialization of a dictionary. Where a dictionary maps a key to a value, a DataFrame maps a column name to a Series of column data. For example, asking for the 'area' attribute returns the Series object containing the areas we saw earlier<br />

可以看做是二维的数组，也可以看做是广义字典



In [29]:
states['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [30]:
type(states["area"])

pandas.core.series.Series