# name:shen
# time:2023/3/8
# content:

# 2.2 基本数据结构
> pandas 中具有两种基本的数据存储结构，存储```一维``` values 的 ```Series``` 和存储```二维``` values 的 ```DataFrame``` ，在这两种结构上定义了很多的属性和方法。

![](./Images/data.png)

## 1.Series
> Series一般由四个部分组成，分别是序列的值 ```data``` 、索引 ```index``` 、存储类型 ```dtype``` 、序列的名字 ```name``` 。其
中，索引也可以指定它的名字，默认为空。



In [1]:
import pandas as pd

In [11]:
s = pd.Series(data = [100,'a',{'dic1':5}],
                index = pd.Index([1,2,3],name='my_idx'),
                dtype = 'object',
                name = 'my_name')

In [12]:
s

my_idx
1            100
2              a
3    {'dic1': 5}
Name: my_name, dtype: object

In [13]:
s.index

Int64Index([1, 2, 3], dtype='int64', name='my_idx')

In [14]:
s.values

array([100, 'a', {'dic1': 5}], dtype=object)

In [8]:
s.dtype

dtype('O')

In [17]:
s1 = pd.Series(
    data = [67,78,75],
    index = pd.Index(["数学","语文","英语"],name = "学科")
)

In [18]:
s1

学科
数学    67
语文    78
英语    75
dtype: int64

In [19]:
s2 = pd.Series(
    data=["语文","数学","英语"]
)

In [20]:
s2

0    语文
1    数学
2    英语
dtype: object

## 2.DateFrame(具有相同特征和个数的列表数据的集合，可以用DataFrame来描述)
> DataFrame 在 Series 的基础上增加了列索引，一个数据框可以由二维的 data 与行列索引来构造：




In [21]:
## DataFrame创建示例1：
data = [[1,'a',1.2],
        [2,'b',2.2],
        [3,'c',3.2]]

In [22]:
df = pd.DataFrame(
    data = data,
    index = ['row_0','row_1','row_2'],
    columns = ['col_0','col_1','col_2'],
)

In [23]:
df

Unnamed: 0,col_0,col_1,col_2
row_0,1,a,1.2
row_1,2,b,2.2
row_2,3,c,3.2


In [26]:
 ## DataFrame创建示例2：
data = {
    'col_0':[1,2,3],
    'col_1':['a','b','c'],
    'col_2':[1.2,2.2,3.2]
}

In [27]:
df = pd.DataFrame(
    data = data,
    index = ['row_0','row_1','row_2']
)

In [28]:
df

Unnamed: 0,col_0,col_1,col_2
row_0,1,a,1.2
row_1,2,b,2.2
row_2,3,c,3.2


In [29]:
df.col_0

row_0    1
row_1    2
row_2    3
Name: col_0, dtype: int64

In [30]:
df['col_0']

row_0    1
row_1    2
row_2    3
Name: col_0, dtype: int64

In [32]:
df[['col_0','col_2']]

Unnamed: 0,col_0,col_2
row_0,1,1.2
row_1,2,2.2
row_2,3,3.2


In [33]:
df.iloc[1:2]

Unnamed: 0,col_0,col_1,col_2
row_1,2,b,2.2


In [34]:
df.iloc[1]

col_0      2
col_1      b
col_2    2.2
Name: row_1, dtype: object

In [35]:
##df.iloc[竖列，横列]
df.iloc[:,2]

row_0    1.2
row_1    2.2
row_2    3.2
Name: col_2, dtype: float64

In [36]:
## iloc对行和列进行切片
df.iloc[1:3,1:3]

Unnamed: 0,col_1,col_2
row_1,b,2.2
row_2,c,3.2


In [37]:
df.values

array([[1, 'a', 1.2],
       [2, 'b', 2.2],
       [3, 'c', 3.2]], dtype=object)

## 课后练习(参考pandas的cheat sheet)
> 1.iloc
> 2.loc(先取列再选行)
> 3.lat
> 4.at

# 常用基本函数
* 1.汇总函数

In [73]:
df = pd.read_csv('./data/learn_pandas.csv')

FileNotFoundError: [Errno 2] No such file or directory: './data/learn_pandas.csv'

In [44]:
df.columns

Index(['0', '1', '2', '3', '4', '5', '6', '7'], dtype='object')

In [53]:
df.head()  # 头五个

Unnamed: 0,0,1,2,3,4,5,6,7
0,排名,排名变化,企业,价值（亿元人民币）,价值变化（亿元人民币）,总部,行业,成立年份
1,1,0,抖音,13400,-10050,北京,社交媒体,2012
2,2,1,SpaceX,8400,1680,洛杉矶,航天,2002
3,3,-1,蚂蚁集团,8000,-2010,杭州,金融科技,2014
4,4,0,Stripe,4100,-2230,旧金山,金融科技,2010


In [55]:
df.tail() # 尾五个

Unnamed: 0,0,1,2,3,4,5,6,7
6,6,15,币安,3000,2010,马耳他,区块链,2017
7,7,1,Databricks,2500,0,旧金山,大数据,2013
8,8,3,微众银行,2200,200,深圳,金融科技,2014
9,9,2,京东科技,2000,0,北京,数字科技,2013
10,10,11,Checkout.com,1900,870,伦敦,金融科技,2012


In [56]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11 entries, 0 to 10
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       11 non-null     object
 1   1       11 non-null     object
 2   2       11 non-null     object
 3   3       11 non-null     object
 4   4       11 non-null     object
 5   5       11 non-null     object
 6   6       11 non-null     object
 7   7       11 non-null     object
dtypes: object(8)
memory usage: 832.0+ bytes


In [57]:
df.describe()

Unnamed: 0,0,1,2,3,4,5,6,7
count,11,11,11,11,11,11,11,11
unique,11,8,11,11,10,9,8,7
top,排名,0,企业,价值（亿元人民币）,0,北京,金融科技,2012
freq,1,2,1,1,2,2,4,3


* 特征统计函数
> 在 Series 和 DataFrame 上定义了许多统计函数，最常见的是 sum, mean, median, var, std, max, min 。


In [59]:
df_demo = df[['1','2']]

In [60]:
df_demo

Unnamed: 0,1,2
0,排名变化,企业
1,0,抖音
2,1,SpaceX
3,-1,蚂蚁集团
4,0,Stripe
5,11,Shein
6,15,币安
7,1,Databricks
8,3,微众银行
9,2,京东科技


In [63]:
df_demo.mean()

  df_demo.mean()


Series([], dtype: float64)

In [62]:
df_demo.max()

1    排名变化
2    蚂蚁集团
dtype: object

In [64]:
df_demo.quantile(0.75)

Series([], Name: 0.75, dtype: float64)

In [65]:
df_demo.count()

1    11
2    11
dtype: int64

In [66]:
df_demo.idxmax()

TypeError: reduction operation 'argmax' not allowed for this dtype

# 实践一
* 请计算：所有学校不同的身高、体重的均值、最大值、最小值
* 请计算：所有不同学校的男女比例情况
* 统计：不同学校的Grade的数量

In [74]:
df['School'].unique()

KeyError: 'School'

In [75]:
df.query('School=='Peking University'')

SyntaxError: invalid syntax (3067309792.py, line 1)