# Series & DataFrame

In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [2]:
# 数据源
my_dict = {'Country': ['Belgium', 'India', 'Brazil'], 
           'Capital': ['Brussels', 'New Delhi', 'Brasilia'], 
           'Population': [11190846, 1303171035, 2078475281]}

In [12]:
my_dict

{'Country': ['Belgium', 'India', 'Brazil'],
 'Capital': ['Brussels', 'New Delhi', 'Brasilia'],
 'Population': [11190846, 1303171035, 2078475281]}

In [13]:
type(my_dict)

dict

### Series

In [6]:
s1 = Series(my_dict['Country'])

In [10]:
s1

0    Belgium
1      India
2     Brazil
dtype: object

In [11]:
type(s1)

pandas.core.series.Series

In [14]:
s1.values

array(['Belgium', 'India', 'Brazil'], dtype=object)

In [15]:
type(s1.values)

numpy.ndarray

In [16]:
s1.index

RangeIndex(start=0, stop=3, step=1)

In [17]:
type(s1.index)

pandas.core.indexes.range.RangeIndex

In [20]:
s2 = Series(my_dict['Capital'], index=['Belgium', 'India', 'Brazil'])

In [21]:
s2

Belgium     Brussels
India      New Delhi
Brazil      Brasilia
dtype: object

In [22]:
type(s2)

pandas.core.series.Series

In [23]:
s2.values

array(['Brussels', 'New Delhi', 'Brasilia'], dtype=object)

In [24]:
s2.index

Index(['Belgium', 'India', 'Brazil'], dtype='object')

<hr>

### DataFrame

In [25]:
# 可以使用 Python 的 dict 直接创建
# dict 内部的形式是：{key1: [list_value1], key2: [list_value2]}
# key -> column_name 、list_value -> column_content
df1 = DataFrame(my_dict)

In [26]:
df1

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasilia,2078475281


In [27]:
df1['Country']

0    Belgium
1      India
2     Brazil
Name: Country, dtype: object

In [28]:
type(df1['Country'])

pandas.core.series.Series

In [38]:
for row in df1.iterrows():
    print(str(row) + '\n')
    print(str(type(row)) + '\n')
    print(str(len(row)) + '\n')
    print('row[0]: ' + str(row[0]) + '\n')
    print('row[1]: ' + str(row[1]) + '\n')
    print('row[0] type: ' + str(type(row[0])) + '\n')
    print('row[1] type: ' + str(type(row[1])) + '\n')
    print('------------------------------------')

(0, Country        Belgium
Capital       Brussels
Population    11190846
Name: 0, dtype: object)

<class 'tuple'>

2

row[0]: 0

row[1]: Country        Belgium
Capital       Brussels
Population    11190846
Name: 0, dtype: object

row[0] type: <class 'int'>

row[1] type: <class 'pandas.core.series.Series'>

------------------------------------
(1, Country            India
Capital        New Delhi
Population    1303171035
Name: 1, dtype: object)

<class 'tuple'>

2

row[0]: 1

row[1]: Country            India
Capital        New Delhi
Population    1303171035
Name: 1, dtype: object

row[0] type: <class 'int'>

row[1] type: <class 'pandas.core.series.Series'>

------------------------------------
(2, Country           Brazil
Capital         Brasilia
Population    2078475281
Name: 2, dtype: object)

<class 'tuple'>

2

row[0]: 2

row[1]: Country           Brazil
Capital         Brasilia
Population    2078475281
Name: 2, dtype: object

row[0] type: <class 'int'>

row[1] type: <class 'pandas.

In [39]:
# 使用 Series 建立 Dataframe
# DataFrame 的每一行是一个 tuple ，这个 tuple 一般有两个成员，一个是行索引（index），一个是 Series
# 使用 Series 创建 DataFrame 的时候，每一个 Series 将成为一行的 content

s3 = Series(['Java', 'Python', 'C'])
s4 = Series(['应用最广泛的语言', '人工智能与大数据等领域的主力军', '硬件、性能优化离不开它'])
s5 = Series(['面向对象', '面向对象', '面向过程'])
df2 = DataFrame([s3, s4, s5])

In [40]:
df2

Unnamed: 0,0,1,2
0,Java,Python,C
1,应用最广泛的语言,人工智能与大数据等领域的主力军,硬件、性能优化离不开它
2,面向对象,面向对象,面向过程


In [42]:
# 转置
df3 = df2.T

In [43]:
df3

Unnamed: 0,0,1,2
0,Java,应用最广泛的语言,面向对象
1,Python,人工智能与大数据等领域的主力军,面向对象
2,C,硬件、性能优化离不开它,面向过程


In [66]:
# 加上行索引后转置
df4 = DataFrame([s3, s4, s5], index=['语言', '描述', '性质']).T

In [67]:
df4

Unnamed: 0,语言,描述,性质
0,Java,应用最广泛的语言,面向对象
1,Python,人工智能与大数据等领域的主力军,面向对象
2,C,硬件、性能优化离不开它,面向过程


In [70]:
# 使用 Series 建立 Dataframe
# DataFrame 的每一行是一个 Series

s6 = Series(['Java', '应用最广泛的语言', '支持面向对象'])
s7 = Series(['Python', '人工智能与大数据等领域的主力军', '支持面向对象'])
s8 = Series(['C', '硬件、性能优化离不开它', '面向过程'])
df5 = DataFrame([s6, s7, s8])
# DataFrame 创建好后，使用下面的设置列名
df5.columns = ['语言', '描述', '性质']

In [71]:
df5

Unnamed: 0,语言,描述,性质
0,Java,应用最广泛的语言,支持面向对象
1,Python,人工智能与大数据等领域的主力军,支持面向对象
2,C,硬件、性能优化离不开它,面向过程


**一定要注意：创建 DataFrame 的时候行、列关系！！！**