# pandas
1. 基于numpy构建
2. 相对numpy更加灵活

**两种数据类型:**
1. Series
2. DataFrame

## Series数据类型的构建和操作

In [1]:
import pandas as pd
import numpy as np

In [2]:
# 创建一个Series类型的数据
countries = ["china", "usa", "russia", "english"]
my_data = [100, 200, 300, 400]
s1 = pd.Series(my_data, countries)
s1

china      100
usa        200
russia     300
english    400
dtype: int64

In [3]:
# 另一种创建Series类型数据的方式
s2 = pd.Series(countries)
s2

0      china
1        usa
2     russia
3    english
dtype: object

In [4]:
# 通过字典来创建一个Series类型对象
my_dict = {'a': 'liu', 'b':'haha', 'c':30}
s3 = pd.Series(my_dict)
s3

a     liu
b    haha
c      30
dtype: object

In [5]:
# Series对象读取数据,基本类型python的字典
print(s2)
print(s2[0])

0      china
1        usa
2     russia
3    english
dtype: object
china


## DataFrame数据类型的构建和操作

**可以理解为多个Series数据类型的集合**

In [6]:
# 基础的方式
df = {'name':pd.Series(['tony', 'john', 'jim'], index=['a', 'b', 'c']),
      'age':pd.Series([12, 13, 14], index=['a', 'b', 'c'])}
df1 = pd.DataFrame(df)
# df1

In [7]:
# 当不同行的数据条数不同时
dff = {'name':pd.Series(['tony', 'john', 'jim'], index=['a', 'b', 'c']),
      'age':pd.Series([12, 13, 14, 15], index=['a', 'b', 'c','d'])}
df2 = pd.DataFrame(dff)
# df2

In [8]:
# 利用一个字典来创建一个DataFrame类型对象
data = {
    'name':['tony', 'tom', 'anna'],
    'age':[12, 12, 23],
    'year':[2013, 2014, 2015]
}
# df3 = pd.DataFrame(data, index=[1, 2, 3])
df3 = pd.DataFrame(data)
# df3

In [9]:
# 获取其中某一列的数据
print(type(df3['name']))
# df3['name']

# 获取多列的数据
print(type(df3[['name', 'age']]))
# df3[['name', 'age']]

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


In [10]:
# 添加一列数据, 添加的一列数据类型为Series
df3['gender'] = pd.Series(['male', 'male', 'female'])
df3

Unnamed: 0,name,age,year,gender
0,tony,12,2013,male
1,tom,12,2014,male
2,anna,23,2015,female


**删除某一行或某一列使用drop()函数, 参数axis=0 对应的是行 row，而 axis=1 对应的是列 column, 除非用户明确指定，否则在调用 .drop() 的时候，Pandas 并不会真的永久性地删除这行/列, 如果你确定要永久性删除某一行/列，你需要加上 inplace=True 参数**

In [11]:
# 删除year列
df4 = df3.drop(['year'], axis=1)
df4

Unnamed: 0,name,age,gender
0,tony,12,male
1,tom,12,male
2,anna,23,female


In [12]:
# help(pd.DataFrame)

## csv文件相关

In [13]:
# 读取csv文件, 直接转化为DataFrame格式
c1 = pd.read_csv('../data/JaipurRawData3.csv')
print(type(c1))
# c1

<class 'pandas.core.frame.DataFrame'>


In [14]:
# x写入csv文件, index=False 参数是因为不希望 Pandas 把索引列的 0~5 也存到文件中。
df3.to_csv('../data/df3.csv', index=False)

In [15]:
# 读取excel文件的内容, 但是不会读取其中的表达式或者其他宏等
# 注意需要导入xlrd库
import xlrd
e1 = pd.read_excel('../data/e1.xlsx', sheet_name='Sheet1')
e1

Unnamed: 0,name,age,score
0,q,12,98
1,w,12,89
2,e,13,78
3,r,14,76
4,t,13,90


In [16]:
# 将DataFrame格式文件转化为excel格式
df3.to_excel('../data/df3.xlsx', sheet_name='Sheet1')