In [6]:
import pandas as pd
df = pd.read_csv('test1.csv', header=0)
#如果你的数据集中有中文的话，最好在里面加上 encoding = 'gbk' ，以避免乱码问题。后面的导出数据的时候也一样。
#df会是一个dataframe
df.head(5)
df.tail(5)

#重置列名
df.columns = ['water_year','rain_octsep', 'outflow_octsep',
              'rain_decfeb', 'outflow_decfeb', 'rain_junaug', 'outflow_junaug']
df.head(5)


#共多少条记录
len(df)


pd.options.display.float_foemat = '{:,.3f}'.format
df.describe()
#这将返回一张表，其中有诸如总数、均值、标准差之类的统计数据：


##################################################################################过滤
df['rain_octsep']
#提取一列值，是一个series,而不是dataframe
df.rain_octsep


df[df.rain_octsep < 1000]
#使用条件过滤现有的dataframe

df[(df.rain_octsep < 1000) & (df.outflow_octsep < 4000)] 
#这条代码只会返回 rain_octsep 中小于 1000 的和 outflow_octsep 中小于 4000 的记录：
#注意重要的一点：这里不能用 and 关键字，因为会引发操作顺序的问题。必须用 & 和圆括号。


df[df.water_year.str.startswith('199')]
#必须用 .str.[string method] ，,使用字符串方法来进行过滤


##################################################################################索引
#如果你的行标签是数字型的，你可以通过 iloc 来引用：
df.iloc[30]
#iloc 只对数字型的标签有用。它会返回给定行的 series，行中的每一列都是返回 series 的一个元素。

#设置新的索引
df = df.set_index(['water_year'])

df.head(5)

#上例中我们设置的索引列中都是字符型数据，这意味着我们不能继续使用 iloc 来引用，那我们用什么呢？用 loc 。
df.loc['2000/01']
#和 iloc 一样， loc 会返回你引用的列，唯一一点不同就是此时你使用的是基于字符串的引用，而不是基于数字的。


#如果 loc 是基于标签的，而 iloc 是基于数字的，那 ix 是基于什么的？
#事实上， ix 是基于标签的查询方法，但它同时也支持数字型索引作为备选。
df.ix['1999/00'] 


#利用索引排序。。。。。。。在 Pandas 中，我们可以对 dataframe 调用 sort_index 方法进行排序。
df.sort_index(ascending=False).head(5) #降序号


#*******当你将一列设置为索引的时候，它就不再是数据的一部分了。
#果你想将索引恢复为数据，调用 set_index 相反的方法 reset_index 即可：
df = df.reset_index('water_year')
df.head(5)


##################################################################################对数据集应用函数
#有时你想对数据集中的数据进行改变或者某种操作。比方说，你有一列年份的数据，你需要新的一列来表示这些年份对应的年代。
#Pandas 中有两个非常有用的函数， apply 和 applymap 。
# Applying a function to a column
def base_year(year):
    base_year = year[:4]
    base_year= pd.to_datetime(base_year).year
    return base_year

df['year'] = df.water_year.apply(base_year)
df.head(5)


##################################################################################操作数据集的结构
#另一常见的做法是重新建立数据结构，使得数据集呈现出一种更方便并且（或者）有用的形式。
###挺乱的   之后要用到再细看



##################################################################################合并数据集
rain_jpn = pd.read_csv('jpn_rain.csv')
rain_jpn.columns = ['year', 'jpn_rainfall']

uk_jpn_rain = df.merge(rain_jpn, on='year')
uk_jpn_rain.head(5)
#首先你需要通过 on 关键字来指定需要合并的列。通常你可以省略这个参数，Pandas 将会自动选择要合并的列。




#################################################################################使用 Pandas 快速作图
#Matplotlib 很棒，但是想要绘制出还算不错的图表却要写不少代码，而有时你只是想粗略的做个图来探索下数据，搞清楚数据的含义。
#Pandas 通过 plot 来解决这个问题：
uk_jpn_rain.plot(x='year', y=['rain_octsep', 'jpn_rainfall'])
#之前得到的的uk_jpn_rain是一个dataframe的形式，在此基础上使用plot



#################################################################################保存你的数据集
#在清洗、重塑、探索完数据之后，你最后的数据集可能会发生很大改变，并且比最开始的时候更有用。
#你应该保存原始的数据集，但是你同样应该保存处理之后的数据。


###
#http://www.open-open.com/lib/view/open1470724984453.html#articleHeader0







OSError: File b'test1.csv' does not exist

In [74]:
from pandas import Series,DataFrame
import pandas as pd


####################################################################################Series
#Series 可以看做一个定长的有序字典。基本任意的一维数据都可以用来构造 Series 对象：
s = Series([1,2,3.0,'abc'])
#s

#Series 对象包含两个主要的属性：index 和 values
s = Series(data=[1,3,5,7],index = ['a','b','x','y'])
#print(s)
#print(s.index)
#print(s.values)

#################################################################################Dataframe
#DataFrame 是一个表格型的数据结构，它含有一组有序的列（类似于 index），
#每列可以是不同的值类型（不像 ndarray 只能有一个 dtype）。
#基本上可以把 DataFrame 看成是共享同一个 index 的 Series 的集合。
data = {'state':['Ohino','Ohino','Ohino','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002],
        'pop':[1.5,1.7,3.6,2.4,2.9]}
df = DataFrame(data)
#print(df)

df = DataFrame(data,index=['one','two','three','four','five'],
               columns=['year','state','pop','debt'])
#print(df)



#################################################################################对象属性----重新索引
ser = Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])
a = ['a','b','c','d','e']
ser.reindex(a)
#print(ser.reindex(a))
#print(ser.reindex(a,fill_value=0))
                             ####出错：：print(ser.reindex(a,method='ffill'))
#print(ser.reindex(a).fillna(method='ffill'))
#.reindex() 方法会返回一个新对象，其 index 严格遵循给出的参数，
#method:{'backfill', 'bfill', 'pad', 'ffill', None} 参数用于指定插值（填充）方式，
#当没有给出时，自动用 fill_value 填充，默认为 NaN


state = ['Texas','Utha','California']
df.reindex(columns=state,method='ffill')
#print(df.reindex(index=['a','b','c','d'],columns=state))


###########################################################################删除
#语法：   .drop(labels, axis=0)
#print(ser)
#print(df)
#print(ser.drop('b'))
#print(df.drop('two'))
#*****************注意：.drop() 返回的是一个新对象，元对象不会被改变。***********************

#print(df)
#print(df.drop(['year','state'],axis=1))


###########################################################################切片
foo=Series(index=['a','b','c','d'],data=[4.5,7.2,-5.3,3.6])
#print(foo)
#print(foo[:2])
#print(foo[:'c'])

#DataFrame 对象的标准切片语法为：.ix[::,::]。
#ix 对象可以接受两套切片，分别为行（axis=0）和列（axis=1）的方向：
data={
    'Ohio':[0,3,6],
    'Texas':[1,4,7],
    'California':[2,5,8]
}
df=DataFrame(data,index=['a','b','c'],columns=['Ohio','Texas','California'])
#print(df)
#print(df.ix[:2,:2])
#print(df.ix['a','Ohio'])




###################################################################算数运算和数据对齐
foo=Series({'a':1 ,'b':2 })
#print(foo)
bar=Series({'b':3 ,'d':4 })
#print(bar)
#print(foo+bar)


#   操作符：df1.add(df2,fill_value=0)。其他算术方法还有：sub(), div(), mul()。
#   DataFrame 的对齐操作会同时发生在行和列上。

#df.sort_index(by='Ohio')
df1 = df.sort_index(by=['California','Texas'])
#print(df1)

#print(df.sort_index(axis=1))




##################################################################统计
#df.mean()
#df.mean(axis=1)
#df.mean(axis=1,skipna=False)

####其他统计方法
'''
count	非 NA 值的数量
describe	针对 Series 或 DF 的列计算汇总统计
min , max	最小值和最大值
argmin , argmax	最小值和最大值的索引位置（整数）
idxmin , idxmax	最小值和最大值的索引值
quantile	样本分位数（0 到 1）
sum	求和
mean	均值
median	中位数
mad	根据均值计算平均绝对离差
var	方差
std	标准差
skew	样本值的偏度（三阶矩）
kurt	样本值的峰度（四阶矩）
cumsum	样本值的累计和
cummin , cummax	样本值的累计最大值和累计最小值
cumprod	样本值的累计积
diff	计算一阶差分（对时间序列很有用）
pct_change	计算百分数变化
'''

#   is(not)null
#   这一对方法对对象做元素级应用，然后返回一个布尔型数组，一般可用于布尔型索引。
#   处理 NA 的方法有四种：dropna , fillna , isnull , notnull 。











'\ncount\t非 NA 值的数量\ndescribe\t针对 Series 或 DF 的列计算汇总统计\nmin , max\t最小值和最大值\nargmin , argmax\t最小值和最大值的索引位置（整数）\nidxmin , idxmax\t最小值和最大值的索引值\nquantile\t样本分位数（0 到 1）\nsum\t求和\nmean\t均值\nmedian\t中位数\nmad\t根据均值计算平均绝对离差\nvar\t方差\nstd\t标准差\nskew\t样本值的偏度（三阶矩）\nkurt\t样本值的峰度（四阶矩）\ncumsum\t样本值的累计和\ncummin , cummax\t样本值的累计最大值和累计最小值\ncumprod\t样本值的累计积\ndiff\t计算一阶差分（对时间序列很有用）\npct_change\t计算百分数变化\n'