# Pandas Series and DataFrame

In [4]:
import numpy as np
import pandas as pd

---
# 1. Series

Series是pandas中暴露给我们使用的基本对象，它是由相同元素类型构成的一维数据结构，同时具有列表和字典的属性（字典的属性由索引赋予）。

    Series：有序，有索引
    list：  有序，无索引
    dict：  无序，有索引

## 1.1 预览

In [13]:
data = [1,2,3]
index = ['a','b','c']
s = pd.Series(data=data, index=index, name = 'sss')
s

a    1
b    2
c    3
Name: sss, dtype: int64

In [19]:
s.index  # 四个属性之一：索引

Index(['a', 'b', 'c'], dtype='object')

In [18]:
s.name  # 四个属性之二：名字，

'sss'

In [15]:
s.values # 四个属性之三：值

array([1, 2, 3], dtype=int64)

In [7]:
s.dtype # 四个属性之四：元素类型

dtype('int64')

----
## 1.2 创建

#### `pd.Series(data=None, index=None, name = None)`
- data：多种类型，见下面具体介绍
- index：索引
- name：对data的说明，用的不多，一般在和DataFrame、Index互相转换时才需要。

### 1.2.1 data无索引
- 如果 data 为 **ndarray(1D) 或 list(1D)**，那么其缺少 Series 需要的索引信息；
- 如果提供 index，如果给定则必须和data长度相同；
- 如果不提供 index，那么其将生成默认数值索引 range(0, data.shape[0])。

In [80]:
# data = [1,2,3]
data1 = np.array([1,2,3])
index1 = ['a','b','c']
s = pd.Series(data = data1, index = index1)
s

a    1
b    2
c    3
dtype: int32

### 1.2.2 data有索引
 - 如果 data 为 **Series 或 dict** ，那么其已经提供了 Series 需要的索引信息，所以 index 项是不需要提供的；
 - 如果额外提供了 index 项，那么其将对当前构建的Series进行 重索引（增删）（等同于reindex操作）。

In [81]:
# data = pd.Series([a,b,c], index = ['a','b','c'] )
data2 = { 'a':1, 'b':2,'c':3 }
index2 = ['a','b','d']
s = pd.Series(data = data2, index = index2)
s

a    1.0
b    2.0
d    NaN
dtype: float64

#### 如上，index项用于从当前已有索引中匹配出相同的行，如果当前索引缺失给定的索引，则填充NaN（NaN：not a number为pandas缺失值标记）。

----
# 2. DataFrame
DataFrame由具有共同索引的Series按列排列构成（2D），是使用最多的对象。

## 2.1 预览

In [8]:
data = [[1,2,3],
       [4,5,6]]
index = ['a','b']
columns = ['A','B','C']
df = pd.DataFrame(data=data, index = index, columns = columns)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [9]:
df.index  # 行索引

Index(['a', 'b'], dtype='object')

In [20]:
df.columns  # 列索引，与Series的name一个意思

Index(['A', 'B', 'C'], dtype='object')

In [10]:
df.values 

array([[1, 2, 3],
       [4, 5, 6]], dtype=int64)

In [12]:
df.dtypes  # 这里的dtype带s，查看每列元素类型

A    int64
B    int64
C    int64
dtype: object

----
## 2.2 创建
#### `pd.DataFrame(data=None, index=None, columns=None)`
函数由多个参数，对我们有用的主要是：`data`,`index`和`columns`三项

### 2.1 data无 行索引，无 列索引
- 如果 data 为 **ndarray(2D) or list(2D)**，那么其缺少 DataFrame 需要的行、列索引信息；
- 如果提供 index 或 columns 项，其必须和data的行 或 列长度相同；
- 如果不提供 index 或 columns 项，那么其将默认生成数值索引range(0, data.shape[0])) 或 range(0, data.shape[1])。

In [84]:
# data = [[1,2,3],
#        [4,5,6]]
data1 = np.array([[1,2,3],
                [4,5,6]] )
index1 = ['a','b']
columns1 = ['A','B','C']
df = pd.DataFrame(data=data1, index = index1, columns = columns1)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


### 2.2 data无 行索引，有 列索引
 - 如果data为 **dict of ndarray(1D) or list(1D)**，所有ndarray或list的长度必须相同。且dict的key为DataFrame提供了需要的columns信息，缺失index；
 - 如果提供 index 项，必须和list的长度相同；
 - 如果不提供 index，那么其将默认生成数值索引range(0, data.shape[0]))；
 - 如果还额外提供了columns项，那么其将对当前构建的DataFrame进行 **列重索引**。

In [85]:
data2 = { 'A' : [1,4], 'B': [2,5], 'C':[3,6] }
index2 = ['a','b']
columns2 = ['A','B','D']
df = pd.DataFrame(data=data2, index = index2, columns = columns2)
df

Unnamed: 0,A,B,D
a,1,2,
b,4,5,


### 2.3 data有 行索引，有 列索引
 - 如果data为 **dict of Series or dict**，那么其已经提供了DataFrame需要的所有信息；
 - 如果多个Series或dict间的索引不一致，那么取并操作（pandas不会试图丢掉信息），缺失的数据填充NaN；
 - 如果提供了index项或columns项，那么其将对当前构建的DataFrame进行 重索引（reindex，pandas内部调用接口）。

In [93]:
# data3 = { 'A' : pd.Series([1,4] ,index = ['a','b']), 'B' : pd.Series([2,5] ,index = ['a','b']), 'C' : pd.Series([3,6] ,index = ['a','c']) }
data3 = { 'A' : { 'a':1, 'b':4}, 'B': {'a':2,'b':5}, 'C':{'a':3, 'c':6} }
df = pd.DataFrame(data=data3)
df

Unnamed: 0,A,B,C
a,1.0,2.0,3.0
b,4.0,5.0,
c,,,6.0


---
# 3. 文件读写

#### `pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None,index_col=None, encoding=None ) `
read_csv的参数很多，但这几个参数就够我们使用了：
- filepath_or_buffer：路径和文件名不要带中文，带中文容易报错。
- sep: csv文件数据的分隔符，默认是','，根据实际情况修改；
- header：如果有列名，那么这一项不用改；
- names：如果没有列名，那么必须设置header = None， names为列名的列表，不设置默认生成数值索引；
- index_col：int型，选取这一列作为索引。
- encoding：根据你的文档编码来确定，如果有中文读取报错，试试encoding = 'gbk'。


#### `pd.read_excel(io, sheetname=0, header=0, index_col=None, names=None) `
read_excel的参数很多，但这几个参数就够我们使用了：
- header：如果有列名，那么这一项不用改；
- names：如果没有列名，那么必须设置header = None， names为列名的列表，不设置默认生成数值索引；
- index_col：int型，选取这一列作为索引。

#### `pd.to_csv`

In [6]:
help(pd.DataFrame.to_csv)

Help on function to_csv in module pandas.core.frame:

to_csv(self, path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"', line_terminator='\n', chunksize=None, tupleize_cols=False, date_format=None, doublequote=True, escapechar=None, decimal='.')
    Write DataFrame to a comma-separated values (csv) file
    
    Parameters
    ----------
    path_or_buf : string or file handle, default None
        File path or object, if None is provided the result is returned as
        a string.
    sep : character, default ','
        Field delimiter for the output file.
    na_rep : string, default ''
        Missing data representation
    float_format : string, default None
        Format string for floating point numbers
    columns : sequence, optional
        Columns to write
    header : boolean or list of string, default True
        Write out column names. If 

#### `pd.to_excel`

In [7]:
help(pd.DataFrame.to_excel)

Help on function to_excel in module pandas.core.frame:

to_excel(self, excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True)
    Write DataFrame to a excel sheet
    
    Parameters
    ----------
    excel_writer : string or ExcelWriter object
        File path or existing ExcelWriter
    sheet_name : string, default 'Sheet1'
        Name of sheet which will contain DataFrame
    na_rep : string, default ''
        Missing data representation
    float_format : string, default None
        Format string for floating point numbers
    columns : sequence, optional
        Columns to write
    header : boolean or list of string, default True
        Write out column names. If a list of string is given it is
        assumed to be aliases for the column names
    index : boolean, default True
        Write row names (index)
 

In [2]:
tips = pd.read_csv( 'tips.csv')
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [73]:
tips.index

RangeIndex(start=0, stop=244, step=1)

In [74]:
tips.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

In [75]:
tips.values

array([[16.99, 1.01, 'Female', ..., 'Sun', 'Dinner', 2],
       [10.34, 1.66, 'Male', ..., 'Sun', 'Dinner', 3],
       [21.01, 3.5, 'Male', ..., 'Sun', 'Dinner', 3],
       ..., 
       [22.67, 2.0, 'Male', ..., 'Sat', 'Dinner', 2],
       [17.82, 1.75, 'Male', ..., 'Sat', 'Dinner', 2],
       [18.78, 3.0, 'Female', ..., 'Thur', 'Dinner', 2]], dtype=object)

In [8]:
# output
tips.to_csv('tips_out.csv')
tips.to_excel('tips_out.xlsx')