# 数据加载、存储与文件格式

## 1、读写文本格式的数据

In [1]:
import pandas as pd
import numpy as np

In [5]:
file_name = "file/1.csv"
# 文件 1.csv 文件内容如下:
# name,sex,score
# a,boy,90
# b,girl,80
# c,girl,85
# d,boy,75
# e,boy,80

### 1.1、read_csv
**文件分隔符默认为逗号**

In [6]:
c1 = pd.read_csv(file_name)
print(c1)
print(type(c1))

# 去掉列名
# 这时会把第一行，作为dataframe的列索引
c1 = pd.read_csv(file_name,skiprows=1)
print(c1)

# 更换列索引
c1 = pd.read_csv(file_name,names=['N','S','F'])
print(c1)

# 读取文件有效数据前3行
c1 = pd.read_csv(file_name,nrows=3)
print(c1)

# 保存文件
c1.to_csv('file/new_1.csv',index=None)

  name   sex  score
0    a   boy     90
1    b  girl     80
2    c  girl     85
3    d   boy     75
4    e   boy     80
<class 'pandas.core.frame.DataFrame'>
   a   boy  90
0  b  girl  80
1  c  girl  85
2  d   boy  75
3  e   boy  80
      N     S      F
0  name   sex  score
1     a   boy     90
2     b  girl     80
3     c  girl     85
4     d   boy     75
5     e   boy     80
  name   sex  score
0    a   boy     90
1    b  girl     80
2    c  girl     85


### 1.2、read_table
**文件分隔符默认为制表符**

In [7]:
# 由于file_name为csv格式，因此定义分隔符为,
t1 = pd.read_table(file_name,sep=',')
print(t1)

# 保存文件
t1.to_json('file/new_11.json')

  name   sex  score
0    a   boy     90
1    b  girl     80
2    c  girl     85
3    d   boy     75
4    e   boy     80


### 1.3、读取json文件

In [8]:
import json
file = 'file/new_11.json'
with open(file,'r') as fp:
    result = json.load(fp)

# 只读取name和sex列
t2 = pd.DataFrame(result,columns=['name','sex'])
print(t2)

  name   sex
0    a   boy
1    b  girl
2    c  girl
3    d   boy
4    e   boy


## 2、HDF5格式

In [12]:
# 可以先安装 pip install tables
store = pd.HDFStore("file/hdf5")
# 先保存
# store['f'] = t1
# store.close()
# 后读取
print(store['f'])

  name   sex  score
0    a   boy     90
1    b  girl     80
2    c  girl     85
3    d   boy     75
4    e   boy     80


## 3、读取excel文件

In [9]:
# 需要先安装 pip install xlrd
excel_name = "file/1.xlsx"
# 载入文件
xls = pd.ExcelFile(excel_name)
# 解析那个sheet
table = xls.parse('1')
print(table)

  name   sex  score
0    a   boy     90
1    b  girl     80
2    c  girl     85
3    d   boy     75
4    e   boy     80


## 4、使用数据库
**这里以sqlite3为例**

In [14]:
import sqlite3
table_create = '''
    create table test(name varchar(5),sex varchar(5))
'''
# 创建测试表
conn = sqlite3.connect('file/test.db')
conn.execute(table_create)
conn.commit()

# 插入数据
data = [('a','boy'),('b','boy'),('c','girl'),('d','boy')]
insert_sql = "insert into test values(?,?)"
conn.executemany(insert_sql,data)
conn.commit()

In [18]:
import pandas.io.sql as sql

result = sql.read_sql_query("select * from test",conn)
print(type(result))
print(result)

sql.read_sql("select * from test",conn)

<class 'pandas.core.frame.DataFrame'>
  name   sex
0    a   boy
1    b   boy
2    c  girl
3    d   boy


Unnamed: 0,name,sex
0,a,boy
1,b,boy
2,c,girl
3,d,boy
