In [1]:
'''
@Author: Haihui Pan
@Date: 2021-12-21
@Ref: https://www.runoob.com/pandas/pandas-dataframe.html
'''
import pandas as pd

# DataFrame

* 我们日常接触到的数据通常是都记录在各种表格中，如excel,数据库中的table...。Pandas则提供了DataFrame这种具备表格型的数据结构来处理这种数据。如下图所示，DataFrame可以看做是由多列组成的集合，每一列可以是不同的数据类型（int,string,bool...）。DataFrame既包含列索引，也包含行索引，其中每一列就相当于一个Series。


* DataFrame提供了多种初始化的方法，包括从dict和文件(txt,csv,excel,json...)进行读取初始化


## 内容
* DataFrame初始化
  * 通过dict初始化
  * 读取文件初始化
    * excel
    * csv
    * txt
    * json
* DataFrame保存
  * excel
  * csv
  * json

In [2]:
%%html
<img src="pd_dataframe.png",width="80%",height="80%">

## DataFrame初始化

### 通过ditc初始化

In [3]:
# 拥有多列信息存放在list中
name_list=['Tom','Mike','Mary','Jack','Tim','Jim']
age_list=[8,7,8,9,7,8]
sex_list=['M','M','F','M','M','M']

#通过dict将其进行合并
student={'name':name_list,'age':age_list,'sex':sex_list}

#通过dict来初始化DataFrame
df_student=pd.DataFrame(student)

df_student

Unnamed: 0,name,age,sex
0,Tom,8,M
1,Mike,7,M
2,Mary,8,F
3,Jack,9,M
4,Tim,7,M
5,Jim,8,M


### 读取excel

In [4]:
#读取整个excel，包括所有sheet
df_excel=pd.read_excel('student.xlsx',sheet_name=None)

#罗列sheet name
sheet_name_list = list(df_excel.keys())
sheet_name_list

['Sheet1']

In [5]:
#获取对应sheet_name的数据
df_student = df_excel[sheet_name_list[0]]

#打印前5条数据
df_student.head()

Unnamed: 0,name,age,sex
0,Tom,8,M
1,Mike,7,M
2,Mary,8,F
3,Jack,9,M
4,Tim,7,M


### 读取csv

In [6]:
#读取指定的csv，header=0表示第0行为列名,sep为分隔符
df_csv=pd.read_csv('student.csv',header=0,sep=',')

#打印前5条数据
df_csv.head()

Unnamed: 0,name,age,sex
0,Tom,8,M
1,Mike,7,M
2,Mary,8,F
3,Jack,9,M
4,Tim,7,M


### 读取txt

In [7]:
#txt的读取方法与csv一致，但是要确认字段间的分割符
df_txt=pd.read_csv('student.txt',header=0,sep=',')

#打印前5条数据
df_txt.head()

Unnamed: 0,name,age,sex
0,Tom,8,M
1,Mike,7,M
2,Mary,8,F
3,Jack,9,M
4,Tim,7,M


### 读取json

In [8]:
#直接从json字符串进行读取
student_json='[{"name":"Tom","age":8,"sex":"M"},{"name":"Mike","age":7,"sex":"M"},{"name":"Mary","age":8,"sex":"F"},{"name":"Jack","age":9,"sex":"M"},{"name":"Tim","age":7,"sex":"M"},{"name":"Jim","age":8,"sex":"M"}]'

#从json字符串直接进行初始化
df_json=pd.read_json(student_json, orient='records')
df_json.head()

Unnamed: 0,name,age,sex
0,Tom,8,M
1,Mike,7,M
2,Mary,8,F
3,Jack,9,M
4,Tim,7,M


In [9]:
#从json文件中进行初始化
df_json=pd.read_json('student.json')
df_json.head()

Unnamed: 0,name,age,sex
0,Tom,8,M
1,Mike,7,M
2,Mary,8,F
3,Jack,9,M
4,Tim,7,M


## DataFrame保存

In [10]:
#将DataFrame保存为csv
df_student.to_csv('student.csv',index=False)

#将DataFrame保存为excel
df_student.to_excel('student.xlsx',index=False)

#将DataFrame保存为json
df_student.to_json('student.json',orient='records')