### 1.4 数据读取与存储

在数据分析和处理过程中，经常需要读取各种格式的数据文件并进行存储。Pandas提供了丰富的功能来处理这些操作。以下是一些常见的数据读取和存储方法。


1. **CSV文件**：

In [3]:
import pandas as pd

# # 创建示例数据
# data_csv = {
#     'Name': ['Alice', 'Bob', 'Charlie', 'David'],
#     'Age': [24, 27, 22, 32],
#     'City': ['New York', 'San Francisco', 'Los Angeles', 'Chicago']
# }

# df_csv = pd.DataFrame(data_csv)

# 保存为CSV文件
df_csv.to_csv('example.csv', index=False)


# 读取CSV文件
df_csv = pd.read_csv('example.csv')

print(df_csv.head())

      Name  Age           City
0    Alice   24       New York
1      Bob   27  San Francisco
2  Charlie   22    Los Angeles
3    David   32        Chicago


2. **Excel文件**：

In [4]:
# # 创建示例数据
# data_excel = {
#     'Product': ['Widget', 'Gadget', 'Thingamajig'],
#     'Price': [19.99, 29.99, 39.99],
#     'Quantity': [100, 150, 200]
# }

# df_excel = pd.DataFrame(data_excel)

# # 保存为Excel文件
# df_excel.to_excel('example.xlsx', sheet_name='Sheet1', index=False)


# 读取Excel文件
df_excel = pd.read_excel('example.xlsx', sheet_name='Sheet1')

print(df_excel.head())

  df_excel.to_excel('example.xlsx', sheet_name='Sheet1', index=False)


       Product  Price  Quantity
0       Widget  19.99       100
1       Gadget  29.99       150
2  Thingamajig  39.99       200


3. **SQL数据库**：

In [None]:
import sqlite3

# 创建数据库连接
conn = sqlite3.connect('example.db')

# 读取SQL查询结果到DataFrame
df_sql = pd.read_sql_query('SELECT * FROM table_name', conn)

print(df_sql.head())

4. **JSON文件**：

In [9]:
# 创建示例数据
data_json = {
    'Company': ['Company A', 'Company B', 'Company C'],
    'Revenue': [1000000, 1500000, 2000000],
    'Employees': [50, 75, 100]
}

df_json = pd.DataFrame(data_json)

# 保存为JSON文件
df_json.to_json('example.json')

# 读取JSON文件
df_json = pd.read_json('example.json')

print(df_json.head())

     Company  Revenue  Employees
0  Company A  1000000         50
1  Company B  1500000         75
2  Company C  2000000        100


5. **HTML表格**：

In [None]:
# 读取HTML表格
url = 'your url'
dfs_html = pd.read_html(url)

# 读取第一个表格
df_html = dfs_html[0]

print(df_html.head())

#### 示例代码

下面是一个综合示例，展示了如何读取和存储不同格式的数据。

In [14]:
import pandas as pd
import sqlite3

# 读取CSV文件
df_csv = pd.read_csv('example.csv')
print("CSV文件内容:")
print(df_csv.head())

# 读取Excel文件
df_excel = pd.read_excel('example.xlsx', sheet_name='Sheet1')
print("\nExcel文件内容:")
print(df_excel.head())

# # 读取SQL数据库
# conn = sqlite3.connect('example.db')
# df_sql = pd.read_sql_query('SELECT * FROM table_name', conn)
# print("\nSQL数据库内容:")
# print(df_sql.head())

# 读取JSON文件
df_json = pd.read_json('example.json')
print("\nJSON文件内容:")
print(df_json.head())

# # 读取HTML表格
# url = 'https://example.com/table.html'
# dfs_html = pd.read_html(url)
# df_html = dfs_html[0]
# print("\nHTML表格内容:")
# print(df_html.head())

# 存储为CSV文件
df_csv.to_csv('output.csv', index=False)
print("\nCSV文件已保存为 'output.csv'")

# 存储为Excel文件
df_excel.to_excel('output.xlsx', sheet_name='Sheet1', index=False)
print("\nExcel文件已保存为 'output.xlsx'")

# 存储到SQL数据库
# df_sql.to_sql('table_name', conn, if_exists='replace', index=False)
# print("\nSQL数据库已更新")

# 存储为JSON文件
df_json.to_json('output.json')
print("\nJSON文件已保存为 'output.json'")

CSV文件内容:
      Name  Age           City
0    Alice   24       New York
1      Bob   27  San Francisco
2  Charlie   22    Los Angeles
3    David   32        Chicago

Excel文件内容:
       Product  Price  Quantity
0       Widget  19.99       100
1       Gadget  29.99       150
2  Thingamajig  39.99       200

JSON文件内容:
     Company  Revenue  Employees
0  Company A  1000000         50
1  Company B  1500000         75
2  Company C  2000000        100

CSV文件已保存为 'output.csv'

Excel文件已保存为 'output.xlsx'

JSON文件已保存为 'output.json'


  df_excel.to_excel('output.xlsx', sheet_name='Sheet1', index=False)
