## 数据导入与导出

### 读取csv文件

In [5]:
import pandas as pd

data = pd.read_csv('salary.csv')

# head() 方法用于查看 DataFrame 的前几行数据（默认为5行）。
# print(data.head())
# 显示全部数据
print(data)

      Name  Age          City  Salary
0    Alice   30      New York   70000
1      Bob   25   Los Angeles   60000
2  Charlie   35       Chicago   80000
3    David   40       Houston   90000
4      Eve   28       Phoenix   65000
5    Frank   33  Philadelphia   72000
6    Grace   29   San Antonio   58000
7     Hank   42        Dallas   95000
8      Ivy   26     San Diego   62000
9     Jack   36      San Jose   85000


**read_csv常见参数：**

filepath_or_buffer: 要读取的文件路径或 URL。

sep: 分隔符，默认值为 ,，如果你的文件使用其他分隔符（如制表符），可以指定，例如 sep='\t'。

header: 指定哪一行作为列名，默认为第0行。如果没有列名，可以设置为 None。

index_col: 指定哪一列作为索引，默认为 None。

usecols: 用于指定需要读取的列，接受列名或列的索引。

dtype: 指定某些列的数据类型。

na_values: 自定义缺失值标记。

In [26]:
import pandas as pd

# 从 CSV 文件读取数据
df = pd.read_csv(
    'salary.csv',
    sep=',',
    header=0,
    index_col=None,
    usecols=['Name', 'Salary'], # 只读取两列
    dtype={
        'Name': str, 
        'Salary': float # int 不允许NAN，可以使用float，或者不指定数据类型
    }, # 指定列得类型
    na_values=['NA', '', 'NULL', None, ' '],  # 指定缺失值
    encoding='utf-8'
)

# 显示缺失值统计
print("缺失值统计：\n", df.isnull().sum())
print("-------------")

# 清洗NA值
df['Salary'] = df['Salary'].fillna(0).astype(int)

# 显示数据的前五行
print(df.head())

缺失值统计：
 Name      0
Salary    1
dtype: int64
-------------
      Name  Salary
0    Alice   70000
1      Bob   60000
2  Charlie   80000
3    David   90000
4      Eve   65000


### 读取excel文件

In [32]:
import pandas as pd

# 从 Excel 文件读取数据
df = pd.read_excel(
    'salary.xlsx',        # Excel 文件的路径
    sheet_name='salary', # 指定工作表名称（可选）
    header=0,           # 指定行作为列名
    index_col=None,     # 不指定索引列
    na_values=['NA', '', 'NULL', None],  # 指定缺失值
    dtype={'Name': str, 'Age': int, 'Salary': float} # 指定列的数据类型（可选）
)

print("data type:", type(df))
print("keys:", df.keys(), "\n")

print()
# 显示前五行数据
print(df.head())

data type: <class 'pandas.core.frame.DataFrame'>
keys: Index(['Name', 'Age', 'City', 'Salary'], dtype='object') 


      Name  Age         City   Salary
0    Alice   30     New York  70000.0
1      Bob   25  Los Angeles  60000.0
2  Charlie   35      Chicago  80000.0
3    David   40      Houston  90000.0
4      Eve   28      Phoenix  65000.0


> 注意事项： 安装所需库: 确保你已经安装了 pandas 和 openpyxl（用于读取 .xlsx 文件）或 xlrd（用于读取 .xls 文件）。你可以使用以下命令进行安装：

```bash
pip install pandas openpyxl
```

### 读取制表符分隔的文件

In [39]:
import pandas as pd

# 从 Excel 文件读取数据
df = pd.read_table(
    'salary.txt',        # Excel 文件的路径
    header=0,           # 指定行作为列名
    index_col=None,     # 不指定索引列
    sep='\t',
    na_values=['NA', '', 'NULL', None],  # 指定缺失值
    dtype={'Name': str, 'Age': int, 'Salary': float} # 指定列的数据类型（可选）
)

print("data type:", type(df))
print("keys:", df.keys(), "\n")

print()
# 显示前五行数据
print(df.head())

data type: <class 'pandas.core.frame.DataFrame'>
keys: Index(['Name Age City Salary'], dtype='object') 


       Name Age City Salary
0   Alice 30 New York 70000
1  Bob 25 Los Angeles 60000
2  Charlie 35 Chicago 80000
3    David 40 Houston 90000
4      Eve 28 Phoenix 65000


> read_csv一般读取csv文件，默认使用逗号分隔，read_table更通用，默认使用制表符（\t）作为字段分隔符，常用于读取以制表符或其他分隔符分隔的数据。

### 读取json文件

In [45]:
import pandas as pd

# 从 Json 文件读取数据
df = pd.read_json('salary.json')

print(df)

      Name  Age          City  Salary
0    Alice   30      New York   70000
1      Bob   25   Los Angeles   60000
2  Charlie   35       Chicago   80000
3    David   40       Houston   90000
4      Eve   28       Phoenix   65000
5    Frank   33  Philadelphia   72000
6    Grace   29   San Antonio   58000
7     Hank   42        Dallas   95000
8      Ivy   26     San Diego   62000
9     Jack   36      San Jose   85000


加入，读取的json数据结构变了，该怎么读取：

```json
{
    "salarys": [
        {"Name": "Alice", "Age": 30, "City": "New York", "Salary": 70000},
        .....
    ]
}
```

In [54]:
import pandas as pd

# 从 JSON 文件读取数据
df = pd.read_json('salary2.json')

# 提取 salarys 键中的数据
salary_data = df['salarys']

# 将提取的数据转换为 DataFrame
salary_df = pd.DataFrame(salary_data.tolist())

# 打印 DataFrame 的前几行
print(salary_df.head())
print('------分割线------')
# 打印 DataFrame 的信息
print(salary_df.info())

      Name  Age         City  Salary
0    Alice   30     New York   70000
1      Bob   25  Los Angeles   60000
2  Charlie   35      Chicago   80000
3    David   40      Houston   90000
4      Eve   28      Phoenix   65000
------分割线------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    10 non-null     object
 1   Age     10 non-null     int64 
 2   City    10 non-null     object
 3   Salary  10 non-null     int64 
dtypes: int64(2), object(2)
memory usage: 448.0+ bytes
None


### 从 SQL 数据库读取数据

**安装必要的库**

如果您还没有安装 pandas 和数据库驱动程序（例如，对于 SQLite、MySQL 或 PostgreSQL），请先安装这些库。您可以使用以下命令：

```bash
pip install pandas sqlalchemy
# 例如，如果您使用 MySQL：
pip install pymysql
# 如果使用 PostgreSQL：
pip install psycopg2
```

In [None]:
import pandas as pd
from sqlalchemy import create_engine

# 创建 SQLite 数据库连接
engine = create_engine('sqlite:///path_to_your_database.db')
# 创建 MySQL 数据库连接
# engine = create_engine('mysql+pymysql://username:password@host:port/database_name')
# 创建 PostgreSQL 数据库连接
# engine = create_engine('postgresql://username:password@host:port/database_name')

# 从数据库中读取数据（假设有一个表名为 "employees"）
df = pd.read_sql('SELECT * FROM employees', con=engine)

# 打印 DataFrame 的前几行
print(df.head())

# 计算某个字段的平均值
average_salary = df['Salary'].mean()
print(f'Average Salary: {average_salary}')

# 筛选特定条件的数据
high_earners = df[df['Salary'] > 70000]
print(high_earners)

### 数据导出为 CSV、Excel 和 JSON 格式

In [None]:
import pandas as pd

# 生成示例数据
data = {
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve"],
    "Age": [30, 25, 35, 40, 28],
    "City": ["New York", "Los Angeles", "Chicago", "Houston", "Phoenix"],
    "Salary": [70000, 60000, 80000, 90000, 65000]
}

# 创建 DataFrame
df = pd.DataFrame(data)

# 打印 DataFrame
print("生成的数据:")
print(df)

# 导出为 CSV
df.to_csv('output.csv', index=False, encoding='utf-8')
print("\n数据已导出为 output.csv")

# 导出为 Excel
df.to_excel('output.xlsx', index=False, engine='openpyxl')
print("数据已导出为 output.xlsx")

# 导出为 JSON
df.to_json('output.json', orient='records', lines=True)
print("数据已导出为 output.json")