In [3]:
import pandas as pd
import numpy as np

# 1. 创建

## 创建列表

In [4]:
frame1 = pd.DataFrame(
    {
        'name':["Alice","Bob","Caven"],
        'age':[18,19,20],
        'sex':["female","male","male"],
        'class':[3,2,7]
    }
)
frame1

Unnamed: 0,name,age,sex,class
0,Alice,18,female,3
1,Bob,19,male,2
2,Caven,20,male,7


## 添加新的列

In [None]:
# 利用str.len()遍历了表格中Name列的数据, 存在name_length这个series中
name_length = babynames["Name"].str.len()

# 创建新列, 值为name_length
babynames["name_lengths"] = name_length

## 删除列

# 2.读取文件

## json : read_json("addr/data")

In [None]:
valid_zips = pd.read_json("data/sf_zipcodes.json")

# 3.查看基本信息

## shape,查看行属于列数

In [21]:
frame1.shape
frame1.shape[0]

3

## 查找最大最小值

使用`max`和`min`函数找出最大最小值的使用场景：

1. **数值列的最大值和最小值**：
   如果您的数据框中有数值类型的列，例如整数或浮点数，您可以使用`max`和`min`函数来找出这些列的最大值和最小值。

   ```python
   # 假设 ins 包含一个名为 'value' 的数值型列
   max_value = ins['value'].max()
   min_value = ins['value'].min()
   ```

2. **条件最大值和最小值**：
   您可以结合条件过滤和`max`/`min`函数来找出满足特定条件的行的最大值或最小值。

   ```python
   # 找出特定条件下的最大值
   max_value_condition = ins[ins['condition'] == True]['value'].max()

   # 找出特定条件下的最小值
   min_value_condition = ins[ins['condition'] == False]['value'].min()
   ```

3. **分组后的最大值和最小值**：
   使用`groupby`结合`max`/`min`可以对分组数据进行聚合，找出每组的最大值或最小值。

   ```python
   # 假设我们按 'category' 列分组，并找出每组的最大和最小 'value'
   grouped_max = ins.groupby('category')['value'].max()
   grouped_min = ins.groupby('category')['value'].min()
   ```

4. **跨列的最大值和最小值**：
   使用`idxmax`和`idxmin`可以找出每行或每列中的最大值和最小值的索引位置。

   ```python
   # 找出每行中 'value' 列的最大值所在列的索引
   idxmax_values = ins['value'].idxmax()

   # 找出每列中的最大值所在行的索引
   idxmax_across_columns = ins.idxmax(axis=1)
   ```

5. **时间序列的最大值和最小值**：
   对于时间序列数据，除了找出最早的和最晚的时间点外，您还可以使用`resample`进行时间序列的重采样，然后应用`max`/`min`来找出重采样时间段内的最大值和最小值。

   ```python
   # 重采样为每天的最大值和最小值
   daily_max = ins.set_index('timestamp').resample('D')['value'].max()
   daily_min = ins.set_index('timestamp').resample('D')['value'].min()
   ```


## values,查看numpy二维数组

In [14]:
frame1.values

array([['Alice', 18, 'female', 3],
       ['Bob', 19, 'male', 2],
       ['Caven', 20, 'male', 7]], dtype=object)

## 查询series中的个数可以用len()

In [27]:
series1 = pd.Series([1,2,3,4,5]) 
len(series1)

## dtypes['column']:查询列的类型

In [5]:
frame_type = frame1.dtypes['name']
print(frame_type)

object


## type(iloc[1,2])查询具体一个值的类型

In [None]:
ins_date_type = type(ins.loc[0,"date"])
ins_date_type

# 4.更改

## 更改列名

In [19]:
frame1 = frame1.rename(columns = {"sex":"gender"})
frame1

Unnamed: 0,name,age,gender,class
0,Alice,18,female,3
1,Bob,19,male,2
2,Caven,20,male,7


## split(" ").str[0]: 指定分割并提取

In [None]:
ins["bid"] = ins["iid"].str.split("_").str[0]

# 5. 转换

## 列转换成指定的type:astype()

In [None]:
valid_zips = valid_zips["zip_codes"].astype(str)

## 转换成datetime:pd.to_datetime()

https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html#pandas-to-datetime

In [None]:
ins['timestamp'] = pd.to_datetime("03-29-2003 12:23:39 AM", format='%m/%d/%Y %I:%M:%S %p')

这里的 `format` 参数解释如下：
- `%m` 表示月份（01 到 12）
- `%d` 表示日期（01 到 31）
- `%Y` 表示四位数的年份
- `%I` 表示12小时制的小时数（01 到 12）
- `%M` 表示分钟（00 到 59）
- `%S` 表示秒（00 到 59）
- `%p` 表示AM/PM指示器

使用这个格式字符串，`pd.to_datetime` 函数将能够正确解析您的日期时间列。如果您的列中包含多种不同的日期时间格式，您可能需要额外的逻辑来处理这些情况。


# 6. 筛选

## .isin 筛选出存在这个列表里的

In [None]:
bus.loc[~bus['postal5'].isin(valid_zips), 'postal5'] = None

## 对datetime格式的数据筛选出特定年份/月份/日等

在Pandas中，`Series.dt` 属性是一个访问器，它提供了对 datetime-like（类似日期时间）数据的丰富操作。当您的 Pandas `Series` 对象包含日期时间数据时，您可以使用 `.dt` 来执行各种与日期时间相关的操作。

`pandas.Series.dt.year` 是 `.dt` 访问器的一个属性，它用于提取 `Series` 中每个 datetime 值的年份部分。这将返回一个新的 `Series`，其中包含原始 datetime 对应的年份。

以下是使用 `pandas.Series.dt.year` 的一些示例：

1. **提取年份**：
   如果您有一个包含日期时间的 `Series`，您可以使用 `.dt.year` 来提取年份。

   ```python
   import pandas as pd

   # 创建一个包含日期时间的 Series
   dates = pd.Series(["2021-01-01", "2022-06-15", "2023-12-31"])
   # 确保 Series 是 datetime 类型
   dates = pd.to_datetime(dates)

   # 提取年份
   years = dates.dt.year
   print(years)
   ```

   输出将是：
   ```
   0    2021
   1    2022
   2    2023
   dtype: int64
   ```

2. **基于年份的筛选**：
   您可以使用提取的年份来筛选数据。

   ```python
   # 筛选出2022年的记录
   filtered_dates = dates[dates.dt.year == 2022]
   print(filtered_dates)
   ```

3. **与其他日期时间属性结合使用**：
   `.dt` 访问器提供了许多其他属性，如 `.month`, `.day`, `.hour`, `.minute` 等，您可以结合使用它们来执行更复杂的日期时间操作。

   ```python
   # 提取月份和日期
   months = dates.dt.month
   days = dates.dt.day
   ```

使用 `.dt` 访问器是处理日期时间数据的一种非常强大和方便的方式，它允许您快速访问和操作日期时间的组成部分。


# 7.判断

## .all(), 判断 pandas 对象中的所有元素是否都满足某个条件

### 判断一个列是不是都是True

In [None]:
s = pd.Series([True, True, True])
all_true = s.all()
print(all_true)  # 输出: True

# 8. pivot_table

## 基本用法
pivot_table 函数的作用是创建一个透视表，它类似于 Excel 中的数据透视表。你可以用它来对数据进行汇总、计算和转换，使数据更具可读性。

In [2]:
pandas.pivot_table(
    data, 
    values=None, 
    index=None, 
    columns=None, 
    aggfunc='mean', 
    fill_value=None, 
    dropna=True, 
    margins=False, 
    margins_name='All', 
    sort=True
)

NameError: name 'pandas' is not defined

## size和sum

在Pandas中，`size` 和 `sum` 是两种不同的聚合函数，它们在 `pivot_table` 或其他聚合操作中使用时有不同的行为：

1. **`size`**：
   - `size` 函数返回非NA/null值的数量。
   - 它通常用于计数，特别是在需要统计每个组中元素数量的场景中。
   - `size` 函数的结果是一个整数，表示每个组中的元素数。
   - 使用 `size` 进行聚合时，不会影响数据的类型（例如，不会将布尔值转换为整数）。

2. **`sum`**：
   - `sum` 函数返回数值的总和。
   - 它通常用于数值数据的求和，但也可以用来计算布尔值的“真”数量（因为 `True` 被当作 1，`False` 被当作 0）。
   - `sum` 函数的结果是一个数值，表示所有数值的总和。
   - 使用 `sum` 进行聚合时，结果的类型取决于输入数据的类型。

**区别**：
- 当使用 `size` 时，它只计算非空（NA/null）值的数量。这意味着如果一个组中所有值都是NA/null，`size` 的结果将是0。
- 当使用 `sum` 时，它会计算所有值的总和，包括布尔值（`True` 为 1，`False` 为 0）。如果一个组中所有值都是NA/null，`sum` 的结果将是NA/null。

**使用场景**：
- 如果你想统计每个组中的元素数量，使用 `size`。
- 如果你想计算数值的总和或布尔值的“真”数量，使用 `sum`。

例如，考虑以下数据：

```python
import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, None, 4],
    'B': [True, False, True, None],
    'C': ['x', 'y', None, 'z']
})
```

使用 `size` 和 `sum` 的结果如下：

```python
size_result = df.apply(pd.Series.nunique)
print(size_result)
# A    3
# B    2
# C    2
# dtype: int64

sum_result = df.apply(sum, axis=0)
print(sum_result)
# A    7.0
# B    1.0
# C    NaN
```

在这个例子中：
- `size` 计算了每列非空值的数量。
- `sum` 计算了每列的数值总和，对于布尔值 `True` 和 `False` 分别计算为 1 和 0，但对于非数值列（如 'C'），结果为 NaN。
