# Basic
> 数据分析基础知识

# Python

## pathlib
pathlib模块提供了处理文件路径和目录路径的功能，它是Python标准库中的一部分。pathlib模块以面向对象的方式提供了简洁而直观的API，用于操作文件系统中的路径。

In [1]:
from pathlib import Path

# 创建路径对象
path = Path('./test/hello')

# 获取路径的各个部分
print('文件名:', path.name)          # file.txt
print('父目录:', path.parent)        # /path/to
print('后缀:', path.suffix)          # .txt
print('文件名（不含后缀）:', path.stem)  # file

# 判断路径是否存在
print('路径是否存在:', path.exists())     # False

# 创建目录
path.parent.mkdir(parents=True, exist_ok=True)

# 创建文件
path.touch()

# 写入文件内容
path.write_text('Hello, World!')

# 读取文件内容
content = path.read_text()
print('文件内容:', content)   # Hello, World!

# 遍历目录中的文件
directory = Path('./test')
for file in directory.iterdir():
    if file.is_file():
        print('文件:', file.name)

# 连接路径
new_path = path.parent / 'new_file.txt'
print('新路径:', new_path)    # /path/to/new_file.txt

# 解析路径
parsed_path = Path('./test/')
print('目录名:', parsed_path.parent.name)   # to

# 规范化路径
normalized_path = Path('./test/')
print('规范化路径:', normalized_path.resolve())   # /path/file.txt

# 删除文件
path.unlink()

# 验证文件是否存在
print('文件是否存在:', path.exists())  # False

# 删除目录
directory.rmdir()

文件名: hello
父目录: test
后缀: 
文件名（不含后缀）: hello
路径是否存在: False
文件内容: Hello, World!
文件: hello
新路径: test/new_file.txt
目录名: 
规范化路径: /Users/hawkins/Work/Proj/learn-data-analysis/nbs/test
文件是否存在: False


## Numpy 
Numpy教程 [User Guide](https://numpy.org/doc/stable/user/index.html) 

NumPy 提供了一个 N维的数组类型， ndarray, 用于描述相同类型的items。 

### The N-dimensional array(ndarray)

In [2]:
import numpy as np

x = np.array([[1, 2, 3], [4, 5, 7]], np.int32)
type(x)

numpy.ndarray

### `np.maximum()` 
`np.maximum()` 是 NumPy 库中的一个函数，用于比较两个数组或标量，并返回元素级别上的较大值。

下面是 `np.maximum()` 的使用示例：

In [3]:
import numpy as np

# 使用 np.maximum() 比较两个标量
max_scalar = np.maximum(3, 5)
print(max_scalar)  # 输出：5

# 使用 np.maximum() 比较两个数组
array1 = np.array([1, 2, 3, 4, 5])
array2 = np.array([2, 4, 1, 5, 3])
max_array = np.maximum(array1, array2)
print(max_array)  # 输出：[2 4 3 5 5]

5
[2 4 3 5 5]



在上述示例中，我们首先使用 `np.maximum()` 比较了两个标量，即 `3` 和 `5`。函数返回两个标量中的较大值 `5`。

接下来，我们使用 `np.maximum()` 比较了两个数组 `array1` 和 `array2`。函数对应位置上的元素进行比较，并返回一个新的数组，其中包含每个位置上的较大值。在这个例子中，`max_array` 的第一个元素是 `2`（`1` 和 `2` 中的较大值），第二个元素是 `4`（`2` 和 `4` 中的较大值），以此类推。

总结一下，`np.maximum()` 函数用于比较两个数组或标量，并返回一个新的数组，其中包含元素级别上的较大值。这个函数在处理数据比较和选择最大值等场景中非常有用。

## Datetimes and Timedeltas
`numpy.datetime64`和Python标准库中的`datetime`模块都是用于处理日期和时间的工具，但它们有一些不同之处。

- 数据类型：`numpy.datetime64`是NumPy中专门用于处理日期和时间的数据类型，而`datetime`是Python标准库中的一个模块，提供了多种日期和时间处理的工具类和函数，包括日期、时间、时间差、时区等等。
- 精度：`numpy.datetime64`的精度比`datetime`高，可以处理更小的时间间隔（如纳秒、微秒级别的时间间隔）。而`datetime`的精度最小只能到微秒级别。
- 内存占用：`numpy.datetime64`的内存占用比`datetime`更小，因为它使用了固定长度的二进制格式来表示日期和时间，而`datetime`使用了Python的对象模型，需要更多的内存。
- 运算：`numpy.datetime64`可以像数字一样进行运算，例如可以进行加减乘除、比较大小等操作，而`datetime`需要使用特定的方法来进行日期和时间的运算。
- 兼容性：`numpy.datetime64`与NumPy的其他数据类型（如数组）可以无缝集成使用，而`datetime`需要进行转换后才能和其他数据类型一起使用。

`numpy.datetime64`和`datetime`都提供了一些常用的方法来处理日期和时间，例如获取当前时间、格式化输出、计算时间差等。以下是它们的一些常用方法：

- `numpy.datetime64`的常用方法：

  - `numpy.datetime64('now')`：获取当前时间戳。
  - `numpy.datetime64('2000-01-01')`：创建一个指定日期的时间戳。
  - `numpy.datetime64('2000-01-01') + np.timedelta64(1, 'D')`：在时间戳上加上一段时间间隔。
  - `numpy.datetime64('2000-01-01').astype('datetime64[M]')`：将时间戳转换为指定的时间差类型。

- `datetime`的常用方法：

  - `datetime.datetime.now()`：获取当前时间。
  - `datetime.datetime(2000, 1, 1)`：创建一个指定日期的时间对象。
  - `datetime.datetime(2000, 1, 1) + datetime.timedelta(days=1)`：在时间对象上加上一段时间间隔。
  - `datetime.datetime.strftime('%Y-%m-%d')`：将时间对象格式化输出为字符串。

- `Timestamp` 的常用方法：

	- pd.Timestamp('now')：获取当前时间戳。
	- pd.Timestamp('2000-01-01')：创建一个指定日期的时间戳。
	- pd.Timestamp('2000-01-01') + pd.Timedelta(days=1)：在时间戳上加上一段时间间隔。
	- pd.Timestamp('2000-01-01').strftime('%Y-%m-%d')：将时间戳格式化输出为字符串。

需要注意的是，`numpy.datetime64`和`datetime`的方法命名和用法有些不同，需要根据具体的需求选择合适的工具。在使用这些方法时，需要注意数据类型的转换和精度的控制，以保证计算结果的正确性和可靠性。

In [None]:
import numpy as np

year = 2021
month = 5  
day = 25

date = np.datetime64(f'{year}-{month:02}-{day:02}')

print(date)
# 2021-05-25

2021-05-25


用一个整数和一个日期单位来创建datetime，时间的开始是 UNIX的开端，也就是1970年

In [None]:
np.datetime64(1, 'Y')

numpy.datetime64('1971')

In [None]:
np.array(['2007-07-13', '2008-08-09', '2009-09-12'], dtype='datetime64')

array(['2007-07-13', '2008-08-09', '2009-09-12'], dtype='datetime64[D]')

使用timedelta64进行时间计算

In [None]:
np.datetime64('2020-01-02')

numpy.datetime64('2020-01-22')

In [None]:
np.timedelta64(60, 'Y')

numpy.timedelta64(60,'Y')

Pandas中支持以下单位的时间差值：

- 'D'：天
- 'h'：小时
- 'm'：分钟
- 's'：秒
- 'ms'：毫秒
- 'us'：微秒
- 'ns'：纳秒

In [None]:
np.datetime64('2009-01-05') + np.timedelta64(20, 'Y').astype('m8[D]')

numpy.datetime64('2029-01-04')

In [None]:
# 过60年, m8[D] 和 timedelta64[D] 意思相同
np.datetime64('1989-04-10') + np.timedelta64(60, 'Y').astype('timedelta64[D]')

numpy.datetime64('2049-04-09')

In [None]:
# 计算年龄, > 表示向上舍入， <  表示向下舍入, 当时间差的小数部分小于0.5时，向下舍入和向上舍入的结果是一致的。但是，当时间差的小数部分大于等于0.5时，向下舍入和向上舍入的结果是不同的
(np.datetime64('now') - np.datetime64('1999-12-15')).astype('>m8[Y]')

numpy.timedelta64(23,'Y')

In [None]:
import pandas as pd

dt1 = pd.to_datetime('2020-01')
print(type(dt1))
# 过去60年
dt1_pass_60_year = dt1 + pd.Timedelta('365D') * 60
print(dt1_pass_60_year)

<class 'pandas._libs.tslibs.timestamps.Timestamp'>
2079-12-17 00:00:00


## joblib 
joblib 是一个用于高效处理 Python 对象持久化和并行计算的库。joblib 提供了 Parallel 和 delayed 对象，用于简化并行计算任务的编写和执行。

Parallel 对象用于并行执行多个函数调用，而 delayed 对象用于将函数调用延迟执行。

下面是一个示例，展示如何使用 Parallel 和 delayed 对象进行并行计算：

```
from joblib import Parallel, delayed

def square(x):
    return x**2

data = [1,2,3,4,5]

results = Parallel(-1)(delayed(square)(x) for x in data)

print(results)
```