# Pandas 数据类型
> Pandas 的数据类型
>   1. float
>   1. int
>   1. bool
>   1. datetime64[ns]
>   1. datetime64[ns, tz] 
>   1. timedelta[ns] 
>   1. category 
>   1. object
>   
> 默认的是 `int` & `float`

- 查看 Pandas 的数据类型
    `df.dtypes`
## Pandas 数据类型
- Pandas dtype 和 Python type 和 Numpy type 对应关系

| Pandas dtype  | Python type  | NumPy type                                                   | Usage                                        |
| :------------ | :----------- | :----------------------------------------------------------- | :------------------------------------------- |
| object        | str or mixed | string_, unicode_, mixed types                               | Text or mixed numeric and non-numeric values |
| int64         | int          | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Integer numbers                              |
| float64       | float        | float_, float16, float32, float64                            | Floating point numbers                       |
| bool          | bool         | bool_                                                        | True/False values                            |
| datetime64    | NA           | datetime64[ns]                                               | Date and time values                         |
| timedelta[ns] | NA           | NA                                                           | Differences between two datetimes            |
| category      | NA           | NA                                                           | Finite list of text values                   |

## dtype 设置
- 可以通过 `Series` 的属性 `dtype` 设置数据类型
- 可以通过 `DataFrame` 的属性 `dtype` 设置数据类型

In [57]:
import pandas as pd
import numpy as np
l1 = [11, 12, 13]
l2 = [21, 22, 23]
l3 = [31, 32, 33]
# df = pd.DataFrame([l1,l2,l3], dtype=np.int_)
df = pd.DataFrame([l1,l2,l3], dtype="int")
df.dtypes

0    int32
1    int32
2    int32
dtype: object

In [58]:
s = pd.Series([1,2,3],dtype="float")
s.dtypes

dtype('float64')

## float
### 初始化  

In [59]:
s = pd.Series([1,2,3],dtype="float")
s.dtypes

dtype('float64')

### 转换 
- `astype` 方法

In [60]:
# int 转换 float
s = pd.Series([1,2,3],dtype="int")
print(s.dtypes)
s1 = s.astype(dtype="float")
print(s1.dtypes)
# str 转换 float
s = pd.Series(["1","2","3"],dtype="str")
print(s.dtypes)
s1 = s.astype(dtype="float")
print(s1.dtypes)
 

int32
float64
object
float64


## int 
### 初始化  

In [61]:
s = pd.Series([1,2,3],dtype="int")
s.dtypes

dtype('int32')

### 转换

In [62]:
s = pd.Series([1.3,2.1,3.6],dtype="float")
print(s.dtypes)
s1 = s.astype(dtype="int")
print(s1.dtypes)
print(s1)

float64
int32
0    1
1    2
2    3
dtype: int32


## bool
### 初始化  

In [63]:
s = pd.Series([True,False])
print(s.dtypes)

bool


### 转换
- 非零都为 `True`

In [64]:
s = pd.Series([1,0,-1,1.2])
print(s.dtypes)
s1 = s.astype(dtype="bool")
print(s1.dtypes)
print(s1)

float64
bool
0     True
1    False
2     True
3     True
dtype: bool


## datetime64[ns]

In [65]:
import datetime
import numpy as np
import pandas as pd
dt = datetime.datetime(2019, 11, 1)
ts = pd.Series([dt])
print(ts.dtypes )
pd.to_datetime(ts,format='%Y-%m-%d')
print(ts)

datetime64[ns]
0   2019-11-01
dtype: datetime64[ns]


## category

In [66]:
s = pd.Series(["a", "b", "c", "a"], dtype="category")
print(s)

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a, b, c]


### 常用函数
#### describe()
- 返回值
    - count : 总数
    - unique : 唯一值数量
    - top : 出现最多的值
    - freq : 出现最多的值的出现次数

In [67]:
s.describe()

count     4
unique    3
top       a
freq      2
dtype: object

#### value_counts()
- 数据分布情况 
    - 返回值: 每个值出现的次数

In [68]:
s.value_counts()

a    2
c    1
b    1
dtype: int64