# 数据处理减小内存方法
    腾讯比赛中，需要从txt中读取数据，然后处理，这里做一些降低内存使用的测试

In [1]:
import sys
import numpy as np
import pandas as pd

In [2]:
# 通过指定dtype，可以实现降低内存使用
dtype1 = np.float32
dtype2 = np.float64
a = np.array([], dtype=dtype1)
b = np.array([], dtype=dtype2)
for i in range(10000):
    a = np.concatenate([a, np.array([i], dtype=dtype1)])
    b = np.concatenate([b, np.array([i], dtype=dtype2)])
print(sys.getsizeof(a))
print(sys.getsizeof(b))

40096
80096


In [3]:
# 如果用list存数据比较费内存，但是通过np指定数据类型可以节约内存
a = 123456789
b = '123456789'
c = ['123']
d = [123, 456, 789, 101, 123, 456, 789]*20
e = np.array(d, dtype=dtype1)
print(sys.getsizeof(a), sys.getsizeof(b), sys.getsizeof(c), sys.getsizeof(d))
print(sys.getsizeof(e))

28 58 72 1184
656


In [4]:
# 转换成dataframe一样的道理，指定数据类型的数据占用更少的内存
df1 = pd.DataFrame({
    'a': d
})

df2 = pd.DataFrame({
    'a': e
})

df3 = pd.DataFrame({
    'a': d,
    'b': e
})

print(sys.getsizeof(df1))
print(sys.getsizeof(df2))
print(sys.getsizeof(df3))

1224
664
1784
