In [4]:
'''
#pickle：可以将程序运行中的对象，保存为文件。
#如果加载保存过的pickle文件，可以立刻复原之前程序运行中的对象
pickle可以存储什么类型的数据呢？
所有python支持的原生类型：布尔值，整数，浮点数，复数，字符串，字节，None。
由任何原生类型组成的列表，元组，字典和集合。
函数，类，类的实例
pickle模块中常用的方法有：
pickle.dump(obj, file, protocol=None,)
必填参数obj表示将要封装的对象
必填参数file表示obj要写入的文件对象，file必须以二进制可写模式打开，即“wb”
可选参数protocol表示告知pickler使用的协议，支持的协议有0,1,2,3，默认的协议是添加在Python 3中的协议3。　　　
dump 将数据通过特殊的形式转换为只有python语言认识的字符串，并写入文件
with open('D:/tmp.pk', 'w') as f:
pickle.dump(data, f)

pickle.load(file,*,fix_imports=True, encoding="ASCII", errors="strict")
必填参数file必须以二进制可读模式打开，即“rb”，其他都为可选参数
load 从数据文件中读取数据，并转换为python的数据结构
with open('D:/tmp.pk', 'r') as f:
data = pickle.load(f)

pickle.dumps(obj)：以字节对象形式返回封装的对象，不需要写入文件中

pickle.loads(bytes_object): 从字节对象中读取被封装的对象，并返回

pickle模块可能出现三种异常：
PickleError：封装和拆封时出现的异常类，继承自Exception
PicklingError: 遇到不可封装的对象时出现的异常，继承自PickleError
UnPicklingError: 拆封对象过程中出现的异常，继承自PickleError
'''
import itertools
import pickle
import datetime
import hashlib
import locale
import numpy as np
import pycountry
import scipy.io as sio
import scipy.sparse as ss
import scipy.spatial.distance as ssd
from collections import defaultdict
##归一化处理的类
from sklearn.preprocessing import normalize 

In [None]:
# 数据清洗
class DataCleaner:
    def __init__(self):
        ## 处理区域的信息，城市信息
        self.localIdMap = defaultdict(int)
        for i,l in enumerate(locale.locale_alias.keys()):
            self.localIDMap[l] = i + 1 
        ## 处理国家信息
        self.countryIdMap = defaultdict(int)
        cityIdx = defaultdict(int)
        for i,c in enumerate(pycountry.countries):
            self.countryIdMap[c.name.lower()] = i +1 
            if c.name.lower() == "usa":
                cityIdx["US"] = i
            if c.name.lower() == "canada"：
                cityIdx["CA"] = i
        for cc in cityIdx.keys()
            for s in pycountry.subdivisions.get(country_code =cc):
                self.countryIdMap[s.name.lower()] = cityIdx[cc] +1
        ## 性别，男 =1，女 = 2 ，整数化处理
        self.genderIdMap = defaultdict(int,{"male":1,"female":2})
    ## 处理地址
    def getLocaleId(self,locstr):
        return self.localIdMap[locstr.lower()]
    ## 处理性别
    def getGenderId(self,genderStr):
        return self.genderIdMap[genderStr]
    ## 处理加入日期的形式
    def getJoinedYearMonth(self,dateString):
        dttm = datetime.datetime.strptime(dateString,"%Y-%m-%d%H:%M:%S.%fZ")
        return "".join([str(dttm.year),str(dttm.month)])
    ##
    def getCountryId(self,location):
        if (isinstance(location,str)
            and len(location.strip())>0
            and location.rfind(" ") > -1):
         return self.countryIdMap[location[location.rindex(" ") +2:].lower()]
        else:
            return 0
    ## birthday year ==> int
    def getBirthYearInt(self,birthYear):
        try:
            return 0 if birthYear == "None" else int(birthYear)
        except:
            return 0 
    ## timezone ==>int
    def getTimezoneInt(self,timezone):
        try:
            return int(timezone)
        except:
            return 0 
    ## feature hash 
    def fetFeatureHash(self,value):
        if len(value.strip()) == 0:
            return -1
        else:
            return int(hashlib.sha224(value).hexdigest()[0:4],16)

    ## get float value
    def getFloadValue(self,value):
        if len(value.strip()) == 0:
            return 0.0
        else:
            return float(value)
    