1.读取大文件表，维护一个数据总量nTotal
2.分为n个小文件（第一次内部排序<采用优化后的快排>；注意：内存量 大于等于 小文件的数据量大小）
3.采用外部排序排序每个小文件
4.合并所有小文件并输出到一个新的文件（依次读取每个文件从第一行到末尾，比较获取极（大/小）值，存入新文件）
5.最终获得一个排序好的大文件
6.通过排序后的大文件获取p90的位置 通过文件指针偏移读取具体的p90数据
注：小文件倒序排列，点击数多的排在前面

题目2、最⻓文本

解法1

Description: pandas可以处理<=5TB的文件，直接使用pandas来处理超大文件

1.读入文件为DataFrame：reader
2.去重
3.新增文本长度列和索引列
4.按文本长度列分组（1024个分组）并返回每个分组的元素个数，产生新的DataFrame：group
5.通过group表返回top_n文本的最小长度
6.在reader大表中按条件查找行，产生DataFrame:result
7.通过result表返回符合条件的top_n文本

解法2

Description:哈希映射

1.读取大文件表，生成hash key&value 存入1024个小文件（采用桶排序/计数排序，注意value不是字符串内容而是记录所在大文件中的行数）
    1.1 key为hash值（采用md5<散列化>）
    1.2 value为所在大文件中的行数
2.根据顺序依次从大到小读出topN
3.获取topN在文件中的行数并读取大文件表获取内容
4.循环输出topN
md5码：128位，16个字节

三、环境

python3.6

pip install tqdm

pip install pandas

四、代码执行

题目1、计算P90

入口函数：Q1/get_p90.py 执行：

cd Q1
python get_p90.py

题目2、最⻓文本

解法1

入口函数：Q2/get_top_1w_pandas.py 执行：

cd Q2
python  get_top_1w_pandas.py

解法2

入口函数：Q2/get_top_1w_hash.py 执行：

cd Q2
python  get_top_1w_hash.py

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
.idea		.idea
Q1		Q1
Q2		Q2
clustering_algorithm		clustering_algorithm
dynamic_programming		dynamic_programming
sort		sort
str_full_array		str_full_array
tf_idf		tf_idf
README.md		README.md
算法题.pdf		算法题.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

目录

一、题目描述

题目1、计算P90

题目2、最⻓文本

二、思路

题目1、计算P90

题目2、最⻓文本

解法1

解法2

三、环境

四、代码执行

题目1、计算P90

题目2、最⻓文本

解法1

解法2

About

Releases

Packages

Languages

taorui-plus/Interview_Code

Folders and files

Latest commit

History

Repository files navigation

目录

一、题目描述

题目1、计算P90

题目2、最⻓文本

二、思路

题目1、计算P90

题目2、最⻓文本

解法1

解法2

三、环境

四、代码执行

题目1、计算P90

题目2、最⻓文本

解法1

解法2

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages