Mandarin texts issue #238

olgapelloni · 2021-05-26T01:30:44Z

In my recent experiments, I have noticed that many files in the Mandarin_cmn subcorpus contain words of length > 5, which is unnatural for Chinese. I checked all words with length > 5, none of them are Chinese (I checked all tokens which contain non-ASCII characters). There are also some non-word sequences among those long words, which start from around length > 10.

Here is a list of files, where I found such long words:

cmn_fic_113.txt
cmn_nfi_100.txt
cmn_nfi_101.txt
cmn_nfi_102.txt
cmn_nfi_103.txt
cmn_nfi_104.txt
cmn_nfi_105.txt
cmn_nfi_106.txt
cmn_nfi_107.txt
cmn_nfi_108.txt
cmn_nfi_109.txt
cmn_nfi_10.txt
cmn_nfi_110.txt
cmn_nfi_112.txt
cmn_nfi_113.txt
cmn_nfi_114.txt
cmn_nfi_115.txt
cmn_nfi_116.txt
cmn_nfi_117.txt
cmn_nfi_119.txt
cmn_nfi_11.txt
cmn_nfi_120.txt
cmn_nfi_121.txt
cmn_nfi_122.txt
cmn_nfi_123.txt
cmn_nfi_125.txt
cmn_nfi_126.txt
cmn_nfi_127.txt
cmn_nfi_128.txt
cmn_nfi_129.txt
cmn_nfi_131.txt
cmn_nfi_132.txt
cmn_nfi_133.txt
cmn_nfi_134.txt
cmn_nfi_135.txt
cmn_nfi_136.txt
cmn_nfi_138.txt
cmn_nfi_139.txt
cmn_nfi_13.txt
cmn_nfi_140.txt
cmn_nfi_142.txt
cmn_nfi_143.txt
cmn_nfi_145.txt
cmn_nfi_146.txt
cmn_nfi_147.txt
cmn_nfi_148.txt
cmn_nfi_149.txt
cmn_nfi_14.txt
cmn_nfi_150.txt
cmn_nfi_151.txt
cmn_nfi_152.txt
cmn_nfi_153.txt
cmn_nfi_154.txt
cmn_nfi_155.txt
cmn_nfi_156.txt
cmn_nfi_157.txt
cmn_nfi_159.txt
cmn_nfi_15.txt
cmn_nfi_160.txt
cmn_nfi_161.txt
cmn_nfi_164.txt
cmn_nfi_166.txt
cmn_nfi_168.txt
cmn_nfi_169.txt
cmn_nfi_170.txt
cmn_nfi_171.txt
cmn_nfi_172.txt
cmn_nfi_173.txt
cmn_nfi_174.txt
cmn_nfi_175.txt
cmn_nfi_178.txt
cmn_nfi_179.txt
cmn_nfi_17.txt
cmn_nfi_180.txt
cmn_nfi_181.txt
cmn_nfi_182.txt
cmn_nfi_183.txt
cmn_nfi_184.txt
cmn_nfi_185.txt
cmn_nfi_186.txt
cmn_nfi_187.txt
cmn_nfi_189.txt
cmn_nfi_18.txt
cmn_nfi_190.txt
cmn_nfi_191.txt
cmn_nfi_192.txt
cmn_nfi_193.txt
cmn_nfi_195.txt
cmn_nfi_196.txt
cmn_nfi_197.txt
cmn_nfi_198.txt
cmn_nfi_199.txt
cmn_nfi_1.txt
cmn_nfi_200.txt
cmn_nfi_201.txt
cmn_nfi_202.txt
cmn_nfi_203.txt
cmn_nfi_204.txt
cmn_nfi_205.txt
cmn_nfi_206.txt
cmn_nfi_208.txt
cmn_nfi_209.txt
cmn_nfi_210.txt
cmn_nfi_211.txt
cmn_nfi_213.txt
cmn_nfi_214.txt
cmn_nfi_215.txt
cmn_nfi_216.txt
cmn_nfi_217.txt
cmn_nfi_218.txt
cmn_nfi_21.txt
cmn_nfi_220.txt
cmn_nfi_223.txt
cmn_nfi_224.txt
cmn_nfi_225.txt
cmn_nfi_227.txt
cmn_nfi_228.txt
cmn_nfi_229.txt
cmn_nfi_22.txt
cmn_nfi_230.txt
cmn_nfi_232.txt
cmn_nfi_233.txt
cmn_nfi_237.txt
cmn_nfi_238.txt
cmn_nfi_239.txt
cmn_nfi_23.txt
cmn_nfi_240.txt
cmn_nfi_241.txt
cmn_nfi_243.txt
cmn_nfi_244.txt
cmn_nfi_245.txt
cmn_nfi_247.txt
cmn_nfi_248.txt
cmn_nfi_249.txt
cmn_nfi_251.txt
cmn_nfi_254.txt
cmn_nfi_255.txt
cmn_nfi_256.txt
cmn_nfi_257.txt
cmn_nfi_258.txt
cmn_nfi_259.txt
cmn_nfi_25.txt
cmn_nfi_260.txt
cmn_nfi_261.txt
cmn_nfi_262.txt
cmn_nfi_263.txt
cmn_nfi_264.txt
cmn_nfi_265.txt
cmn_nfi_266.txt
cmn_nfi_268.txt
cmn_nfi_26.txt
cmn_nfi_270.txt
cmn_nfi_271.txt
cmn_nfi_272.txt
cmn_nfi_273.txt
cmn_nfi_275.txt
cmn_nfi_276.txt
cmn_nfi_277.txt
cmn_nfi_278.txt
cmn_nfi_279.txt
cmn_nfi_27.txt
cmn_nfi_281.txt
cmn_nfi_283.txt
cmn_nfi_284.txt
cmn_nfi_285.txt
cmn_nfi_286.txt
cmn_nfi_287.txt
cmn_nfi_288.txt
cmn_nfi_289.txt
cmn_nfi_28.txt
cmn_nfi_292.txt
cmn_nfi_294.txt
cmn_nfi_295.txt
cmn_nfi_296.txt
cmn_nfi_298.txt
cmn_nfi_299.txt
cmn_nfi_29.txt
cmn_nfi_2.txt
cmn_nfi_300.txt
cmn_nfi_301.txt
cmn_nfi_302.txt
cmn_nfi_304.txt
cmn_nfi_305.txt
cmn_nfi_306.txt
cmn_nfi_308.txt
cmn_nfi_309.txt
cmn_nfi_311.txt
cmn_nfi_313.txt
cmn_nfi_314.txt
cmn_nfi_315.txt
cmn_nfi_316.txt
cmn_nfi_317.txt
cmn_nfi_318.txt
cmn_nfi_319.txt
cmn_nfi_31.txt
cmn_nfi_320.txt
cmn_nfi_321.txt
cmn_nfi_322.txt
cmn_nfi_323.txt
cmn_nfi_324.txt
cmn_nfi_325.txt
cmn_nfi_326.txt
cmn_nfi_327.txt
cmn_nfi_328.txt
cmn_nfi_329.txt
cmn_nfi_32.txt
cmn_nfi_330.txt
cmn_nfi_331.txt
cmn_nfi_333.txt
cmn_nfi_335.txt
cmn_nfi_336.txt
cmn_nfi_337.txt
cmn_nfi_338.txt
cmn_nfi_339.txt
cmn_nfi_33.txt
cmn_nfi_340.txt
cmn_nfi_341.txt
cmn_nfi_342.txt
cmn_nfi_343.txt
cmn_nfi_345.txt
cmn_nfi_346.txt
cmn_nfi_347.txt
cmn_nfi_348.txt
cmn_nfi_349.txt
cmn_nfi_34.txt
cmn_nfi_350.txt
cmn_nfi_352.txt
cmn_nfi_353.txt
cmn_nfi_354.txt
cmn_nfi_356.txt
cmn_nfi_357.txt
cmn_nfi_359.txt
cmn_nfi_35.txt
cmn_nfi_360.txt
cmn_nfi_361.txt
cmn_nfi_362.txt
cmn_nfi_363.txt
cmn_nfi_364.txt
cmn_nfi_365.txt
cmn_nfi_366.txt
cmn_nfi_367.txt
cmn_nfi_368.txt
cmn_nfi_36.txt
cmn_nfi_370.txt
cmn_nfi_371.txt
cmn_nfi_372.txt
cmn_nfi_373.txt
cmn_nfi_374.txt
cmn_nfi_376.txt
cmn_nfi_377.txt
cmn_nfi_378.txt
cmn_nfi_37.txt
cmn_nfi_380.txt
cmn_nfi_381.txt
cmn_nfi_382.txt
cmn_nfi_383.txt
cmn_nfi_384.txt
cmn_nfi_387.txt
cmn_nfi_388.txt
cmn_nfi_389.txt
cmn_nfi_390.txt
cmn_nfi_391.txt
cmn_nfi_392.txt
cmn_nfi_393.txt
cmn_nfi_395.txt
cmn_nfi_396.txt
cmn_nfi_397.txt
cmn_nfi_398.txt
cmn_nfi_39.txt
cmn_nfi_3.txt
cmn_nfi_400.txt
cmn_nfi_401.txt
cmn_nfi_403.txt
cmn_nfi_404.txt
cmn_nfi_405.txt
cmn_nfi_406.txt
cmn_nfi_407.txt
cmn_nfi_408.txt
cmn_nfi_40.txt
cmn_nfi_410.txt
cmn_nfi_411.txt
cmn_nfi_412.txt
cmn_nfi_413.txt
cmn_nfi_414.txt
cmn_nfi_415.txt
cmn_nfi_416.txt
cmn_nfi_417.txt
cmn_nfi_418.txt
cmn_nfi_419.txt
cmn_nfi_41.txt
cmn_nfi_420.txt
cmn_nfi_422.txt
cmn_nfi_423.txt
cmn_nfi_425.txt
cmn_nfi_426.txt
cmn_nfi_429.txt
cmn_nfi_42.txt
cmn_nfi_430.txt
cmn_nfi_431.txt
cmn_nfi_432.txt
cmn_nfi_433.txt
cmn_nfi_434.txt
cmn_nfi_437.txt
cmn_nfi_438.txt
cmn_nfi_439.txt
cmn_nfi_43.txt
cmn_nfi_440.txt
cmn_nfi_441.txt
cmn_nfi_442.txt
cmn_nfi_443.txt
cmn_nfi_444.txt
cmn_nfi_445.txt
cmn_nfi_446.txt
cmn_nfi_447.txt
cmn_nfi_449.txt
cmn_nfi_44.txt
cmn_nfi_450.txt
cmn_nfi_451.txt
cmn_nfi_452.txt
cmn_nfi_453.txt
cmn_nfi_454.txt
cmn_nfi_457.txt
cmn_nfi_458.txt
cmn_nfi_459.txt
cmn_nfi_45.txt
cmn_nfi_460.txt
cmn_nfi_464.txt
cmn_nfi_468.txt
cmn_nfi_469.txt
cmn_nfi_46.txt
cmn_nfi_471.txt
cmn_nfi_472.txt
cmn_nfi_473.txt
cmn_nfi_474.txt
cmn_nfi_475.txt
cmn_nfi_476.txt
cmn_nfi_477.txt
cmn_nfi_479.txt
cmn_nfi_47.txt
cmn_nfi_480.txt
cmn_nfi_481.txt
cmn_nfi_482.txt
cmn_nfi_483.txt
cmn_nfi_484.txt
cmn_nfi_485.txt
cmn_nfi_486.txt
cmn_nfi_487.txt
cmn_nfi_488.txt
cmn_nfi_489.txt
cmn_nfi_48.txt
cmn_nfi_490.txt
cmn_nfi_492.txt
cmn_nfi_494.txt
cmn_nfi_495.txt
cmn_nfi_496.txt
cmn_nfi_497.txt
cmn_nfi_498.txt
cmn_nfi_49.txt
cmn_nfi_4.txt
cmn_nfi_501.txt
cmn_nfi_502.txt
cmn_nfi_503.txt
cmn_nfi_504.txt
cmn_nfi_505.txt
cmn_nfi_506.txt
cmn_nfi_507.txt
cmn_nfi_509.txt
cmn_nfi_50.txt
cmn_nfi_510.txt
cmn_nfi_513.txt
cmn_nfi_514.txt
cmn_nfi_515.txt
cmn_nfi_516.txt
cmn_nfi_517.txt
cmn_nfi_518.txt
cmn_nfi_519.txt
cmn_nfi_51.txt
cmn_nfi_520.txt
cmn_nfi_521.txt
cmn_nfi_522.txt
cmn_nfi_523.txt
cmn_nfi_524.txt
cmn_nfi_526.txt
cmn_nfi_527.txt
cmn_nfi_528.txt
cmn_nfi_529.txt
cmn_nfi_52.txt
cmn_nfi_530.txt
cmn_nfi_531.txt
cmn_nfi_532.txt
cmn_nfi_533.txt
cmn_nfi_534.txt
cmn_nfi_536.txt
cmn_nfi_537.txt
cmn_nfi_539.txt
cmn_nfi_53.txt
cmn_nfi_540.txt
cmn_nfi_541.txt
cmn_nfi_544.txt
cmn_nfi_547.txt
cmn_nfi_548.txt
cmn_nfi_549.txt
cmn_nfi_54.txt
cmn_nfi_550.txt
cmn_nfi_551.txt
cmn_nfi_554.txt
cmn_nfi_555.txt
cmn_nfi_556.txt
cmn_nfi_558.txt
cmn_nfi_559.txt
cmn_nfi_55.txt
cmn_nfi_560.txt
cmn_nfi_561.txt
cmn_nfi_562.txt
cmn_nfi_563.txt
cmn_nfi_564.txt
cmn_nfi_565.txt
cmn_nfi_566.txt
cmn_nfi_567.txt
cmn_nfi_568.txt
cmn_nfi_569.txt
cmn_nfi_570.txt
cmn_nfi_571.txt
cmn_nfi_573.txt
cmn_nfi_575.txt
cmn_nfi_577.txt
cmn_nfi_578.txt
cmn_nfi_580.txt
cmn_nfi_581.txt
cmn_nfi_582.txt
cmn_nfi_583.txt
cmn_nfi_584.txt
cmn_nfi_585.txt
cmn_nfi_586.txt
cmn_nfi_587.txt
cmn_nfi_588.txt
cmn_nfi_589.txt
cmn_nfi_58.txt
cmn_nfi_590.txt
cmn_nfi_591.txt
cmn_nfi_592.txt
cmn_nfi_593.txt
cmn_nfi_594.txt
cmn_nfi_595.txt
cmn_nfi_597.txt
cmn_nfi_598.txt
cmn_nfi_5.txt
cmn_nfi_600.txt
cmn_nfi_602.txt
cmn_nfi_604.txt
cmn_nfi_605.txt
cmn_nfi_606.txt
cmn_nfi_608.txt
cmn_nfi_609.txt
cmn_nfi_60.txt
cmn_nfi_610.txt
cmn_nfi_611.txt
cmn_nfi_612.txt
cmn_nfi_613.txt
cmn_nfi_614.txt
cmn_nfi_615.txt
cmn_nfi_617.txt
cmn_nfi_618.txt
cmn_nfi_619.txt
cmn_nfi_61.txt
cmn_nfi_620.txt
cmn_nfi_621.txt
cmn_nfi_622.txt
cmn_nfi_624.txt
cmn_nfi_626.txt
cmn_nfi_627.txt
cmn_nfi_628.txt
cmn_nfi_629.txt
cmn_nfi_630.txt
cmn_nfi_631.txt
cmn_nfi_632.txt
cmn_nfi_633.txt
cmn_nfi_634.txt
cmn_nfi_637.txt
cmn_nfi_639.txt
cmn_nfi_641.txt
cmn_nfi_642.txt
cmn_nfi_643.txt
cmn_nfi_644.txt
cmn_nfi_645.txt
cmn_nfi_646.txt
cmn_nfi_647.txt
cmn_nfi_648.txt
cmn_nfi_649.txt
cmn_nfi_64.txt
cmn_nfi_651.txt
cmn_nfi_652.txt
cmn_nfi_653.txt
cmn_nfi_654.txt
cmn_nfi_655.txt
cmn_nfi_656.txt
cmn_nfi_657.txt
cmn_nfi_658.txt
cmn_nfi_659.txt
cmn_nfi_65.txt
cmn_nfi_660.txt
cmn_nfi_661.txt
cmn_nfi_662.txt
cmn_nfi_663.txt
cmn_nfi_664.txt
cmn_nfi_665.txt
cmn_nfi_666.txt
cmn_nfi_66.txt
cmn_nfi_68.txt
cmn_nfi_69.txt
cmn_nfi_70.txt
cmn_nfi_71.txt
cmn_nfi_72.txt
cmn_nfi_73.txt
cmn_nfi_74.txt
cmn_nfi_75.txt
cmn_nfi_76.txt
cmn_nfi_77.txt
cmn_nfi_78.txt
cmn_nfi_79.txt
cmn_nfi_7.txt
cmn_nfi_80.txt
cmn_nfi_81.txt
cmn_nfi_82.txt
cmn_nfi_83.txt
cmn_nfi_84.txt
cmn_nfi_86.txt
cmn_nfi_87.txt
cmn_nfi_88.txt
cmn_nfi_89.txt
cmn_nfi_8.txt
cmn_nfi_91.txt
cmn_nfi_92.txt
cmn_nfi_93.txt
cmn_nfi_94.txt
cmn_nfi_95.txt
cmn_nfi_96.txt
cmn_nfi_97.txt
cmn_nfi_98.txt
cmn_nfi_99.txt
cmn_nfi_9.txt
cmn_pro_1.txt

These files should be cleaned from words with length > 5.

Note: there are also shorter words, which are not Chinese (e.g. Arabic, English), but this seems to be a harder issue to solve, and probably, not so crucial as the long words.

The text was updated successfully, but these errors were encountered:

bambooforest · 2021-05-26T11:51:06Z

Sounds like a good example to integrate some corpus tests.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Mandarin texts issue #238

Mandarin texts issue #238

olgapelloni commented May 26, 2021 •

edited

Loading

bambooforest commented May 26, 2021

Mandarin texts issue #238

Mandarin texts issue #238

Comments

olgapelloni commented May 26, 2021 • edited Loading

bambooforest commented May 26, 2021

olgapelloni commented May 26, 2021 •

edited

Loading