Skip to content

tomy7912348/Taiwan_judical_case_data

Repository files navigation

司法院判決資料庫整理

司法院雖然公開的判決資料檔案,但因為案件的變數龐大,資料格式複雜不容易分析,如下:

0!臺東地方法院!106!原交訴!9!肇事遺棄!xxx!!!!!!!110!07!08!其他!!!!!!0!0!0!0!!TTDM,106,原交訴,9,20210708,5!
1!110!07!08!!0!0!0!0!0!0!0!0!0!!0!0!0!0!!0!0!0!0!0!0!0!0!!!0!0!0!0!!0!!0!0!0!0!0!0!0!0!0!0!0!0!0!0!0!0!!!!!!!!!!!!!!0!0!!!!
1!107!05!07!!0!0!0!0!0!0!0!0!0!!0!0!0!0!!0!0!0!0!0!0!0!0!!!0!0!0!0!!0!!0!0!0!0!0!0!0!0!0!0!0!0!0!0!0!0!!!!!!!!!!!!!!0!0!!!!
#
0!臺東地方法院!109!原金訴!34!違反洗錢防制法等!xxx!xxx!xxx!!!!!110!07!30!判決!1.00!!!!!0!0!0!0!!TTDM,109,原金訴,34,20210730,1!
1!110!07!30!公設辯護人辯護!0!0!0!0!0!0!0!0!0!!0!0!0!0!!0!0!0!0!0!0!0!0!!!1!0!0!1!8000!0!!0!0!0!0!0!0!0!0!0!0!0!0!0!0!0!0!!!!!!!!!!!!!!0!0!!!!
1.1!刑法!339!!!1!!!10306!有期徒刑!0003!!!1!0!0!1!0!0!
1.1.2!幫助犯!
#

所以寫了一些腳本,對照司法院提供的編碼格式,把資料轉換成容易處裡的資料框。 但因為不同層級法院、民事、刑事、行政訴訟等等案件的資料編碼方式都不同,所以工程浩大,目前僅就我自己工作上需要完成了地院刑事案件單一被告、單一案由的編碼。 又因為根據案件的被告、案由數量不同,沒辦法有統一的資料框長度,所以腳本預留了計算被告與案由數量的邏輯,有需要可以自己修改code,但也需要重新編排資料框。

how it works

資料編碼轉換

司法院的原始資料是big-5編碼的txt檔案,因為腳本是用R編寫,所以先統一轉換成UTF-8格式避免套件出錯。 這部分的腳本是透過 txt_encoding_conversion.R。

資料框建立

司法院的原始資料是以「#」作為案件的分隔記號,而不同案件根據被告數量、案由數量、量刑考量等等的差異會有不同的行數;每行再以「!」作為變數的分隔。 而每行的第一筆變數是該行資料的控制碼,0是案件的資本資料,1.1為被告資料……詳細狀況請見司法院提供的編碼對照。

About

司法院判決資料庫整理

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages