2015年3月15日 星期日

3386K筆統一編號開放下載

財政部已經在政府資料開放平臺提供了全國營業(稅籍)登記資料集。就我今天(2015年3月15日)下載的檔案看來,有1,518,903行;由於似乎每13筆資料就會空1行,我實在不確定真正的資料有多少筆,只能估計約有141萬筆統一編號。

我在上次發布1285K筆統一編號後,又花了點時間再整理一次統一編號的資料;這次的清單比較完整,有3,386,911筆統一編號。為什麽我的資料筆數跟財政部的資料不一樣?原因之一,是我的資料包括營業狀況是“非營業中”的統一編號;這部分有2,080,135筆。“營業中”的統一編號則是1,306,776筆。另一個原因是財政部所發布的開放資料,是每日更新的;而我的清單,則是停留在過去的某一個時間點。雖然“非營業中”的統一編號,對國家財政不再有實質貢獻,不過在經濟發展的回顧上,它們也許還存在些學術研究的價值。

這次的統一編號清單一樣提供下載,歡迎大家利用。資料欄位包括:統一編號、對應的營業人名稱、與營業狀況。營業狀況只有兩種:“營業中”與“非營業中”。每10萬筆資料會以CSV格式切成一個檔案,免得Excel開到電腦當掉;總共34個CSV檔再壓縮成1個ZIP檔案。請點下列連結下載:

統一編號清單(3386K版)

在此必須提醒大家:此清單的内容僅供參考,資料是否正確(畢竟營業人狀況也不免有所更動)仍須依照政府機關所公佈的爲準。

2014年5月3日 星期六

1285K筆統一編號開放下載

(統一編號清單已更新,共有3,386,911筆統一編號;請前往了解。)
如果分析涉及公司行號的開放資料時,統一編號常是用以蒐集資料的Primary Key;例如財政部提供的公示資料查詢,就可利用統一編號來檢視特定單位是否仍在“營業中”,或是查詢其營業登記地址。

不過使用公示資料查詢的前提是要先知道對方的統一編號;如果不知道,又想蒐集所有營業人的資料(例如進行學術研究),可能就必須訴諸窮舉法。統一編號是8個數字所構成,可能的數值就是從00000000到99999999,共有1億個可能數字;窮舉法必須每組數字都試1次,那可要花上不少時間。

爲節省大家的時間,我在此提供一份統一編號清單。這份清單是在今年第2季整理的,祇有1,285,065筆統一編號、與對應的營業人名稱;我把每10萬筆資料,以CSV格式切成一個檔案,免得Excel開到電腦當掉。檔案下載URL如下所示,歡迎大家利用;此清單的内容僅供參考,資料是否正確(畢竟營業人狀況也不免有所更動)仍須依照政府機關所公佈的爲準。

統一編號00000206至09996978
統一編號09996983至14774379
統一編號14774547至21223344
統一編號21223479至25287608
統一編號25287635至27667294
統一編號27667301至30975197
統一編號30975210至37807365
統一編號37807371至48993675
統一編號48993696至54157540
統一編號54157555至70630831
統一編號70630847至80807983
統一編號80807999至89988232
統一編號89988253至99995009