隨著高校信息化工作的不斷深化,特別是基于數(shù)據(jù)的決策支持的重視,對數(shù)據(jù)質(zhì)量的要求也漸得到各方重視。一方面,數(shù)據(jù)規(guī)模日益龐大,對師生的數(shù)據(jù)服務(wù)的要求也在不斷拓展、提高,包括數(shù)據(jù)基礎(chǔ)整理、查詢統(tǒng)計、向普通用戶提供信息咨詢、對管理層提供決策依據(jù);另一方面,各級教育部門、全社會各行各業(yè)、高校本身管理和服務(wù)部門對高校教育統(tǒng)計信息都越來越重視,統(tǒng)計數(shù)據(jù)在政策決策、科研管理、教育質(zhì)量評估等方面被廣泛應(yīng)用。
數(shù)據(jù)質(zhì)量的概念
圖1將數(shù)據(jù)質(zhì)量的常用評估標(biāo)準(zhǔn)按照4個不同的方面進(jìn)行了描述??色@得度指用戶獲得數(shù)據(jù)的可能性和便利程度,在收集數(shù)據(jù)之前,用戶必須要考慮能否得到、怎樣得到數(shù)據(jù)。可理解度是指數(shù)據(jù)必須是用戶可以理解的,包括語法、語義等,使用戶可以理解數(shù)據(jù),從而才可挖掘數(shù)據(jù),這是基礎(chǔ)的要求。可信度是對數(shù)據(jù)的真實性的測度,可信度相對較抽象、主觀,可具體再劃分為準(zhǔn)確性、一致性、完整性、唯一性、可靠性等具體的維度進(jìn)行評估??捎枚仁侵笖?shù)據(jù)對于用戶的效用的大小,數(shù)據(jù)是準(zhǔn)確的但是不一定有意義,或者對某一群體用戶有用,對其他用戶是沒有需求和效用的,包括相關(guān)性、時效性、可比性、有效性等。同時,它們也是相輔相成的,如果數(shù)據(jù)準(zhǔn)確性差,那么它的可靠性、有效性也就大打折扣,如果數(shù)據(jù)能夠做到準(zhǔn)確、一致、有時效,那它必然也是比較有可靠性的。
高校數(shù)據(jù)質(zhì)量的現(xiàn)況
主觀上的重視程度
越來越多的高校信息化從業(yè)者已經(jīng)開始重視起高校數(shù)據(jù)及數(shù)據(jù)質(zhì)量相關(guān)問題了。在學(xué)術(shù)上,簡單地從2002至2014年度的某數(shù)據(jù)平臺關(guān)于數(shù)據(jù)質(zhì)量的研究趨勢上,即可直觀感受到近年對數(shù)據(jù)質(zhì)量的相關(guān)研究的熱度在持續(xù)穩(wěn)定的上漲。從2002~2005年間每年30篇以下的論文數(shù)量,至2012~2014年間超過150篇,年度命中數(shù)從20上浮至50。其中高校+數(shù)據(jù)質(zhì)量的相關(guān)研究數(shù)量和趨勢類似,同時,高校的數(shù)據(jù)質(zhì)量問題與高校信息化建設(shè)的發(fā)展進(jìn)程密切相關(guān)。
目前,高校的信息化建設(shè)進(jìn)程從“局部信息化”向“全面信息化”轉(zhuǎn)變,建設(shè)內(nèi)容從信息化基礎(chǔ)建設(shè)轉(zhuǎn)變?yōu)樾畔⒒?wù)建設(shè),建設(shè)的焦點(diǎn)從“提供最基本的信息化服務(wù)和滿足基本管理要求”逐漸轉(zhuǎn)移到了“如何更好地向師生提供數(shù)據(jù)服務(wù)、決策支持”。信息集成和應(yīng)用集成是大勢所趨,而在信息集成的過程中,數(shù)據(jù)質(zhì)量可能會出現(xiàn)怎樣的問題?如何解決各類數(shù)據(jù)質(zhì)量問題,有效地收集、清洗、存儲、推送、挖掘、呈現(xiàn)數(shù)據(jù),每一步都值得大書特書,最終使數(shù)據(jù)最終能夠滿足用戶需求。
客觀上數(shù)據(jù)質(zhì)量的實際情況
在對高校各類業(yè)務(wù)數(shù)據(jù)的實際應(yīng)用過程中,還是能夠發(fā)現(xiàn)數(shù)據(jù)質(zhì)量的不足。當(dāng)前高校數(shù)據(jù)質(zhì)量主要存在以下幾個問題:
一是數(shù)據(jù)源頭不明確,造成數(shù)據(jù)唯一性、準(zhǔn)確性問題。一方面可能是管理職能有所重疊,一方面也可能是常用的信息在多個業(yè)務(wù)環(huán)節(jié)都進(jìn)行了重復(fù)采集,例如師生的聯(lián)系方式信息。同一個字段,可能不同的系統(tǒng)中都存在,但是存在出入,那么以哪個為準(zhǔn)呢?
二是數(shù)據(jù)采集后,格式不統(tǒng)一,不完整,造成數(shù)據(jù)完整性、語法問題。這是由于不同部門,甚至不同操作員之間對同一數(shù)據(jù)的使用習(xí)慣和方式不一致造成的,可能仍有部分?jǐn)?shù)據(jù)并不完整。
三是數(shù)據(jù)不及時,造成時效性、準(zhǔn)確性等問題。由于采集周期或同步推送周期的影響,各應(yīng)用端使用的數(shù)據(jù)可能并不是最新的。
四是數(shù)據(jù)共享問題,有些數(shù)據(jù)仍不能方便地獲得,或不能保障周期性地獲得準(zhǔn)確實時的數(shù)據(jù)。
五是對歷史數(shù)據(jù)和冗余數(shù)據(jù)尚無統(tǒng)一完善的處理辦法。
數(shù)據(jù)質(zhì)量對數(shù)據(jù)服務(wù)的影響
如在實際工作中,發(fā)生了上述數(shù)據(jù)質(zhì)量問題,將會直接影響到各系統(tǒng)間的協(xié)同效率及使用效果,降低師生的使用滿意度。
首先要保障數(shù)據(jù)的唯一、完整、準(zhǔn)確、可靠、可理解,保障數(shù)據(jù)是可以使用的。如數(shù)據(jù)首要的這幾個屬性得不到保障,后續(xù)的相關(guān)統(tǒng)計報表,策略建議的可靠性也就大幅降低了。
同時要保障數(shù)據(jù)的時效性,舊的數(shù)據(jù)即使準(zhǔn)確可靠,但是不能滿足用戶的需求,它就是低質(zhì)量的數(shù)據(jù)。例如用戶在校園卡終端想要查詢到自己當(dāng)天的消費(fèi)余額、消費(fèi)記錄用以核對自己的支出情況,如果反饋的數(shù)據(jù)明顯是若干天前的,顯然不會讓用戶滿意。
如數(shù)據(jù)質(zhì)量較差,將會給管理人員和用戶帶來許多使用上的不便,由這些數(shù)據(jù)延伸出來的報表和策略建議往往也是充滿了矛盾、漏洞和明顯的不合理處,需要人工再次進(jìn)行糾錯、核對,增加工作量。舉個例子,某次關(guān)于學(xué)校學(xué)生住宿信息進(jìn)行統(tǒng)計時,發(fā)現(xiàn)在校住宿學(xué)生比學(xué)校學(xué)生總?cè)藬?shù)還多10%,這是不合常理的。經(jīng)過實地調(diào)查,發(fā)現(xiàn)部分是因為有一些老生雖然已經(jīng)退宿并離校,但其在住宿系統(tǒng)中信息還未被確認(rèn),部分是因為有些學(xué)生需要進(jìn)行實習(xí),申請了另一個校區(qū)的宿舍,因此其同時有了兩條住宿信息,也有部分是因為學(xué)校安排輔導(dǎo)員住樓,更好地開展學(xué)生工作,但是在住宿系統(tǒng)中錯誤地登記為學(xué)生住宿。其中,有管理上的問題,有信息系統(tǒng)字段管理的問題,也有統(tǒng)計方法的問題,但終究也是數(shù)據(jù)質(zhì)量的問題,該數(shù)據(jù)的時效性、準(zhǔn)確性、完整性很需要進(jìn)行提升。
以華東師大為例采取的措施
數(shù)據(jù)收集:堅持“一把手”錄入
數(shù)據(jù)源頭的梳理是華東師大信息辦日常工作之一,在各信息系統(tǒng)建設(shè)的前期調(diào)研工作中,就通過業(yè)務(wù)梳理等工作明確數(shù)據(jù)源,在源頭上嚴(yán)把數(shù)據(jù)質(zhì)量關(guān)。明確數(shù)據(jù)的每一個字段的唯一來源之后,監(jiān)督和指導(dǎo)該業(yè)務(wù)負(fù)責(zé)部門完成其應(yīng)擔(dān)負(fù)起的維護(hù)任務(wù),及將數(shù)據(jù)推送給其他業(yè)務(wù)部門的共享任務(wù)。
當(dāng)該工作的成果推廣到全校各個業(yè)務(wù)系統(tǒng)后,任一信息系統(tǒng)需要使用某數(shù)據(jù)時,都有一個渠道得到權(quán)威、準(zhǔn)確的數(shù)據(jù)。同時,可有效減少非數(shù)據(jù)源部門采集數(shù)據(jù)的工作量,避免多頭采集的問題。
例如學(xué)生的手機(jī)號信息如以在教務(wù)處登記的為準(zhǔn),在學(xué)生在報修登記時系統(tǒng)可直接讀取到該字段,并通知學(xué)生報修進(jìn)度,學(xué)生發(fā)現(xiàn)讀取到的聯(lián)系方式已經(jīng)過時了,可以去往教務(wù)系統(tǒng)對應(yīng)入口進(jìn)行修改等。
數(shù)據(jù)存儲:集中建立數(shù)據(jù)中心
首先,在各數(shù)據(jù)源所在信息系統(tǒng)中,進(jìn)行初步數(shù)據(jù)梳理和清洗,建立有完整數(shù)據(jù)理解度較高的多個視圖、字典表等。然后,部署Oracle數(shù)據(jù)庫,將從數(shù)據(jù)源獲得的源數(shù)據(jù)通過ODI等ETL工具,將數(shù)據(jù)進(jìn)行收集、存儲在數(shù)據(jù)中心。
例如在教務(wù)相關(guān)系統(tǒng)中,學(xué)生相關(guān)的數(shù)據(jù)表可能就有學(xué)生基本信息表、學(xué)生選課信息表、學(xué)生類型字典表、學(xué)生成績表、課程評價表、課程基本信息表等。在對它們進(jìn)行數(shù)據(jù)梳理和清洗時,要將原基礎(chǔ)表中較為難理解的字段,替換為字典表中的詳細(xì)表述,將“1”、“2”替換為男女,將“0129”替換為“圖書館”;也要根據(jù)需求將零散在各個表中的數(shù)據(jù)整理到一張表中,比如全校學(xué)生個人信息所有字段表,因為原先學(xué)生的姓名、性別、學(xué)號、身份證等在基礎(chǔ)信息表中,而他的籍貫、生源地在學(xué)生入學(xué)信息表中。
數(shù)據(jù)使用:統(tǒng)一發(fā)出接口
根據(jù)業(yè)務(wù)信息系統(tǒng)的對數(shù)據(jù)的需求情況,統(tǒng)合、整理數(shù)據(jù),再利用WebService、ODI等多種工具推送到各個業(yè)務(wù)系統(tǒng)中去。
例如目前在建的新學(xué)生住宿系統(tǒng),僅需向信息化辦公室提出其建設(shè)中的具體數(shù)據(jù)需求,即可從數(shù)據(jù)中心通過各接口獲得學(xué)生基礎(chǔ)數(shù)據(jù)、學(xué)生-輔導(dǎo)員關(guān)系數(shù)據(jù)、輔導(dǎo)員基礎(chǔ)數(shù)據(jù)、學(xué)生住宿費(fèi)繳費(fèi)數(shù)據(jù)、新生興趣愛好數(shù)據(jù)等,而不需要關(guān)心數(shù)據(jù)怎么從教務(wù)系統(tǒng)、研究生系統(tǒng)、學(xué)工系統(tǒng)、人事系統(tǒng)、迎新系統(tǒng)、財務(wù)系統(tǒng)等其他業(yè)務(wù)系統(tǒng)中獲取。而在后勤宿舍管理員在實際使用中,發(fā)現(xiàn)數(shù)據(jù)不準(zhǔn)確的情況時,可以將問題反饋給信息化辦公室,數(shù)據(jù)中心管理人員可據(jù)此倒推回到數(shù)據(jù)源,通知數(shù)據(jù)源業(yè)務(wù)系統(tǒng)負(fù)責(zé)老師,進(jìn)行進(jìn)一步數(shù)據(jù)核驗、修正等。
建設(shè)數(shù)據(jù)流轉(zhuǎn)框架
結(jié)合現(xiàn)有數(shù)據(jù)中心建設(shè)情況,進(jìn)行數(shù)據(jù)流轉(zhuǎn)優(yōu)化工作。擬建設(shè)數(shù)據(jù)流轉(zhuǎn)框架如圖2所示。
實線部分現(xiàn)已基本實現(xiàn),即數(shù)據(jù)源中的數(shù)據(jù)經(jīng)過梳理、形成視圖,通過ETL工具抓取到WebService數(shù)據(jù)中心后,再行整理為不同數(shù)據(jù)接口x、y等,有該數(shù)據(jù)讀取權(quán)限的業(yè)務(wù)系統(tǒng)可通過認(rèn)證調(diào)用接口并獲得結(jié)果。
虛線部分正在調(diào)研、建設(shè)中,在擁有a、b數(shù)據(jù)修改權(quán)限的業(yè)務(wù)系統(tǒng)中(操作者可能為該數(shù)據(jù)的“一把手”、也可能是終端用戶),可以調(diào)用反饋接口,將修正的a、b數(shù)據(jù)通過接口認(rèn)證,反饋回WebService數(shù)據(jù)中心。數(shù)據(jù)中心進(jìn)行數(shù)據(jù)的分析、整理、確認(rèn)后,將數(shù)據(jù)修改信息反饋回IDC數(shù)據(jù)庫,進(jìn)行數(shù)據(jù)更新操作。每一個環(huán)節(jié),都需要進(jìn)行數(shù)據(jù)質(zhì)量的校驗,至此,即實現(xiàn)數(shù)據(jù)的循環(huán),數(shù)據(jù)質(zhì)量在梳理、整合、發(fā)布、反饋、更新。
總而言之,數(shù)據(jù)質(zhì)量的優(yōu)劣關(guān)系著高校信息部門能否給普通師生、管理人員、校領(lǐng)導(dǎo)等提供有效準(zhǔn)確、高效、有效的數(shù)據(jù)服務(wù),決定著信息化工作能否從數(shù)字校園的建設(shè)成功過渡到智慧校園的建設(shè)。
因此,在此提出幾條簡單的建設(shè)意見:
1.建設(shè)積極的數(shù)據(jù)質(zhì)量管理環(huán)境
首先管理層要認(rèn)識到數(shù)據(jù)質(zhì)量對于高校各項業(yè)務(wù)及信息化各項工作的重要性,推動數(shù)據(jù)質(zhì)量的改進(jìn)工作。加強(qiáng)信息人員隊伍的建設(shè),提高數(shù)據(jù)管理人員的數(shù)據(jù)質(zhì)量管理意識。梳理建立完善的制度管理,確定數(shù)據(jù)質(zhì)量管理的流程,建設(shè)本校數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)。
2.集中力量進(jìn)行一次數(shù)據(jù)整理和清洗在理論上建立了數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量管理制度之后,需要花較大的時間和精力對全校的各業(yè)務(wù)系統(tǒng)進(jìn)行一次清洗,并以此次清洗后的數(shù)據(jù)為基礎(chǔ),開展數(shù)據(jù)質(zhì)量管理工作。
3.數(shù)據(jù)質(zhì)量定時核查
除了建設(shè)數(shù)據(jù)質(zhì)量管理制度,還應(yīng)當(dāng)建設(shè)數(shù)據(jù)質(zhì)量的監(jiān)測制度。數(shù)據(jù)一旦產(chǎn)生問題,管理上有人員核驗、整理、匯報,技術(shù)上可追溯、清查、修正。將數(shù)據(jù)質(zhì)量的核查作為日常工作,才能全面地、持續(xù)地維持?jǐn)?shù)據(jù)質(zhì)量。