企典大數(shù)據(jù)解決方案基于企典開發(fā)框架、提供一套全面集成的元計算服務(wù)及高內(nèi)聚低耦合的資源整合,支持大數(shù)據(jù)的分布式架構(gòu)的、縱向和橫向的無限切分的高并發(fā)數(shù)據(jù)集合的解決方案。
企典大數(shù)據(jù)從大數(shù)據(jù)的特征定義理解行業(yè)對大數(shù)據(jù)的整體描繪和定性;從對大數(shù)據(jù)價值的探討來深入解決大數(shù)據(jù)的核心技術(shù);洞悉大數(shù)據(jù)的發(fā)展趨勢;從大數(shù)據(jù)安全與隱私這個特別而重要的視角審視人和數(shù)據(jù)之間的長久博弈。
技術(shù)是大數(shù)據(jù)價值體現(xiàn)的手段和前進的基石。企典大數(shù)據(jù)解決方案分別從云計算、分布式處理技術(shù)、存儲技術(shù)中抽象、提煉、歸納。形成企典大數(shù)據(jù)從采集、處理、存儲到形成結(jié)果、查詢統(tǒng)計分析的整個過程。
大數(shù)據(jù)的處理的核心是可無限擴展服務(wù)器和與之相對應(yīng)的分布式算法,數(shù)據(jù)庫分布式,其核心內(nèi)容無非就是數(shù)據(jù)切分(Sharding),以及切分后對數(shù)據(jù)的定位、整合工作,解決單一數(shù)據(jù)庫或數(shù)據(jù)表因數(shù)據(jù)量過大而導(dǎo)致的性能瓶頸問題。集數(shù)據(jù)存儲、管理以及分布式協(xié)調(diào)與計算為一體的數(shù)據(jù)庫系統(tǒng)。數(shù)據(jù)切分就是把數(shù)據(jù)分散存放到多個數(shù)據(jù)庫或多個表中,使得單臺主機中的數(shù)據(jù)量變小,使得通過擴充主機數(shù)量即可提升數(shù)據(jù)庫操作性能的目的。
數(shù)據(jù)切分可分為縱向和橫向兩種切分方法??v向切分就是根據(jù)業(yè)務(wù)耦合性,將關(guān)聯(lián)度低的不同表獨立建成不同的數(shù)據(jù)庫。如下圖所示:
縱向切分相對簡單,做法與我們將一個大的系統(tǒng)拆分成幾個小系統(tǒng)的做法相似,就是根據(jù)業(yè)務(wù)分類進行獨立劃分應(yīng)用或數(shù)據(jù)庫。然而當(dāng)一個應(yīng)用已經(jīng)難以再進一步拆分時,或者拆分后數(shù)據(jù)行數(shù)巨大時,我們就還需要進行橫向切分(即:將單個表的記錄數(shù)變?。?。橫向切分是根據(jù)表內(nèi)數(shù)據(jù)的邏輯關(guān)系,將同一個表按不同的條件拆分到多個數(shù)據(jù)庫或多個表中。
如上圖所示,橫向切分后同一張表同時出現(xiàn)在多個數(shù)據(jù)庫中,每個庫的數(shù)據(jù)內(nèi)容不同,如何設(shè)定數(shù)據(jù)記錄的切分規(guī)則是最重要考量。一旦確定切分規(guī)則,應(yīng)用對該表的操作原則基本就已確定。假設(shè)我們將Customer表根據(jù)cus_no字段來切分到4個庫,如果我們所有查詢條件都帶有cus_no字段則可明確定位到相應(yīng)庫去查詢,但如果我們頻繁用到的查詢條件中不帶cus_no時,將會導(dǎo)致無法定位數(shù)據(jù)庫,從而需要同時向4個庫發(fā)起查詢,最后再合并數(shù)據(jù)、取最小集返回給應(yīng)用,導(dǎo)致分庫優(yōu)勢反而可能成為你的拖累。下圖我們示意一個分表過程:
實踐是大數(shù)據(jù)的最終價值體現(xiàn),大數(shù)據(jù)的價值體現(xiàn)在以下幾個方面:
1)對大量消費者提供產(chǎn)品或服務(wù)的企業(yè)可以利用大數(shù)據(jù)進行精準(zhǔn)營銷
2) 做小而美模式的中小微企業(yè)可以利用大數(shù)據(jù)做服務(wù)轉(zhuǎn)型
3) 面臨互聯(lián)網(wǎng)壓力之下必須轉(zhuǎn)型的傳統(tǒng)企業(yè)需要與時俱進充分利用大數(shù)據(jù)的價值
在這個快速發(fā)展的智能硬件時代,困擾應(yīng)用開發(fā)者的一個重要問題就是如何在功率、覆蓋范圍、傳輸速率和成本之間找到那個微妙的平衡點。企業(yè)組織利用相關(guān)數(shù)據(jù)和分析可以幫助它們降低成本、提高效率、開發(fā)新產(chǎn)品、做出更明智的業(yè)務(wù)決策等等。