OceanBase、TiDB這類NewSQL的定位是什么?

來源：千鋒教育

發布人：xqq

時間： 2023-10-12 23:36:12 1697124972

一、OceanBase、TiDB這類NewSQL的定位

oceanbase tidb spanner是share nothing的架構，單個分區有paxos保證可用性的前提下，還有近乎線性的擴展能力，而代價是復雜查詢和DML，不一定都能生成下推執行的plan，要么無法執行要么執行很慢。再有就是分布式事務一致性的代價，分布式快照讀代價較大。

mysql GR更像share data的rac和pureScale，容量和計算的擴展能力有限，它們的出現更多的意義是對傳統的單機mysql oracle db2在可用性上的補充。使用起來與傳統單機實例沒有差別。

首先要明確的是，沒有完美的系統，任何一個系統的出現都是為了解決當時最主要的問題，但是會產生一些其他的小問題，跟藥一樣，能治病，但是一般都會有副作用。

那么完美的數據庫系統什么樣呢，我現在能想到以下幾點：

1.易用與靈活性：數據庫可以理解自然語言，我跟它說我要存儲什么樣的數據，就存進去了，要查詢什么樣的數據，就給我取出來了，不需要我告訴它怎么存，怎么取

2.擴展性：可以存儲無限多的數據，不需要擔心容量的問題

3.高性能：性能非常強大，不管想存或取什么數據，瞬間就完成了

4.高可用：數據存儲之后，永遠也不會丟，系統永遠也不會掛掉，1年365天，1天24小時隨叫隨到

5.并發與隔離性：數據庫不僅可以滿足我一個人，也可以滿足所有人的同時讀寫，并且我們之間互不干擾

關系數據庫之前的存儲系統基本上一個條件也不滿足

傳統單機關系數據庫一定程度上解決了問題1、3、5，用戶不需要知道數據是怎么存儲的，行存儲還是列存儲或者其他的結構信息，查詢的時候用SQL就可以了，不需要根據數據的存儲結構編寫特定的程序，大大簡化了應用開發，性能也還可以。之所以說是一定程度上，是因為并沒有完美的解決。SQL雖然很簡單，但要比自然語言復雜得多，更改表的schema也不是特別方便；性能的話對于復雜查詢，優化器無能為力，可能會給出性能非常差的查詢計劃；并發與隔離性可以做到，但是要犧牲性能

Mysql Group Replication幫助傳統單機關系數據庫解決了問題4

如果數據量不大，這樣用著也不錯了。但是互聯網導致了數據量的爆炸式增長，單機存儲不下這么多數據了。所以才會出現了Bigtable等NoSQL分布式數據庫，解決當時最主要的數據量暴增問題。這些系統一定程度上解決了問題2、3、4。它想不想解決其他問題呢？肯定想，但是要解決這些問題，系統會變得更加復雜，需要更長的時間，但是系統需要快速上線啊，那么就先把最主要的問題解決了就好。隔離性就由業務部門自己去解決吧，這也導致了后來業務部門很多的抱怨。所以我覺得NoSQL在開發的時候是有很多妥協的，屬于救火的產品，不可能成為未來的方向。

目前看來OceanBase、TiDB、Spanner／F1這些系統是能夠解決上述問題非常多的系統。

1.支持SQL

2.數據被拆分成一個個range，分散在不同的服務器中，通過增加服務器就可以一定程度上的線性擴容

4.多副本，并且通過paxos或raft保證多副本之間的一致性

5.通過2PC，MVCC支持不同隔離級別的事物

但是相比高端服務器上的單機數據庫，性能會有些問題

查詢的延遲(latency)會比較高，網絡是一個問題，比如分布式join就要用到網絡，有人做過實驗，在不改變現有查詢引擎的情況下，單條查詢隨著服務器數量增多，性能不增反降，把網絡換成InfiniBand效果也不好，后來重新設計了查詢引擎，性能做到了遞增。可以參考High-Speed Query Processing over High-Speed Networks（

http://www.vldb.org/pvldb/vol9/p228-roediger.pdf

）

所以需要改變很多傳統的做法，針對新硬件進行新的設計、優化，是可以大幅度提高性能的。

未來不敢說，單機數據庫在很多場景下還是會有廣泛應用的，NewSQL最起碼接下來的幾年里都還有很大的發展潛力，而NoSQL，分布式中間件等方案基本上就是明日黃花了。

延伸閱讀：

二、數據庫的查詢功能實現原理

數據庫查詢是數據庫的最主要功能之一。我們都希望查詢數據的速度能盡可能的快，因此數據庫系統的設計者會從查詢算法的角度進行優化。最基本的查詢算法當然是順序查找（linear search），這種復雜度為O(n)的算法在數據量很大時顯然是糟糕的，好在計算機科學的發展提供了很多更優異的查找算法，例如二分查找（binary search）、二叉樹查找（binary tree search）等。如果稍微分析一下會發現，每種查找算法都只能應用于特定的數據結構之上，例如二分查找要求被檢索數據有序，而二叉樹查找只能應用于二叉查找樹上，但是數據本身的組織結構不可能完全滿足各種數據結構（例如，理論上不可能同時將兩列都按順序進行組織），所以，在數據之外，數據庫系統還維護著滿足特定查找算法的數據結構，這些數據結構以某種方式引用（指向）數據，這樣就可以在這些數據結構上實現高級查找算法。這種數據結構，就是索引。

tags: it技術干貨