[Database] How do you choose the best database for your product.

Quyết định lựa chọn giữa MySQL, PostgreSQL và MongoDB phụ thuộc trực tiếp vào cấu trúc dữ liệu, chiến lược mở rộng hệ thống và độ phức tạp của các truy vấn. Một cách ngắn gọn, MySQL tối ưu cho OLTP cơ bản với các tác vụ đọc nhanh, PostgreSQL mạnh về truy vấn phức tạp và toàn vẹn dữ liệu, trong khi MongoDB sinh ra để xử lý dữ liệu phi cấu trúc với khả năng mở rộng ngang mạnh mẽ.

Contents

MySQL

MySQL là hệ quản trị cơ sở dữ liệu quan hệ áp dụng kiến trúc đa luồng (multithreading), được thiết kế tối ưu hóa cho các hệ thống đọc dữ liệu mật độ cao (read-heavy). Cơ sở dữ liệu này cực kỳ phù hợp cho các ứng dụng web tiêu chuẩn, hệ thống thương mại điện tử cơ bản và xử lý giao dịch trực tuyến (OLTP) nhờ tốc độ truy xuất cực nhanh với các truy vấn đơn giản. Tuy nhiên, hiệu năng của MySQL sẽ giảm sút khi phải xử lý các lệnh JOIN nhiều lớp phức tạp hoặc thực thi các thao tác quản lý dữ liệu JSON nguyên bản.

PostgreSQL

PostgreSQL là hệ quản trị cơ sở dữ liệu đối tượng – quan hệ (ORDBMS) hướng tới tính toàn vẹn dữ liệu nghiêm ngặt và khả năng xử lý các truy vấn phân tích mức độ cao. Hệ thống này sử dụng cơ chế kiểm soát đồng thời đa phiên bản Multi-Version Concurrency Control (MVCC) kết hợp với mức độ cô lập linh hoạt, giúp ngăn chặn tình trạng khóa dữ liệu (lock), đồng thời hỗ trợ native các kiểu dữ liệu đặc thù như JSONB hay dữ liệu không gian địa lý. Đây là sự lựa chọn tiêu chuẩn cho các hệ thống tài chính, ERP hoặc các ứng dụng lai giữa OLTP (Online Transaction Processing – Xử lý giao dịch trực tuyến) và OLAP (Online Analytical Processing – Xử lý phân tích trực tuyến) cần tuân thủ bộ quy tắc ACID một cách tuyệt đối.

MongoDB

MongoDB là cơ sở dữ liệu NoSQL hướng tài liệu (Document-oriented), hoạt động dựa trên cấu trúc dữ liệu không cần lược đồ (schema-less) dưới định dạng BSON. Hệ thống này giải quyết hoàn hảo bài toán lưu trữ dữ liệu lớn phi cấu trúc, cho phép hệ thống tự động mở rộng theo chiều ngang (horizontal scaling) cực kỳ hiệu quả thông qua cơ chế phân mảnh (sharding). Bạn nên đề xuất MongoDB cho các hệ thống IoT, lưu trữ log sự kiện mật độ cao, hoặc các dự án Agile đòi hỏi thêm bớt trường dữ liệu liên tục mà không muốn gây gián đoạn ứng dụng.

Bảng đối chiếu đặc tả kỹ thuật

Tiêu chí	MySQL	PostgreSQL	MongoDB
Mô hình dữ liệu	Bảng quan hệ với schema cố định [linearloop]	Bảng quan hệ kết hợp đối tượng (Object-Relational) [linearloop]	Tài liệu dạng JSON/BSON linh hoạt [linearloop]
Kiến trúc & Đồng thời	Client-server đa luồng, khóa cấp độ hàng [itviec]	Đa tiến trình, MVCC chống khóa tắc nghẽn [aws.amazon]	Nexus, MVCC và khóa tức thời cấp tài liệu
Chiến lược mở rộng	Nâng cấp phần cứng (Vertical), chia tải qua Read Replicas [itviec]	Chiều dọc và ngang qua phân vùng (Partitioning) [aws.amazon]	Chiều ngang linh hoạt bằng Sharding tự động
Cấu trúc Chỉ mục	B-tree cơ bản và nâng cao [linearloop]	B-tree, Hash, GIN, GiST, SP-GiST đa dạng	B-tree cấp trường/tài liệu, không gian địa lý [aws.amazon]
Ưu thế truy vấn	Xử lý đọc dữ liệu nhanh, truy vấn JOIN cơ bản	Truy vấn JOIN phức tạp, hỗ trợ mạnh Full-text search [linearloop]	Truy xuất tốc độ cao qua MQL, tối thiểu hóa JOIN

Dự án hiện tại của team bạn đang đối mặt với bài toán ưu tiên tốc độ ghi/đọc dữ liệu lớn (High Throughput) hay tính nhất quán chặt chẽ của các giao dịch (High Consistency)?

Explore PostgreSQL in depth

ACID là viết tắt của 4 từ: Atomicity (Tính nguyên tử), Consistency (Tính nhất quán), Isolation (Tính cô lập), và Durability (Tính bền vững). Đây là một tập hợp các thuộc tính tiêu chuẩn trong hệ quản trị cơ sở dữ liệu (đặc biệt là cơ sở dữ liệu quan hệ như PostgreSQL hay MySQL) nhằm đảm bảo các giao dịch (transaction) luôn được thực thi một cách chính xác, an toàn và toàn vẹn ngay cả khi hệ thống gặp sự cố như mất điện hoặc sập nguồn.

Dưới đây là giải thích đơn giản cho từng thuộc tính theo ngôn ngữ thực chiến:

1. Atomicity (Tính nguyên tử)

Nguyên tắc “Tất cả hoặc không gì cả” (All or Nothing). Một giao dịch có thể bao gồm nhiều thao tác nhỏ, nhưng cơ sở dữ liệu sẽ coi toàn bộ các thao tác đó là một khối thống nhất. Nếu một thao tác trong khối bị lỗi, toàn bộ giao dịch sẽ bị hủy (rollback) và dữ liệu trở về trạng thái y hệt như lúc chưa bắt đầu.

Ví dụ: A chuyển cho B 100k. Quá trình này gồm 2 bước: (1) Trừ 100k của A, (2) Cộng 100k cho B. Nếu bước 1 thành công nhưng bước 2 hệ thống sập mạng, Atomicity sẽ hoàn tiền lại cho A để không ai bị mất tiền oan.[cockroachlabs]

2. Consistency (Tính nhất quán)

Sau khi một giao dịch hoàn thành (dù thành công hay thất bại), dữ liệu phải luôn ở trạng thái hợp lệ và tuân thủ mọi quy tắc ràng buộc (constraints, foreign keys, triggers) đã được định nghĩa từ trước. Không có chuyện dữ liệu bị treo ở một trạng thái “lấp lửng” không hợp lệ.

Ví dụ: Hệ thống quy định “Số lượng hàng tồn kho không được âm”. Nếu có 5 người cùng ấn mua món hàng chỉ còn 1 cái, hệ thống sẽ chỉ xử lý thành công cho 1 người, 4 người kia sẽ báo lỗi để đảm bảo kho hàng không bị ghi nhận là -4.[cockroachlabs]

3. Isolation (Tính cô lập)

Khi nhiều giao dịch chạy song song cùng một lúc (concurrent transactions), hệ thống đảm bảo chúng không dẫm chân lên nhau. Các giao dịch đang xử lý dở dang sẽ được “cách ly”, không cho phép các giao dịch khác nhìn thấy dữ liệu trung gian chưa hoàn tất. Kết quả cuối cùng phải giống hệt như khi các giao dịch được chạy nối tiếp nhau từng cái một.[cockroachlabs]

Ví dụ: Vợ và chồng cùng cầm 2 thẻ ATM rút chung một tài khoản có 5 triệu tại 2 cây ATM khác nhau cùng một thời điểm. Tính cô lập sẽ khóa (lock) tài khoản để xử lý xong giao dịch của người thứ nhất, sau đó mới tính tiếp cho người thứ hai, ngăn chặn việc cả hai đều rút được 5 triệu.[cockroachlabs]

4. Durability (Tính bền vững)

Một khi hệ thống báo “Giao dịch thành công” (Committed), dữ liệu đó đã được ghi cứng vào ổ đĩa. Dù ngay sau giây đó máy chủ có bị rút điện, cháy nổ hay sập ổ cứng mảng (nếu có backup), khi khởi động lại, dữ liệu đó vẫn tồn tại nguyên vẹn mà không bị mất.

Ví dụ: Bạn vừa quẹt thẻ thanh toán vé máy bay và màn hình báo “Thanh toán thành công”. Giây tiếp theo app bị crash hoặc server ngân hàng sập. Khi server phục hồi lại, hệ thống vẫn ghi nhận bạn đã trả tiền và bạn không cần phải thanh toán lại.[cockroachlabs]

Tóm lại để báo cáo với Tech Lead: “ACID là tiêu chuẩn bắt buộc cho các hệ thống dính đến tiền bạc hoặc dữ liệu nghiệp vụ quan trọng. Nó đánh đổi một phần tốc độ xử lý để lấy sự an toàn tuyệt đối, không bao giờ có chuyện mất tiền, sai lệch số dư hay chết dữ liệu nửa chừng”.[cockroachlabs]

Compare MySQL và PostgreSQL.

Đây là bản giải thích theo kiểu case study thực tế, tập trung thẳng vào kiến trúc và lý do ra quyết định để bạn nói chuyện với Tech Lead.

Ví dụ 1: Hệ thống E-commerce bán lẻ / Ứng dụng đọc báo (Chọn MySQL)

Bài toán: Bạn làm một trang TMĐT như Shopee (phần hiển thị sản phẩm) hoặc một trang tin tức có lượng traffic cực lớn. Tỉ lệ hành vi của user là 90% đọc (xem sản phẩm, xem bài viết) và 10% ghi (đặt hàng, bình luận).

Tại sao MySQL thắng:

Mô hình Connection/Thread: MySQL dùng một process duy nhất và tạo ra các thread (luồng) nhẹ cho mỗi user kết nối. Điều này giúp nó xử lý hàng chục ngàn request “đọc” (point query để lấy thông tin 1 sản phẩm) cực nhanh mà tốn rất ít RAM.
Clustered Index cực kỳ tối ưu cho Point Query: Khi MySQL (với InnoDB) tìm một bản ghi bằng Khóa chính (Primary Key), nó tìm thấy luôn toàn bộ dữ liệu (data nằm ngay tại lá của cây Index). Do đó, tốc độ hiện trang chi tiết sản phẩm hoặc bài báo gần như tức thì.[200lab]
Mở rộng ngang (Read Replicas) cực dễ: Vì đặc thù đọc nhiều, kiến trúc chuẩn là 1 Master (để ghi đơn hàng) và 5-10 Read Replicas (chỉ để đọc). Cơ chế replication của MySQL setup vô cùng đơn giản và đã là chuẩn mực ngành (industry standard) cho việc scale hệ thống web.

Kết luận thực tế: Cần tốc độ tải trang nhanh, truy vấn CRUD cơ bản (select * from products where id = X), traffic siêu to nhưng không cần nghiệp vụ tính toán sâu trong DB -> Dùng MySQL.

Ví dụ 2: Hệ thống Ví điện tử / App giao hàng công nghệ (Chọn PostgreSQL)

Bài toán: Bạn làm một siêu ứng dụng (Super App) vừa có thanh toán ví điện tử, vừa có tracking bản đồ tài xế, vừa cần trích xuất báo cáo đối soát công nợ cuối ngày mà không làm chết hệ thống đang chạy.

Tại sao PostgreSQL thắng:

Concurrency (Đồng thời) xuất sắc nhờ MVCC tiên tiến: Cùng lúc 10h tối, hệ thống chạy batch đối soát giao dịch (truy vấn cực nặng trên hàng triệu rows) trong khi user vẫn đang chuyển tiền. Trong MySQL, query đọc nặng đôi khi gây lock hoặc làm chậm luồng ghi. Với kiến trúc Multi-process và MVCC của Postgres, các luồng báo cáo (đọc) và luồng thanh toán (ghi) chạy song song mà hoàn toàn không block nhau.dev+1
Dữ liệu phức tạp (JSONB & GIS): App giao hàng cần lưu thuộc tính mỗi cuốc xe rất linh hoạt (JSONB) và liên tục query khoảng cách từ tài xế đến user. PostgreSQL có PostGIS hỗ trợ native cho dữ liệu tọa độ không gian (tính bán kính, tìm nearest neighbor), cộng với index GIN chuyên trị tìm kiếm bên trong file JSON với tốc độ kinh ngạc. MySQL làm xử lý tọa độ và JSON khá vất vả và chậm hơn.
Truy vấn phân tích (Analytical Queries) mạnh mẽ: Hệ thống cần truy xuất “Top 5 tài xế có doanh thu cao nhất theo từng khu vực trong tháng, tính cả phí thưởng”. PostgreSQL hỗ trợ cực mạnh Window Functions, Partial Index và CTEs (Common Table Expressions) để xử lý logic này ngay tại DB một cách mượt mà.

Kết luận thực tế: Cần nhồi nhét nhiều loại dữ liệu (Tọa độ, JSON), xử lý ghi/đọc hỗn hợp mật độ cao mà không bị lock tắc nghẽn, cần tính toán báo cáo phức tạp và đảm bảo không sai 1 đồng (Strict ACID) -> Dùng PostgreSQL.

Bảng đúc kết gửi Tech Lead

Tiêu chí	Hệ thống dùng MySQL (Ví dụ: CMS, Blog, Web TMĐT cơ bản)	Hệ thống dùng PostgreSQL (Ví dụ: Fintech, ERP, Ride-hailing)
Bản chất Query	Chủ yếu là Point Query (lấy 1 vài record theo ID) -> Nhanh vô địch [200lab].	Range Query, JOIN chéo 5-7 bảng, Group by phức tạp -> Xử lý mượt
I/O & Bộ nhớ	Ăn ít RAM, tối ưu IO cho tác vụ đọc	Cấp phát 1 Process (~10MB) cho mỗi Connection. Tốn RAM hơn nhưng bù lại tính toán cực mạnh [aws.amazon].
Tính năng “Ăn tiền”	Setup Read Replicas dễ dàng để gánh traffic đọc khổng lồ [strongdm].	Xử lý tọa độ bản đồ (PostGIS), JSONB Index (GIN), Multi-master (với Citus)

Nếu hệ thống của team là Read-Heavy (đọc nhiều hơn ghi) và schema bảng biểu cố định, chốt MySQL. Nếu hệ thống là Write-Heavy, dữ liệu hỗn hợp và logic dồn nhiều vào DB, hãy chốt PostgreSQL.