1. Elastic Block Store – EBS
Để hiểu về Amazon EBS, hãy tưởng tượng nó giống như một ổ cứng ngoài (USB hoặc ổ HDD/SSD rời) mà bạn cắm vào máy tính của mình. Trong môi trường AWS, “máy tính” chính là các EC2 Instance, còn EBS chính là các ổ đĩa mà bạn gắn thêm vào để lưu trữ hệ điều hành, phần mềm và dữ liệu người dùng.
1.1. Khái niệm và Đặc tính Cốt lõi
Amazon Elastic Block Store (EBS) cung cấp các thiết bị lưu trữ khối (block-level storage) được kết nối qua mạng (Network-attached). Điều này có nghĩa là ổ đĩa và máy chủ EC2 không nhất thiết phải nằm chung một thùng máy vật lý, chúng giao tiếp với nhau qua hệ thống mạng nội bộ tốc độ cao của AWS.
Các đặc tính quan trọng:
- Tính gắn kết linh hoạt: Một EBS Volume chỉ có thể được gắn vào 01 Instance tại một thời điểm (trừ một số loại đặc biệt có tính năng Multi-attach). Tuy nhiên, một Instance có thể gắn cùng lúc nhiều EBS Volume.
- Phạm vi hoạt động: EBS Volume được tạo ra trong một Availability Zone (AZ) cụ thể. Để gắn ổ đĩa vào EC2, cả hai phải nằm cùng một AZ.
- Khả năng dự phòng (Replication): AWS tự động sao chép dữ liệu của bạn trong nội bộ một AZ. Nếu một phần cứng vật lý lưu trữ ổ đĩa bị lỗi, dữ liệu của bạn vẫn an toàn nhờ các bản sao này.
- Tính bền bỉ (Persistence): Khác với Instance Store (dữ liệu mất khi tắt máy), dữ liệu trên EBS sẽ vẫn tồn tại ngay cả khi bạn Stop hoặc Terminate (nếu cấu hình giữ lại) Instance.
- Thay đổi linh hoạt: Bạn có thể tăng dung lượng hoặc đổi loại ổ đĩa (ví dụ từ HDD lên SSD) ngay lập tức mà không cần tắt máy (no downtime).
Cách thức tổ chức dữ liệu: Trong lưu trữ khối, dữ liệu không được lưu dưới dạng một tệp tin nguyên vẹn có tên và thư mục. Thay vào đó:
- Dữ liệu được chia nhỏ thành các khối (blocks) có kích thước cố định và bằng nhau.
- Mỗi khối có một địa chỉ duy nhất nhưng không có siêu dữ liệu (metadata) đi kèm (không có tên tệp, ngày tạo, hay loại tệp).
- Hệ điều hành (OS) sẽ quản lý các khối này và quyết định cách kết hợp chúng lại để tạo thành tệp tin thông qua một hệ thống tệp (File System như NTFS, EXT4).
Đặc điểm của lưu trữ khối:
- Hiệu suất cực cao: Hệ điều hành truy cập trực tiếp vào các khối dữ liệu qua địa chỉ mà không cần thông qua tầng quản lý tệp tin phức tạp, giúp giảm tối đa độ trễ (low latency).
- Thay đổi dữ liệu một phần: Khi bạn sửa một từ trong tệp tin 100 MB, hệ thống chỉ ghi đè đúng khối (block) chứa từ đó thay vì phải tải lên lại toàn bộ tệp tin như Object Storage. Điều này cực kỳ quan trọng cho các ứng dụng ghi dữ liệu liên tục như Cơ sở dữ liệu (Databases).
- Khả năng khởi động (Bootable): Đây là loại lưu trữ duy nhất trên AWS có thể dùng để cài đặt hệ điều hành và khởi động (Boot) các EC2 Instance.
- Quyền kiểm soát tối đa: Bạn có toàn quyền định dạng hệ thống tệp (File System) như NTFS, EXT4, hoặc XFS và phân vùng ổ đĩa theo ý muốn, giống hệt như đang sử dụng một ổ cứng vật lý gắn trong máy tính.
1.2. Phân loại EBS Volumes
AWS chia EBS thành hai dòng công nghệ chính để tối ưu hóa giữa hiệu suất và chi phí: SSD (phù hợp cho tốc độ phản hồi nhanh) và HDD (phù hợp cho lưu trữ dữ liệu lớn, tuần tự).
1.3. Nhóm Ổ Đĩa SSD (Solid State Drive)
Phù hợp cho các tác vụ cần tốc độ đọc/ghi ngẫu nhiên nhanh, độ trễ thấp như hệ điều hành hoặc cơ sở dữ liệu.
- General Purpose SSD (gp2 / gp3):
- gp2: Thế hệ cũ. Hiệu suất (IOPS) đi kèm với dung lượng (ổ càng lớn IOPS càng cao). Tỉ lệ là 3 IOPS/GiB, tối đa 16.000 IOPS. Các ổ nhỏ có khả năng Bursting lên 3.000 IOPS.
- gp3: Thế hệ mới, linh hoạt nhất. Bạn có thể tùy chỉnh IOPS và Throughput độc lập với dung lượng đĩa. Mặc định luôn có sẵn 3.000 IOPS và 125 MiB/s miễn phí. Tối đa đạt 16.000 IOPS.
- Provisioned IOPS SSD (io1 / io2):
- Dành cho các ứng dụng cực kỳ quan trọng, cần hiệu suất cực cao và ổn định tuyệt đối (như SAP HANA, Oracle, SQL Server).
- io1: Hỗ trợ tối đa 64.000 IOPS (cho Nitro Instances). Độ bền 99.9%.
- io2 (Block Express): Thế hệ cao cấp nhất, độ bền lên tới 99.999% (gấp 100 lần io1) và hỗ trợ tỉ lệ 500 IOPS/GiB.
1.4. Nhóm Ổ Đĩa HDD (Hard Disk Drive)
Tối ưu cho việc di chuyển lượng dữ liệu lớn (Throughput) thay vì tốc độ phản hồi từng lệnh nhỏ. Lưu ý: Không thể dùng HDD để làm ổ đĩa khởi động (Boot Volume) cho hệ điều hành.
- Throughput Optimized HDD (st1): Thích hợp cho Big Data, xử lý Log, Data Warehouse. Tốc độ tối đa đạt 500 MiB/s.
- Cold HDD (sc1): Giải pháp lưu trữ rẻ nhất cho dữ liệu ít khi truy cập (Cold data) nhưng vẫn cần định dạng ổ đĩa để truy xuất khi cần. Tốc độ tối đa 250 MiB/s.
1.5. So sánh các chỉ số kỹ thuật và Trường hợp sử dụng
Trước khi đi vào bảng so sánh, chúng ta cần phân biệt hai khái niệm quan trọng thường xuất hiện trong các bài kiểm tra:
- IOPS (Input/Output Operations Per Second): Đo số lượng lệnh đọc/ghi thực hiện trong 1 giây. Giống như số lượng gói hàng bạn bốc xếp được trong 1 phút. Càng cao thì ứng dụng phản hồi càng nhanh.
- Throughput (Thông lượng): Đo khối lượng dữ liệu được truyền đi trong 1 giây (MiB/s). Giống như độ lớn của chiếc xe tải chở hàng. Xe càng lớn thì chở được càng nhiều dữ liệu một lúc.
Bảng so sánh chi tiết các loại EBS Volume
| Loại Volume | Tên gọi | Đặc điểm nổi bật | IOPS tối đa | Thông lượng tối đa | Độ bền (Durability) |
|---|---|---|---|---|---|
| gp3 | General Purpose | Cân bằng nhất, rẻ hơn gp2 20% | 16.000 | 1.000 MiB/s | 99.9% |
| gp2 | General Purpose | Thế hệ cũ, IOPS dính liền với dung lượng | 16.000 | 250 MiB/s | 99.9% |
| io2 | Provisioned IOPS | Hiệu suất cao nhất, cực kỳ bền bỉ | 256.000 | 4.000 MiB/s | 99.999% |
| io1 | Provisioned IOPS | Hiệu suất cao, độ trễ thấp | 64.000 | 1.000 MiB/s | 99.9% |
| st1 | Throughput HDD | Lưu trữ Big Data, truy cập thường xuyên | 500 | 500 MiB/s | 99.9% |
| sc1 | Cold HDD | Rẻ nhất, cho dữ liệu lưu trữ lâu dài | 250 | 250 MiB/s | 99.9% |
1.6. Tổng kết bài học và Mẹo thi cử
- Lựa chọn mặc định: Luôn ưu tiên chọn gp3 cho hầu hết các tác vụ vì nó mang lại sự cân bằng tốt nhất giữa chi phí và hiệu năng.
- Tiết kiệm chi phí: Nếu bạn có dữ liệu khổng lồ và không cần truy cập nhanh, hãy chọn sc1.
- Hiệu năng cực đỉnh: Khi bài thi nhắc đến “Database nhạy cảm với độ trễ” hoặc “Cần IOPS cố định”, hãy chọn dòng Provisioned IOPS (io1/io2).
- Đặc điểm Boot Volume: Chỉ có SSD (gp2, gp3, io1, io2) mới có thể dùng làm ổ đĩa khởi động hệ điều hành.
- Khả năng di chuyển: Để chuyển một EBS Volume sang một AZ khác, bạn phải thực hiện thông qua việc tạo một bản sao lưu (Snapshot).
2. EBS Volumes và EBS Snapshots
Sau khi đã nắm vững các loại ổ đĩa, việc quản trị chúng trong môi trường thực tế đòi hỏi sự hiểu biết về cách chúng vận hành và thay đổi theo nhu cầu kinh doanh.
2.1. EBS Volumes
EBS Volumes chính là virtual disk mà EBS cung cấp để gắn vào EC2 instance.
Các ràng buộc mà EBS Volumes phải tuân theo:
- Phạm vi Availability Zone (AZ): Một EBS Volume luôn gắn liền với một AZ cụ thể. Nó giống như một ổ cứng chỉ có thể cắm vào các máy tính trong cùng một tòa nhà.
- Quy tắc vàng: EC2 Instance và EBS Volume phải nằm trong cùng một AZ (ví dụ: cùng ở ap-southeast-1a) thì mới có thể kết nối với nhau.
- Root Device Volume: Đây là ổ đĩa chứa hệ điều hành (OS). Mọi Instance khi khởi tạo đều bắt buộc phải có ít nhất một Root Volume này.
Một trong những điểm mạnh nhất của EBS là khả năng thay đổi mà không gây gián đoạn dịch vụ (No Downtime):
- Thay đổi Kích cỡ (Resizing): Bạn có thể tăng dung lượng ổ đĩa bất cứ lúc nào.
- Lưu ý kỹ thuật: Sau khi tăng trên AWS Console, bạn phải thực hiện lệnh mở rộng hệ thống tệp (Extend Filesystem) bên trong hệ điều hành để OS nhận diện phần dung lượng mới thêm vào.
- Thay đổi Loại Volume: Bạn có thể nâng cấp từ gp2 lên io2 hoặc chuyển sang các loại khác để tối ưu chi phí/hiệu năng ngay khi Instance đang chạy.
2.2. EBS Snapshots – Giải pháp Sao lưu và Phục hồi
Snapshot là một bản sao lưu tại một thời điểm nhất định (Point-in-time) của EBS Volume.
- Cơ chế lưu trữ và Tính gia tăng (Incremental)
- Lưu trữ trên S3: Mặc dù bạn quản lý Snapshot trong mục EBS, nhưng thực tế AWS lưu trữ dữ liệu Snapshot trên Amazon S3. Bạn không thể xem trực tiếp các tệp tin này trên S3, AWS quản lý việc đó để đảm bảo độ bền dữ liệu cao nhất.
- Sao lưu gia tăng (Incremental):
- Bản Snapshot đầu tiên là bản Full Backup (sao chép toàn bộ dữ liệu).
- Các bản Snapshot tiếp theo chỉ lưu lại các khối dữ liệu (blocks) đã bị thay đổi.
- Lợi ích: Tiết kiệm đáng kể chi phí lưu trữ và tăng tốc độ tạo bản sao lưu.
- Tính nhất quán dữ liệu (Data Consistency): Khi tạo Snapshot cho một Instance đang chạy, có rủi ro dữ liệu vẫn còn nằm trên RAM hoặc bộ đệm (Cache) chưa kịp ghi xuống đĩa.
- Thực hành tốt nhất: Để có bản sao lưu hoàn hảo nhất (Application-consistent), bạn nên Stop Instance hoặc Detach Volume trước khi tạo Snapshot.
- Di chuyển dữ liệu xuyên Vùng (Cross-Region): EBS Snapshot là “chìa khóa” để di chuyển dữ liệu đi xa:
- Chia sẻ: Có thể chia sẻ Snapshot cho tài khoản AWS khác (ví dụ: đối tác hoặc tài khoản nội bộ khác).
- Copy Snapshot: Để đưa dữ liệu từ Region này sang Region khác (ví dụ: từ Singapore sang Mỹ), bạn phải dùng lệnh Copy. Đây cũng là bước đầu tiên để triển khai thảm họa (Disaster Recovery) ở quy mô toàn cầu.
2.3. Quy trình Khôi phục và Di trú
Khi bạn cần khôi phục dữ liệu hoặc chuyển Instance sang vùng khác, quy trình sẽ như sau:
- Từ Volume cũ -> Tạo Snapshot: Lưu lại trạng thái dữ liệu.
- Từ Snapshot -> Tạo Volume mới: Để gắn vào một Instance khác trong cùng Region.
- Từ Snapshot -> Tạo Image (AMI): Biến bản sao lưu thành một “khuôn mẫu” (Template).
- Từ AMI -> Khởi chạy Instance mới: Đây là cách bạn nhân bản một máy chủ y hệt máy chủ cũ sang một Region khác hoặc một AZ khác.
2.4. Tổng kết
Các con số cần nhớ cho bài thi:
- 1 AZ: Phạm vi hoạt động của 1 EBS Volume.
- S3: Nơi lưu trữ thực tế của EBS Snapshots.
- Incremental: Cơ chế sao lưu của Snapshot (chỉ lưu phần thay đổi).
- Encryption: Snapshot tạo từ Volume đã mã hóa sẽ luôn luôn được mã hóa.
- 01 Instance: Một Volume thông thường chỉ gắn được vào một máy chủ (ngoại trừ tính năng Multi-attach của dòng io1/io2).
3. Mã hóa Amazon EBS (EBS Encryption)
Trong môi trường điện toán đám mây, bảo mật dữ liệu là ưu tiên hàng đầu. Amazon Elastic Block Store (EBS) cung cấp giải pháp mã hóa mạnh mẽ để bảo vệ dữ liệu của bạn khỏi các truy cập trái phép. Dưới đây là những kiến thức cốt lõi về cách thức hoạt động và triển khai mã hóa EBS.
3.1. Khái niệm cơ bản về mã hóa dữ liệu
Trước khi đi sâu vào EBS, chúng ta cần hiểu mã hóa là quá trình chuyển đổi dữ liệu từ dạng văn bản rõ (plain text) sang định dạng không thể đọc được gọi là ciphertext. Dữ liệu này chỉ có thể được giải mã và đọc bởi người sở hữu khóa bí mật (key).
Mã hóa giúp bảo vệ dữ liệu trong hai trạng thái chính:
- Dữ liệu tại chỗ (Data at rest): Dữ liệu đang được lưu trữ cố định trên ổ đĩa.
- Dữ liệu đang truyền tải (Data in transit): Dữ liệu đang di chuyển giữa các thành phần hệ thống (ví dụ: từ máy chủ EC2 đến ổ đĩa EBS).
3.2. Cơ chế hoạt động của Mã hóa EBS
Amazon EBS sử dụng các tiêu chuẩn bảo mật cao nhất hiện nay để đảm bảo an toàn cho người dùng:
- Thuật toán mã hóa: EBS sử dụng AES-256, một trong những thuật toán mã hóa đối xứng mạnh nhất thế giới, được các chính phủ và tổ chức tài chính tin dùng.
- Quản lý khóa (AWS KMS): Toàn bộ quá trình mã hóa dựa vào dịch vụ AWS Key Management Service (AWS KMS). KMS chịu trách nhiệm tạo và quản lý các Customer Master Keys (CMKs). Bạn có thể sử dụng khóa mặc định của AWS hoặc tự tạo khóa riêng để kiểm soát quyền truy cập chặt chẽ hơn.
3.3. Phạm vi bảo vệ của EBS Encryption
Khi kích hoạt tính năng mã hóa trên một Volume EBS, AWS sẽ tự động bảo vệ các thành phần sau mà không cần bạn can thiệp thủ công:
- Dữ liệu bên trong Volume: Mọi tệp tin, hệ điều hành và ứng dụng lưu trên ổ đĩa đều được mã hóa.
- Dữ liệu đang truyền tải: Mọi luồng dữ liệu di chuyển giữa Instance EC2 và Volume EBS đều được mã hóa trên đường truyền, ngăn chặn hành vi nghe lén (sniffing).
- Snapshots: Các bản sao lưu (snapshots) được tạo từ một Volume đã mã hóa sẽ tự động được mã hóa.
- Volumes mới từ Snapshot: Khi bạn tạo một Volume mới từ một bản snapshot đã mã hóa, Volume đó cũng sẽ mặc định ở trạng thái mã hóa.
3.4. Đặc điểm và lợi ích của Mã hóa EBS
| Đặc điểm | Chi tiết kỹ thuật | Giải thích bổ sung |
|---|---|---|
| Tính minh bạch | Xử lý hoàn toàn tự động ở lớp hạ tầng. | Bạn không cần thay đổi code ứng dụng hay cấu hình hệ điều hành. Dữ liệu được giải mã khi đọc và mã hóa khi ghi một cách mượt mà. |
| Hiệu năng | Tác động cực thấp đến độ trễ (Latency). | Việc mã hóa được thực hiện bởi phần cứng chuyên dụng trên các máy chủ AWS, giúp duy trì hiệu suất gần như tương đương với ổ đĩa không mã hóa. |
| Tính linh hoạt | Có thể mã hóa trong quá trình sao chép (Copy). | Đây là cơ chế then chốt để chuyển đổi từ dữ liệu không mã hóa sang mã hóa. |
| Root Volumes | Có thể mã hóa ngay khi khởi tạo Instance. | Bạn có thể bảo vệ cả ổ đĩa chứa hệ điều hành ngay từ bước thiết lập đầu tiên. |
Mẹo chuyên gia: Nếu một AMI (Amazon Machine Image) chưa được mã hóa, bạn nên sao chép (copy) AMI đó sang một bản mới và chọn tùy chọn mã hóa trong quá trình copy. Sau đó, dùng AMI mới này để chạy Instance.
3.5. Quy trình 4 bước để mã hóa Volume EBS đang hoạt động
Bạn không thể bật tính năng mã hóa trực tiếp trên một Volume đang tồn tại. Nếu bạn có một Root Volume chưa mã hóa và muốn bảo mật nó, hãy thực hiện theo quy trình chuẩn sau:
- Tạo Snapshot: Tiến hành tạo một bản snapshot từ Volume hiện tại (đang ở trạng thái chưa mã hóa).
- Sao chép và Mã hóa Snapshot: Sử dụng chức năng Copy Snapshot. Trong bảng điều khiển, hãy tích chọn vào ô Encryption và chọn khóa KMS tương ứng. Kết quả bạn sẽ có một bản snapshot mới đã được mã hóa.
- Tạo AMI mới: Từ bản snapshot đã mã hóa ở bước 2, hãy chọn hành động “Create Image” để tạo một Amazon Machine Image (AMI) mới.
- Khởi chạy Instance mới: Sử dụng AMI vừa tạo để Launch một Instance EC2 mới. Lúc này, Root Device Volume của Instance mới sẽ mặc định được mã hóa hoàn toàn.
Tổng kết
Hãy nhớ rằng: Snapshots kế thừa trạng thái mã hóa của Volume nguồn, và việc chuyển đổi mã hóa cho Volume hiện có luôn phải đi qua bước trung gian là Copy Snapshot.
4. Elastic File System – EFS
4.1. Khái niệm và đặc điểm
Amazon Elastic File System (EFS) là một dịch vụ lưu trữ tệp tin có tính sẵn sàng cao, khả năng mở rộng (scalability) và đàn hồi (elastic) của AWS. Nó cung cấp một hệ thống tệp tin mạng (NFS – Network File System) được quản lý hoàn toàn, có thể được gắn (mount) đồng thời vào nhiều phiên bản EC2 chạy trong các Availability Zones (AZs) khác nhau trong cùng một khu vực (Region).
Đặc điểm chính của EFS
- Managed NFS: Được quản lý hoàn toàn bởi AWS, giúp giảm bớt gánh nặng vận hành.
- Hỗ trợ đa AZ: Dữ liệu được lưu trữ dự phòng trên nhiều AZ trong một Region để đảm bảo tính sẵn sàng cao và độ bền (durability).
- Khả năng mở rộng (Scalability): Tự động mở rộng quy mô lưu trữ lên đến Petabytes mà không cần lập kế hoạch trước. Bạn chỉ trả tiền cho dung lượng bạn thực sự sử dụng.
- Hỗ trợ kết nối đồng thời: Có thể hỗ trợ hàng nghìn kết nối NFS đồng thời từ các phiên bản EC2.
- Tính tương thích: Sử dụng giao thức NFSv4 và chỉ tương thích với các Amazon Machine Images (AMI) dựa trên Linux. Không hỗ trợ Windows.
- Bảo mật: Sử dụng AWS Key Management Service (KMS) để mã hóa dữ liệu.
- Tính nhất quán: EFS cung cấp tính nhất quán kiểu đọc sau ghi (read-after-write).
EFS lý tưởng cho các ứng dụng yêu cầu khả năng truy cập tệp tin được chia sẻ, mở rộng quy mô và tính sẵn sàng cao:
- Máy chủ Web (Web Servers): Cho phép nhiều máy chủ web truy cập cùng một kho nội dung trang web (ví dụ: hình ảnh, tệp CSS/JS) từ một cấu trúc thư mục duy nhất.
- Quản lý Nội dung (Content Management): Tuyệt vời cho các hệ thống CMS như WordPress, Drupal, nơi nội dung cần được chia sẻ dễ dàng giữa các phiên bản EC2.
- Môi trường Phát triển & Thử nghiệm (Dev/Test Environments): Cung cấp một nơi lưu trữ tập trung và dễ dàng truy cập.
- Xử lý Dữ liệu Lớn (Big Data) & Truyền thông: Phù hợp với các ứng dụng có yêu cầu thông lượng (throughput) cao.
4.3. Hiệu suất và Thông lượng (Throughput)
EFS được thiết kế để xử lý các khối lượng công việc đòi hỏi khắt khe, với khả năng:
- Hỗ trợ 1000s kết nối đồng thời.
- Thông lượng tối đa lên đến 10 GBps (Gigabytes mỗi giây).
- EFS có thể mở rộng quy mô dung lượng lưu trữ dữ liệu lên đến petabytes.
Khi tạo một File System EFS, bạn cần chọn giữa hai chế độ hiệu suất cơ bản:
- Mục đích chung (General Purpose):
- Thích hợp cho hầu hết các khối lượng công việc, bao gồm máy chủ web và hệ thống quản lý nội dung (CMS).
- Tối ưu hóa cho các hoạt động có độ trễ thấp.
- I/O Tối đa (Max I/O):
- Được thiết kế cho các khối lượng công việc lớn hơn, song song hơn, chẳng hạn như Big Data hoặc xử lý truyền thông.
- Cung cấp thông lượng cao hơn nhưng có thể phải chịu độ trễ (latency) hơi cao hơn so với chế độ Mục đích chung.
EFS cũng cho phép bạn kiểm soát thông lượng thông qua chế độ thông lượng:
- Tăng tốc (Bursting) (Mặc định): Thông lượng tỷ lệ thuận với dung lượng lưu trữ của File System. Tự động mở rộng quy mô và cho phép bùng nổ vượt quá mức cơ bản.
- Được cung cấp sẵn (Provisioned): Cho phép bạn cấu hình thủ công mức thông lượng cụ thể (MiB/s) bất kể dung lượng lưu trữ. Hữu ích khi bạn có thể ước tính khối lượng công việc của mình và cần hiệu suất ổn định.
- Đàn hồi (Elastic): Chế độ mới nhất, tự động điều chỉnh hiệu suất thông lượng theo nhu cầu I/O của ứng dụng, lý tưởng cho các khối lượng công việc không thể đoán trước.
4.4. Các Tầng Lưu trữ (Storage Tiers)
EFS cung cấp các tầng lưu trữ khác nhau để tối ưu hóa chi phí dựa trên tần suất truy cập:
| Tầng Lưu trữ | Mô tả |
|---|---|
| Standard | Dành cho các tệp thường xuyên được truy cập (Hot data). Dữ liệu được lưu trữ trong nhiều AZ. |
| Standard-Infrequent Access (IA) | Dành cho các tệp ít được truy cập (Cold data). Chi phí lưu trữ thấp hơn, nhưng có chi phí truy cập. Dữ liệu được lưu trữ trong nhiều AZ. |
| One Zone | Tương tự Standard, nhưng dữ liệu chỉ được lưu trữ trong một AZ. Chi phí thấp nhất, nhưng độ bền và tính sẵn sàng bị giảm. |
| One Zone-Infrequent Access (One Zone-IA) | Tương tự Standard-IA, nhưng chỉ lưu trữ trong một AZ. |
4.5. Quản lý Vòng đời (Lifecycle Management)
Bạn có thể cấu hình Chính sách Vòng đời để tự động di chuyển các tệp từ tầng Standard sang tầng Infrequent Access (IA) sau một số ngày không hoạt động cụ thể (ví dụ: 7, 14, 30 ngày). Điều này giúp tối ưu hóa chi phí.
- Transition into IA: Di chuyển tệp tin từ Standard sang IA nếu không được truy cập trong X ngày.
- Transition out of IA: Di chuyển tệp tin từ IA trở lại Standard ngay khi chúng được truy cập.
4.6. So sánh với EBS
- EBS (Elastic Block Store): Là ổ đĩa ảo dạng Block Storage. Có thể coi nó như một cái ổ cứng (HDD/SSD) gắn rời. Nó được thiết kế để đi kèm với một thực thể máy chủ cụ thể.
- EFS (Elastic File System): Là hệ thống lưu trữ dạng File Storage (NFS). Nó giống như một ổ đĩa mạng (Network Drive) hoặc Shared Folder mà nhiều máy chủ có thể truy cập cùng lúc.
| Đặc tính | EBS (Elastic Block Store) | EFS (Elastic File System) |
|---|---|---|
| Giao thức | Block level (giống ổ cứng vật lý) | File level (NFSv4) |
| Khả năng kết nối | Thường chỉ gắn vào 1 máy chủ EC2 tại một thời điểm. | Có thể gắn vào hàng nghìn máy chủ EC2 hoặc Container đồng thời. |
| Phạm vi (Scope) | Nằm trong 1 Availability Zone (AZ) cụ thể. | Trải dài trên nhiều AZ trong một Region (High Availability). |
| Khả năng mở rộng | Phải cấu hình thủ công để tăng dung lượng. | Tự động mở rộng (Auto-scaling) khi ông thêm hoặc xóa file. |
| Hiệu năng (Latency) | Rất thấp (Low Latency). Phù hợp cho database hoặc app cần I/O cao. | Cao hơn EBS một chút vì truyền qua network. |
| Chi phí | Rẻ hơn (trả theo dung lượng backup sẵn). | Đắt hơn (trả theo dung lượng thực tế sử dụng). |
Cách lựa chọn:
- Dùng EBS khi:
- Cần cài đặt Hệ điều hành (Boot volume).
- Chạy các Database (MySQL, PostgreSQL, MongoDB) cần tốc độ đọc/ghi cực nhanh.
- Các ứng dụng đơn lẻ (Single instance) không cần chia sẻ dữ liệu với máy khác.
- Dùng EFS khi:
- Cần một kho chứa dữ liệu dùng chung cho nhiều EC2 (ví dụ: chứa source code cho một cụm Auto Scaling Group).
- Làm Content Management Systems (WordPress, Drupal).
- Lưu trữ dữ liệu cho các hệ thống Data Science/Big Data cần nhiều node xử lý chung một tệp tin.
4.7. Tổng kết
Amazon EFS là giải pháp lưu trữ tệp tin mạng (NFSv4) đàn hồi và được quản lý hoàn toàn.
- Đặc tính: Tự động mở rộng quy mô, tính sẵn sàng cao, và khả năng hỗ trợ hàng nghìn kết nối NFS đồng thời.
- Chi phí: Bạn chỉ chi trả phí cho tổng dung lượng lưu trữ mà bạn thực sự sử dụng (Pay-as-you-go).
- Vị trí Dữ liệu: Dữ liệu được lưu trữ trong nhiều Availability Zones (AZs) trong một Region (trừ One Zone tier).
- Tính nhất quán: Cung cấp tính nhất quán đọc sau ghi (read-after-write).
- Trường hợp sử dụng: Lý tưởng cho máy chủ web, quản lý nội dung, và môi trường phát triển/thử nghiệm.
5. Amazon FSx
Amazon FSx cung cấp các hệ thống tệp (file systems) được quản lý toàn phần, giúp bạn dễ dàng chạy các ứng dụng phổ biến với hiệu suất cao mà không cần tự quản lý hạ tầng máy chủ lưu trữ.
5.1. Amazon FSx cho Windows File Server
Amazon FSx cho Windows File Server là dịch vụ lưu trữ tệp được xây dựng trên nền tảng Windows Server, cung cấp một hệ thống tệp Microsoft Windows gốc (Native) trên đám mây.
- Tính năng cốt lõi: Hỗ trợ đầy đủ các tính năng của Windows như quản lý tệp, bảo mật và khả năng tương thích cao với hệ sinh thái Microsoft.
- Giao thức hỗ trợ: Sử dụng giao thức SMB (Server Message Block) phổ biến.
- Khả năng tích hợp:
- Microsoft Active Directory (AD): Tích hợp sâu để quản lý người dùng và quyền truy cập.
- Windows ACLs: Hỗ trợ danh sách kiểm soát truy cập chi tiết.
- DFS Namespaces & Replication: Cho phép mở rộng quy mô và sao lưu dữ liệu giữa các vùng (Regions).
- Trường hợp sử dụng: Lý tưởng cho các ứng dụng doanh nghiệp như SharePoint, Microsoft SQL Server, hoặc lưu trữ thư mục cá nhân cho người dùng (Home Directories).
5.2. Amazon FSx cho Lustre
Lustre là một hệ thống tệp mã nguồn mở được thiết kế cho các kịch bản tính toán hiệu năng cao (HPC).
- Hiệu suất cực đại: Khả năng cung cấp thông lượng (throughput) lên đến hàng trăm GB/s, hàng triệu IOPS và độ trễ dưới 1 miligiây.
- Tích hợp Amazon S3: Điểm đặc biệt của FSx cho Lustre là nó có thể đọc và ghi trực tiếp dữ liệu từ/vào Amazon S3. Bạn có thể xử lý dữ liệu từ S3 như một hệ thống tệp cục bộ và trả kết quả về S3 sau khi hoàn tất.
- Trường hợp sử dụng: Đào tạo Machine Learning (ML), phân tích dữ liệu tài chính, xử lý video 4K/8K và tự động hóa thiết kế điện tử (EDA).
5.3. So sánh EBS, EFS, FSx
| Đặc điểm | Amazon EBS | Amazon EFS | Amazon FSx (Windows) |
|---|---|---|---|
| Loại lưu trữ | Block Storage (Ổ đĩa ảo) | File Storage (Hệ thống tệp) | File Storage (Hệ thống tệp) |
| Giao thức | Giao thức mạng riêng của AWS | NFSv4 (Network File System) | SMB (Server Message Block) |
| Khả năng kết nối | Thường chỉ gắn vào 1 Instance tại một thời điểm. | Gắn vào hàng nghìn Instance cùng lúc. | Gắn vào hàng nghìn Instance cùng lúc. |
| Hệ điều hành | Linh hoạt (Linux/Windows) | Tối ưu cho Linux | Tối ưu cho Windows |
| Phạm vi | Gắn với 1 Availability Zone (AZ). | Đa vùng sẵn sàng (Multi-AZ). | Tùy chọn Single-AZ hoặc Multi-AZ. |
| Khả năng mở rộng | Thủ công (phải thay đổi kích thước). | Tự động mở rộng (Elastic). | Phải cấu hình dung lượng lưu trữ. |
5.4. Tổng kết
Việc lựa chọn phụ thuộc hoàn toàn vào hệ điều hành và yêu cầu về hiệu suất của ứng dụng:
- Sử dụng Amazon EBS khi: Bạn cần một ổ đĩa cứng hiệu năng cao, độ trễ thấp để cài đặt hệ điều hành hoặc cơ sở dữ liệu cho duy nhất một máy chủ EC2.
- Sử dụng Amazon EFS khi: Bạn chạy các ứng dụng trên Linux và cần một hệ thống tệp chung (Shared Storage) có khả năng tự động co giãn dung lượng cho hàng trăm máy chủ.
- Sử dụng Amazon FSx cho Windows khi: Bạn cần lưu trữ tệp tập trung cho các ứng dụng Windows và yêu cầu tương thích tuyệt đối với Active Directory.
- Sử dụng Amazon FSx cho Lustre khi: Bạn cần tốc độ xử lý dữ liệu “khủng” cho các bài toán High Performance Computing hoặc Big Data.
Ghi chú quan trọng cho bài kiểm tra:
- EBS = Block Storage (1:1 kết nối).
- EFS = File Storage (NFS – Linux).
- FSx Windows = File Storage (SMB – Windows).
- FSx Lustre = High Performance & S3 Integration.
6. AMI
Amazon Machine Image (AMI) là một thành phần đóng vai trò như “bản khuôn mẫu” (template) chứa cấu hình phần mềm cần thiết (hệ điều hành, máy chủ ứng dụng và các ứng dụng) để khởi chạy một Instance EC2.
6.1. Thông tin cơ bản của AMI
Khi bạn bắt đầu khởi tạo một máy chủ (Instance), việc lựa chọn AMI phù hợp là bước quan trọng nhất. Bạn cần lưu ý 5 yếu tố sau:
- Region (Khu vực): AMI có tính chất vùng. Một AMI được tạo ở US-East-1 sẽ không hiển thị ở AP-Southeast-1 trừ khi bạn thực hiện thao tác sao chép (Copy).
- Operating System (Hệ điều hành): Lựa chọn nền tảng phù hợp với ứng dụng (Linux, Windows, Ubuntu, v.v.).
- Architecture (Kiến trúc): Xác định tập lệnh xử lý, phổ biến nhất hiện nay là 64-bit (x86) hoặc 64-bit (Arm) cho các dòng chip Graviton.
- Permissions (Quyền hạn): Xác định ai có thể sử dụng AMI này (Public, Private, hoặc chia sẻ cho một AWS Account cụ thể).
- Storage for Root Device (Cấu hình lưu trữ gốc): Đây là phần quan trọng nhất, xác định nơi hệ điều hành sẽ được cài đặt vào (EBS hoặc Instance Store).
AWS phân loại AMI dựa trên cách thức và vị trí lưu trữ dữ liệu của ổ đĩa hệ thống:
- Amazon EBS-backed AMI
- Instance Store-backed AMI
6.2. Amazon EBS-backed AMI
Đây là loại AMI phổ biến nhất và được AWS khuyến nghị sử dụng cho hầu hết mọi tác vụ.
- Cơ chế: Thiết bị gốc là một EBS Volume được tạo ra từ một EBS Snapshot.
- Tính linh hoạt:
- Trạng thái Stop: Bạn có thể Dừng (Stop) instance để tiết kiệm chi phí và Khởi động lại (Start) khi cần. Dữ liệu trên ổ đĩa vẫn được bảo toàn nguyên vẹn.
- Reboot: Có thể khởi động lại hệ điều hành mà không ảnh hưởng đến dữ liệu.
- Tính bền vững: Dữ liệu tồn tại độc lập với vòng đời của phần cứng vật lý.
- Lưu ý về Terminate: Mặc định, Root Volume sẽ bị xóa khi bạn Terminate (hủy bỏ hoàn toàn) Instance. Tuy nhiên, bạn có thể thay đổi cấu hình
DeleteOnTerminationthànhFalseđể giữ lại ổ đĩa sau khi xóa máy chủ.
6.3. Instance Store-backed AMI
Loại này thường được sử dụng cho các tác vụ cần tốc độ đọc/ghi (I/O) cực cao nhưng không yêu cầu lưu trữ dữ liệu lâu dài.
- Cơ chế: Thiết bị gốc là một Instance Store Volume (ổ đĩa gắn trực tiếp vào máy chủ vật lý), template được lưu trữ tại Amazon S3.
- Tính chất Phù du (Ephemeral):
- Không thể Stop: Bạn chỉ có thể Reboot hoặc Terminate. Tùy chọn “Stop” sẽ bị vô hiệu hóa (Greyed out) trong bảng điều khiển.
- Rủi ro mất dữ liệu: Nếu phần cứng vật lý bên dưới gặp sự cố hoặc bạn Terminate Instance, toàn bộ dữ liệu sẽ bị mất vĩnh viễn và không thể khôi phục.
- Reboot: Dữ liệu vẫn tồn tại nếu bạn chỉ thực hiện lệnh khởi động lại phần mềm.
Bảng so sánh:
| Đặc điểm | EBS-backed AMI | Instance Store-backed AMI |
|---|---|---|
| Tốc độ khởi động | Thường nhanh hơn (< 1 phút) | Chậm hơn (do phải tải từ S3) |
| Trạng thái Dừng (Stop) | Có hỗ trợ | Không hỗ trợ |
| Độ bền dữ liệu | Rất cao (Bền vững) | Thấp (Phù du/Tạm thời) |
| Chi phí | Trả phí cho dung lượng EBS và AMI | Trả phí cho lưu trữ S3 và Instance |
6.4. Tổng kết
- Hãy luôn ưu tiên sử dụng EBS-backed AMI cho các ứng dụng thực tế để đảm bảo an toàn dữ liệu và khả năng quản lý linh hoạt (Stop/Start).
- Chỉ sử dụng Instance Store khi bạn cần lưu trữ các dữ liệu tạm thời như Cache, Buffers, hoặc các dữ liệu đã có bản sao lưu ở nơi khác và yêu cầu tốc độ truy xuất cực nhanh.
Ghi nhớ con số: Mặc định, thuộc tính DeleteOnTermination cho Root Volume của EBS là True (Sẽ bị xóa khi hủy Instance).
7. AWS Backup
AWS Backup là một dịch vụ được quản lý toàn phần (fully managed), giúp bạn tự động hóa và tập trung hóa quá trình sao lưu dữ liệu trên nhiều dịch vụ AWS khác nhau mà không cần viết kịch bản (script) thủ công.
7.1. Các dịch vụ AWS được hỗ trợ chính
AWS Backup đóng vai trò là trung tâm điều khiển, hỗ trợ sao lưu cho các tài nguyên quan trọng sau:
- Tính toán (Compute): Amazon EC2 (Sao lưu toàn bộ máy ảo bao gồm cả cấu hình).
- Lưu trữ (Storage):
- Amazon EBS (Volumes).
- Amazon EFS & Amazon FSx (Hệ thống tệp).
- AWS Storage Gateway.
- Cơ sở dữ liệu (Database):
- Amazon RDS (Tất cả các công cụ DB).
- Amazon DynamoDB (NoSQL).
- Amazon Aurora.
- Amazon DocumentDB & Amazon Neptune.
7.2. AWS Backup và AWS Organizations
Sức mạnh thực sự của AWS Backup nằm ở khả năng quản lý quy mô lớn thông qua AWS Organizations:
- Quản lý đa tài khoản: Bạn có thể tạo các chính sách sao lưu (Backup Policies) từ tài khoản Master và áp dụng chúng cho hàng trăm tài khoản thành viên (Member Accounts).
- Chống ghi đè/Xóa: Ngăn chặn việc người dùng ở các tài khoản con tự ý xóa bản sao lưu, giúp bảo vệ dữ liệu trước các cuộc tấn công ransomware hoặc sai sót cá nhân.
- Giám sát tập trung: Theo dõi trạng thái thành công/thất bại của tất cả các bản sao lưu trong toàn bộ doanh nghiệp từ một màn hình duy nhất.
7.3. Lợi ích Chính của AWS Backup
- Quản lý Tập trung (Centralized Management): Thay vì phải vào từng dịch vụ (như RDS console, EBS console) để cấu hình snapshot, bạn chỉ cần sử dụng Backup Vault (Kho lưu trữ) và Backup Plan (Kế hoạch sao lưu) tại một nơi duy nhất. Điều này giúp giảm thiểu sai sót cấu hình và đảm bảo không có tài nguyên nào bị bỏ sót.
- Tự động hóa (Automation)
- Lập lịch (Backup Window): Bạn có thể chỉ định chính xác thời điểm bắt đầu sao lưu (ví dụ: 2:00 AM hàng ngày khi hệ thống ít tải).
- Vòng đời (Lifecycle Management): Tự động chuyển các bản sao lưu cũ sang Cold Storage (lưu trữ lạnh) sau một số ngày nhất định để tiết kiệm chi phí, và tự động xóa (Expire) khi chúng không còn giá trị pháp lý.
- Tăng cường Sự Tuân thủ (Enhanced Compliance)
- AWS Backup Audit Manager: Cung cấp các báo cáo sẵn có để chứng minh với các bên kiểm toán rằng dữ liệu của bạn đang được bảo vệ đúng theo quy định (như HIPAA, PCI DSS).
- Mã hóa: Tất cả bản sao lưu trong Backup Vault đều được mã hóa bằng AWS KMS, đảm bảo an toàn tuyệt đối.
7.4. Tổng kết
| Tính năng | Chi tiết kỹ thuật | Giá trị mang lại |
|---|---|---|
| Hợp nhất | Hỗ trợ EC2, EBS, EFS, FSx, RDS, DynamoDB. | Không cần quản lý rời rạc từng dịch vụ. |
| Backup Plan | Định nghĩa tần suất, thời gian và thời hạn lưu trữ. | Tự động hóa hoàn toàn quy trình vận hành. |
| Cross-Region Copy | Sao chép bản sao lưu sang một Region khác. | Tăng cường khả năng khôi phục sau thảm họa (Disaster Recovery). |
| Backup Vault Lock | Chính sách “WORM” (Write Once, Read Many). | Ngăn chặn việc xóa bản sao lưu, chống lại Ransomware. |
Lưu ý quan trọng: AWS Backup không thay thế hoàn toàn các tính năng Snapshot gốc của dịch vụ, nhưng nó cung cấp một lớp quản lý thông minh và an toàn hơn cho quy mô doanh nghiệp.
Tổng kết bài học: AWS Backup giúp bạn chuyển từ thế bị động (phải nhớ để sao lưu) sang thế chủ động (hệ thống tự chạy theo chính sách). Hãy ghi nhớ cụm từ khóa “Centralized & Automated” khi nhắc đến dịch vụ này trong bài thi.