0. Phân biệt lý thuyết xác suất và suy luận thống kê
Trước khi đi vào nội dung chính của bài viết, ta nói sơ qua sự khác nhau giữa lý thuyết xác suất và suy luận thống kê.
- Với lý thuyết xác suất, ta dùng một mô hình (phân phối nào đó) có trước, để tính xác suất xảy ra một sự kiện nào đó.
Ví dụ, cho trước một đồng xu mà khi ta tung nó thì được xác suất ra mặt ngửa là
. Vậy khi ta tung 6 lần, xác suất để xảy ra sự kiện: S, N, N, S, N, S chính là - Với suy luận thống kê, quy trình ngược lại. Ta sẽ có một loạt các sự kiện (dữ liệu) cho trước và ta cần phải đi tìm ngược lại mô hình (phân phối) phù hợp nhất với dữ liệu quan sát được.
Ví dụ, ta tung một đồng xu 6 lần và nhận được: S, N, N, S, N, S. Từ đây ta cần tìm xem xác suất ra mặt ngửa của đồng xu là bao nhiêu. Một cách trực quan, vì tung 6 lần được 3 ngửa, nên ta có thể ước lượng rằng xác suất là
. Tuy nhiên, ta cần có một phương pháp khoa học hơn để đưa ra kết luận.
Sơ lược về frequentist và bayesian
Để thực hiện việc tìm mô hình phù hợp nhất đối với dữ kiện đã quan sát được, người ta có hai phương pháp chính:
- Tần suất: Đây là cách tiếp cận cổ điển khi mà xác suất được coi là “tần số khi số lượng điểm tiến đến vô cùng”. Đồng thời, những tham số của một phân phối được coi là cố định (và là ẩn số).
Rõ hơn về hướng tiếp cận này, giả sử ta muốn tìm chiều cao trung bình của người Việt vào năm 2024. Phương pháp tần suất tiếp cận bằng cách cho rằng: chiều cao trung bình của người Việt vào năm 2024 là cố định (gọi là
). Sau đó, ta sẽ một loạt các dữ liệu về chiều cao, ví dụ như của 1000 người ngẫu nhiên và đo được chiều cao trung bình của 1000 người này là 175cm. Phương pháp tần suất cho rằng khi ta có nhiều dữ liệu hơn, thì kết quả thu được từ mẫu sẽ ngày càng tiến gần hơn với . - Bayesian: Đây là cách tiếp cận khi mà “xác suất là thứ trong đầu của ta” chứ không phải là một đại lượng khách quan cố định như phương pháp tần suất quan niệm. Xác suất chính là niềm tin, sự chắc chắn của ta về một sự kiện nào đó. Và niềm tin này hoàn toàn có thể được cập nhật (bằng định lý Bayes) khi chúng ta có thêm dữ kiện. Rõ hơn về hướng tiếp cận này, giả sử một người tin rằng xác suất anh ta mắc bệnh D là 1%. Anh ta đi xét nghiệm và được kết quả là dương tính. Tuy rằng kết quả xét nghiệm có thể đúng hoặc sai, nhưng chắc chắn anh ấy nên cập nhật lại niềm tin về xác suất mắc bệnh của mình.
1. Maximum Likelihood Estimation (MLE)
Định nghĩa
Giả sử, ta có tập dữ liệu
Quá trình này gọi là MLE. Sở dĩ ta gọi như thế vì ta đang cố gắng tìm max của hàm likelihood
Lưu ý rằng các cách viết
Ví dụ
Giả sử ta tung một đồng xu mà xác suất ra mặt ngửa là
Ta có:
Từ đây, bằng kiến thức trung học, ta dễ dàng tìm ra được:
Kết quả này hoàn toàn có thể tổng quát ra, thu được: ước lượng tốt nhất chính là tần số - rất đúng với quan niệm của trường phái tần suất.
Nhận xét
Ta rút ra được một số nhận xét sau về MLE:
- MLE mô tả đúng data ta quan sát được
- Khi
, , tức là với data nhiều, MLE sẽ thể hiện rất tốt. - Đổi lại, khi data quá ít, MLE có thể dẫn đến overfit. Như ví dụ trên, sẽ thật tệ khi
. Khi đó ước lượng của chúng ta chắc chắn không thể thể hiện tốt khi ta tung ra mặt ngửa trong tương lai.
2. Maximum a Posteriori
Định nghĩa
Một điểm thay đổi rất quan trọng của Bayesian so với tần suất chính là:
Lại theo định lý Bayes, ta có
trong đó
Vì thế, ta có thể viết công thức MAP thành:
Chú ý rằng, khi
Chọn prior - Conjugate prior
Từ (1), ta thấy rằng để tiện cho việc tính toán, ta nên chọn prior sao cho xác suất hậu nghiệm thuộc một phân phối “đẹp”, tức là thuộc những phân phối phổ biến. Một trong những cách chọn chính là chọn sao cho prior và posterior đều thuộc cùng một loại phân phối (như phân phối chuẩn, phân phối beta,…). Prior được chọn như này được gọi là conjugate prior.
Sau đây là một số conjugate priors phổ biến:
Likelihood Distribution | Conjugate Prior Distribution | Posterior Distribution |
---|---|---|
Binomial/Bernoulli | Beta | Beta |
Poisson | Gamma | Gamma |
Normal (known variance) | Normal | Normal |
Exponential | Gamma | Gamma |
Multinomial | Dirichlet | Dirichlet |
Categorical | Dirichlet | Dirichlet |
Ví dụ:
Ta lấy lại ví dụ như phần MLE. Giả sử ta tung một đồng xu mà xác suất ra mặt ngửa là
Tương tự, ta tìm ra được:
Ta có thể hiểu ý nghĩa kết quả này như sau: giả sử ta tung 10 lần và cả 10 lần đều ra mặt sấp. Theo MLE, thì xác suất xảy ra mặt ngửa là 0. Nhưng niềm tin của chúng ta không như thế, vì thế ta cộng thêm một đại lượng như trên để phòng trường hợp đấy xảy ra. Thật ra, trường phái tần suất có một kỹ thuật dùng để đối phó với trường hợp khó chịu ấy chính là Laplace smoothing - cũng cho ra kết quả tương tự như (2).
Nhận xét
Ta rút ra được một số nhận xét sau về MAP:
- MAP có thể coi như là một phương pháp mở rộng của MLE nhằm tránh overfitting - theo như ngôn ngữ machine learning. Khi đó prior đóng vai trò như regularization.
- Khi
thì . Vì thế khi ta có nhiều dữ liệu, 2 phương pháp là gần như giống nhau. - Khi ta chỉ có ít dữ liệu, MAP sẽ thể hiện tốt chỉ khi prior được chọn rất sát với
.