Sử dụng công nghệ Gen AI để tính VaR

Mở đầu

Khi đang bắt đầu tìm kiếm chủ đề cho bài luận án, mình đã hình thành ý tưởng về chủ đề này bởi những lí do sau:

Mình muốn tìm một chủ đề có tính “đột phá” trong quản trị rủi ro
Trend về Gen AI càng được quan tâm những năm gần đây do sự xuất hiện của Chat GPT
Các công nghệ về phần cứng được phát triển rất nhiều trong những năm vừa qua đồng hành với sự hình thành của khối lượng dữ liệu khổng lồ.

Sau một vài nghiên cứu liên quan đến 3 điểm ở trên, mình đã dần dần hình thành được chủ đề của bài luận án, đó là “Analyse der Anwendung eines GANs-Modelles zur Schätzung des Value-at-Risk – eine empirische Untersuchung“… dịch nôm na sang tiếng Việt là nghiên cứu ứng dụng của công nghệ Generative Adversarial Network (GAN) vào mục đích tính VaR (nếu các bạn có quan tâm về VaR là cái gì, thì có thể đọc bài viết này của mình về VaR). Để cho bài viết dễ hiểu, các bạn chỉ cần biết rằng VaR là một chỉ số được dùng để tính mức độ rủi ro của một hạng mục đầu tư (hoặc đôi khi cũng là hạng mục cho vay).

Trong bài viết này, mình sẽ không đi sâu vào bài nghiên cứu, mình chỉ muốn chia sẻ với mọi người về ý tưởng ở trên, để mọi người có thêm thông tin về tính áp dụng tương đối cao của công nghệ Gen AI.

Generative Adversarial Network (GAN)

Có rất nhiều mô hình Gen AI khác nhau. Tuy nhiên, sau tìm hiểu 1 vài bài nghiên cứu khoa học thì các tác giả đều cho rằng mô hình GAN là 1 mô hình rất tốt để tính VaR.

Cụ thể thì mô hình GAN được cấu tạo dựa trên hai mô hình học máy Neural Networks khác nhau: Generator (Bộ Tạo) và Discriminator (Bộ Phân Biệt).

Generator sẽ dựa trên những dữ liệu ngẫu nhiên để tạo ra kết quả “fake” còn Discriminator thì sẽ có trách nhiệm phân biệt những kết quả “fake” này với kết quả thật.

Cả hai thành phần này đều là những mô hình học máy riêng biệt, và chúng ta sẽ “dạy” (train) chúng nó dựa trên logic như sau:

Generator sẽ bị “phạt” nếu kết quả “fake” mà nó tạo ra bị Discriminator phát hiện
Discriminator sẽ bị “phạt” nếu nó không thể phân biệt được đúng kết quả “fake” với kết quả thật

Logic trên sẽ được triển khai dựa trên 1 thứ được gọi là Cost Function (hay còn gọi là “hàm mất mát”). Giá trị của Cost Function sẽ tỉ lệ thuận với những lần đưa ra đánh giá đúng của Discriminator và tỉ lệ nghịch với những lần mà Generator “lừa” được Discriminator. Do đó, nhiệm vụ của Generator là tối thiểu hóa Cost Function và nhiệm vụ của Discriminator là tối đa hóa giá trị của hàm này.

Nói một cách đơn giản thì kết quả học tập của “hai bạn” Generator và Discriminator sẽ được so sánh qua bảng điểm là giá trị của Cost Function. Quá trình này học và kiểm tra bài này sẽ được lặp đi lặp lại cho đến khi Generator trở nên cực giỏi và Discriminator không còn khả năng phân biệt kết quả “fake” với kết quả thật nữa.

Biểu đồ giải thích mối quan hệ giữa Generator và Discriminator

GAN và VaR

GAN được sử dụng phổ biến nhất là để tạo những bức hình “fake” dựa trên những bức hình gốc. Ví dụ như bạn có thể sử dụng hình ảnh chân dung của bạn để nó có thể “học” và sau đó nó sẽ có thể tạo ra những bức hình tương tự mà ai nhìn qua cũng đều tưởng rằng đó là ảnh thật của bạn.

Đối với VaR cũng vậy. VaR được tính dựa trên biểu đồ về sự phân phối (distribution function) của những biến đổi về giá trị của hạng mục mà bạn đang theo dõi. Và chúng ta có thể tưởng tượng về biêu đồ này dưới dạng “hình ảnh”. Như vậy, nếu chúng ta đưa cho GAN những hình ảnh của biểu đồ này, thì nó sẽ có khả năng tạo ra những bức hình tương tự. Sau đó, chúng ta có thể tính VaR dựa trên những biểu đồ mà GAN tạo ra.

Cách tính này khá tương đồng với phương pháp Monte Carlo, tức là chúng ta sẽ giả định rằng những thay đổi về giá trị của hạng mục đầu tư sẽ đi theo một phân phối chuẩn, ví dụ như normal distribution hoặc student-t distribution. Sau đó, chúng ta sẽ tạo ra rất nhiều biến ngẫu nhiên (random variable) dựa trên phân phối trên rồi từ đó mô phỏng biểu đồ phân phối “thực sự”.

Đối với GAN, chúng ta sẽ không cần phải “giả định” bất cứ một sự phân phối chuẩn nào. Thay vào đó, GAN sẽ tự “học” những tính chất của những sự thay đổi về giá trị của hạng mục đầu tư để từ đó vẽ ra những biểu đồ tương tự. Và những biểu đồ này cũng có thể được sử dụng để mô phỏng biểu đồ phân phối “thực sự”.

Cách GAN tạo ra thay đổi giá trị “giả” để từ đó tính VaR

Kết luận

Mình đã học được rất nhiều qua bài nghiên cứu / luận án thạc sĩ của mình. Tuy nhiên, đối với cách áp dụng trên của mô hình GAN để tính VaR thì mình đúc kết được những quan sát sau:

Kết quả Backtest cho thấy rằng mô hình GAN chưa chắc đã tốt hơn những mô hình hiện tại được sử dụng phổ biến. Hơn nữa, quá trình xây dựng và chăm sóc mô hình GAN sẽ rất “vất vả”, tức là sẽ gây ra nhiều chi phí cho ngân hàng.
Mô hình GAN hay AI nói chung chưa được chấp thuận rộng rãi bởi regulator trong thời điểm hiện tại vì khả năng “giải thích kết quả” vẫn chưa tốt. Các mô hình AI nhiều khi giống như 1 chiếc hộp đen (black box) nên chúng ta không thể hiểu được hoàn toàn về cách mà nó đưa ra kết quả
Để có thể xây dựng mô hình GAN hay AI nói chung trong ngân hàng, họ sẽ phải đầu tư rất nhiều về mặt cơ sở hạ tầng của công nghệ thông tin
Tuy GAN chưa thể sự dụng trực tiếp để xây dựng mô hình tính toán rủi ro, nó có thể được sử dụng dưới dạng “Benchmark Model” để so sánh với những mô hình có sẵn. Từ đó đánh giá chất lượng của những mô hình này
GAN có thể được sử dụng để củng cố chất lượng của dữ liệu. Ở một số mô hình đang được sử dụng trong ngân hàng, ví dụ như mô hình phát hiện gian lận thẻ tín dụng. Quá trình phát triển những mô hình này gặp phải vấn đề là dữ liêu không được “cân bằng”, vì trường hợp mà gian lận tín dụng xảy ra trong quá khứ quá thấp so với những trường hợp không có gian lận. Do đó, GAN có thể giúp tạo ra những dữ liệu “giả” có tính chất tương đương với dữ liệu thật để giúp cho những mô hình sẵn có được phát triển tốt hơn.

Frankfurt, ngày 3 tháng 12 năm 2024