Gian lận thẻ tín dụng là hình thức sử dụng các công nghệ cao để đánh cắp thông tin thẻ tín dụng (như visa, ATM, MasterCard…) từ người sở hữu khác để thực hiện các giao dịch tài chính, ngân hàng. Hai cơ chế chính để tránh gian lận và tổn thất do các hoạt động gian lận là phòng chống gian lận và hệ thống phát hiện gian lận. Phòng chống gian lận là chủ động vô hiệu hóa sự xuất hiện của gian lận. Hệ thống phát hiện gian lận phát huy tác dụng khi những kẻ lừa đảo vượt qua các hệ thống phòng chống gian lận và bắt đầu thực hiện một giao dịch gian lận.Theo đó, mục tiêu của các hệ thống phát hiện gian lận là kiểm tra mọi giao dịch có khả năng là gian lận bất kể các cơ chế phòng ngừa, và để xác định những kẻ lừa đảo càng nhanh càng tốt sau khi kẻ lừa đảo bắt đầu thực hiện một giao dịch gian lận. Bài đánh giá về hệ thống phát hiện gian lận có thể được tìm thấy trong các nghiên cứu của Bolton & Hand (2002), Kou & cộng sự (2004), Phua & cộng sự (2005), Sahin & Duman (2010).
Gian lận thẻ tín dụng có thể được thực hiện bằng nhiều cách như trộm cắp đơn giản, các ứng dụng gian lận, thẻ giả, gian lận trực tuyến…Trong lừa đảo trực tuyến, giao dịch được thực hiện từ xa và chỉ cần các thông tin về thẻ. Mặc dù các cơ chế phòng ngừa như chip và pin làm giảm các hoạt động trộm cắp đơn giản, thẻ giả, nhưng số lượng gian lận trực tuyến vẫn tăng nhanh chóng gây nên tổn thất rất lớn về tài chính nguyên nhân là do việc sử dụng thẻ tín dụng ngày càng phổ biến. Nhiều báo cáo như Leonard (1993) và Ghosh & Reilly (1994) cho thấy các khoản thất thoát lớn ở các quốc gia khác nhau. Theo báo cáo của Visa về các nước châu Âu, khoảng 50% của toàn bộ gian lận thẻ tín dụng thua lỗ trong năm 2008 là do gian lận trực tuyến (Visa Inc., 2008).
Phát hiện gian lận là công việc không hề dễ dàng nhưng nó là vấn đề cấp bách cần được giải quyết. Một trong những nguyên nhân gây nên khó khăn trong việc phát hiện gian lận thẻ tín dụng là bộ dữ liệu về giao dịch không được cung cấp và kết quả bị kiểm duyệt. Bất chấp nhiều khó khăn các nhà nghiên cứu vẫn nổ lực để tìm kiếm và tối ưu hóa các mô hình nhằm nâng cao việc phòng chống và phát hiện gian lận. Phương pháp thường được sử dụng để phát hiện gian lận là sử dụng các thuật toán của học máy mà tiêu biểu là mạng nơ ron nhân tạo và máy vec-tơ hỗ trợ. Những kỷ thuật này có thể thực hiện độc lập hoặc kết hợp lại với nhau tạo nên các phương tiện phân loại và phát hiện các giao dịch bất thường. Dữ liệu quá khứ về thẻ tín dụng được sử dụng để tạo thành một kho dữ liệu đại diện cho hồ sơ người dùng của khách hàng. Những hồ sơ này bao gồm các biến, mỗi biến trong số đó tiết lộ một đặc tính hành vi của khách hàng. Những biến này có thể cho thấy thói quen chi tiêu của khách hàng, vị trí thực hiện giao dịch, ngày giờ giao dịch. Sau đó, các biến này được dùng để xây dựng một mô hình trong các hệ thống phát hiện gian lận. Sẽ có sự báo động những giao dịch bất thường khi mà có sai lệch đáng kể từ giao dịch mới với các giao dịch quá khứ trong hồ sơ của khách hàng.
Có rất nhiều nghiên cứu được thực hiện về phát hiện gian lận thẻ tín dụng: Shen & cộng sự (2007) chứng minh sự hiệu quả của các mô hình phân loại cho vấn đề phát hiện gian lận thẻ tín dụng và tác giả đề xuất ba mô hình phân loại là cây quyết định, mạng nơ ron nhân tạo và hồi quy logistic. Trong ba mô hình thì mạng nơ ron nhân tạo và hồi quy logistic vượt trội hơn cây quyết định. Islam & cộng sự (2007) đề xuất khung lý thuyết xác suất: lý thuyết Bayes, phân loại Bayes đơn giản, phân loại k hàng xóm gần nhất được thực hiện và áp dụng cho bộ dữ liệu hệ thống thẻ tín dụng. Sahin & Duman (2011) đã trích dẫn nghiên cứu về phát hiện gian lận thẻ tín dụng và sử dụng bảy phương pháp phân loại khác nhau, trong đó bao gồm mô hình cây quyết định và máy vec-tơ hỗ trợ để giảm rủi ro của các ngân hàng. Sahin & Duman đã đề nghị mạng nơ ron nhân tạo và hồi quy logistic là mô hình hữu ích hơn để cải thiện hiệu suất trong việc phát hiện các gian lận.
Trong khuôn khổ bài viết, ngoài việc minh họa ứng dụng của học máy thông qua sử dụng hai mô hình mạng nơ ron nhân tạo và máy vec-tơ hỗ trợ để phát hiện gian lận với bộ dữ liệu Paysim, các tác giả còn tiến hành so sánh hiệu quả của hai phương pháp tạo điều kiện linh hoạt cho các nhà quản lý lựa chọn phương pháp hiệu quả trong việc phát hiện gian lận tránh những tổn thất to lớn do việc lừa đảo, gian lận thẻ tín dụng gây ra.
Học máy
Học máy (Machine Learning) là một phương tiện trong trí tuệ nhân tạo, sử dụng các thuật toán cho phép máy tính có thể tự học từ dữ liệu để giải quyết những vấn đề cụ thể như làm cho máy tính có khả năng nhận thức cơ bản của con người (nghe, nhìn, hiểu, giải toán,…) và hỗ trợ cho con người xử lý một lượng thông tin khổng lồ phải đối diện hằng ngày (Vũ Hữu Tiệp, 2018). Học máy đóng một vai trò quan trọng trong nhiều ngành khoa học và các ứng dụng của nó là một phần trong cuộc sống hàng ngày của chúng ta. Học máy được sử dụng để lọc thư rác điện tử, để dự đoán thời tiết, trong chẩn đoán y tế, khuyến cáo sản phẩm, nhận diện khuôn mặt, phát hiện gian lận thẻ tín dụng, v.v.
Dựa vào tính chất của tập dữ liệu, các thuật toán của học máy có thể phân thành 2 nhóm cơ bản đó là: học có giám sát (supervised learning) và học không giám sát (unsupervised learning). Học có giám sát bao gồm các thuật toán đưa các dữ liệu đầu vào (input) thành các kết quả đầu ra (label) tương ứng. Đầu vào phải biết trước giá trị đầu ra tương ứng của chúng và được dùng để dự đoán giá trị biến đầu ra hay còn gọi là biến trả lời. Tùy thuộc vào biến đầu ra là rời rạc hay liên tục mà chúng ta có thể phân biệt hai nhiệm vụ được giám sát: phân loại (classification) hay hồi quy (regression). Phát hiện giân lận thẻ tín dụng thuộc nhóm đầu tiên bởi vì kết quả đầu ra là quan sát các giao dịch là của chủ thẻ hay là lừa đảo trong khi đó dự báo giá cổ phiếu thì thuộc nhóm hồi quy do biến đầu ra là là biến liên tục. Tuy nhiên trong cả hai nhóm thì biến đầu vào có thể là liên tục hoặc rời rạc. Dữ liệu trong các thuật toán thuộc nhánh học không giám sát chỉ có đầu vào mà không cần đầu ra. Nó được sử dụng chủ yếu để khám phá cấu trúc và mối quan hệ dữ liệu.
Một số thuật toán sử dụng phổ biến để phát hiện gian lận thẻ tín dụng hiện nay:
- Mạng nơ ron nhân tạo (Artifical Neural Network)
- Rừng ngẫu nhiên (Random Forrest)
- Logic mờ (Fuzzy Logic)
- Máy vec-tơ hỗ trợ (Support Vector Machine)
- Mạng Bayesian (Bayesian Network)
- K láng giềng gần nhất (K-nearest neighbor)
- Mô hình Markov ẩn (Hidden Markov model)
- Hồi quy Logistic (Logistic Regression)
Trong bài viết này, chúng tôi chỉ tập trung vào hai thuật toán: Mô hình mạng nơ ron nhân tạo và mô hình máy vec-tơ hỗ trợ bởi vì chúng phù hợp và đem lại hiệu quả cao đối với bộ dữ liệu được chọn nghiên cứu.
Mô hình mạng nơ ron nhân tạo (Artifical Neural Network model)
Mạng nơ ron nhân tạo là mô hình tính toán được mô phỏng dựa trên hoạt động của mạng nơ ron sinh học. Nó bao gồm số lượng lớn các nơ ron đơn lẻ gắn kết với nhau, xử lý thông tin bằng cách truyền các kết nối và tính các giá trị mới tại các nút. Có 3 tầng trong mạng nơ ron nhân tạo là: tầng vào (input layer), tầng ẩn (hidden layer) và tầng ra (output layer). Tầng vào biểu diễn thông tin đầu vào, tầng ẩn gồm các nút nhận ma trận đầu vào từ tầng trước, kết hợp với trọng số cùng với hàm kích hoạt phi tuyến như sigmoid, tanh để có được kết quả tầng ra. Mô hình mạng nơ ron nhân tạo gồm 2 quá trình tính toán cơ bản là: Lan truyền tiến và lan truyền ngược. Quá trình suy luận từ tầng vào cho tới tầng ra là quá trình lan truyền tiến (feedforward), tức là quá trình này chỉ có chiều hướng các nơ ron ở cùng một tầng lấy thông tin từ tầng trước mà không có chiều ngược lại.
Mô hình máy vec-tơ hỗ trợ (Support Vector Machine Model)
Máy vec-tơ hỗ trợ (Support vector machine, SVM) là một thuật toán hiệu quả, đặc biệt khi tính toán trên bộ dữ liệu lớn với mục đích là phân chia dữ liệu thành các nhóm riêng biệt.Ý tưởng của SVM là đi tìm một siêu phẳng phân tách dữ liệu tốt nhất. Gọi khoảng cách nhỏ nhất từ một điểm thuộc một lớp đến mặt phân chia là lề (margin). Cần tìm một siêu phẳng sao cho lề của hai lớp là như nhau. Độ rộng của lề càng lớn thì khả năng phân loại lỗi càng thấp. Do đó bài toán tối ưu trong SVM chính là đi tìm siêu phẳng phân chia có lề lớn nhất (Vũ Hữu Tiệp, 2018).
Việc phát hiện gian lận thẻ tín dụng luôn là công việc không hề dễ dàng đặc biệt trong đời đại bùng nổ công nghệ và việc sử dung thẻ tín dụng ngày càng phổ biến như hiện nay. Các hình thức gian lận thẻ tín dụng ngày càng tinh vi hơn, bắt buộc các mô hình để phát hiện gian lận cũng cải tiến và đem lại hiệu quả cao, nâng cao độ chính xác và giảm bớt rủi ro tổn thất tài chính do gian lận thẻ tín dụng đem lại. Kết quả cho thấy mô hình mạng nơ ron thần kinh cung cấp khả năng phát hiện gian lận đến 99%. Với kết quả này sẽ giúp các nhà quản lý lựa chọn các mô hình linh hoạt hơn nhằm nâng cao khả năng phát hiện gian lận thẻ tín dụng, góp phần giảm thiểu tổn thất tài chính và tối ưu hóa làm lợi nhuận.