Phân tích cảm xúc trên thị trường trường chứng khoán

TCDN - Bài viết cung cấp một đánh giá có hệ thống các nghiên cứu về áp dụng phân tích cảm xúc (sentiment analysis) trên thị trường chứng khoán.

TÓM TẮT:

Bài viết cung cấp một đánh giá có hệ thống các nghiên cứu về áp dụng phân tích cảm xúc (sentiment analysis) trên thị trường chứng khoán. Trên cơ sở tổng hợp và phân loại các nguồn thông tin được sử dụng trong phân tích cảm xúc, so sánh và đánh giá các phương pháp phân tích cảm xúc đã được các nhà nghiên cứu thực hiện, bài viết đưa ra các khuyến nghị về hướng nghiên cứu trong tương lai.

1. Đặt vấn đề

Khi đưa ra những quyết định quan trọng, chúng ta thường tham khảo thêm ý kiến hoặc cảm xúc của nhiều người khác. Phân tích cảm xúc (sentiment analysis) có nhiều thuật ngữ tương đương như khai phá quan điểm (opinion mining), trí tuệ nhân tạo cảm xúc (emotion artifical intelligence), hay phân tích nội dung (content analysis). Các thuật ngữ này đều có ý nghĩa giống nhau là việc sử dụng bất kỳ kỹ thuật nào để suy luận một cách khách quan và hệ thống về các đặc điểm của một văn bản (Stone và cộng sự, 1966). Bằng cách phân tích dữ liệu phi cấu trúc (ví dụ như từ hoặc câu), các nhà nghiên cứu thuộc lĩnh vực tài chính hành vi đã có thể phát hiện ra cảm xúc/quan điểm trong các văn bản. Hiện nay, cảm xúc (sentiment) có thể được thể hiện qua nhiều hình thức diễn ngôn của con người như bài phát biểu trước công chúng, tin tức, blogs, diễn đàn, hay bất kỳ dạng thể hiện nào dù là văn nói, văn viết hay hình ảnh.

Từ tiềm năng của phân tích cảm xúc, việc tìm hiểu cách thức áp dụng kỹ thuật này trên thị trường chứng khoán là hết sức cần thiết. Bài viết này thực hiện đánh giá và phân tích các nghiên cứu trước đây đã sử dụng phân tích cảm xúc trên thị trường. Bài viết sẽ tập trung vào hai vấn đề: Một là, bài viết phân loại các dạng thông tin mà các nhà nghiên cứu đã sử dụng (báo cáo của doanh nghiệp, bài báo hay bài đăng trên mạng); Hai là, bài viết sẽ so sánh các phương pháp được sử dụng (phương pháp dựa trên từ điển (dictionary-based)) và phương pháp học máy (machine learning)).

2. Nội dung nghiên cứu

2.1. Nguồn thông tin sử dụng trong phân tích cảm xúc

Các thông tin được sử dụng trong các nghiên cứu áp dụng phân tích cảm xúc trong tài chính gồm có: (1) Báo cáo của doanh nghiệp; (2) Bài báo; và (3) Bài đăng trên mạng. Các văn bản này đều chứa đựng các thông tin về cảm xúc của chủ thể tham gia trên thị trường về nhiều khía cạnh của doanh nghiệp, các trung gian tài chính cũng như toàn thị trường, hay nói một cách khác, các chủ thể trên thị trường cảm thấy như thế nào trước một sự kiện.

Nhiều nhà nghiên cứu đã sử dụng các báo cáo của doanh nghiệp để áp dụng phân tích cảm xúc. Các báo cáo của doanh nghiệp được sử dụng gồm có báo cáo thường niên, báo cáo theo quý, thông cáo báo chí về kết quả kinh doanh (earnings announcement), và cuộc họp công bố kết quả kinh doanh (earnings conference call). Li (2006), Govindaraj và Segal (2008), Li (2010), Loughran và McDonald (2011), và Jegadeesh và Wu (2012) tập trung vào xử lý dữ liệu từ báo cáo thường niên hoặc báo theo quý của doanh nghiệp. Govindaraj và Sega (2008) và Li (2010) chỉ tập trung vào mục Thảo luận và phân tích của ban lãnh đạo (Management Discussion và Analysis - MD&A). Các nhà nghiên cứu sử dụng thông cáo báo chí về kết quả kinh doanh gồm có Henry (2006), Henry (2008), Henry và Leone (2009), Doran và cộng sự (2010), Davis và cộng sự (2011), Davis và Tama-Sweet (2011), Huang và cộng sự (2014), và Davis và cộng sự (2012). Các nghiên cứu này đã áp dụng phân tích cảm xúc và coi cảm xúc là một yếu tố cơ bản mới cần quan tâm khi thực hiện phân tích sự kiện. Nghiên cứu của Govindaraj và Sega (2008) cho thấy mục MD&A là một nguồn thông tin vô cùng hữu ích do mục này cho thấy quan điểm của ban lãnh đạo về hiệu quả hoạt động kinh doanh trong quá khứ, tình trạng tài chính trong hiện tại và kỳ vọng trong tương lai.

Cảm xúc được thể hiện qua truyền thông hay các bài báo cũng là một nguồn dữ liệu được tận dụng triệt để trong các phân tích cảm xúc trên thị trường chứng khoán. Loại cảm xúc này được trích xuất từ việc phân tích các bài báo, bài bình luận hay phân tích của chuyên gia. Các văn bản này mang các thông tin về thực trạng kinh tế vĩ mô, thực trạng của thị trường tài chính hay thực trạng của từng ngành cũng như doanh nghiệp. Tetlock (2007) và Garcia (2012) đã sử dụng tiêu đề của các bài báo trên các tạp chí lớn của Mỹ là Wall Street Journal và The New York Times. Engelberg (2008) thu thập tiêu đề các bài báo công bố kết quả kinh doanh của 4,700 doanh nghiệp. Tetlock và cộng sự (2008) và Engelberg và cộng sự (2012) sử dụng các bài báo đăng trên Dow Jones News Service và Wall Street Journal. Sinha (2016) phân tích cảm xúc ở mức độ doanh nghiệp trên dữ liệu gồm 587,719 tiêu đề bài báo của Thomson Reuter NewsScope.

Một nhánh nghiên cứu khác thu thập và xử lý dữ liệu dạng văn bản từ những bài viết trên mạng. Nghiên cứu của Antweiler và Frank (2004) phân tích 1.5 triệu tin nhắn tại mục Yahoo!Finance và Raging Bull về 45 doanh nghiệp nằm trong chỉ số Dow Jones Industrial Average Index và Dow Jones Internet Index. Mẫu nghiên cứu của Das và Chen (2007) gồm tất cả các tin nhắn được đăng trên Yahoo! mà có liên quan đến 24 cổ phiếu công nghệ trong chỉ số Morgan Stanley High-Tech Index (MSH). Chen và cộng sự (2013) sử dụng 79,142 bài phân tích cổ phiếu trên trang Seeking Alpha.

Mỗi nguồn dữ liệu cho phân tích cảm xúc đều có những ưu điểm và nhược điểm riêng, thể hiện ở ba điểm sau:

Thứ nhất, xét về mức độ sâu của dữ liệu. Phân tích tại mục MD&A cho thấy quan điểm của nhà quản lý, những người được cho là nắm rõ về tình hình của doanh nghiệp. Tuy nhiên, nhà quản lý sẽ không cho người đọc biết hoàn toàn sự thật, thậm chí, họ còn có thể sử dụng thông tin cung cấp tại mục MD&A để thao túng tâm lý của nhà đầu tư. Thông tin từ các bài báo hay bài đăng trên mạng cho biết góc nhìn của các nhà đầu tư trên thị trường, đặc biệt là các nhà đầu tư nhỏ lẻ. Các thông tin này có thể linh hoạt hơn, nhưng nó không cho biết góc nhìn từ người trong cuộc (nhà quản lý). Mức độ sâu sắc của thông tin trong báo cáo phân tích của các công ty chứng khoán sẽ nằm ở giữa hai thông tin kể trên. Thông tin trong các báo cáo phân tích vừa cung cấp một phần góc nhìn của nhà quản lý vừa cho thấy góc nhìn của nhà đầu tư.

Thứ hai, về tần suất của dữ liệu. Các báo cáo của doanh nghiệp có tần suất thấp (quý hoặc năm), phù hợp trong các phân tích dữ liệu chéo hoặc phân tích sự kiện nhưng không phù hợp với phân tích chuỗi thời gian. Trái lại, thông tin về cảm xúc trong các bài báo hoặc bài đăng trên mạng sẽ có tần suất dày đặc hơn, phù hợp cho các nghiên cứu sử dụng dữ liệu theo tháng, tuần, ngày hoặc thậm chí tần suất cao hơn.

Thứ ba, về việc xử lý dữ liệu. Dữ liệu từ đăng trên mạng có nhiều lỗi (viết tắt, tiếng lóng, vv.) so với các văn bản chính thống như bài báo hay báo cáo của doanh nghiệp, do đó, việc xử lý dữ liệu dạng này sẽ gặp nhiều khó khăn hơn. Hơn nữa, các bài đăng trên mạng có thể bắt nguồn từ những người giao dịch không có thông tin (uninformed trader/noise trader). Thông tin từ các bài đăng này có thể đã hàm chứa sẵn quan điểm lệch lạc, hoặc được sử dụng để thao túng các nhà đầu tư khác trên thị trường.

2.2. Phương pháp sử dụng trong phân tích cảm xúc

Hai phương pháp sử dụng trong phân tích cảm xúc gồm có (1) Phương pháp dựa trên từ điển (dictionary - based); và (2) Phương pháp học máy (machine learning)

2.2.1. Phương pháp dựa trên từ điển (dictionary - based)

Phương pháp dựa trên từ điển (dictionary - based) sử dụng thuật toán ánh xạ trong đó chương trình máy tính để đọc văn bản và phân loại các từ, cụm từ hoặc câu thành các nhóm dựa trên từ điển được xác định trước (Li, 2010). Phương pháp này còn được biết đến với tên gọi “Bag-of-Words” (BoW) trong xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP). Theo đó, một văn bản sẽ được coi là một tập hợp gồm nhiều từ, bỏ qua thứ tự các từ và cấu trúc của văn bản (Manning và Schutze, 1999). Hai vấn đề cần quan tâm khi áp dụng phương pháp này là từ điển (hay danh sách các từ) và tỷ trọng của mỗi từ trong từ điển.

Từ điển được sử dụng nhiều trong các nghiên cứu áp dụng phân tích cảm xúc là General Inquirer (GI), từ điển này được phát triển và sử dụng bởi Phillip Stone, một chuyên gia trong lĩnh vực tâm lý học xã hội (Stone và cộng sự, 1966). Phần lớn các từ trong từ điển GI lấy từ từ điển Harvard IV-4. Các nghiên cứu đã sử dụng từ điển GI (hay từ điển GI/Harvard) như Tetlock (2007), Engelberg (2008), Govindaraj và Segal (2008), Tetlock và cộng sự (2008), Henry và Leone (2009), Doran và cộng sự (2010), Loughran và McDonald (2011), và Engelberg và cộng sự (2012).

Một từ điển khác được sử dụng trong phân tích cảm xúc là từ điển DICTION (Hart, 2010), từ điển này được phát triển bởi Roderick Hart, một chuyên gia trong lĩnh vực chính trị và truyền thông đại chúng. DICTION là một chương trình hỗ trợ phân tích dữ liệu dạng văn bản sử dụng hàng loạt từ điển để tìm kiếm ra đặc điểm ngữ nghĩa của đoạn văn. Henry và Leone (2009), Davis và cộng sự (2011), Davis và Tama-Sweet (2011), Durnev và Mangen (2011) đều sử dụng DICTION trong nghiên cứu của mình.

Vấn đề cần quan tâm bên cạnh từ điển sử dụng là cách tính tỷ trọng của các từ. Các nghiên cứu sử dụng từ điển GI/Harvard đều đặt các từ có tỷ trọng như nhau bằng cách đếm tần suất xuất hiện của từ trong văn bản. Tuy nhiên, việc đếm số lần một từ xuất hiện trong văn bản không phải là thước đo tốt nhất cho nội dung thông tin của từ đó (Loughran và McDonald, 2011). Loughran và McDonald (2011) sử dụng hai cách thức để tính trọng số của từ, một là tính trọng số giản đơn và hai là tính trọng số trong mối tương quan ngược chiều với tần suất xuất hiện của từ đó trong văn bản. Jegadeesh và Wu (2012) lý luận rằng không có lý do nào để cho rằng nếu một từ ít xuất hiện trong một văn bản thì nội dung thông tin của từ đó lại nhiều hơn. Các nhà nghiên cứu này tính tỷ trọng của từ dựa trên mức độ mà thị trường đã phản ứng với từ đó như thế nào trong quá khứ.

2.2.2. Phương pháp học máy (machine learning)

Li (2010) chỉ ra rằng việc phương pháp học máy trong phân tích cảm xúc là việc dựa vào các kỹ thuật thống kê để suy luận và phân loại thông tin của các văn bản. Cách thức thực hiện phương pháp học máy trong phân tích cảm xúc gồm như sau: ban đầu chúng ta lựa chọn một tập hợp các từ để huấn luyện (training set) từ tập ngữ liệu (corpus). Mỗi từ trong tập huấn luyện (training set) được phân loại vào nhóm tích cực hay tiêu cực. Sau đó, một thuật toán (ví dụ thuật toán Na-ve Bayesian) sẽ được sử dụng trên tập huấn luyện. Thuật toán sẽ học (learn) từ cách phân loại cảm xúc phía trên và tiến hành áp dụng trên toàn bộ tập ngữ liệu. Khi toàn bộ các từ trong tập ngữ liệu được phân loại, các thước đo cảm xúc sẽ được tính toán dựa trên cách thức phân loại sử dụng trong tập huấn luyện. Tóm lại, phương pháp học máy là việc sử dụng một hay nhiều thuật toán để đọc tập huấn luyện, từ đó viết ra một mô hình để áp dụng cho toàn bộ tập ngữ liệu.

McCallum (1996) phát triển Rainbow, một package để áp dụng phương pháp học máy trên dữ liệu dạng văn bản. Rainbow hỗ trợ nhiều phương pháp phân loại như Na-ve Bayesian, K-nearest neighbour, TFIDF, vv. Antweiler và Frank (2004) sử dụng thuật toán Na-ve Bayesian trong Rainbow để phân loại các tin nhắn vào một trong ba loại: mua, bán, và nắm giữ. Thuật toán này cũng được Li (2010) sử dụng để phân loại các câu vào một trong 3 cảm xúc: tích cực/tiêu cực/không chắc chắn. Das và Chen (2007) sử dụng 5 thuật toán học máy khác nhau để phân loại các tin nhắn vào ba loại: tăng giá/giảm giá/trung tính. Huang và cộng sự (2014) sử dụng Na-ve Bayesian để trích xuất quan điểm từ báo cáo phân tích của chuyên gia về các công ty trong chỉ số S&P 500.

Phương pháp dựa trên từ điển và học máy có những ưu điểm và nhược điểm riêng. Xét về mức độ dễ áp dụng, phương pháp dựa trên từ điển có nhiều lợi thế. Cách thức thực hiện của phương pháp này đơn giản và được trợ giúp bởi các phần mềm sẵn có như GI hay DICTION. Tuy nhiên, các từ điển này sẽ áp dụng chung cho các văn bản, chưa có từ điển đặc thù cho lĩnh vực tài chính. Nhược điểm này của phương pháp dựa trên từ điển có thể được khắc phục bằng cách sử dụng một từ điển dành riêng cho lĩnh vực tài chính như từ điển của Loughran và McDonald hay từ điển L&M (từ điển này được mô tả trong Loughran và McDonald (2011)).

Việc áp dụng phương pháp học máy sẽ phức tạp và tốn kém thời gian hơn phương pháp dựa trên từ điển, đổi lại, mức độ chính xác cao hơn. Khi áp dụng phương pháp học máy, nhà nghiên cứu sẽ phải tiến hành đánh nhãn và phân loại từng từ trong tập huấn luyện. Để đảm bảo chất lượng và tính đồng nhất khi phân loại từ, nhà nghiên cứu phải cẩn thận lựa chọn người đánh nhãn, ví dụ như người đánh nhãn phải là người sử dụng ngôn ngữ đó như ngôn ngữ mẹ đẻ đồng thời có kiến thức nền về tài chính. Tuy nhiên, việc sử dụng phương pháp học máy mang lại tỷ lệ chính xác cao hơn phương pháp dựa trên từ điển. Sinha (2016) cho thấy Reuters NewsScope Sentiment Engine phân loại từ với độ chính xác lên 75% so với đánh giá trung bình của các nhà phân tích. Huang và cộng sự (2014) cho thấy phương pháp học máy Na-ve Bayesian có tính chính xác cao hơn (80.9% đối với dữ liệu đánh giá trong mẫu, in-sample validation, và 76.9% với dữ liệu ở đánh giá ngoài mẫu, out-of sample validation) so với phương pháp dựa trên từ điển (48.4% khi sử dụng GI và 54.9% khi sử dụng DICTION).

3. Khoảng trống nghiên cứu và đề xuất hướng nghiên cứu

Từ phần phân tích ở trên, ta có thể thấy tuy đã có nhiều nghiên cứu áp dụng phân tích cảm xúc trên thị trường chứng khoán, nhiều vấn đề nghiên cứu vẫn còn cần được giải quyết.

Thứ nhất, quy trình phân tích cảm xúc nên được cải thiện. Từ điển chuyên dụng khi phân tích văn bản trong lĩnh vực tài chính đã có (từ điển L&M). Mặc dù từ điển này đã được sử dụng nhiều trong các nghiên cứu, tuy nhiên, từ điển này chỉ có tiếng Anh. Việc phân tích cảm xúc từ văn bản bằng các ngôn ngữ khác vẫn còn là một mảng nghiên cứu lớn đang bị bỏ ngỏ. Phân tích cảm xúc trên thị trường chứng khoán cần có thêm sự hỗ trợ của những chuyên gia về ngôn ngữ, tâm lý học và khoa học máy tính. Theo đó, các thước đo cảm xúc sẽ có tính chính xác cao hơn, các nhà nghiên cứu có thể khám phá các khía cạnh khác nhau của cảm xúc mà có tác động đến thị trường chứng khoán.

Thứ hai, một số dạng thể hiện khác của thông tin định tính chưa được nghiên cứu nhiều, ví dụ như các bài phát biểu của các chính trị gia, bài phát biểu của các doanh nhân, blogs, tin tức trên ti vi, và các tin nhắn hoặc bài viết trên các diễn đàn. Các bài phát biểu của các chính trị gia hay các doanh nhân thuộc các doanh nghiệp lớn trên thị trường chứng khoán có ảnh hưởng đến tâm lý thị trường, do đó, là một nguồn thông tin hữu ích và dồi dào cho phân tích cảm xúc. Dữ liệu đến từ các nền tảng mạng xã hội (Facebook, Twitter, Telegram, Zalo, vv.) cũng hàm chứa nhiều thông tin về cảm xúc của các nhà đầu tư nhỏ lẻ.

Thứ ba, phần lớn các nghiên cứu trong phần tổng quan này đều được thực hiện trên lớp tài sản là cổ phiếu, rất nhiều phân lớp tài sản khác đang còn chưa được quan tâm (như trái phiếu, phái sinh, hàng hóa, vv.). Các nghiên cứu cũng được thực hiện chủ yếu tại thị trường Mỹ, các thị trường khác (phát triển, mới nổi, và cận biên) cũng chưa được tập trung. Các thị trường khác, đặc biệt là các thị trường mới nổi, với những khác biệt về văn hóa và hành vi, có thể mang đến các kết quả thú vị về cảm xúc và tâm lý nhà đầu tư so với thị trường phát triển.

Thứ tư, cùng với sự phát triển nhanh chóng của công nghệ, việc phân tích tâm lý thị trường theo thời gian thực ngày càng trở nên khả thi. Thành viên thị trường có thể phân tích diễn biến giá và khối lượng ngay khi thông tin xuất hiện, từ đó nhận định về tác động của thông tin đến tâm lý thị trường.

Thứ năm, mối quan hệ giữa cảm xúc nhà đầu tư và hành vi nhà đầu tư vẫn luôn là một chủ đề đáng quan tâm trong lĩnh vực tài chính hành vi. Nhờ sự đa dạng của các nguồn thông tin, sự phát triển của các phương pháp phân tích cảm xúc, mối quan hệ phức tạp và thay đổi theo thời gian này có thể được nghiên cứu sâu sắc hơn, từ đó đóng góp về cả lý thuyết và thực nghiệm cho tài chính hành vi.

TÀI LIỆU THAM KHẢO:

Antweiler, W., & Frank, M. Z. (2004). Is all that talk just noise? The information content of internet stock message boards. The Journal of finance, 59(3), 1259-1294.

Baker, M., & Wurgler, J. (2007). Investor sentiment in the stock market. Journal of economic perspectives, 21(2), 129-151.

Chen, H., De, P., Hu, Y. J., & Hwang, B. H. (2013). Customers as advisors: The role of social media in financial markets. Working paper.

Das, S. R., & Chen, M. Y. (2007). Yahoo! for Amazon: Sentiment extraction from small talk on the web. Management science, 53(9), 1375-1388.

Davis, A. K., & Tama‐Sweet, I. (2012). Managers’ use of language across alternative disclosure outlets: earnings press releases versus MD&A. Contemporary Accounting Research, 29(3), 804-837.

ThS. Nguyễn Ngọc Trâm

Trường Đại học Kinh tế Quốc dân

Tạp chí in số tháng 12/2023

Bạn đang đọc bài viết Phân tích cảm xúc trên thị trường trường chứng khoán tại chuyên mục Bài báo khoa học của Tạp chí Tài chính doanh nghiệp. Liên hệ cung cấp thông tin và gửi tin bài cộng tác:

email: [email protected], hotline: 086 508 6899