Workflow này nhằm mục đích thu thập, phân tích và xuất dữ liệu từ Hacker News, đặc biệt là các bình luận liên quan đến các bài viết, để tối ưu hóa việc đưa ra các quan điểm và thông tin có giá trị hơn cho các nhà nghiên cứu hoặc nhóm làm việc.
Khi nhấn ‘Test workflow’, manualTrigger khởi động quy trình.
Dữ liệu từ Hacker News được thu thập bằng hackerNews.
Dữ liệu này được chia nhỏ qua splitOut.
Bình luận được lưu trong một tập hợp thông qua set.
Xử lý dữ liệu với vectorStoreQdrant để lưu trữ vector.
Sử dụng embeddingsOpenAi để tạo embedding cho văn bản.
Dữ liệu mặc định được nạp từ documentDefaultDataLoader.
Dữ liệu được tách theo ký tự bằng textSplitterRecursiveCharacterTextSplitter.
Một số biến được thiết lập qua set.
Xóa bình luận hiện có thông qua yêu cầu HTTP httpRequest.
Lấy payload của điểm số với httpRequest.
Chia dữ liệu thành danh sách thông qua splitOut.
Mô hình trò chuyện OpenAI được kích hoạt bằng lmChatOpenAi.
Lọc những cụm có từ 3 điểm trở lên bằng filter.
Thiết lập biến thêm qua set.
Chuẩn bị dữ liệu đầu ra để xuất bằng set.
Xuất dữ liệu vào Google Sheets qua googleSheets.
Kích hoạt workflow tiếp theo thông qua executeWorkflowTrigger.
Thực hiện các insights với executeWorkflow.
Chuẩn bị các giá trị cho trigger qua set.
Tìm kiếm bình luận qua httpRequest.
Áp dụng thuật toán K-means Clustering bằng code.
Trích xuất thông tin với informationExtractor.
Workflow này giúp giải quyết vấn đề thu thập và phân tích dữ liệu lớn từ Hacker News một cách hiệu quả. Nó tạo ra giá trị cho những người sử dụng dữ liệu này trong nghiên cứu, đưa ra insight và hỗ trợ ra quyết định trên cơ sở dữ liệu phân tích.
Quy trình có độ phức tạp cao với nhiều bước và kết nối. Để bảo trì, cần tài liệu hóa rõ ràng và có thể tối ưu hóa bằng cách nhóm các bước liên quan để giảm thiểu số lượng node. Cũng cần thiết phải kiểm thử đúng cách để đảm bảo không có lỗi trong các yêu cầu HTTP.