Các kỹ sư phát triển công cụ phần mềm phân tích hệ vi sinh vật cải tiến

Trung tâm công nghệ sinh học Thành Phố Hồ Chí Minh

Các kỹ sư phát triển công cụ phần mềm phân tích hệ vi sinh vật cải tiến

Thứ hai - 27/05/2024 09:21

Kể từ khi bộ gen vi sinh vật đầu tiên được giải trình tự vào năm 1995, các nhà khoa học đã xây dựng lại cấu trúc bộ gen của hàng trăm ngàn vi sinh vật và thậm chí còn nghĩ ra các phương pháp để khảo sát cộng đồng vi khuẩn trên da, trong ruột, hoặc trong đất, nước và các nơi khác dựa vào các mẫu đại diện lớn, dẫn đến sự xuất hiện của một lĩnh vực nghiên cứu tương đối mới được gọi là Metagenomics.

Phân tích dữ liệu metagenomic có thể là một nhiệm vụ khó khăn, giống như cố gắng lắp ráp được một vài miếng ghép khổng lồ từ tất cả các mảnh nhỏ nằm lộn xộn với nhau. Để đảm nhận thử thách độc đáo này, chuyên gia về đồ thị - trí tuệ nhân tạo (AI) của Đại học Rice, Santiago Segarra và nhà sinh tin học Todd Treangen đã hợp tác để tìm cách áp dụng các phép phân tích dữ liệu do AI cung cấp vào việc tạo ra các công cụ mới phục vụ nghiên cứu metagenomics. Bộ đôi nhà khoa học này đã tập trung vào hai loại dữ liệu khiến cho việc phân tích metagenomic trở nên đặc biệt khó khăn – các đoạn lặp lại và các biến thể cấu trúc -- đồng thời phát triển các công cụ để xử lý các loại dữ liệu này vượt trội hơn các phương pháp hiện tại. Các đoạn lặp lại là các chuỗi DNA giống nhau, xuất hiện lặp đi lặp lại trong bộ gen của các sinh vật đơn lẻ và trên nhiều bộ gen của cộng đồng sinh vật. Segarra, trợ lý giáo sư về kỹ thuật điện và máy tính cho biết: “DNA trong mẫu metagenomic từ nhiều sinh vật có thể được biểu diễn dưới dạng biểu đồ. Đặc biệt là một trong những công cụ chúng tôi phát triển có thể tận dụng cấu trúc của biểu đồ này để xác định các đoạn lặp lại hiện diện giữa các loài vi sinh vật hay trong cùng một loài vi sinh vật." Được đặt tên là GraSSRep, phương pháp này kết hợp việc học tự giám sát, một quy trình học máy trong đó mô hình AI tự đào tạo để phân biệt giữa đầu vào ẩn và đầu vào có sẵn cũng như mạng lưới thần kinh đồ thị, các hệ thống xử lý dữ liệu biểu thị các đối tượng và mối liên kết của chúng dưới dạng biểu đồ. Bài báo được bình duyệt đã được trình bày tại phiên họp thứ 28 của hội nghị quốc tế thường niên hàng đầu về nghiên cứu sinh học phân tử tính toán, RECOMB 2024. Dự án được dẫn dắt bởi sinh viên tốt nghiệp Rice và trợ lý nghiên cứu Ali Azizpour. Advait Balaji, cựu sinh viên tiến sĩ Rice, cũng là tác giả của nghiên cứu.

Sự lặp lại được quan tâm vì chúng đóng một vai trò quan trọng trong các quá trình sinh học như phản ứng của vi khuẩn với những thay đổi trong môi trường của chúng hoặc sự tương tác của hệ vi sinh vật với sinh vật chủ. Một ví dụ cụ thể về hiện tượng lặp lại có thể đóng vai trò là tình trạng kháng kháng sinh. Nói chung, việc theo dõi lịch sử hoặc động lực của các lần lặp lại trong bộ gen vi khuẩn có thể làm sáng tỏ các chiến lược thích nghi hoặc tiến hóa của vi sinh vật. Hơn nữa, sự lặp lại đôi khi thực sự có thể là vi rút trá hình hoặc vi khuẩn. Từ tiếng Hy Lạp có nghĩa là “nuốt chửng”, thể thực khuẩn đôi khi được sử dụng để tiêu diệt vi khuẩn. Treangen, phó giáo sư khoa học máy tính cho biết: “Những thể thực khuẩn này thực sự xuất hiện trông giống như những bản lặp lại, vì vậy bạn có thể theo dõi động lực của thể thực khuẩn dựa trên những đoạn lặp lại có trong bộ gen”. "Điều này có thể cung cấp manh mối về cách loại bỏ vi khuẩn khó tiêu diệt hoặc vẽ ra một bức tranh rõ ràng hơn về cách những virus này tương tác với cộng đồng vi khuẩn."

Trước đây khi sử dụng phương pháp tiếp cận dựa trên biểu đồ để thực hiện phát hiện lặp lại, các nhà nghiên cứu đã sử dụng các thông số kỹ thuật được xác định trước cho những gì cần tìm trong dữ liệu biểu đồ. Điều khiến GraSSRep khác biệt so với các phương pháp trước đây là việc thiếu bất kỳ tham số hoặc tham chiếu được xác định trước nào cho biết cách xử lý dữ liệu. Segarra cho biết: “Phương pháp của chúng tôi học cách sử dụng cấu trúc biểu đồ tốt hơn để phát hiện các lần lặp lại thay vì dựa vào đầu vào ban đầu”. "Việc học tự giám sát cho phép công cụ này tự đào tạo trong trường hợp không có bất kỳ sự thật cơ bản nào xác định đâu là lặp lại và đâu là không lặp lại. Khi bạn xử lý một mẫu metagenomic, bạn không cần biết bất cứ điều gì về những gì có trong ở đó để phân tích nó." Điều tương tự cũng đúng trong trường hợp của một phương pháp phân tích metagenomic khác do Segarra và Treangen đồng phát triển – phát hiện biến thể cấu trúc không cần tham chiếu trong hệ vi sinh vật thông qua biểu đồ lắp ráp đọc dài hoặc rhea. Bài báo được bình duyệt của họ về rhea sẽ được trình bày tại hội nghị thường niên của Hiệp hội Sinh học Tính toán Quốc tế, diễn ra từ ngày 12 đến 16 tháng 7 tại Montreal. Tác giả chính của bài báo là Kristen Curry, cựu tiến sĩ khoa học máy tính của Rice, người sẽ gia nhập phòng thí nghiệm của Rayan Chikhi - cũng là đồng tác giả của bài báo - tại Viện Pasteur ở Paris với tư cách là nhà khoa học sau tiến sĩ.

Trong khi GraSSRep được thiết kế để xử lý các hiện tượng lặp lại, rhea xử lý các biến thể cấu trúc, là những biến đổi gen của 10 cặp bazơ trở lên có liên quan đến y học và sinh học phân tử do vai trò của chúng trong các bệnh khác nhau, điều hòa biểu hiện gen, động lực tiến hóa và thúc đẩy đa dạng di truyền. trong quần thể và giữa các loài. Treangen cho biết: “Việc xác định các biến thể cấu trúc trong các bộ gen bị cô lập tương đối đơn giản, nhưng khó thực hiện hơn ở các metagenome nơi không có bộ gen tham chiếu rõ ràng để giúp phân loại dữ liệu”.

Hiện nay, một trong những phương pháp được sử dụng rộng rãi để xử lý dữ liệu metagenomic là thông qua bộ gen được lắp ráp metagenome hoặc MAG. Segarra cho biết: “Các trình lắp ráp de novo hoặc hướng dẫn tham chiếu này là những công cụ được thiết lập khá tốt, đòi hỏi toàn bộ quy trình vận hành với tính năng phát hiện lặp lại hoặc nhận dạng các biến thể cấu trúc chỉ là một số chức năng của chúng”. "Một điều mà chúng tôi đang xem xét là thay thế các thuật toán hiện có bằng các thuật toán của chúng tôi và xem làm thế nào điều đó có thể cải thiện hiệu suất của các bộ lắp ráp metagenomic được sử dụng rất rộng rãi này." Rhea không cần bộ gen tham chiếu hoặc MAG để phát hiện các biến thể cấu trúc và nó hoạt động tốt hơn các phương pháp dựa trên các tham số được xác định trước đó khi thử nghiệm với hai metagenome giả. Segarra cho biết: “Điều này đặc biệt đáng chú ý vì chúng tôi có được dữ liệu đọc chi tiết hơn nhiều so với việc sử dụng bộ gen tham chiếu”. “Một điều khác mà chúng tôi hiện đang xem xét là áp dụng công cụ này vào các bộ dữ liệu trong thế giới thực và xem kết quả liên quan như thế nào đến các quá trình sinh học cũng như những hiểu biết sâu sắc mà công cụ này có thể mang lại cho chúng tôi.” Treangen cho biết sự kết hợp giữa GraSSRep và rhea - dựa trên những đóng góp trước đây trong lĩnh vực này - có tiềm năng "mở khóa các quy luật cơ bản của sự sống chi phối quá trình tiến hóa của vi sinh vật". Các dự án này là kết quả của sự hợp tác kéo dài nhiều năm giữa phòng thí nghiệm Segarra và Treangen.

Nguồn bài viết: Tài liệu do Rice University cung cấp. Lưu ý: Nội dung có thể được chỉnh sửa về phong cách và độ dài.
Trích dẫn trang:
Rice University. "Engineers develop innovative microbiome analysis software tools."
Nguồn: https://www.sciencedaily.com/releases/2024/05/240507145907.htm

Tác giả bài viết: Nguyễn Thị Thủy Tiên - P. CN Vi sinh

Từ khóa: xây dựng, nhà khoa học, trình tự, sinh vật