CUP-AI-Dx: Công cụ chẩn đoán nguồn gốc mô ung thư và dạng phân tử với dữ liệu biểu hiện gen RNA và trí tuệ nhân tạo|| Phần 2

CÔNG CỤ VÀ PHƯƠNG PHÁP

Phân loại khối u nguyên phát

Dữ liệu biểu hiện gen TCGA:

TPM (Số phiên mã trên một triệu) [27] chuẩn hóa thành các ma trận biểu hiện gen đã được áp dụng thành 33 nhóm ung thư thể hiện trong Trung tâm phân tích dữ liệu Gen (GDAC) Firehose của Viện Broad (bắt đầu từ 28.01.2016) [28]. Nghiên cứu hợp nhất ung thư biểu mô tuyến đại tràng (COAD) và ung thư biểu mô tuyến trực tràng (READ) thành một nhóm duy nhất (COADREAD) dựa trên sự tương đồng cao về phân tử của chúng trong các phát hiện của tổ hợp TCGA [29], [30]. Ma trận biểu hiện gen của mỗi bệnh ung thư được chuyển đổi thành đối tượng Biobase ExpressionSet [31] để chuẩn hóa và các bộ này được kết hợp thành một ExpressionSet duy nhất. Ma trận biểu hiện ban đầu bao gồm 11.330 mẫu và 20.531 gen đã được giảm xuống còn 9.274 mẫu sau khi trích xuất dữ liệu cho các mẫu khối u chính (mã loại khối u = “01”) và mẫu máu (mã loại khối u = “03”).

Dữ liệu biểu hiện gen ICGC:

TPM (Số phiên mã trên một triệu) [27] chuẩn hóa thành các ma trận biểu hiện gen được thu thập từ Hiệp hội Bộ gen Ung thư Quốc tế (ICGC). Ung thư biểu mô tuyến đại tràng (COAD) và ung thư biểu mô tuyến trực tràng (READ) được kết hợp thành một nhóm duy nhất (COADREAD) như nghiên cứu đã mô tả trong đoạn trước. Bộ dữ liệu ICGC chứa 8.943 mẫu trên 32 loại khối u.

Sau khi kết hợp bộ dữ liệu TCGA và ICGC, nghiên cứu có ma trận dữ liệu biểu hiện gen với 18.217 mẫu bao gồm 32 loại khối u khác nhau với 20.531 gen làm bộ dữ liệu huấn luyện (liệt kê trong Bảng 2).

Cohort Abbreviation       Cases           Disease Name

  • ACC                                79                Adrenocortical carcinoma
  • BLCA                              726               Bladder urothelial carcinoma
  • BRCA                              2,320            Breast invasive carcinoma
  • CESC                               568               Cervical and endocervical cancers
  • CHOL                              36                Cholangiocarcinoma
  • COADREAD                    873               Colon & Rectum adenocarcinoma
  • DLBC                              48                Lymphoid Neoplasm Diffuse Large B-cell Lymphoma
  • ESCA                               184               Esophageal carcinoma
  • HNSC                              1,044            Head and Neck squamous cell carcinoma
  • KICH                               66                Kidney Chromophobe
  • KIRC                               1,131            Kidney renal clear cell carcinoma
  • KIRP                                544               Kidney renal papillary cell carcinoma
  • LAML                              346               Acute Myeloid Leukemia
  • LGG                                 969               Brain Lower Grade Glioma
  • LIHC                                716               Liver hepatocellular carcinoma
  • LUAD                              1,058            Lung adenocarcinoma
  • LUSC                               974               Lung squamous cell carcinoma
  • MESO                              87                Mesothelioma
  • OV                                   679               Ovarian serous cystadenocarcinoma
  • PAAD                              323               Pancreatic adenocarcinoma
  • PCPG                               179               Pheochromocytoma and Paraganglioma
  • PRAD                              1,097            Prostate adenocarcinoma
  • SARC                              259               Sarcoma
  • SKCM                              537               Skin Cutaneous Melanoma

Bảng 2. 32 Cancer cohorts for primary classification from TCGA and ICGC.

Tính năng lựa chọn gen trên tập dữ liệu: Với tập dữ liệu đào tạo TCGA, cho 1D-Inception và 1D-CNN, nghiên cứu đã chọn 40 gen biểu hiện khác biệt nhất (DEGs) trong mỗi lớp (loại ung thư) được xác định bởi sự khác biệt giữa biểu hiện trung bình của mỗi gen trong mẫu trong lớp so với các mẫu ngoài lớp (p <0,001). Giá trị trung vị đã được sử dụng (thay vì giá trị trung bình) do tính chính xác của nó đối với các giá trị phân cực. Đối với ResNet, tương tự nghiên cứu đã chọn 70 DEGs tốt nhất trong mỗi lớp để đáp ứng yêu cầu về kích thước đầu vào. DEG có thể chồng chéo giữa các lớp khác nhau. Các bộ DEG từ mỗi lớp được kết hợp, hợp nhất và được sử dụng để huấn luyện từng mô hình, từ đó 791 và 1024 “gen đặc điểm” điển hình nhất chung cho tất cả các bộ xác nhận bên ngoài được chọn cho 1D-Inception / 1D-CNN và ResNet, tương ứng. Các gen được sắp xếp theo vị trí nhiễm sắc thể của chúng. Song song đó, nghiên cứu chọn 241 gen bằng cách chọn 10 gen biểu hiện khác biệt nhất trong mỗi lớp (loại ung thư) để quan sát hiệu suất của từng mô hình với kích thước tập hợp tính năng nhỏ. Với bộ dữ liệu đào tạo kết hợp từ TCGA và ICGC, nghiên cứu đã chọn 40 gen được biểu hiện khác biệt nhất (DEG) trong mỗi lớp (loại ung thư) được xác định bởi sự khác biệt giữa biểu hiện trung bình của mỗi gen trong mẫu trong lớp so với mẫu ngoài lớp (p <0,001) và kết hợp chồng chéo của các bộ DEG khác nhau. Cuối cùng, 817 gen “đặc điểm” điển hình đã được chọn để xây dựng mô hình 1D-Inception.

Dữ liệu về di căn TCGA: Để xác thực độ chính xác của dự đoán loại khối u chính, chúng tôi đã sử dụng các mẫu di căn TCGA (mã loại mẫu “06” (https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes)) cho 11 loại ung thư như sau (sử dụng từ viết tắt của nghiên cứu TCGA): ung thư biểu mô vú xâm lấn (BRCA); ung thư biểu mô tế bào vảy cổ tử cung và ung thư biểu mô tuyến trong cổ tử cung (CESC); ung thư biểu mô tuyến đại tràng (COAD) và ung thư biểu mô tuyến trực tràng (READ), mà chúng tôi kết hợp thành một nhóm duy nhất (COADREAD); ung thư biểu mô thực quản (ESCA); ung thư biểu mô tế bào vảy ở đầu và cổ (HNSC); ung thư biểu mô tuyến tụy (PAAD); pheochromocytoma và paraganglioma (PCPG); ung thư biểu mô tuyến tiền liệt (PRAD); sarcoma (SARC); u hắc tố da (SKCM); và ung thư biểu mô tuyến giáp (THCA). Ma trận biểu hiện gen di căn bao gồm 394 mẫu bao gồm 11 loại ung thư và 16.383 gen.

Dữ liệu xác nhận lâm sàng: Dữ liệu RNA-seq của các mẫu lâm sàng FFPE

Các mẫu xác nhận lâm sàng bao gồm 93 khối u được xử lý tại hai địa điểm ở Mỹ và Úc. 23 mẫu bệnh phẩm nhúng parafin cố định formalin (FFPE) đại diện cho 6 loại ung thư được lấy từ thử nghiệm lâm sàng trong hơn 4 năm tại phòng thí nghiệm JAX CLIA. 70 khối u FFPE di căn đại diện cho 18 loại ung thư đã được nghiên cứu tại Đại học Melbourne (UOM). Cả hai nhóm mẫu đều được xử lý bằng RNA-Seq với phương pháp điều trị mù đôi (chỉ nguồn gốc mô và chẩn đoán được biết) để xác nhận lâm sàng cho mô hình 1D-Inception của nghiên cứu. Tất cả các mẫu FFPE đều được làm xử lý để tách chiết và tổng số RNA tinh chế bằng cách sử dụng Qiagen AllPrep DNA / RNA FFPE Kit hoặc RNA FFPE Kit (Qiagen, Hilden, Đức). Tại phòng thí nghiệm JAX CLIA, 50 ng RNA được giải trình tự bằng cách sử dụng KAPA RNA PyperPrep Kit với giao thức RiboErase (HMR) và giải trình tự bằng tổng hợp trên thiết bị Illumina NextSeq 500. Tại Trung tâm Nghiên cứu Ung thư Đại học Melbourne, các thư viện RNA-seq đã được chuẩn bị bằng cách sử dụng Bộ chuẩn bị thư viện RNA định hướng NEB-Next NEBNext Ultra II cho Illumina® và các thư viện đã được giải trình tự trên Illumina Nova-Seq 6000. Các tệp BCL thô được tạo bởi trình tự đã sắp xếp được chuyển đổi sang tệp FASTQ bằng CASAVA. Dữ liệu RNA-Seq được căn chỉnh theo phiên bản phiên mã người hg38 bằng cách sử dụng kallisto phiên bản 0.46.0 [32] chạy dưới phiên bản bcbio-nextgen1.1.6a-b’2aee4b5 ′ (https://bcbio-nextgen.readthedocs.io/ ). Số lượng biểu hiện gen thô thu được từ các bản sao theo tỷ lệ các phiên mã trên một triệu (TPM) bằng cách sử dụng gói tximport R phiên bản 1.12.0 [33] chạy dưới phiên bản R 3.6.0. Chú thích về gen Ensembl [34] được tximport sử dụng đã được cung cấp trong đầu ra BCBio. Sự phân bố của các bộ dữ liệu lâm sàng được sử dụng để xác nhận được trình bày trong Bảng 3 và 4.

Cohort Abbreviation Cases Tumour Name
BRCA 6 Breast invasive carcinoma
COADREAD 5 Colon adenocarcinoma & Rectum adenocarcinoma
LUAD 3 Lung adenocarcinoma
LUSC 3 Lung squamous cell carcinoma
PRAD 5 Prostate adenocarcinoma
THCA 1 Thyroid carcinoma
Summary 23

Bảng 3. AX clinical dataset for external validation of primary tumour type predictor.

Cohort Abbreviation Cases Tumour Name
BLCA 4 Bladder urothelial carcinoma
BRCA 4 Breast invasive carcinoma
CHOL 5 Cholangiocarcinoma
COADREAD 5 Colon adenocarcinoma & Rectum adenocarcinoma
HNSC 1 Head and Neck squamous cell carcinoma
KIRC 4 Kidney renal clear cell carcinoma
LIHC 2 Liver hepatocellular carcinoma
LUAD 5 Lung adenocarcinoma
LUSC 3 Lung squamous cell carcinoma
MESO 3 Mesothelioma
OV 3 Ovarian serous cystadenocarcinoma
PAAD 5 Pancreatic adenocarcinoma
PRAD 5 Prostate adenocarcinoma
SARC 4 Sarcoma
SKCM 5 Skin Cutaneous Melanoma
STAD 3 Stomach adenocarcinoma
TGCT 4 Testicular Germ Cell Tumors
THCA 4 Thyroid carcinoma
Summary 69

Bảng 4. Melbourne dataset for external validation of primary tumour type predictor.

Chuẩn hóa, lọc và xử lý trước cho dữ liệu biểu thức

Dữ liệu biểu hiện được chia tỷ lệ cho từng mẫu bệnh nhân một cách độc lập để chuẩn hóa dữ liệu, tức là dữ liệu biểu hiện được chuẩn hóa bằng cách trừ giá trị trung bình và chia cho căn bậc hai của phương sai biểu hiện gen từ cùng một bệnh nhân.

Tất cả dữ liệu biểu thức đã được chuyển đổi theo log2. Sau khi lọc, các gen trong mỗi tập dữ liệu được điều chỉnh tỷ lệ biểu hiện trung bình bằng 0 và phương sai đơn vị cho mỗi bệnh nhân. Việc chia tỷ lệ này cho phép đo lường biểu thức theo độ lệch chuẩn và cho phép sử dụng độc lập nền tảng của các mô hình được đào tạo sau đó.

Bộ phân loại loại khối u nguyên phát trên bộ dữ liệu TCGA

Để dự đoán loại khối u nguyên phát, chúng tôi đã phát triển mô hình 1D Inception và so sánh nó với hai mô hình học cao cấp khác: ResNet và 1D-CNN trên tập dữ liệu TCGA. Các chỉ số hiệu suất và bảng dự phòng cho tất cả các yếu tố dự đoán vị trí nguyên phát trong xác nhận chéo trên tập dữ liệu TCGA và xác nhận di căn được liệt kê trong Bảng S1-S2. Không gian siêu tham số Talos cho mỗi mô hình được liệt kê trong Văn bản bổ sung.

ResNet

Do số lượng mẫu hạn chế, nghiên cứu chọn ResNet V50 [35] được triển khai bằng Keras [36], có độ phức tạp của mô hình được tối giản nhất. Đầu vào mạng yêu cầu ít nhất hình ảnh 2D 32 × 32. Do đó, chúng tôi đã trích xuất 1024 gen DEGs hàng đầu theo quy trình được mô tả trong phần trước. 1024 gen được chọn được sắp xếp theo vị trí của nhiễm sắc thể và sau đó được định hình lại để có hình ảnh 32 × 32. Đầu ra từ ResNet sau đó trở thành đầu vào của một lớp gộp. Cuối cùng, nó đi kèm với một lớp đầu ra softmax.

Mạng nơ-ron tích hợp một chiều (1D-CNN)

1D-CNN là một ứng cử viên mô hình tốt vì các bộ lọc 1D đã học có thể phát hiện các hình dạng không gian khác nhau trong ma trận biểu thức. Vì vậy, chúng tôi đã sắp xếp đúng 791 đặc điểm theo vị trí trên nhiễm sắc thể. Các thử nghiệm của chúng tôi với 1D-CNN đã sử dụng một lớp tích chập 1D theo sau là một lớp tổng hợp tối đa. Các lớp được kết nối động một cách đầy đủ (FC) với chức năng kích hoạt ReLu được xây dựng với Talos [37]. Số lớp FC và số lượng nút được xác định bằng cách xác thực chéo lồng nhau. Bộ lọc bỏ học đã được sử dụng sau khi lớp tổng hợp tối đa, các lớp FC và xác suất giữ được chọn làm siêu tham số bởi Talos [37]. Cuối cùng, lớp đầu ra 32 nút với chức năng kích hoạt softmax đã được tìm thấy là tối ưu. Số lượng bộ lọc lớp chập và độ dài của mỗi bộ lọc cũng được Talos lựa chọn theo độ chính xác của bộ xác thực đã được huấn luyện.

Mô hình 1D-CNN được xây dựng bằng khung Keras (v2.2.4) [36]. Các siêu tham số được chọn bởi Talos [37] như sau: kích thước lô là 32; hiệu suất tối ưu đạt được bằng cách không có Dropout; 32 bộ lọc, mỗi bộ có chiều dài 4; bốn lớp ẩn với 64 nút trong mỗi lớp; tỷ suất học dùng để đào tạo là 0,02; số kỷ nguyên 200; và khởi tạo trọng số bằng phương pháp Xavier normal [38].

Mạng 1D Inception với cài đặt siêu tham số được tối ưu hóa bởi Talos (1D-Inception)

Mạng 1D-Inception được sử dụng để nâng cao mạng 1D-CNN bằng cách xem xét nhiều nhân chập 1D với các kích thước khác nhau cùng một lúc. Chúng tôi chọn kiến trúc này vì mô hình 1D-Inception có hiệu suất vượt trội trên các tập dữ liệu hình ảnh [39]. Kích thước và số lượng bộ lọc cũng được điều chỉnh dưới dạng siêu tham số. Ưu điểm của việc kết hợp các kích thước nhân khác nhau có thể được xác nhận bởi kiến trúc tối ưu được chọn bởi Talos [37], như được thể hiện trong Hình 2c, trong đó sự kết hợp của các kích thước nhân khác nhau mang lại hiệu suất tốt hơn các thiết lập khác.


Hình 2. Hiệu suất dự đoán loại khối u nguyên phát của các mô hình CNN trên tập dữ liệu TCGA. (a) Mất dữ liệu xác thực qua entropy của các mô hình CNN. Có thể quan sát thấy rằng quá trình đào tạo của cả ba mô hình đã hội tụ thành công. (b) Độ chính xác dự đoán tổng thể của các mô hình CNN trong xác nhận chéo và xác nhận di căn bên ngoài. (c) Hiệu suất độ chính xác theo cấp của các mô hình CNN.

Quy trình xác nhận chéo và bên ngoài

Lược đồ thiết kế dự báo để phân loại vị trí u nguyên phát được mô tả trong Hình 1a.

Tất cả các mô hình CNN, 1D-Inception, 1D-CNN và ResNet đã được đào tạo bằng cách sử dụng cùng một lịch trình lựa chọn tính năng và xác nhận chéo trên tập dữ liệu TCGA. Mỗi mô hình sau đó được đào tạo bằng cách sử dụng quy trình xác nhận chéo 10 lần như sau. Tập biểu thức được phân chia thành 10 mẫu con ngẫu nhiên và đối với mỗi phân vùng: [1] mẫu con đã chọn được sử dụng làm tập thử nghiệm và 9 mẫu còn lại được kết hợp thành tập huấn luyện; Khóa đào tạo bao gồm 500 kỷ nguyên, sử dụng trình tối ưu hóa Adam [40] với 32 là kích thước lô và 0,001 là tỷ lệ học tập [2], mô hình được đào tạo bằng cách sử dụng 791 tính năng gen đã chọn (1024 cho ResNet); và [3] dự đoán cho phân vùng đã chọn đã được ghi lại. Quy trình xác nhận chéo mang lại ước tính hiệu suất mô hình bằng cách sử dụng các tham số đã chọn.

Mô hình 1D-Inception trên tập dữ liệu TCGA và ICGC

Mô hình 1D-Inception cho tập dữ liệu TCGA và ICGC được thể hiện trong Hình 1b. Ở đây mỗi mô-đun tích hợp tương ứng có 1, 2 hoặc 3 lớp. Kích thước và số bộ lọc cũng được điều chỉnh dưới dạng siêu tham số và không gian siêu tham số Talos được liệt kê trong Văn bản bổ sung.

Bởi vì mạng dữ liệu này cho phép ba mô-đun phức hợp có kích thước cửa sổ lớp tổng hợp tối đa khác nhau và xác suất giữ lớp dropout, nghiên cứu sử dụng ít nhất 817 gen trong mô hình để đạt được độ chính xác tổng thể top-1 là 98,54%. – xác thực và tổng thể top-5 là 99,94%. Phương pháp này tốt hơn các phương pháp thay thế do thường xem xét toàn bộ bộ gen. Điều này là do dữ liệu chiều thấp hơn có ít mẫu hơn dữ liệu chiều cao, do đó, nó yêu cầu nhiều tùy chọn kích thước hạt nhân hơn để phát hiện số lượng mẫu hạn chế. Điểm mạnh thứ ba của mô hình này là các lớp dư thừa có thể được giảm bớt thông qua kiểm tra hiệu suất Talos. Như thể hiện trong Hình 1b, một số lớp CNN có bộ lọc kích thước 1 × 1, chỉ ra rằng chiếu trực tiếp đầu ra từ các lớp trước đó có thể có lợi cho hiệu suất. Tương tự, một số kích thước cửa sổ của lớp tổng hợp tối đa được tối ưu hóa thành 1, có nghĩa là không có lớp tổng hợp tối đa nào có thể cung cấp hiệu suất tốt hơn.

TÀI LIỆU THAM KHẢO

27.     Wagner G.P., Kin K., and Lynch V.J. (2012). Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples. Theory Biosci Theor Den Biowissenschaften, 131(4), 281–285.

28.     Broad GDAC Firehose. <https://gdac.broadinstitute.org/>, accessed: 11/17/2020.

29.     Cancer Genome Atlas Network (2012). Comprehensive molecular characterization of human colon and rectal cancer. Nature, 487(7407), 330–337.

30.     Cancer Genome Atlas Research Network, Weinstein J.N., Collisson E.A., et al. (2013). The Cancer Genome Atlas Pan-Cancer analysis project. Nat Genet, 45(10), 1113–1120.

31.     Huber W., Carey V.J., Gentleman R., et al. (2015). Orchestrating high-throughput genomic analysis with Bioconductor. Nat Methods, 12(2), 115–121.

32.     Bray N.L., Pimentel H., Melsted P., et al. (2016). Near-optimal probabilistic RNA-seq quantification. Nat Biotechnol, 34(5), 525–527.

33.     Soneson C., Love M.I., and Robinson M.D. (2015). Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences. F1000Research, 4, 1521.

34.     Yates A.D., Achuthan P., Akanni W., et al. (2020). Ensembl 2020. Nucleic Acids Res, 48(D1), D682–D688.

35.     He K., Zhang X., Ren S., et al. (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 770–778, 770–778.

36.     (2020), keras-team/keras, Dockerfile, Keras.

37.     (2020), autonomio/talos, Python, Autonomio.

38.     Glorot X. and Bengio Y. (2010). Understanding the difficulty of training deep feedforward neural networks. Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, JMLR Workshop and Conference Proceedings, 249–256, 249–256.

39.     Szegedy C., Liu W., Jia Y., et al. (2014). Going Deeper with Convolutions. ArXiv14094842 Cs.

40.     Kingma D.P. and Ba J. (2014). Adam: A Method for Stochastic Optimization. ArXiv E-Prints, 1412, arXiv:1412.6980.

Về Lương Tuấn Hiệp

Bác sỹ nội trú chuyên ngành Ngoại khoa- Trường Đại Học Y Hà Nội

Xem thêm

QUÁ TRÌNH DI CĂN CỦA UNG THƯ

Mặc dù di căn là chìa khóa gây ra sự thất bại của các phương pháp điều trị ung thư và gây tử vong, nhưng những hiểu biết về di căn vẫn còn hạn chế. Di căn là nguyên nhân gây ra cái chết cho trên 90% bệnh nhân ung thư. Cho đến nay, di căn được gắn liền với giai đoạn cuối của ung thư. Tuy nhiên, tại thời điểm chẩn đoán, các tế bào ung thư có thể đã lưu hành trong hệ thống tuần hoàn hoặc đã cư trú ở cơ quan xa. Do đó, điều trị nhắm vào các bước của quá trình di căn là chiến lược điều trị hợp lý nhất, phù hợp với bệnh cảnh lâm sàng phổ biến của ung thư.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *