CÔNG CỤ VÀ PHƯƠNG PHÁP
Phân loại khối u nguyên phát
Dữ liệu biểu hiện gen TCGA:
TPM (Số phiên mã trên một triệu) [27] chuẩn hóa thành các ma trận biểu hiện gen đã được áp dụng thành 33 nhóm ung thư thể hiện trong Trung tâm phân tích dữ liệu Gen (GDAC) Firehose của Viện Broad (bắt đầu từ 28.01.2016) [28]. Nghiên cứu hợp nhất ung thư biểu mô tuyến đại tràng (COAD) và ung thư biểu mô tuyến trực tràng (READ) thành một nhóm duy nhất (COADREAD) dựa trên sự tương đồng cao về phân tử của chúng trong các phát hiện của tổ hợp TCGA [29], [30]. Ma trận biểu hiện gen của mỗi bệnh ung thư được chuyển đổi thành đối tượng Biobase ExpressionSet [31] để chuẩn hóa và các bộ này được kết hợp thành một ExpressionSet duy nhất. Ma trận biểu hiện ban đầu bao gồm 11.330 mẫu và 20.531 gen đã được giảm xuống còn 9.274 mẫu sau khi trích xuất dữ liệu cho các mẫu khối u chính (mã loại khối u = “01”) và mẫu máu (mã loại khối u = “03”).
Dữ liệu biểu hiện gen ICGC:
TPM (Số phiên mã trên một triệu) [27] chuẩn hóa thành các ma trận biểu hiện gen được thu thập từ Hiệp hội Bộ gen Ung thư Quốc tế (ICGC). Ung thư biểu mô tuyến đại tràng (COAD) và ung thư biểu mô tuyến trực tràng (READ) được kết hợp thành một nhóm duy nhất (COADREAD) như nghiên cứu đã mô tả trong đoạn trước. Bộ dữ liệu ICGC chứa 8.943 mẫu trên 32 loại khối u.
Sau khi kết hợp bộ dữ liệu TCGA và ICGC, nghiên cứu có ma trận dữ liệu biểu hiện gen với 18.217 mẫu bao gồm 32 loại khối u khác nhau với 20.531 gen làm bộ dữ liệu huấn luyện (liệt kê trong Bảng 2).
Cohort Abbreviation Cases Disease Name
- ACC 79 Adrenocortical carcinoma
- BLCA 726 Bladder urothelial carcinoma
- BRCA 2,320 Breast invasive carcinoma
- CESC 568 Cervical and endocervical cancers
- CHOL 36 Cholangiocarcinoma
- COADREAD 873 Colon & Rectum adenocarcinoma
- DLBC 48 Lymphoid Neoplasm Diffuse Large B-cell Lymphoma
- ESCA 184 Esophageal carcinoma
- HNSC 1,044 Head and Neck squamous cell carcinoma
- KICH 66 Kidney Chromophobe
- KIRC 1,131 Kidney renal clear cell carcinoma
- KIRP 544 Kidney renal papillary cell carcinoma
- LAML 346 Acute Myeloid Leukemia
- LGG 969 Brain Lower Grade Glioma
- LIHC 716 Liver hepatocellular carcinoma
- LUAD 1,058 Lung adenocarcinoma
- LUSC 974 Lung squamous cell carcinoma
- MESO 87 Mesothelioma
- OV 679 Ovarian serous cystadenocarcinoma
- PAAD 323 Pancreatic adenocarcinoma
- PCPG 179 Pheochromocytoma and Paraganglioma
- PRAD 1,097 Prostate adenocarcinoma
- SARC 259 Sarcoma
- SKCM 537 Skin Cutaneous Melanoma
Bảng 2. 32 Cancer cohorts for primary classification from TCGA and ICGC.
Tính năng lựa chọn gen trên tập dữ liệu: Với tập dữ liệu đào tạo TCGA, cho 1D-Inception và 1D-CNN, nghiên cứu đã chọn 40 gen biểu hiện khác biệt nhất (DEGs) trong mỗi lớp (loại ung thư) được xác định bởi sự khác biệt giữa biểu hiện trung bình của mỗi gen trong mẫu trong lớp so với các mẫu ngoài lớp (p <0,001). Giá trị trung vị đã được sử dụng (thay vì giá trị trung bình) do tính chính xác của nó đối với các giá trị phân cực. Đối với ResNet, tương tự nghiên cứu đã chọn 70 DEGs tốt nhất trong mỗi lớp để đáp ứng yêu cầu về kích thước đầu vào. DEG có thể chồng chéo giữa các lớp khác nhau. Các bộ DEG từ mỗi lớp được kết hợp, hợp nhất và được sử dụng để huấn luyện từng mô hình, từ đó 791 và 1024 “gen đặc điểm” điển hình nhất chung cho tất cả các bộ xác nhận bên ngoài được chọn cho 1D-Inception / 1D-CNN và ResNet, tương ứng. Các gen được sắp xếp theo vị trí nhiễm sắc thể của chúng. Song song đó, nghiên cứu chọn 241 gen bằng cách chọn 10 gen biểu hiện khác biệt nhất trong mỗi lớp (loại ung thư) để quan sát hiệu suất của từng mô hình với kích thước tập hợp tính năng nhỏ. Với bộ dữ liệu đào tạo kết hợp từ TCGA và ICGC, nghiên cứu đã chọn 40 gen được biểu hiện khác biệt nhất (DEG) trong mỗi lớp (loại ung thư) được xác định bởi sự khác biệt giữa biểu hiện trung bình của mỗi gen trong mẫu trong lớp so với mẫu ngoài lớp (p <0,001) và kết hợp chồng chéo của các bộ DEG khác nhau. Cuối cùng, 817 gen “đặc điểm” điển hình đã được chọn để xây dựng mô hình 1D-Inception.
Dữ liệu về di căn TCGA: Để xác thực độ chính xác của dự đoán loại khối u chính, chúng tôi đã sử dụng các mẫu di căn TCGA (mã loại mẫu “06” (https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes)) cho 11 loại ung thư như sau (sử dụng từ viết tắt của nghiên cứu TCGA): ung thư biểu mô vú xâm lấn (BRCA); ung thư biểu mô tế bào vảy cổ tử cung và ung thư biểu mô tuyến trong cổ tử cung (CESC); ung thư biểu mô tuyến đại tràng (COAD) và ung thư biểu mô tuyến trực tràng (READ), mà chúng tôi kết hợp thành một nhóm duy nhất (COADREAD); ung thư biểu mô thực quản (ESCA); ung thư biểu mô tế bào vảy ở đầu và cổ (HNSC); ung thư biểu mô tuyến tụy (PAAD); pheochromocytoma và paraganglioma (PCPG); ung thư biểu mô tuyến tiền liệt (PRAD); sarcoma (SARC); u hắc tố da (SKCM); và ung thư biểu mô tuyến giáp (THCA). Ma trận biểu hiện gen di căn bao gồm 394 mẫu bao gồm 11 loại ung thư và 16.383 gen.
Dữ liệu xác nhận lâm sàng: Dữ liệu RNA-seq của các mẫu lâm sàng FFPE
Các mẫu xác nhận lâm sàng bao gồm 93 khối u được xử lý tại hai địa điểm ở Mỹ và Úc. 23 mẫu bệnh phẩm nhúng parafin cố định formalin (FFPE) đại diện cho 6 loại ung thư được lấy từ thử nghiệm lâm sàng trong hơn 4 năm tại phòng thí nghiệm JAX CLIA. 70 khối u FFPE di căn đại diện cho 18 loại ung thư đã được nghiên cứu tại Đại học Melbourne (UOM). Cả hai nhóm mẫu đều được xử lý bằng RNA-Seq với phương pháp điều trị mù đôi (chỉ nguồn gốc mô và chẩn đoán được biết) để xác nhận lâm sàng cho mô hình 1D-Inception của nghiên cứu. Tất cả các mẫu FFPE đều được làm xử lý để tách chiết và tổng số RNA tinh chế bằng cách sử dụng Qiagen AllPrep DNA / RNA FFPE Kit hoặc RNA FFPE Kit (Qiagen, Hilden, Đức). Tại phòng thí nghiệm JAX CLIA, 50 ng RNA được giải trình tự bằng cách sử dụng KAPA RNA PyperPrep Kit với giao thức RiboErase (HMR) và giải trình tự bằng tổng hợp trên thiết bị Illumina NextSeq 500. Tại Trung tâm Nghiên cứu Ung thư Đại học Melbourne, các thư viện RNA-seq đã được chuẩn bị bằng cách sử dụng Bộ chuẩn bị thư viện RNA định hướng NEB-Next NEBNext Ultra II cho Illumina® và các thư viện đã được giải trình tự trên Illumina Nova-Seq 6000. Các tệp BCL thô được tạo bởi trình tự đã sắp xếp được chuyển đổi sang tệp FASTQ bằng CASAVA. Dữ liệu RNA-Seq được căn chỉnh theo phiên bản phiên mã người hg38 bằng cách sử dụng kallisto phiên bản 0.46.0 [32] chạy dưới phiên bản bcbio-nextgen1.1.6a-b’2aee4b5 ′ (https://bcbio-nextgen.readthedocs.io/ ). Số lượng biểu hiện gen thô thu được từ các bản sao theo tỷ lệ các phiên mã trên một triệu (TPM) bằng cách sử dụng gói tximport R phiên bản 1.12.0 [33] chạy dưới phiên bản R 3.6.0. Chú thích về gen Ensembl [34] được tximport sử dụng đã được cung cấp trong đầu ra BCBio. Sự phân bố của các bộ dữ liệu lâm sàng được sử dụng để xác nhận được trình bày trong Bảng 3 và 4.
Cohort Abbreviation | Cases | Tumour Name |
BRCA | 6 | Breast invasive carcinoma |
COADREAD | 5 | Colon adenocarcinoma & Rectum adenocarcinoma |
LUAD | 3 | Lung adenocarcinoma |
LUSC | 3 | Lung squamous cell carcinoma |
PRAD | 5 | Prostate adenocarcinoma |
THCA | 1 | Thyroid carcinoma |
Summary | 23 |
|
Bảng 3. AX clinical dataset for external validation of primary tumour type predictor.
Cohort Abbreviation | Cases | Tumour Name |
BLCA | 4 | Bladder urothelial carcinoma |
BRCA | 4 | Breast invasive carcinoma |
CHOL | 5 | Cholangiocarcinoma |
COADREAD | 5 | Colon adenocarcinoma & Rectum adenocarcinoma |
HNSC | 1 | Head and Neck squamous cell carcinoma |
KIRC | 4 | Kidney renal clear cell carcinoma |
LIHC | 2 | Liver hepatocellular carcinoma |
LUAD | 5 | Lung adenocarcinoma |
LUSC | 3 | Lung squamous cell carcinoma |
MESO | 3 | Mesothelioma |
OV | 3 | Ovarian serous cystadenocarcinoma |
PAAD | 5 | Pancreatic adenocarcinoma |
PRAD | 5 | Prostate adenocarcinoma |
SARC | 4 | Sarcoma |
SKCM | 5 | Skin Cutaneous Melanoma |
STAD | 3 | Stomach adenocarcinoma |
TGCT | 4 | Testicular Germ Cell Tumors |
THCA | 4 | Thyroid carcinoma |
Summary | 69 |
|
Bảng 4. Melbourne dataset for external validation of primary tumour type predictor.
Chuẩn hóa, lọc và xử lý trước cho dữ liệu biểu thức
Dữ liệu biểu hiện được chia tỷ lệ cho từng mẫu bệnh nhân một cách độc lập để chuẩn hóa dữ liệu, tức là dữ liệu biểu hiện được chuẩn hóa bằng cách trừ giá trị trung bình và chia cho căn bậc hai của phương sai biểu hiện gen từ cùng một bệnh nhân.
Tất cả dữ liệu biểu thức đã được chuyển đổi theo log2. Sau khi lọc, các gen trong mỗi tập dữ liệu được điều chỉnh tỷ lệ biểu hiện trung bình bằng 0 và phương sai đơn vị cho mỗi bệnh nhân. Việc chia tỷ lệ này cho phép đo lường biểu thức theo độ lệch chuẩn và cho phép sử dụng độc lập nền tảng của các mô hình được đào tạo sau đó.
Bộ phân loại loại khối u nguyên phát trên bộ dữ liệu TCGA
Để dự đoán loại khối u nguyên phát, chúng tôi đã phát triển mô hình 1D Inception và so sánh nó với hai mô hình học cao cấp khác: ResNet và 1D-CNN trên tập dữ liệu TCGA. Các chỉ số hiệu suất và bảng dự phòng cho tất cả các yếu tố dự đoán vị trí nguyên phát trong xác nhận chéo trên tập dữ liệu TCGA và xác nhận di căn được liệt kê trong Bảng S1-S2. Không gian siêu tham số Talos cho mỗi mô hình được liệt kê trong Văn bản bổ sung.
ResNet
Do số lượng mẫu hạn chế, nghiên cứu chọn ResNet V50 [35] được triển khai bằng Keras [36], có độ phức tạp của mô hình được tối giản nhất. Đầu vào mạng yêu cầu ít nhất hình ảnh 2D 32 × 32. Do đó, chúng tôi đã trích xuất 1024 gen DEGs hàng đầu theo quy trình được mô tả trong phần trước. 1024 gen được chọn được sắp xếp theo vị trí của nhiễm sắc thể và sau đó được định hình lại để có hình ảnh 32 × 32. Đầu ra từ ResNet sau đó trở thành đầu vào của một lớp gộp. Cuối cùng, nó đi kèm với một lớp đầu ra softmax.
Mạng nơ-ron tích hợp một chiều (1D-CNN)
1D-CNN là một ứng cử viên mô hình tốt vì các bộ lọc 1D đã học có thể phát hiện các hình dạng không gian khác nhau trong ma trận biểu thức. Vì vậy, chúng tôi đã sắp xếp đúng 791 đặc điểm theo vị trí trên nhiễm sắc thể. Các thử nghiệm của chúng tôi với 1D-CNN đã sử dụng một lớp tích chập 1D theo sau là một lớp tổng hợp tối đa. Các lớp được kết nối động một cách đầy đủ (FC) với chức năng kích hoạt ReLu được xây dựng với Talos [37]. Số lớp FC và số lượng nút được xác định bằng cách xác thực chéo lồng nhau. Bộ lọc bỏ học đã được sử dụng sau khi lớp tổng hợp tối đa, các lớp FC và xác suất giữ được chọn làm siêu tham số bởi Talos [37]. Cuối cùng, lớp đầu ra 32 nút với chức năng kích hoạt softmax đã được tìm thấy là tối ưu. Số lượng bộ lọc lớp chập và độ dài của mỗi bộ lọc cũng được Talos lựa chọn theo độ chính xác của bộ xác thực đã được huấn luyện.
Mô hình 1D-CNN được xây dựng bằng khung Keras (v2.2.4) [36]. Các siêu tham số được chọn bởi Talos [37] như sau: kích thước lô là 32; hiệu suất tối ưu đạt được bằng cách không có Dropout; 32 bộ lọc, mỗi bộ có chiều dài 4; bốn lớp ẩn với 64 nút trong mỗi lớp; tỷ suất học dùng để đào tạo là 0,02; số kỷ nguyên 200; và khởi tạo trọng số bằng phương pháp Xavier normal [38].
Mạng 1D Inception với cài đặt siêu tham số được tối ưu hóa bởi Talos (1D-Inception)
Mạng 1D-Inception được sử dụng để nâng cao mạng 1D-CNN bằng cách xem xét nhiều nhân chập 1D với các kích thước khác nhau cùng một lúc. Chúng tôi chọn kiến trúc này vì mô hình 1D-Inception có hiệu suất vượt trội trên các tập dữ liệu hình ảnh [39]. Kích thước và số lượng bộ lọc cũng được điều chỉnh dưới dạng siêu tham số. Ưu điểm của việc kết hợp các kích thước nhân khác nhau có thể được xác nhận bởi kiến trúc tối ưu được chọn bởi Talos [37], như được thể hiện trong Hình 2c, trong đó sự kết hợp của các kích thước nhân khác nhau mang lại hiệu suất tốt hơn các thiết lập khác.
Quy trình xác nhận chéo và bên ngoài
Lược đồ thiết kế dự báo để phân loại vị trí u nguyên phát được mô tả trong Hình 1a.
Tất cả các mô hình CNN, 1D-Inception, 1D-CNN và ResNet đã được đào tạo bằng cách sử dụng cùng một lịch trình lựa chọn tính năng và xác nhận chéo trên tập dữ liệu TCGA. Mỗi mô hình sau đó được đào tạo bằng cách sử dụng quy trình xác nhận chéo 10 lần như sau. Tập biểu thức được phân chia thành 10 mẫu con ngẫu nhiên và đối với mỗi phân vùng: [1] mẫu con đã chọn được sử dụng làm tập thử nghiệm và 9 mẫu còn lại được kết hợp thành tập huấn luyện; Khóa đào tạo bao gồm 500 kỷ nguyên, sử dụng trình tối ưu hóa Adam [40] với 32 là kích thước lô và 0,001 là tỷ lệ học tập [2], mô hình được đào tạo bằng cách sử dụng 791 tính năng gen đã chọn (1024 cho ResNet); và [3] dự đoán cho phân vùng đã chọn đã được ghi lại. Quy trình xác nhận chéo mang lại ước tính hiệu suất mô hình bằng cách sử dụng các tham số đã chọn.
Mô hình 1D-Inception trên tập dữ liệu TCGA và ICGC
Mô hình 1D-Inception cho tập dữ liệu TCGA và ICGC được thể hiện trong Hình 1b. Ở đây mỗi mô-đun tích hợp tương ứng có 1, 2 hoặc 3 lớp. Kích thước và số bộ lọc cũng được điều chỉnh dưới dạng siêu tham số và không gian siêu tham số Talos được liệt kê trong Văn bản bổ sung.
Bởi vì mạng dữ liệu này cho phép ba mô-đun phức hợp có kích thước cửa sổ lớp tổng hợp tối đa khác nhau và xác suất giữ lớp dropout, nghiên cứu sử dụng ít nhất 817 gen trong mô hình để đạt được độ chính xác tổng thể top-1 là 98,54%. – xác thực và tổng thể top-5 là 99,94%. Phương pháp này tốt hơn các phương pháp thay thế do thường xem xét toàn bộ bộ gen. Điều này là do dữ liệu chiều thấp hơn có ít mẫu hơn dữ liệu chiều cao, do đó, nó yêu cầu nhiều tùy chọn kích thước hạt nhân hơn để phát hiện số lượng mẫu hạn chế. Điểm mạnh thứ ba của mô hình này là các lớp dư thừa có thể được giảm bớt thông qua kiểm tra hiệu suất Talos. Như thể hiện trong Hình 1b, một số lớp CNN có bộ lọc kích thước 1 × 1, chỉ ra rằng chiếu trực tiếp đầu ra từ các lớp trước đó có thể có lợi cho hiệu suất. Tương tự, một số kích thước cửa sổ của lớp tổng hợp tối đa được tối ưu hóa thành 1, có nghĩa là không có lớp tổng hợp tối đa nào có thể cung cấp hiệu suất tốt hơn.
TÀI LIỆU THAM KHẢO
27. Wagner G.P., Kin K., and Lynch V.J. (2012). Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples. Theory Biosci Theor Den Biowissenschaften, 131(4), 281–285.
28. Broad GDAC Firehose. <https://gdac.broadinstitute.org/>, accessed: 11/17/2020.
29. Cancer Genome Atlas Network (2012). Comprehensive molecular characterization of human colon and rectal cancer. Nature, 487(7407), 330–337.
30. Cancer Genome Atlas Research Network, Weinstein J.N., Collisson E.A., et al. (2013). The Cancer Genome Atlas Pan-Cancer analysis project. Nat Genet, 45(10), 1113–1120.
31. Huber W., Carey V.J., Gentleman R., et al. (2015). Orchestrating high-throughput genomic analysis with Bioconductor. Nat Methods, 12(2), 115–121.
32. Bray N.L., Pimentel H., Melsted P., et al. (2016). Near-optimal probabilistic RNA-seq quantification. Nat Biotechnol, 34(5), 525–527.
33. Soneson C., Love M.I., and Robinson M.D. (2015). Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences. F1000Research, 4, 1521.
34. Yates A.D., Achuthan P., Akanni W., et al. (2020). Ensembl 2020. Nucleic Acids Res, 48(D1), D682–D688.
35. He K., Zhang X., Ren S., et al. (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 770–778, 770–778.
36. (2020), keras-team/keras, Dockerfile, Keras.
37. (2020), autonomio/talos, Python, Autonomio.
38. Glorot X. and Bengio Y. (2010). Understanding the difficulty of training deep feedforward neural networks. Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, JMLR Workshop and Conference Proceedings, 249–256, 249–256.
39. Szegedy C., Liu W., Jia Y., et al. (2014). Going Deeper with Convolutions. ArXiv14094842 Cs.
40. Kingma D.P. and Ba J. (2014). Adam: A Method for Stochastic Optimization. ArXiv E-Prints, 1412, arXiv:1412.6980.