摘 要 肽作為重要的生理活性物質(zhì)一直受到相關(guān)領(lǐng)域的廣泛關(guān)注。 近年來,由于肽在細(xì)胞信號轉(zhuǎn)導(dǎo)中所扮演的中心角色以及作為生物藥物靶向蛋白質(zhì)相互作用網(wǎng)絡(luò)等特殊性質(zhì)的發(fā)現(xiàn),再次喚起了人們對肽的濃厚興趣。 與之相伴的是,肽的理論和計算研究工作快速增長,并取得了長足進(jìn)展。本文以"計算肽學(xué)"為主題系統(tǒng)概括了該領(lǐng)域的研究范疇和研究特點(diǎn),并分別從肽的數(shù)據(jù)庫構(gòu)建、功能活性預(yù)測、分子對接、動力學(xué)模擬、結(jié)構(gòu)數(shù)據(jù)分析、分子設(shè)計修飾以及系統(tǒng)生物學(xué)行為等幾方面分類介紹了計算肽學(xué)的主要研究方向和當(dāng)前發(fā)展?fàn)顩r。重點(diǎn)在于探討采用計算化學(xué)和生物信息學(xué)方法剖析肽與蛋白質(zhì)識別和相互作用的分子機(jī)制和理化基礎(chǔ),進(jìn)而為肽類藥物設(shè)計提供理論指導(dǎo)。此外,本文還提出了計算肽學(xué)在肽類納米材料及生物表面活性劑等領(lǐng)域的潛在應(yīng)用前景。
本綜述分為 3 個部分 ,其內(nèi)容安排如下:(1)引 言部分介紹肽學(xué)誕生的學(xué)科背景以及在此背景中形成的計算肽學(xué)這個分支領(lǐng)域 ,作為提引;(2)研究方向部分分類探討計算肽學(xué)的研究內(nèi)容和最新進(jìn)展 , 作為主體;(3)總結(jié)及展望部分針對計算肽學(xué)的當(dāng)前研究狀況及未來發(fā)展趨勢加以簡要概括 , 作為收尾
2 計算肽學(xué)的研究方向
迄今科學(xué)共同體總共發(fā)布了幾十個肽相關(guān)數(shù)據(jù)庫 ,其中多數(shù)是針對特定目的建立起來的肽序列-功能庫 ,如免疫表位庫 IEDB[23] 、抗菌肽庫 APD[24] 、功能食品肽庫 BIOPEP[25] 以及綜合性的活性肽數(shù)據(jù)庫 PepBank [26] 和 BioPD[27] 。這些資源對于研究肽的一 級序列模式與特定活性功能關(guān)系帶來了極大便利 , 也為生物信息學(xué)家發(fā)展機(jī)器學(xué)習(xí)模型提供了豐富的數(shù)據(jù)來源 。如 IEDB 數(shù)據(jù)庫已成為當(dāng)前免疫信息學(xué)研究的公共數(shù)據(jù)平臺 ,人們利用其廣泛開展了抗原肽分析和肽疫苗設(shè)計等方面的研究。
更高一個層次的原子結(jié)構(gòu)水平 , 目前主要存在兩個綜合性的蛋白質(zhì)/肽復(fù)合物數(shù)據(jù)庫 , 即 3did[35] 和 Pepx[36] ;它們從生物大分子結(jié)構(gòu)數(shù)據(jù)庫 PDB[37] 中提取蛋白質(zhì)(或結(jié)構(gòu)域)與肽形成復(fù)合物的空間結(jié)構(gòu)數(shù)據(jù)并加以歸類注釋 ,如通過對比蛋白質(zhì)表面肽結(jié)合口袋的空間構(gòu)造而對復(fù)合物進(jìn)行分類 。這類數(shù)據(jù)庫已被廣泛用于蛋白質(zhì)/肽相互作用結(jié)構(gòu)信息 分析和提。▍⒁ 2. 5 節(jié))。遺憾的是 ,這些結(jié)構(gòu)數(shù)據(jù)庫并未提供相應(yīng)活性或親合力信息 。一般認(rèn)為 , 要想全面深入研究生物分子識別機(jī)制 , 除了獲知復(fù)合物的三維結(jié)構(gòu)以外還需了解該結(jié)構(gòu)對應(yīng)的生物活性值 。因此 ,可以預(yù)料 ,構(gòu)建結(jié)構(gòu)-活性關(guān)聯(lián)數(shù)據(jù)庫將成為肽數(shù)據(jù)庫未來發(fā)展方向之一。
精確可靠的計算識別和預(yù)測生物活性不僅是對肽而且對其他生物分子而言都是至關(guān)重要的 , 因?yàn)檫@是高通量虛擬篩選和理性分子設(shè)計的基礎(chǔ) 。目前 ,肽的功能識別及活性預(yù)測主要在基于序列和基于結(jié)構(gòu)兩個方面展開 。前者僅利用肽的一級序列信息 ,采用統(tǒng)計建模方法 ,與相應(yīng)生物活性加以函數(shù)關(guān) 聯(lián) ,建立預(yù)測模型;后者則挖掘已知的蛋白質(zhì)/肽復(fù)合物結(jié)構(gòu)信息 , 并從空間原子層次預(yù)測肽的生物活性。
(1) 序列層次 : 在定性水平 ,采用日益豐富的 SLiM 知識推測蛋白質(zhì)功能位點(diǎn)成為常用策略。該法由于其簡單高效而被廣泛用于在基因組水平預(yù)測 信號肽、酶切位點(diǎn)、磷酸化區(qū)域和肽配基 [38] 。更進(jìn)一步 ,生物信息學(xué)家使用大量已知功能肽序列訓(xùn)練機(jī)器學(xué)習(xí)工具( 如人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)),繼而用于評估未知樣本 [39] 。在定量水平 ,化學(xué)計量學(xué)家發(fā)展起來的定量構(gòu)效關(guān)系(QSAR)成為預(yù)測肽生物活性的常見手段[40] 。Hellberg 等早期的研究奠定了該法基本框架 ,其思路為 [41] : 收集氨基酸的大量性質(zhì)參數(shù);采用主成分分析(PCA)提取這些參數(shù)中所隱含的顯著信息得分 , 稱為主性質(zhì)(principal properties);使用這些少量主性質(zhì)代替大量原始變量 , 獲 得 所 謂 的 氨 基 酸 描 述 子( amino acid descriptors)可用以參數(shù)化肽的一級序列結(jié)構(gòu);進(jìn)而 采用偏最小二乘( PLS)等回歸技術(shù)統(tǒng)計關(guān)聯(lián)肽的結(jié)構(gòu)參數(shù)與生物活性 ,獲得的函數(shù)關(guān)系可用于預(yù)測目的。 常見氨基酸描述子包括 Z 標(biāo)度[41] 、ISA-ECI 指 數(shù) [42] 、VHSE 得分[43] 等。該法的缺點(diǎn)是無法處理長度不一的肽序列。雖然后來有人提出了諸如自交叉協(xié)方差( auto-cross covariance, ACC)[44] 等方法加以解決 ,但因物理意義不甚明確而未得到廣泛應(yīng)用。
(2)結(jié)構(gòu)層次 : 由于結(jié)構(gòu)數(shù)據(jù)大大少于序列數(shù)據(jù) , 因此基于結(jié)構(gòu)預(yù)測肽的生物活性還鮮見報道 ,但它具有許多相對于基于序列預(yù)測方法所不可比擬的 優(yōu)勢 ,如結(jié)果物理化學(xué)意義明確、所獲知識易于指導(dǎo)結(jié)構(gòu)改造等。以往 ,基于結(jié)構(gòu)預(yù)測肽活性研究最多的對象是主要組織相容性復(fù)合物(MHC)[45] , 它是重要的細(xì)胞免疫相關(guān)蛋白 ,專司負(fù)責(zé)胞內(nèi)肽抗原加工提呈 ,對疫苗設(shè)計意義重大。因此現(xiàn)有大量晶體結(jié)構(gòu)數(shù)據(jù)可供利用 [46] 。另外 ,域/肽相互作用也是 基于結(jié)構(gòu)預(yù)測肽活性的關(guān)注熱點(diǎn) ,主要研究對象包 括 SH3 域、WW 域、PDZ 域等。如 Hou 等采用同源模建、分子對接及動力學(xué)模擬在結(jié)構(gòu)水平揭示了人類雙載蛋白 SH3 域( hAmph SH3 )與配基肽的作用模式 ,并在此基礎(chǔ)上建立了用于肽親合力預(yù)測的三維定量構(gòu)效關(guān)系(3D-QSAR)模型[47] 。 之后他們又提出分子相互作用能分解與支持向量機(jī)聯(lián)用方案 (MIEC-SVM )篩 選 基 因 組 中 的 潛 在 SH3 肽 配 基 [48,49] ,所得結(jié)果得到了肽陣列( peptide array)實(shí) 驗(yàn)確 認(rèn) [50,51] 。 最近 , 我 們將量子力學(xué)/分子力學(xué) (QM/MM)雜化計算用于提高 OppA 及 PSD95 蛋白 質(zhì)與寡肽親合力預(yù)測的精度 ,亦取得了成功 [15,16]。然而 , 這些研究都是針對特定肽/蛋白質(zhì)體系開展的 ,所獲得的預(yù)測模型僅適用于特定問題 ,不具通用性。Woo 和 Roux 曾發(fā)表了一套嚴(yán)格的肽/蛋白質(zhì)結(jié)合自由能計算理論 ,但因需長程動力學(xué)模擬和復(fù)雜熱力學(xué)路徑分解而限制了該法的推廣 [52]。
鑒于以上原因 , 已有部分研究者開始嘗試發(fā)展專門的肽對接方法 。早期人們提出采用啟發(fā)式策略和智能算法實(shí)現(xiàn)肽對接 [59] ,但缺乏全面測試和深入評價而未得到廣泛應(yīng)用 。后來多數(shù)研究者集中于采用分子動力學(xué)/Monte carlo/模擬退火采樣與結(jié)構(gòu)優(yōu)化相結(jié)合的方法處理蛋白質(zhì)/肽結(jié)合問題 ,提出了一系列肽對接方法 , 如 Gδ [60] 、Docscheme [61] 、 DynaDock [62] 等 , 特 別 是以色列希伯來大學(xué)的 schueler-Furman 及其合作者首次實(shí)現(xiàn)了肽對接的在線服務(wù)工具 FlexpepDock[63] ,測試表明該法對某些 體系可以達(dá)到“ 亞埃( sub-angstrom)”級的對接精度[64] 。最近,Donsky 等也發(fā)布了另一個在線肽對接工具 pepcrawler[65] ,為面向應(yīng)用目的提供了極大便利 。此外 ,肽動態(tài)對接方案不僅用于預(yù)測肽在蛋白質(zhì)活性口袋中的結(jié)合方式 ,還用于研究結(jié)合過程的動力學(xué)機(jī)制。Ahmad 等采用動力學(xué)對接首次在分子水平上全程模擬了 sH3 域與一個十肽的結(jié)合過 程 ,據(jù)此提出的雙態(tài)模型包括一個初期快速彌散階段和一個后期界面水分子排干過程;他們指出長程靜電效應(yīng)和短程疏水力分別是推動結(jié)合過程前后兩個階段發(fā)展的關(guān)鍵驅(qū)動因素 [66] 。該模型的整體輪廓與后來 staneva 和 wallin 利用全原子 Monte carlo 模擬 pDZ 域識別寡肽配基結(jié)論基本一致 ,后者也證實(shí)了域/肽結(jié)合過程存在兩個分別由靜電和疏水支配的階段 [67] 。所不同的是 Ahmad 等認(rèn)為第一階段非常短暫且容易逾越 ,而 staneva 等卻認(rèn)為第一階段是限速步驟 。有時當(dāng)大量同類蛋白質(zhì)/肽復(fù)合物結(jié)構(gòu)已知的情況下(如上文提到的 MHc),對接問題可以簡化為基于肽配基的公共主鏈構(gòu)象預(yù)測目標(biāo)側(cè)鏈 ,然后再組合其他分子模擬方法對整體結(jié)構(gòu)模型進(jìn)行修正 , 這樣可以 大大提高計算的效率和精度 [68]。
除此之外 , 目前針對肽對接的配套研究還非常缺乏 ,如發(fā)展專門的肽對接評分函數(shù)以及預(yù)測肽的結(jié)合位點(diǎn)等 。值得一提的是,Petsalaki 等基于平均 場論提出肽在蛋白質(zhì)表面的結(jié)合位點(diǎn)預(yù)測方法是該 方面的重要進(jìn)展 [69] 。
此外 ,肽的動力學(xué)模擬也常被用于肽對接意圖 , 或用于精修肽對接所獲得的初始結(jié)構(gòu);雖然此法效率較低 ,但是往往能夠得到較為可靠的蛋白質(zhì)/肽復(fù) 合物模型 , 因此亦常采用 [62] 。
隨著 PDB 數(shù)據(jù)庫[37] 中晶體學(xué)或多維 NMR 技術(shù)解析的肽與蛋白質(zhì)所成復(fù)合物結(jié)構(gòu)快速增長 ,從這些實(shí)驗(yàn)結(jié)構(gòu)數(shù)據(jù)中提取和歸納有用知識為解釋蛋 白質(zhì)/肽識別和相互作用行為及預(yù)測潛在的作用模式提供了非常有價值的參考信息 [78] 。vanhee 等調(diào) 查了 731 個已知結(jié)構(gòu)的蛋白質(zhì)/肽界面后認(rèn)為肽與 蛋白質(zhì) 結(jié)合方式非常類似于單體蛋白的折疊模式[79] ,該發(fā)現(xiàn)為基于豐富蛋白結(jié)構(gòu)數(shù)據(jù)設(shè)計蛋白 質(zhì)/肽相 互作用提供了理論依據(jù) 。然而 , 稍 后 London 等進(jìn)一步深入分析一組高質(zhì)量樣本后指出 , 肽往往采用比蛋白折疊更牢固的方式與受體結(jié)合 , 從而彌補(bǔ)伴隨該過程可觀的熵懲罰 [54] ;此外他們還發(fā)現(xiàn)一些有趣的現(xiàn)象 , 比如肽配基通常結(jié)合到蛋白質(zhì)表面最大凹陷處 ,蛋白質(zhì)/肽界面常存在關(guān)鍵性的 “ 熱點(diǎn)殘基( hotspot residue)”等 。另外一些研究者通過考察蛋白質(zhì)復(fù)合物結(jié)構(gòu)來研究肽調(diào)節(jié)的蛋白質(zhì)相互作用 ,如 Jochim 和 Arora 通過對近萬個多元蛋白復(fù)合物檢視發(fā)現(xiàn)其中約有 13% 的界面包含螺旋模體 ,暗示了螺旋肽是非常有希望的蛋白復(fù)合體裝 配的抑制構(gòu)架 [80] 。的確 ,迄今實(shí)驗(yàn)確認(rèn)的靶標(biāo)活性肽多數(shù)為螺旋性 ,推測這可能是因該類二級結(jié)構(gòu)穩(wěn)定化程度較高且易于化學(xué)約束之故 [81] 。此后一些研究發(fā)現(xiàn) ,除了螺旋模體之外 ,其他類型的線性序列 ( 如環(huán)狀序列)也常出現(xiàn)于蛋白質(zhì)復(fù)合物界面并對后者形成起到了重要的推動效應(yīng);由此估計肽段調(diào)節(jié)的蛋白質(zhì)相互作用可多達(dá) 50% ,且它們都是潛在的蛋白質(zhì)復(fù)合物裝配“ 自抑制肽( self-inhibitory peptide)”[82] 。然而 ,上述結(jié)論需要考慮更多的因素才有意義 ,如 stein 等通過對大量肽調(diào)節(jié)的蛋白質(zhì)相互作用進(jìn)行拓?fù)淠芰糠治龊笾赋龊诵木性序列往往需要在特定的界面環(huán)境中才能保證高的特異性和適當(dāng)?shù)姆(wěn)定性 ,環(huán)境因素平均貢獻(xiàn)了 20% 以上的親合 力[83] 。因此設(shè)計自抑制肽時如何包含界面環(huán)境貢 獻(xiàn)是設(shè)計者需要考慮的主要因素之一。
理性設(shè)計特定肽分子并對其結(jié)構(gòu)進(jìn)行修飾改造 ,使之獲得高的靶標(biāo)親合力和選擇性以及良好的代謝穩(wěn)定性和膜穿透能力是肽類藥物研發(fā)者追求的夢想 。方法學(xué)方面 , 人們提出了Rosetta [84] 和 vitAL [85] 等方案進(jìn)行全新( de novo)肽配基設(shè)計 ,而 我們也曾開發(fā)了 LigEvolutioner 程序用于已知先導(dǎo)肽( lead peptide)的結(jié)構(gòu)自動進(jìn)化改良[86] 。近年來 , 理性肽設(shè)計亦與各類生物活性檢測實(shí)驗(yàn)緊密結(jié)合起來 ,這些工作成功地將理論推向了應(yīng)用 。它們主要 在三個層次上得到實(shí)現(xiàn) :一是基于序列知識 ,通過統(tǒng)計學(xué)習(xí)模型和生物信息學(xué)方法提煉和優(yōu)化目標(biāo)肽序列 ,如 Edwards 等篩選血小 板活性調(diào)節(jié)因子[87] , shemesh 等發(fā)現(xiàn)G蛋白偶聯(lián)受體激動劑 [88]以及 walshe 等確定人類白細(xì)胞抗原結(jié)合表位[89] 等是該水平研究的典型代表;二是基于模糊結(jié)構(gòu)信息 ,通過序列推測靶標(biāo)蛋白的常見結(jié)構(gòu)模架 ,則可根據(jù)已知的大量該類模架結(jié)構(gòu)定義目標(biāo)肽 ,如 kliger 等采用 Fourier 變換設(shè)計伴侶蛋白的活性調(diào)節(jié)肽[90] 及 yin等開發(fā)的整合素跨膜區(qū)靶向肽 [91] 。后者可視為該領(lǐng)域的突破性工作 , 因?yàn)檠芯空咴谕耆粗纤乜缒そY(jié)構(gòu)的情況下僅利用已知少數(shù)膜蛋白的跨膜螺旋空間排列模式就設(shè)計出了能夠自動裝配到細(xì)胞膜內(nèi)并與整合素靶標(biāo)區(qū)域發(fā)生特異性作用的活性肽;三是基于精確靶標(biāo)結(jié)構(gòu)數(shù)據(jù) ,通過分子模擬方案和能量分析策略獲得高性能的肽配基 ,如 cui 等發(fā)現(xiàn)促腫瘤凋亡肽 [92] ,sood 構(gòu)造腫瘤蛋白調(diào)節(jié)肽[93] 以及 Grigoryan 等設(shè)計亮氨酸拉鏈(bZIP)特異攻擊肽 [94] 。后一個工作特別有趣 , 因?yàn)樽髡呤状螆蟮懒硕ㄏ蛟O(shè)計肽的特異性(而非親合力)的成功案例。
相對上述特定案例分析而言 ,系統(tǒng)生物學(xué)研究肽的性質(zhì)和活性更著眼于在整個基因組水平、整個細(xì)胞網(wǎng)絡(luò)和整個家族分類中考察肽與靶標(biāo)之間的復(fù)雜作用行為和多維相互關(guān)系 [95] 。一般采用高通量實(shí)驗(yàn)手段 , 如噬菌體展示肽庫[96] 和 sPOT 合成技術(shù) [97] ,可以在短時間內(nèi)產(chǎn)生大量的候選肽 ,進(jìn)而篩選它們對特定靶標(biāo)( 或家族靶標(biāo))的親合潛力[98] 。這些數(shù)據(jù)是重要的系統(tǒng)肽生物學(xué)研究資源 。而基于序列和結(jié)構(gòu)產(chǎn)生的理論模型亦被用于構(gòu)造特定靶標(biāo)的完整基因組識別剖面 [99,100] 。此外 ,從序列、結(jié)構(gòu)和作用對象角度探討某一類肽識別域的家族內(nèi)部關(guān)聯(lián)性和個體間差異性亦是在系統(tǒng)水平研究域/肽分子進(jìn)化的常見策略 [101,102] 。對此 , 這里僅提及 stiffler 等的工作[103] :他們采用親合力檢測和主成分聚類相結(jié)合的辦法研究了小鼠體內(nèi)表達(dá)的 157 種PDZ 域在配基選擇性空間的分布情況 ,結(jié)果表明 ,整個PDZ 域家族通過進(jìn)化優(yōu)化后呈均勻分散在該空間中 ,從而最大限度避免了個體之間的交叉反應(yīng) ( cross-reactivity )。 近年來興起的肽 組學(xué)(peptidomics)以及在此基礎(chǔ)上發(fā)展起來的肽組學(xué)庫和數(shù)據(jù)挖掘技術(shù)可謂后起之秀 ,必將在未來大放異彩 [104,105] 。
3 總結(jié)及展望
隨著高通量測序技術(shù)和系統(tǒng)組學(xué)方法的高速發(fā)展,kahvejian 等在其前瞻性論著中預(yù)測 ,不出 20 年人們將測定幾乎所有的生物學(xué)數(shù)據(jù) — 至少可以隨意測定自己想要的數(shù)據(jù) [106] 。從而 , 多數(shù)生物學(xué)家都(或多或少)逐漸轉(zhuǎn)變成為計算生物學(xué)家 , 因?yàn)槟菚r生物學(xué)家的主要精力會用于利用計算工具從海量數(shù)據(jù)中發(fā)掘生物學(xué)知識 — 正如 Jorgensen 宣稱的那樣 [107] :we, re all computational biologists! 盡管這樣的論斷過于激進(jìn) ,但向人們昭示了理論和計算方法以及信息挖掘技術(shù)在生命及其相關(guān)學(xué)科中的廣闊應(yīng)用前景 。近年來 , 由于肽在細(xì)胞信號轉(zhuǎn)導(dǎo)中所扮演的重要角色以及作為生物藥物靶向蛋白質(zhì)相互作用網(wǎng)絡(luò)等特殊性質(zhì)的發(fā)現(xiàn) ,喚起了科學(xué)共同體對肽的濃厚興趣 。與之相伴的是 ,計算化學(xué)和生物信息學(xué)領(lǐng)域與肽相關(guān)的研究工作日益增多 ,并取得了長足進(jìn)展 。鑒于肽的理論計算研究開始起步 ,并已漸進(jìn)佳境 ,本文以計算肽學(xué)為主題概括該領(lǐng)域的研究范疇和研究動態(tài) ,其目的是希望將之系統(tǒng)化為一個專門分支學(xué)科便于相關(guān)研究者交流探討 ?梢灶A(yù) 見 ,計算肽學(xué)的發(fā)展必將受到計算科學(xué)和肽科學(xué)兩方面進(jìn)展的推動 ,今后其研究重點(diǎn)應(yīng)該主要集中在下列幾個方面:(1)隨著蛋白質(zhì)/肽復(fù)合物三維結(jié)構(gòu)數(shù)據(jù)的日益累積 ,在原子水平考察肽與蛋白質(zhì)識別和相互作用的理化基礎(chǔ)及熱力學(xué)性質(zhì)將得到進(jìn)一步發(fā)展。(2)采用分子設(shè)計方法獲得高性能肽模擬物攻擊蛋白質(zhì)相互作用網(wǎng)絡(luò)已開始嶄露頭角 ,未來有望成為新藥研發(fā)的一個高速增長點(diǎn)。(3)構(gòu)建肽組學(xué)數(shù)據(jù)庫及挖掘內(nèi)涵信息可在系統(tǒng)生物學(xué)層次闡釋細(xì)胞信號轉(zhuǎn)導(dǎo)及代謝通路中各類肽的功能與活性。(4)以肽為基礎(chǔ)開發(fā)自組裝納米管、表面活性材料、 藥物傳輸系統(tǒng)等相關(guān)實(shí)驗(yàn)研究已有報道 ,相信計算 模擬和理論設(shè)計工作將在不久之后廣泛展開。