育種の現場で「バイオインフォマティクス」が効いてくる場面は、ざっくり言うと“選抜の前倒し”です。従来の選抜育種は、交配→栽培→形質評価→選抜を繰り返しますが、評価のために季節や栽培環境を待つ必要があり、時間が最大の制約になります。そこでDNA情報を使い、形質そのものを見なくても「良さそうな個体」を先に絞り込む考え方が、マーカー育種やゲノム選抜です。
ゲノム選抜(ゲノミックセレクション、ゲノム選抜法)は、個体間の形質差と大量のDNAマーカーの差を数式モデルで結び、DNAマーカー情報しかない個体にもモデルを適用して形質を予測し、選抜する手法です。特に「多数の遺伝子が関わる形質の予測が可能」という点が、単一遺伝子を狙い撃ちするマーカー選抜(MAS)と違う強みになります。さらに、通常は評価できない季節でも温室などでDNAだけ先に取って予測・選抜できる、という運用上のメリットも明確です。
農業従事者向けに言い換えるなら、ゲノム選抜は「圃場での勝負の回数を減らし、勝率を上げる仕組み」です。圃場試験はどうしても面積・人員・天候に縛られるため、最初から候補が多いほど負担が増えます。DNAで候補数を絞れれば、圃場の面積・管理コストを“高確率な株”に集中できます。
ただし、ゲノム選抜は魔法ではありません。モデルを作るためには、最初に「DNAデータ+表現型データ」の両方を揃えた集団(トレーニング集団)が必要です。つまり、最初の一回はしっかり圃場で表現型を取り切らないと、予測は当たりません。ここを惜しむと、以降の選抜が全てブレます。現場で成功している例ほど、初期の表現型設計とデータ品質に投資しています。
DNAマーカーは「遺伝子型をチェックして形質の有無を判断する」ための目印です。従来の形質調査が半年〜1年の圃場栽培を要するのに対し、DNAマーカーによる遺伝子型チェックは短時間で済み、交雑後代の選抜を迅速化・簡素化できる、という整理が基本になります。ここでよく登場するのがSNP(1塩基多型)で、NGS(次世代シーケンサー)で全ゲノムにわたって大量に見つけやすく、マーカーの材料として使いやすいことが特徴です。
実務で重要なのは、「どのマーカーを、どの段階で、何のために使うか」を分けることです。例えば、品種識別・親子鑑定・交雑親の確認のように“品種・系統の取り違え防止”に使うDNAマーカーは、育種の生産管理そのものの品質保証になります。一方、耐病性や品質成分のように“狙った形質”に直結するDNAマーカーは、選抜の効率化に効きます。現場ではこの2種類が混ざりやすいので、目的別にマーカーセットを分けると運用が安定します。
SNPの数は多ければ良い、という単純な話でもありません。例えばゲノム選抜では、むやみにSNPを増やすと欠測(タイピングできない点)やノイズも増え、解析・管理コストも上がります。現場目線での最適解は、(1) 交配親で多型が出る、(2) 欠測が少ない、(3) 繰り返し測っても再現する、(4) 圃場の意思決定に間に合うコストと納期、の4条件を満たす「使えるSNP」を揃えることです。
意外と見落とされるのが、サンプル採取・ラベリングの工程です。バイオインフォマティクスの解析がどれだけ高度でも、葉片サンプルの混入・取り違えが起きると結果は一気に崩れます。ここはITより現場作業の設計が効く領域で、バーコード運用や採取手順書の固定化が、実は最も費用対効果が高い改善になることが多いです。
「狙う形質に効く領域(QTL)を見つけて、マーカーを作って、MASにつなげる」という流れは、今でも多くの品目で強力です。その中でQTL-seqは、NGSを使い、極端な表現型の個体群を“バルク”としてまとめて解析することで、原因遺伝子領域を素早く絞り込む考え方として整理できます。QTL-seqでは、例えば糖含量が高い群と低い群など、表現型の両極から20個体程度を選抜し、それぞれ等量混合したバルクDNAを作り、全ゲノムシーケンスにかけます。
解析では、基準配列(リファレンス)に対してシーケンスリードを配置(アライメント)し、SNP-index(基準配列と異なるアリルの頻度)を計算します。そして2つのバルク間でSNP-indexの差(△SNP-index)を全ゲノムに沿って見て、統計的に偏りが強い領域をQTL候補として拾います。図にすると“ゲノム上の位置”に沿って山が立つイメージで、現場の意思決定にも落とし込みやすいのが利点です。
現場で効く注意点は、論文の手順以上に「個体選抜の仕方」です。例えばイネでは登熟期の気温差が玄米品質に影響し、出穂期がズレた個体を混ぜると、品質ではなく出穂期の遺伝子領域を拾ってしまう危険がある、と具体的に指摘されています。つまり、狙う形質の“間接要因”が揃っている個体同士で両極を作らないと、解析の山が別の意味になってしまいます。QTL-seqの失敗例の多くは、解析手法ではなく、このバルク設計で起きます。
もう一つの落とし穴は、対象作物が他殖性でヘテロ接合性が高い場合です。QTL-seqは自殖性植物(例:イネ)で発展してきた背景があり、ヘテロが多い材料では偽陽性SNPが増えやすいため、フィルタリング(Self-alignmentやF1-alignmentなど)で解析対象SNPを絞り込む工夫が必要になる、と整理されています。品目が葉菜・果菜・果樹・花きなどで他殖性寄りの場合、ここを無視すると「それっぽい山」は出ても再現しない、という事態が起こりがちです。
参考:QTL-seqの原理、SNP-index/△SNP-index、バルク個体選抜の注意点
農研機構 Agriknowledge(PDF)
NGSの普及で何が変わったかを一言で言うと、「主要作物だけの技術」だった遺伝解析やマーカー開発が、地場野菜やニッチ品目にも現実的に降りてきたことです。シーケンスの基本的な解析は、大きくde novo assembly(参照ゲノムなしで配列を組み立てる)とre-sequencing(参照配列に読みを当てて変異を検出する)に分けられます。QTL-seqのように全ゲノムで変異を使う解析では、re-sequencingが中心になる、という位置づけです。
実務的に重要なのは、「参照ゲノムがあるか、ないか、品質は十分か」です。参照ゲノムが高品質ならre-sequencingが速くて安い。一方、参照がない(または遠い)と、de novo assemblyで“土台”作りから始まり、ここでコストも期間も増えます。ただ、品目によっては参照がないのが普通なので、最初に“どの程度の精度の参照が必要か”を決めることが肝になります。例えば、最終目的が品種識別や親子鑑定なら、超高品質の参照まで要らないこともあります。逆に、遺伝子領域の特定や機能推定まで踏み込みたいなら、参照品質が効いてきます。
あまり知られていない現場の効きどころとして、「長鎖(ロングリード)か短鎖(ショートリード)か」は、解析屋だけでなく育種側も理解しておくと失敗が減ります。ショートリード中心だと、繰り返し配列が多いゲノムで組み立てが途切れやすく、候補領域の境界が曖昧になり、マーカー設計が難しくなることがあります。逆にロングリードは設備・予算の壁があり、全サンプルでやるより「代表系統だけロングリード」「選抜はショートリードやSNPパネル」など、段階的に使い分ける設計が現実的です。
参考:フィールドのバイオインフォマティクス(NGS、ゲノム、DNAマーカー、ゲノム選抜の定義整理)
東京大学 農学生命情報科学(Web連携テキスト)
検索上位の解説は、ゲノム選抜やQTL-seqの「やり方」中心になりがちですが、農業従事者の実務で差がつくのは“圃場ノイズを減らす設計”です。言い換えると、解析の精度は「DNAの精度」だけではなく、「表現型の純度」で決まります。表現型が濁ると、どれだけ立派な解析でも“違うものを正しく当てる”だけになります。
具体的にノイズが入る代表例は、(1) 出穂期や熟期のズレ、(2) 圃場内の地力差、(3) 病害虫の局所発生、(4) 収穫・乾燥・調製の差、です。QTL-seqの注意点としても「間接要因を考慮せずに個体を選ぶと、狙い形質ではなく別の遺伝子領域を同定してしまう可能性」が示されています。つまり、解析の前に、現場の“揃える努力”が先に要ります。
ここで使える実践的な工夫を、できるだけ現場語でまとめます。
・圃場設計の工夫(少ない投資で効く)
・表現型の「採点基準」を固める(意外に効く)
・バルク設計のコツ(QTL-seqや類似の考え方に共通)
そして最後に、バイオインフォマティクス導入の「投資の順番」です。多くの現場では、いきなり高額な解析に投資するより、(1) サンプル取り違え防止、(2) 表現型評価の基準化、(3) 小規模でもいいので再現試験、(4) その上で解析の高度化、の順番がコストパフォーマンスが高いです。データの入口が整うと、同じ解析でも当たりが良くなり、翌年以降の育種計画が読みやすくなります。
(狙いワード「バイオインフォマティクス 育種」について、ゲノム選抜・DNAマーカー・QTL-seq・NGSの要点を実務目線で深掘りしました。次は、対象作物(例:イネ、ダイズ、トマト、イチゴ等)と狙う形質(耐病性、食味、収量、暑さ耐性など)を指定して、手順を“あなたの圃場条件”に合わせて具体化しますか?)