品種改良に「10年かかる」と思っているなら、あなたはすでに数百万円分の機会損失を抱えています。
ゲノムワイド関連解析(Genome-Wide Association Study、略してGWAS)とは、特定の集団における個体間の形質の違いとDNA配列の違いとの関連を、ゲノム全体にわたって統計的に検出する研究手法です。
もう少し噛み砕くと、「この品種は背が高い、あの品種は低い」という違いが、ゲノムのどの位置のDNA配列の差(SNP)から来ているのかを、ゲノム全域を対象に一気に探索します。つまり、仮説を立ててから特定の遺伝子を調べる従来の方法ではなく、データが先に語りかける「データ駆動型」のアプローチです。
農業の文脈で言えば、収量・病気抵抗性・食味・開花時期・乾燥耐性といった農業上重要な形質(農業形質)を制御する遺伝子座を迅速に特定する手段として、GWASは世界中の育種研究機関や農業試験場で活用されています。
日本では農研機構(農業・食品産業技術総合研究機構)が主導して、イネ・コムギ・リンゴ・ニホンナシ・カンキツなど多様な作物へGWASを適用しており、国際的にも高い成果を上げています。これは農業従事者にとって直接的なメリットにつながります。
GWASを理解するうえで、「SNP(スニップ)」という概念は避けられません。SNPとは「Single Nucleotide Polymorphism」の略で、日本語では一塩基多型と呼ばれます。
ゲノムのDNA配列は「A(アデニン)・T(チミン)・G(グアニン)・C(シトシン)」の4種類の塩基の並びで書かれていますが、ある位置の塩基が個体によって異なることがあります。たとえば、ある品種では「…AATGCA…」なのに、別の品種では「…AATCCA…」のように、1文字だけ違う。
その1文字の違いがSNPです。
牛(ウシ)のゲノムには9,600万個以上のSNPが存在することが知られており、これはおよそ30塩基に1個の割合です。
イネでも数百万個規模のSNPが存在します。
これだけ多くのSNPがあるからこそ、農業形質との関連を統計的に探索する意義が生まれます。
GWASでは通常、数万〜数百万個のSNPを一度に解析します。現在の農業育種現場では3〜4万個のSNPを搭載したSNPチップが広く使われており、ゲノム評価やGWASの両方に活用されています。SNPが農業形質に関わる場合、そのSNPは形質と関連した「マーカー」として機能し、特定のSNPを持つ系統を優先的に選抜する育種戦略(マーカー選抜育種)に直結します。
GWASを実施する際にまず重要なのが、解析に使う「集団」の設定です。集団の選び方ひとつで、解析の精度と実用性は大きく変わります。
まず大前提として、GWASはある集団の中でのDNA配列の違いと形質の違いを比較する手法です。したがって、集団内での形質のバラツキ(表現型多様性)が豊かでないと、有意な関連が検出できません。
遺伝的多様性と表現型多様性のバランスが重要です。名古屋大学・矢野憲司らの研究(Nature Genetics, 2016)では、日本国内で育成された温帯ジャポニカイネ176品種を集団として用いることで、遺伝的多様性を抑えつつ表現型(開花・草丈・穂の長さ・葉幅など)では十分な多様性を確保しました。それまで「遺伝的多様性が高すぎる集団を使うと偽陽性が増える」という課題があり、この選択が鍵でした。
一方で表現型データ(フェノタイプデータ)の収集も欠かせません。収量、草丈、病気の発症程度、開花日数、品質指標など、実際の圃場での観察データが必要です。これが粗雑だと、どれだけ精密なゲノム解析を行っても無意味になります。「ゴミを入れればゴミが出る(Garbage in, garbage out)」の原則はGWASでも変わりません。
表現型データの収集は複数年・複数環境(産地・気象条件)での繰り返しが理想であり、農業現場に近い条件での測定が重要です。収集のコストと労力を抑えるため、近年はドローンや画像解析技術を組み合わせた「ハイスループットフェノタイピング」の導入も進んでいます。
集団と表現型データが揃ったら、次はゲノムDNAの配列情報(ジェノタイプデータ)を取得するステップです。
現在、大きく2つのアプローチがあります。
SNPアレイ(チップ)によるジェノタイピングは、あらかじめ既知のSNP位置をカバーしたビーズチップやマイクロアレイを使う方法です。一度に数万〜百万個規模のSNPを迅速に解析でき、コストと時間が予測しやすい利点があります。農業分野では、イネ用・ウシ用・リンゴ用など作物・家畜ごとに専用のSNPチップが開発されており、日本の全国和牛登録協会でも独自の「和牛チップ」を開発しています。
次世代シークエンサー(NGS)を使った全ゲノムシークエンシングは、ゲノム全体の塩基配列を直接読む方法です。より網羅的でSNPチップに依存しない網羅性が強みですが、コストとデータ量が大きくなります。ただし、NGSのコストは年々急落しており、農業研究での普及が進んでいます。
中間的な方法として、低コストでゲノムワイドなSNPを取得できる「GBS法(Genotyping-by-Sequencing)」や「RADseq法」も農業研究で広く利用されています。これらは予算に応じて選択できる現実的なオプションです。
どの方法を選ぶかは「予算・解析したい作物・必要なSNP数」のバランスで決まります。農業研究機関や受託解析サービスに相談するのが、現時点での最速の選択肢です。
参考:農研機構によるゲノム解析の育種応用事例について
農研機構 SIP2 ゲノム情報活用育種支援 | 農研機構
GWASの実施でもっとも見落とされがちで、かつ深刻な問題が「偽陽性」です。集団構造を適切に補正しないと、農業形質とは本来無関係な遺伝子を「関連あり」と誤って検出してしまいます。
偽陽性とは何でしょうか? たとえば、特定の地域・品種グループに属する系統が偶然「収量が高い」というデータを持っているとします。その集団特有のSNPは、収量とは関係なくても統計上「関連あり」と出てしまうことがあります。
これが偽陽性です。
誤った遺伝子を選抜し続けると、育種計画全体が無駄になるリスクがあります。
対処法は複数あります。まず、主成