PhishFinder

フィッシングサイト識別エンジン「Phish Finder」

本研究では、ニューラルネットワーク技術を用いた詐称URLの判定を目指します。ウェブサイトに関する特殊な知識を利用せず、機械的に変換したURL文字列を用いて、PhishTank.comに登録されている詐称サイトと、通常アクセスによる安全なURLに対して提案手法を適用したところ、94%の正確性で二者を分類できることがわかりました。

詐称サイトへのアクセスから利用者を守ることは、近年のネットワークサービス運用者にとって重要な課題の1つです。ISPであれば、接続を提供している顧客に詐称サイトブロックなどのサービスを提供している場合も多いでしょう。もしあなたが組織の情報システム担当者なら、自組織内の利用者に対して何らかのセキュリティ対策ソフトウェアの導入を推進したりしているかもしれません。

現在広く利用されている詐称サイト防御技術は、基本的にはブラックリストを用いた手法です。ただし、容易に想像できるように、単なるブラックリストでは広大なWeb空間を網羅することは困難です。研究者たちは、より効率的に悪性サイトを判別する方法を模索してきました。例えば、既存の詐称サイトのドメイン名に類似した文字列を機械的に推測して、少ないブラックリストからより多くの悪性ドメイン名の候補を作り出す試みがありました。また、単なるリストの範疇を超え、ドメイン名が登録された時期、Googleでの検索順位などを参考にし、登録されて間もないドメイン名や、順位の低いドメイン名の信頼度を低く見積もる手法などもありました。
実際にアクセスされたページの内容を透過プロキシなどで解析し、サイトが悪性かどうかを判断する技術なども提案されています。更に、近年の深層学習の発展に伴い、セキュリティ分野への深層学習応用も進んできています。

本研究では、URLやウェブ技術に利用される深い知識を利用せず、可能な限り機械的な処理を用いてURL文字列をベクトル形式に変換し、大量のデータを用いてニューラルネットワークモデルを学習させる方針を選択しています。

PhishFinder

変換後のURLは512次元のベクトルとして表現され、それが特定のURLの特徴を示していると仮定しました。過去の詐称サイトの情報を収集、公開しているPhishTank.comと、通常のウェブサービスへのアクセスログを組み合わせ、本手法により変換した特徴ベクトルを元にニューラルネットワークモデルを学習させたところ、この二種類のURL文字列を94%の正確さで分類できることがわかりました。また、学習に用いられたデータよりも、日付が新しいデータセットに対して分類を実施した場合でも、高い精度で正しい判定ができることも確認できています。このことは、URL文字列そのものに、たとえそういう人為的な意図がなくとも、詐称サイトに関係するような文字列の組み合わせが存在している可能性を示しています。

本研究のより詳細な情報は、以下の文献から参照できます。

関連業績リスト