AppBank の主任です。
Safari などのウェブブラウザでウェブページを表示すると、そのページを管理しているサーバなどに残る「足跡」をご存知でしょうか?
ほとんどの場合、こうして残された跡は記録され、ウェブページやそれを管理しているサーバの改良・マーケティングなどに使われています。
その足跡にはいくつかの種類があり、含まれる情報も異なります。積極的に足跡を集めるサービスもありますが、近年ではその在り方も問われています。
今回はウェブページを訪れると残る「足跡」をご紹介します。
足跡の種類
ウェブページを訪れると残る「足跡」は、大別して以下の5つがあります。
- グローバルIPアドレス・ホスト名
- リファラ
- ユーザーエージェント
- Cookie
- アクセス解析サービスによるデータ収集
グローバルIPアドレス・ホスト名
グローバル IP アドレスは、世界に1つだけのアドレスです。
これは例えば「999.999.999.999」といった形で表示されたり、例えば「example.123.appbank.net」というように表示されたりします。
「example.123.appbank.net」のような形で表示されるものをホスト名と呼びます。
このグローバル IP アドレスは、ウェブページを閲覧する際にサーバへ送信されます。サーバからデータを引き出す際、送り先として必要だからです。
リファラ
ウェブページを表示する際には、ブラウザからサーバにウェブページのデータを要求します。そこで一緒に送られる情報の1つが「リファラ」です。
リファラは、リンクを開く前まで表示していたページの情報です。もともとはサーバ管理者がアクセスする人の動向を把握するために設けられました。
サーバがリファラ情報を記録していれば、どういった経緯でどのページにたどり着いたのかをそのサーバ内の範囲で解析できます。
さらに、画像への直接リンク禁止・意図しないウェブページからのリンクを制限といったこともできます。
ユーザーエージェント
ブラウザがウェブページを表示する際、サーバにデータを要求する時に送信する情報です。これでブラウザの種類を識別できます。
この情報を元に iPhone には iPhone 用の、PC には PC 用のウェブページを表示させることもできます。
これを使って、ウェブページのデザインを PC 用・iPhone 用に変える方法もあります。
ユーザーエージェントは統計にも使われます。どういったブラウザからのアクセスが多いのかを分析して、ウェブページの改良に役立てられたりします。
なお、ユーザーエージェントはグローバル IP アドレスのように個別のものではなく、ブラウザ毎に設定されているので、この情報だけで個人を特定することは困難です。
Cookie
もともとはウェブサービスへのログインを認証したり、ショッピングサイトで「買い物カゴ」の中身を記録するのに使われてきました。
例えばウェブサービスにログインすると、サーバからは「あなたは1234です」と一時的な ID が割り振られます。ブラウザはこのコードを URL と一緒に保存します。これが Cookie です。
通信する度にブラウザが Cookie を送信、サーバが Cookie の ID を確認しているので、ウェブサービスの別ページに移動してもログイン状態を保てます。
この Cookie の仕組みを利用しているのが「ターゲティング広告」です。
ターゲティング広告はユーザーが閲覧したページの履歴などを元に、その人の興味を引くと思われる広告を選んで表示します。
Cookie は広告を介して広告を配信しているサーバに届けられ、これを元にページの履歴が記録されます。その結果から最適な広告を表示させます。
アクセス解析によるデータ収集
ウェブページの管理者は、ウェブページに埋め込むタイプのアクセス解析サービスを利用して、訪問者の情報を収集することもできます。
サービスによって収集できる情報は異なりますが、グローバル IP アドレス・ユーザーエージェントのほか、ページの閲覧履歴(サーバ内)・閲覧時間などを収集できます。
アクセス解析サービスは多々ありますが、中でも有名なのは Google Analytics です。
なぜ足跡を記録するのか?
理由1:不正行為に対処するため
ほとんどのサーバは、少なくともグローバル IP アドレスを記録しています。
例えば不正アクセスが起きた場合、不正行為の証拠として使うほか、侵入者が何をしたのか・どこから接続しているのかを突き止めるために必要だからです。
理由2:サービス・コンテンツの品質を向上させるため
アクセス解析サービスを利用するウェブページのほとんどは、その結果をコンテンツの内容・デザインの検討などに使います。
訪問者が求めるコンテンツを提供できれば、訪問数が増えたり、収益も上がる可能性があるからです。ターゲティング広告も同様です。
さらにサーバが訪問者の情報を記録するのは、不正行為への対策・準備だけでなく、利用実態を把握して設備増強などに活かしたいという理由もあります。
足跡を残さない方法は?
現状では痕跡を全く残さずにウェブページを訪れることはできません。少なくとも、データの送り先としてグローバル IP アドレスをサーバに送信する必要があるからです。
リファラと Cookie は、ブラウザの設定を変更すると送信・利用を停止できます。その場合、ログインが必要なページが見られないなどの支障が生じます。
アクセス解析サービスのほとんどは JavaScript を使っています。よって JavaScript をオフにすれば、ある程度は情報収集を拒むことができます。
ただし、JavaScript を使うウェブページは多く、これをオフにすれば正しく表示されない・一部の機能が正しく動かないことがあります。
参考(順不同)
- ログファイル – Apache HTTP サーバ
- Cookie | Firefox ヘルプ
- 「Webからの脅威」を攻略せよ――セッション管理編 – 第1回 まずは「クッキー」を理解すべし:ITpro
- CSS によるブラウザ履歴の漏えいを防ぐ取り組み | Mozilla Developer Street (modest)
- ユーザー エージェント文字列を理解する – MSDN
- RFC 2616 – Hypertext Transfer Protocol — HTTP/1.1