Webマーケティング

【Googleアナリティクス上級編】知ってたら使える”正規表現”ガイド

GoogleアナリティクスやGoogleタグマネージャーなど、Webマーケティングに不可欠なツールを使いこなすのに、知っていると非常に便利なのが、正規表現と呼ばれるもの。

Googleアナリティクスを使っているとき、「正規表現一致」のような選択肢を見たことがある方も多いでしょう。
しかし、正規表現とは何なのかよくわからず、調べてみてもなんだか難しくて使っていない……という方はかなり多いのではないでしょうか。

実際、正規表現をマスターするのは難しいですが、知っておくと便利な一部の正規表現だけに絞って覚えれば、そう難しいものではありませんし、使える場面も多いものです。
今回は、GoogleアナリティクスやGoogleタグマネージャーで使える便利な正規表現の一部について解説していきます。

Googleアナリティクスで使える正規表現とは

正規表現とは、「メタ文字」と呼ばれる特定の記号を使うことで、簡単に言うと「複雑な条件を指定してそれに合った文字列を検索できる」ものです。
Googleアナリティクスや、Googleタグマネージャー、Googleスプレッドシートなど、Googleのツールはほぼ全て正規表現に対応しています。

では、正規表現が使えるとどんな便利なことができるのか?と言いますと、最もよく活用される例は、「特定の規則で作られている複数のURLを全て抽出する」といった使い方でしょう。
ウェブサイトの構成にもよりますが、ページのURLは何らかの規則に沿って作られていることが多く、しかもページによってURLは異なるため、先頭一致や部分一致だけでは、検索するのにも限界があります。
しかし、正規表現を使えば、メタ文字の組み合わせによって複雑な条件を指定することができるため、欲しいURLだけを一度に抽出するということが可能になるのです。
これは、Googleアナリティクスだけでなく、GoogleタグマネージャーやGoogleスプレッドシートでも同様で、正規表現を覚えることで、文字列の検索の自由度が大きくアップします。

これを聞くだけでも、正規表現を使ってみたいという気持ちになってきませんか?
次節からは、実際に正規表現を使う方法について解説します。

Googleアナリティクスで正規表現を使う方法

正規表現は、Googleアナリティクスのほとんどすべてのレポートで使うことができます。
今回は、上記で説明したようなURLの検索をやってみるため、「行動」→「サイトコンテンツ」→「すべてのページ」レポートで正規表現を使ってみましょう。
「すべてのページ」レポートに限らず、Googleアナリティクスのレポートには検索機能が備わっていますが、その検索欄の右に、「アドバンス」と書いてあるのをクリックすることで、より複雑な条件で検索を行うことができます。

Googleアナリティクスでセグメントを切る「アドバンス」という機能では「含む」や「完全一致」の他に「正規表現一致」がある。この機能を使えば、参照元や閲覧ページなど、自身が欲しいデータに限ってセグメントを作ることができる。

ここで、デフォルトでは「含む」となっているボタンをクリックすると、条件の指定として「正規表現一致」というものが選択できるようになります。
この「正規表現一致」を選択し、検索する文字列としてメタ文字を使用することで、正規表現を利用した検索が行えます。
これ以外のやり方で正規表現を使おうとしても、メタ文字が正規表現として機能せず、そのままの記号として検索されてしまいますので、ご注意ください。

Grabでも使っている正規表現の具体例

よく使われる正規表現を紹介する前に、実際の設定例をいくつか紹介して何ができるのかをイメージしましょう。
正規表現についてほとんど何も知らなければ、これから見せる設定が何なのか全くわからないと思います。しかし、一つ一つの意味や使い方を紹介していくので、最後まで読んだ時には自分で使えるようになるはずです。

こちらはGoogleアナリティクスのカスタムセグメントの設定です。特定のカテゴリのランディングページでアクセスやユーザー行動を見たいということは多いと思います。
Grabであれば「Webマーケティング(/marketing/)」が主力なページなので、そこがランディングページになった場合の行動は価値のあるデータです。
しかし、単純に「ランディングページ」「含む」「/marketing/」とすると、例えば「/seo/marketing/(SEOカテゴリのマーケティング記事)」も含まれてしまいます。

後で紹介しますが、上図で使われている「^/marketing/」の「^」には、「^の次の文字列で始まる」という意味があります。なのでこの場合、ドメイン直下のディレクトリが「/marketing/」となっている場合のみというセグメントになります。

こちらはGrabで使っているGoogleタグマネージャーのトリガーの一つです。読了率という記事がどれだけ読まれているかを測るためのものなので、記事ページ以外では計測する必要がありません。

設定を見てみると、「Page URL」「正規表現に一致しない」「https://mag.ibis.gs/$|https://mag.ibis.gs/contact/$|https://mag.ibis.gs/category/$|https://mag.ibis.gs/tag/$」となっています。

直接記事ページのURLを指定してもいいのですが、記事は更新ごとにどんどん増え続けます。そんな時は、記事ページ以外を除外したほうが効率的でしょう
使っている正規表現は「|」「$」の2つです。それぞれ後で説明しますが、「|」はor条件を指定するもので、「$」で前の文字列が末尾であることを示しています。
つまり、「https://mag.ibis.gs/$|https://mag.ibis.gs/contact/$」は、「https://mag.ibis.gs/」または「https://mag.ibis.gs/contact/」のページで、「https://mag.ibis.gs/category」や「https://mag.ibis.gs/contact/thanks」などは含まないという設定になります。

このように、正規表現を使えば自身のサイトにあった最適なセグメントを作ったり、本当に欲しいデータだけ見たりすることができます。

よく使う正規表現の意味と使い方

Googleアナリティクスで正規表現を使った検索をする方法がわかったところで、具体的に正規表現で検索をするのによく使われるメタ文字の意味と使い方について解説していきます。
慣れるまでは難しいかもしれませんが、どれも使う機会が多く、便利なものばかりですので、実践を繰り返して少しずつ覚えていきましょう。

正規表現の便利なメタ文字①:OR検索を行う記号「|」

数ある正規表現の中でも最も簡単でかつ使いどころも多いのが「|」の記号です。一般的なキーボードであれば、Shift+「\」で入力できます。
これは、「OR検索」を表すメタ文字です。

「ABC|DEF」と入力した場合、「ABC」と「DEF」がヒットします。
カッコと組み合わせることで部分的にOR条件を作り出すこともでき、「AAB」と「AAC」の2つをヒットさせたい場合は、「AA(B|C)」と入力することで、(B|C)の部分が「BまたはC」を表すことになり、狙い通りの検索が可能になります。
Googleアナリティクスでの実用例としては、参照元レポートの中で、GoogleとYahooからの流入だけ見たいという場合は、「google|yahoo」と入力すれば、GoogleとYahooの2つだけがヒットするので、簡単ながら大変便利な正規表現です。

正規表現の便利なメタ文字②:先頭一致の記号「^」

「^」は、特定の文字列が先頭にある文字列を検索するための記号です。
「^ABC」と入力すると、「ABC」「ABCD」「ABCDE」などがヒットします。「AB」「AABC」はヒットしないので注意が必要です。

正規表現の便利なメタ文字③:末尾一致の記号「$」

「$」は、特定の文字列が末尾にある文字列を検索するための記号です。
「$DEF」と入力すると、「CBDEF」「BCDEF」「ABCDEF」などがヒットします。「EF」「DEFG」はヒットしないので注意が必要です。
「^」と「$」はページ数の多いサイトで、ページを区切るときによく使います。データの精度を上げるためには必須の知識なので覚えておきましょう。

正規表現の便利なメタ文字④:任意の一文字を表す記号「.」

「.」は、任意の一文字にヒットする、大変汎用性の高い記号です。
「任意の一文字」というのは、文字でも数字でも記号でもなんでもよいという意味なので、「AB.」と入力すると、「ABC」「ABD」「AB1」「AB@」など、「.」の部分にどんな一文字が当てはまってもヒットします。
しかし、これ単体で使われることは少なく、後述する「*」とセットで使われることの方が多いです。

正規表現の便利なメタ文字⑤:直前の文字の0回以上の繰り返し「*」

「*」は、直前の文字の0回以上の繰り返しを表します。
なんだかいまいち掴みにくい説明ですが、具体的には、「ABC*」と入力すると、「AB」「ABC」「ABCC」「ABCCCCCCCC」などがヒットします。
これも、単体で使われることは少なく、前述の「.」と組み合わせて「.*」の形で使われることが大半です。
「.*」は、「任意の一文字の繰り返し」を表す正規表現です。
「*」によって、直前の「.」が0回以上繰り返されますが、「.」には何が入ってもいいので、結果として「あらゆる文字列」がヒットする正規表現になります。
エクセルでは、「*」はワイルドカードと呼ばれ、任意の文字列にヒットする表現になりますが、正規表現の「.*」はそれとほぼ同じです。

正規表現の便利なメタ文字⑥:正規表現ではないことを表す「\(バックスラッシュ)」

「\(バックスラッシュ)」は、エスケープ文字と呼ばれる、正規表現のメタ文字の中でも特殊な記号です。
エスケープ文字とは、直後の文字が「正規表現ではない」ことを示すための記号です。
正規表現を使ってURLを検索するとき、URLの中に「.」などが含まれると、正規表現のメタ文字として扱われてしまいます。
これを、「\.」と表記することで、「.」が正規表現のメタ文字ではないことを表します。
あるいは、記号ではなく特定のアルファベットと組み合わせることで、そのアルファベットが文字列ではなく正規表現であることを表す、という逆の使い方もできます。
具体的には、「\d」と表記すると任意の1桁の数字、「\D」と表記すると数字以外の任意の一文字を表します。
ブログなどのサイトでは、記事を公開した日付がそのままURLに入っていることがありますが、例えば「2019/06/30」のような日付にヒットさせるには、「\d\d\d\d/\d\d/\d\d」と入力します。
同じ記号の繰り返しで読みづらいですが、使いどころも多く便利な正規表現です。

知ってたら使える”正規表現”ガイドまとめ

Googleアナリティクスなどで活用できる、便利な正規表現について、簡単で使いどころの多いものに絞って解説してきました。
実際に正規表現を使う際は、これらのメタ文字を組み合わせて使う場合がほとんどで、思い通りの条件を指定するための組み合わせを考えるのは慣れるまではなかなか根気のいることですが、少しずつでも使っていればだんだん慣れてくるので、ほんの少しだけでも使ってみるようにしましょう。
正規表現をマスターすれば、Googleアナリティクスなどのツールをさらに便利に使いこなすことができるはずです。