「machine learning based」の異常性とGoogle Books Ngram Viewer

前書き

英語で文章を書こうとしたとき,例えば修飾語に困ることがありますよね?

最近はやりの機械学習だとしたら,「機械学習に基づくアプローチ」を英語に直そうとしたときに,
・machine learning based approach
・machine-learning-based approach
・machine-learning based approach
・machine learning-based approach

どれが適切か分かりますか?こういうシチュエーションの時に役に立つのがGoogle Books Ngram Viewerです。

実際に使ってみる

ここに示すのが実際に上の4つのパターンに対してGoogle Ngram Viewerを使ってみた図です。

上の入力欄に調べたい単語や表現をコンマ区切りで入力します。入力欄の下の青くなっている部分は検索する期間と言語を選択する箇所です。今回はデフォルトの設定のまま表示していますが,今回の場合は1980年からにしてもよさそうです。

さて,このグラフは選択した期間内の書籍のコーパスに単語(表現)が出現した割合を示しています。

When you enter phrases into the Google Books Ngram Viewer, it displays a graph showing how those phrases have occurred in a corpus of books (e.g., "British English", "English Fiction", "French") over the selected years.

What does the Ngram Viewer do?

コーパスとは以下のような意味です。

コーパス: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞統語構造など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]コンピュータ利用が進み、電子化データとして提供されている[2]

Wikipedia「コーパス」

つまり,期間内に出版された書籍のうち,電子化データとして利用できるものを利用しているようです。

さて,もう一度先ほどの図(見やすいように1980年から2019年へと拡大)をみてみましょう。

このグラフから,最も多く使われている表現はハイフンなしの「machine learning based」であることが分かります。次いで,「machine learning-based」が良く使われており,他の2表現はあまり使われていないことが分かります。

machine learning basedの異常性

さて,英文において名詞前の形容詞が複数の語からなる場合,それら複数の語をハイフンで適切につないで誤解を避けるという手法があります。こちらのwebサイトではこのような場合の原則についてまとめています。

1. 基本ルール(1)~(6)

(1) 一般的に、名詞の前に形容詞句を配置する場合、読み手に誤解を与えないように、形容詞句をハイフンでつなぐ。
例: dog-eat-dog competition

以下のように、ハイフンなしの場合とハイフンありの場合とでは大きな違いがある。
small animal hospital
small-animal hospital

(2) 形容詞句のなかに複数の語からなる名詞句が含まれる場合、名詞句全体をハイフンでつなぐ。
例: time-clock-punching employees

コラム特許翻訳:ハイフン~名詞前の形容詞句をハイフンでつなぐ際の基本ルール~

この原則に従う場合,特に(2)からすべてにハイフンを付ける「machine-learning-based」が名詞句として適切であることが分かります。

一方,Ngram Viewerからは実際の英語圏において,特に「machine learning based」という名詞句に関しては原則に従わない「machine learning based」または「machine learning-based」が主流であることが分かります。

このような場合があるために,原則とは別にNgram Viewerで調べる必要があるわけです。

後書き

本当はNgram Viewerの使い方についてもう少し掘り下げる予定でしたが,「machine learning based」の奇妙さからは逃れられませんでした。

次回はちゃんと使い方を調べて載せたいと思います。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です