AI翻訳で商品タイトルを一括処理すると、ブランド名や型番が勝手に書き換わる事故が起きます。「Sony」が「ソニー」になるだけならまだマシで、「iPhone 15 Pro」が「アイフォン15プロ」に変わると、その商品は検索にヒットしなくなります。この記事では、翻訳禁止語リストの作り方、翻訳前のマーキング手法、翻訳後の自動検出と人間による確認手順を具体的に整理します。
ブランド名が壊れる典型的なパターン
AI翻訳は「意味を別の言語に置き換える」のが仕事なので、固有名詞をそのまま残す気はありません。実際に見かけた事故例をいくつか挙げます。
| 元の表記 | 翻訳結果 | 何が起きたか |
|---|---|---|
| Sony WH-1000XM5 | ソニー WH-1000XM5 | ブランド名がカタカナ化。日本国内では「ソニー」でも通じるが、海外向けタイトルでは検索性が下がる |
| iPhone 15 Pro Max 256GB | アイフォン15プロマックス 256GB | 商品名全体がカタカナ化。Google検索でもAmazon検索でもヒットしない |
| ThinkPad X1 Carbon Gen 11 | シンクパッド X1 カーボン 第11世代 | 型番の「Carbon」「Gen 11」まで翻訳されている |
| NIKE Air Max 90 | ナイキ エアマックス 90 | ブランド名と製品名の両方が日本語化 |
| SKU: ABC-12345-XY | SKU: ABC-12345-XY(変化なし) | SKUは英数字のみなので翻訳されないことが多いが、前後のテキストにくっついて消えるケースがある |
一番厄介なのは「意味は通じるが、検索で引っかからなくなる」というパターンです。翻訳結果をぱっと見て違和感がなくても、売上に直結するダメージが出ます。
翻訳禁止語リスト(Do-Not-Translate リスト)を作る
事故を防ぐ一番確実な方法は、翻訳エンジンに「これだけは触るな」と明示することです。翻訳禁止語リストの作り方を具体的に説明します。
リストに含めるべきもの
- ブランド名:自社ブランド、取り扱いブランドすべて。「Apple」「Samsung」「Bose」「Dyson」など
- 製品シリーズ名:「Galaxy S」「Surface Pro」「PlayStation」など、ブランドの一部として機能する名称
- 型番・モデル番号:「WH-1000XM5」「X1 Carbon Gen 11」「RTX 4070」など
- SKU・JANコード:商品識別子は一切翻訳しない
- 技術用語(製品仕様に関わるもの):「Wi-Fi 6E」「Bluetooth 5.3」「USB-C」「4K UHD」など規格名
- 容量・サイズの単位:「256GB」「1TB」「15.6インチ」は翻訳せずそのまま
リストのメンテナンス
新商品が入荷するたびにブランド名や型番が増えます。リストは「作って終わり」ではなく、商品マスタと同期させる運用が必要です。具体的には、月次で商品マスタの新規ブランド・新規型番を抽出してリストに追記する手順を決めておきます。
翻訳エンジンへの適用方法
使っている翻訳ツールによって設定方法が違います。
- DeepL API:XMLタグで保護対象をマークアップ。例:
<keep>iPhone 15 Pro</keep> - Google Cloud Translation:用語集(Glossary)機能で翻訳禁止語を登録
- Amazon Translate:カスタム用語(Custom Terminology)で保護語を定義
- 自社AIモデル:プロンプトの system instruction に禁止語リストを埋め込む
どのツールでも「事前にマークアップ → 翻訳実行 → 事後検証」の三段構えが基本です。事前マークアップだけで100%防げる保証はないので、翻訳後の検証は必須です。
翻訳前のマーキング手順
商品タイトルがCSVで管理されている場合、翻訳前に自動でマーキングをかけるスクリプトを組むのが現実的です。手順の例を示します。
- 商品タイトルCSVを読み込む
- 禁止語リストと照合し、該当部分をマークアップタグで囲む
例:「<keep>iPhone 15 Pro</keep> ケース クリア」 - マークアップ済みCSVを翻訳APIに投入
- 翻訳結果からマークアップタグを除去
- 翻訳前後のdiffを自動取得(次節の自動検出へ)
マーキングの漏れを防ぐため、ステップ2で「リストにない未知の固有名詞らしき文字列」も抽出できるとさらに安全です。大文字連続(「CPU」「GPU」など)や、ハイフン区切りの英数字(「ABC-123」パターン)は正規表現で自動抽出できます。
翻訳後の自動検出と人間確認の分担
翻訳結果の検証は、自動でできることと人間が判断すべきことを明確に分けます。全件を目視で確認するのは現実的ではありませんが、自動検出だけで済ませるのも危険です。以下の表に整理します。
| 確認対象 | 自動検出 | 人間確認 | 注意点 |
|---|---|---|---|
| ブランド名の変更有無 | ◎ 禁止語リストとの照合で自動判定 | △ 新ブランドは未知のため人間が要確認 | リスト未登録のブランドは自動検出をすり抜ける |
| 型番・モデル番号の整合性 | ◎ 正規表現で英数字パターンの変化を検出 | ○ ハイフン位置やスペースの増減は文脈判断が必要 | 「X1 Carbon」と「X1Carbon」は同じだが「X1カーボン」は別物 |
| SKU・JANコードの保持 | ◎ 前後の文字列比較で完全一致チェック | - 自動で十分 | SKUが前後の文に飲み込まれて消えるケースに注意 |
| 技術用語の保持 | ○ 登録済み用語集との照合 | ◎ 規格名の微妙な表記揺れは人間判断が必要 | 「Wi-Fi 6E」と「WiFi 6E」は同じだが「Wi-Fi 6」は別規格 |
| 市場固有の名称慣習 | × 自動判定は困難 | ◎ 対象市場の言語感覚を持つ人間が必須 | 日本市場では「iPhone」をカタカナ表記にしないが、中国市場では「苹果」が正式表記の場合がある |
| タイトル全体の自然さ | △ 文字数・記号比率で異常値は検出可能 | ◎ 意味の通じやすさは人間しか判定できない | 翻訳禁止語の周辺だけ不自然に英語が残ることがある |
「◎」はその方法でほぼ確実に検出できる項目、「○」は補助的に使える、「△」は限定的、「×」は実質不可能です。
自動検出の具体的な仕組み
翻訳前後のタイトルを1行ずつ比較するスクリプトを組んでおきます。以下のチェックを自動実行します。
- 禁止語の消失チェック:翻訳後に禁止語リストの単語が含まれているか確認。消えていたらアラート
- 英数字パターンの変化チェック:「[A-Z]{2,}[-d]+」などのパターンが翻訳前後で一致するか確認
- 文字数の急増・急減チェック:翻訳後に文字数が極端に増減している行を抽出
- 文字種の混入チェック:日本語タイトルに想定外の文字種(中国語漢字など)が混入していないか確認
これらのチェックを通過した行は「自動検出OK」としてフラグを立て、アラートが出た行だけを人間が確認する仕組みにします。数百件のタイトルがあれば、アラートが出るのは通常10〜30件程度です。
人間が確認すべきこと
自動検出でアラートが出なかった行でも、以下の観点でサンプリング確認をしておきます。
- ブランド名の正確性:大文字小文字、スペースの有無が元の通りか。「PlayStation」が「playstation」になっていないか
- 固有名詞の扱い:地名や人名が含まれるタイトルで、それが翻訳されているか確認
- 市場ごとの呼称慣習:同じ商品でも市場によって正式名称が異なるケース。日本では「MacBook」だが中国では「MacBook(麦克布克)」のように併記することもある
- タイトル全体の読みやすさ:禁止語だけ英語が残って、残りが日本語になったタイトルが自然に読めるか
運用チェックリスト
翻訳作業のたびに以下のチェックを回します。
| # | チェック項目 | 担当 |
|---|---|---|
| 1 | 翻訳禁止語リストが最新の商品マスタと同期されているか | 自動 + 月次人間確認 |
| 2 | 新規ブランド・新規型番がリストに追加されているか | 月次確認 |
| 3 | 翻訳前マーキングが全タイトルに適用されているか | 自動 |
| 4 | 翻訳後の自動検出スクリプトがエラーなく完了したか | 自動 |
| 5 | 自動検出アラート行をすべて人間が確認したか | 人間 |
| 6 | 全タイトルの5%以上をサンプリング確認したか | 人間 |
| 7 | 翻訳結果をGoogle Merchant Centerの仕様に照らして問題ないか | 人間 + ツール |
Google Merchant Centerの観点
Google Merchant Centerに商品データを送る場合、タイトルの品質は掲載順位や広告配信に直結します。title 属性について押さえておきたいポイントをまとめます。
- タイトルは150文字まで(ただし表示は最初の70文字程度)。ブランド名は前方に配置するのが推奨
- ブランド名は
brand属性と一致させる:title内のブランド名とbrand属性の表記揺れは警告の対象になる - 見出しのようなタイトルは避ける:「【送料無料】」などの装飾は不要。ブランド名・商品名・属性の順で構成する
- 不必要な翻語・同義語の羅列はNG:同じ意味の単語を複数言語で並べるとポリシー違反になる
AI翻訳で生成したタイトルをそのままMerchant Centerに流し込む前に、これらの条件を満たしているか確認する手順を入れておきます。
まとめ:三段構えでブランド名を守る
AI翻訳でブランド名や型番を壊さないための基本方針は、次の3つの層でガードすることです。
- 事前マーキング:翻訳禁止語リストに基づいて、タイトル内の保護対象をタグで囲んでから翻訳APIに投げる
- 自動検出:翻訳後のタイトルをスクリプトで検査し、禁止語の消失や英数字パターンの変化を自動でアラート
- 人間確認:アラート行とサンプリング抽出した行を人間が確認し、市場固有の名称慣習や自然な読みやすさを最終チェック
この3層構造を回し続けることで、数千件のタイトルを翻訳してもブランド名の事故を限りなくゼロに近づけられます。翻訳禁止語リストのメンテナンスをサボると全てが台無しになるので、ここだけは必ず月次で更新してください。
初回相談では機密CSVやスクリーンショットの送付は不要です。
相談時に用意するとよい情報
- 現在の商品タイトルが含まれるCSV(サンプル数行で構いません)
- 使用中の翻訳ツールまたはAPI(DeepL、Google Translate、自社AIなど)
- 翻訳対象の言語ペア(例:日本語→英語、英語→多言語)
- 商品点数の概数(数十件、数百件、数千件など)
- 過去にブランド名の翻訳事故が起きたことがあるか、その具体例
- Google Merchant Centerへのフィード提出の有無
参考にした公式情報
Merchant Center / 商品フィード まわりの作業整理、小さな自動化、簡易チェックツール化について相談できます。初回相談で機密CSVやスクリーンショットを送る必要はありません。
無料相談する
