データクレンジング(名寄せ)完全ガイド
重複データを排除する方法
「同じ企業に2回も3回も営業電話をかけてしまった」。名寄せ(データクレンジング)を怠ると、このようなクレームの原因になります。本記事では、データクレンジングの基本概念から、法人番号・URL・電話番号を使った照合手順、Excelでの実践方法、自動ツールの活用、データ鮮度維持のルールまで徹底解説します。
この記事の結論
データクレンジング(名寄せ)は営業リストの品質を維持する最重要プロセスです。重複排除・表記ゆれ統一・鮮度管理を定期的に実施することで、営業効率の低下を防ぎ、リストの資産価値を最大化できます。
この記事の目次
1. データクレンジング(名寄せ)とは何か2. 名寄せしないと何が起きるのか:4つのリスク3. 名寄せの具体的な手順:4つの照合キー4. Excelでできる名寄せテクニック5. 自動ツールによるデータクレンジング6. データ鮮度を維持する運用ルール7. クレンジング品質チェックリスト8. まとめ:クリーンなデータが営業成果を生む1 データクレンジング(名寄せ)とは何か
データクレンジングとは、データベース内の不正確・不完全・重複・陳腐化したデータを検出し、修正・統合・削除するプロセスです。営業リストの文脈では、特に名寄せ(Data Deduplication)が重要で、同一企業の重複レコードを統合する作業を指します。
データ品質の実態
15-25%
一般的な営業リストの重複率
30%
6ヶ月で陳腐化するデータの割合
年12%
企業の廃業・移転・合併による変動率
なぜ同一企業が重複するのか
重複が発生する主な原因は以下の通りです。
- 社名表記の揺れ -- 「株式会社ABC」「(株)ABC」「ABC株式会社」「ABC(株)」が同一企業
- 複数ソースからの統合 -- 展示会リスト、購入リスト、自社収集リストに同じ企業が存在
- 移転・改称 -- 住所変更前後のデータが別レコードとして存在
- グループ会社の混同 -- 本社と支社、親会社と子会社が別々にカウント
2 名寄せしないと何が起きるのか:4つのリスク
「たかが重複データ」と軽視すると、営業活動に深刻な悪影響を及ぼします。
リスク1:クレーム・信頼低下
同一企業に複数回の営業アプローチ(電話・メール・フォーム)をしてしまい、「何度もしつこい」というクレームに発展。企業ブランドの信頼を損なう。
リスク2:KPIが不正確になる
1,000件のリストに200件の重複があれば、実質800件。アポ率やROIの計算がすべて狂い、正確な営業戦略が立てられません。
リスク3:営業リソースの浪費
重複企業にアプローチする時間は100%の無駄。仮に1件の電話に3分かけるとして、200件の重複で10時間の無駄が発生します。
リスク4:CRMデータの汚染
重複データがCRMに流入すると、顧客管理が混乱。同一企業の商談履歴が分散し、正確な顧客理解ができなくなります。
データクレンジングは「やったほうがいい」ではなく「やらなければ損をする」作業。営業リストの品質管理は、営業チームの基本動作として定着させるべき。
3 名寄せの具体的な手順:4つの照合キー
名寄せは以下の4つの照合キーを順番に使用して行います。上から順に信頼度が高い方法です。
- 1法人番号での照合(信頼度:最高)
国税庁が付与する13桁の法人番号は、法人ごとに一意。完全一致で同一企業と判定できる最も確実な照合キー。国税庁の法人番号公表サイトから無料で取得可能。 - 2WebサイトURL(ドメイン)での照合(信頼度:高)
ドメインが同一であれば同一企業と判定。「https://www.abc.co.jp」と「http://abc.co.jp」はプロトコル・wwwを正規化して比較。サブドメインの扱いに注意。 - 3電話番号での照合(信頼度:中〜高)
代表電話番号が一致すれば同一企業の可能性が高い。ただし、テナントビル共有番号や代理店番号の場合は誤判定リスクあり。ハイフン有無の正規化が必要。 - 4住所+社名の類似度スコアリング(信頼度:中)
完全一致でなくても、類似度スコア(Levenshtein距離等)が閾値以上なら統合候補に。「株式会社ABC」と「(株)ABC」のような表記揺れを検出。手動確認と組み合わせて使用。
| 照合キー | 信頼度 | 対応できる重複パターン | 注意点 |
|---|---|---|---|
| 法人番号 | 最高 | すべての法人 | 個人事業主には付与されない |
| ドメイン | 高 | Webサイトを持つ企業 | サブドメイン・リダイレクトに注意 |
| 電話番号 | 中〜高 | 電話番号がある企業 | 共有番号による誤判定リスク |
| 住所+社名 | 中 | 表記揺れ・移転企業 | 手動確認が必要。自動判定だけでは不十分 |
4 Excelでできる名寄せテクニック
専用ツールがなくても、Excelで基本的な名寄せは可能です。小規模なリスト(数千件程度)であれば十分実用的です。
手順1:社名の正規化
- 「株式会社」「(株)」「(株)」をすべて統一表記に変換(SUBSTITUTE関数)
- 全角・半角を統一(ASC関数・JIS関数)
- 前後の空白を除去(TRIM関数)
手順2:電話番号の正規化
- ハイフン「-」を除去して数字のみにする
- 先頭の「0」が消えていないか確認(セル書式を文字列に)
手順3:重複チェック
- COUNTIF関数で正規化後の社名・電話番号の重複をカウント
- 条件付き書式で重複セルをハイライト
- VLOOKUP / XLOOKUPで複数列を突合し、重複候補を一覧化
手順4:統合ルールの決定
- 重複レコードのうち、最も情報が充実しているレコードをマスターとして残す
- 他のレコードの固有情報(別の電話番号・担当者名等)はマスターに統合
- 重複レコードは削除ではなく「非表示」にして、後から検証できるようにする
Excel名寄せの限界:1万件を超えるリストでは処理速度が極端に低下し、人的ミスのリスクも増大します。大規模リストには自動ツールの導入を推奨します。
5 自動ツールによるデータクレンジング
数万件以上のリストを扱う場合や、定期的なクレンジングが必要な場合は、自動ツールの導入が不可欠です。
| 方法 | 対応規模 | コスト | 精度 | 所要時間 |
|---|---|---|---|---|
| Excel手動 | 〜数千件 | 無料(人件費) | 担当者に依存 | 数時間〜数日 |
| CRM内蔵機能 | CRM内データのみ | CRM費用に含む | 中程度 | 数分 |
| 専用クレンジングツール | 数十万件以上 | 月額制 | 高い | 数分 |
| AIリストツール(ListGene) | 制限なし | 3円/件 | AI自動処理 | リスト生成時に自動完了 |
ListGeneの名寄せ対応:ListGeneで生成するリストは、570,000社超のデータベース内で法人番号ベースの名寄せが完了済み。重複のないクリーンなリストがそのまま手に入ります。
6 データ鮮度を維持する運用ルール
クレンジングは一度やれば終わりではありません。データは常に劣化するため、鮮度を維持する仕組みが必要です。
定期クレンジングのスケジュール
| 頻度 | 実施内容 | 対象 |
|---|---|---|
| 毎日 | アプローチ結果の反映(不通・配信停止・クレーム) | 当日のアプローチ対象リスト |
| 毎週 | NGリスト(既存顧客・競合)の更新 | 全営業リスト |
| 毎月 | 新規取得リストとの名寄せ・統合 | 新規リスト + 既存リスト |
| 四半期 | 全リストの網羅的クレンジング | 全データベース |
データ鮮度を保つ5つのルール
- 6ヶ月以上未更新のデータは自動フラグ -- 再検証の対象として明示
- 不通番号は即座に無効化 -- 2回連続不通で無効フラグを立てる
- 配信停止依頼は即日反映 -- 法律遵守の観点からも必須
- リスト取得元と取得日を必ず記録 -- データの出自を追跡可能にする
- 年次で全リストの棚卸し -- 1年以上使われていないリストはアーカイブ
7 クレンジング品質チェックリスト
自社のデータクレンジングが十分かどうか、以下のチェックリストで確認してください。
- 法人番号ベースの名寄せを実施しているか
法人番号が最も確実な照合キー。未実施ならまず法人番号の付与から始める。 - 社名の正規化ルールが統一されているか
「株式会社」の位置、全角・半角、空白の処理ルールを明文化。 - 重複率は5%以下に維持されているか
定期的に重複率を測定。5%を超えたらクレンジングを実施。 - データ鮮度(6ヶ月以内更新率)は85%以上か
古いデータはバウンス・不通の原因。四半期ごとに鮮度チェック。 - NGリスト(配信停止・クレーム企業)の照合は毎回実施しているか
アプローチ前に必ずNGリストとの照合を行う仕組みがあるか。 - クレンジングの実施記録(ログ)を残しているか
いつ・誰が・何件クレンジングしたかの記録。品質管理の基盤。
リスト作成の基本から学びたい方は、営業リストの作り方完全ガイドをご覧ください。
クリーンなデータが利益に与える影響は、営業リストのROI最大化戦略をご覧ください。
8 まとめ:クリーンなデータが営業成果を生む
データクレンジングは地味な作業ですが、営業成果の根幹を支える最重要プロセスです。汚れたデータの上に、どんな優れた営業戦略を載せても成果は出ません。
この記事のポイント
- 名寄せは「クレーム防止」「KPI正確化」「リソース最適化」のために必須
- 照合キーは法人番号→ドメイン→電話番号→住所+社名の順に信頼度が高い
- Excelでの名寄せは数千件まで。大規模リストには自動ツールが不可欠
- データ鮮度は日次〜四半期の定期メンテナンスで維持する
- 重複率5%以下、データ鮮度85%以上を品質基準として管理
- ListGeneなら名寄せ完了済みのクリーンなリストがそのまま手に入る
