SERVICE 03

LLM学習データ前処理

大規模言語モデル(LLM)の性能を最大化するための
高品質な学習データの構築をアウトソーシングでお引き受けします。

サービス概要

生成AIの急速な発展に伴い、LLMの学習に使用するデータの品質がモデル性能を大きく左右する時代になりました。 当社では、データの収集・クリーニングから匿名化・アノテーションまで、学習データの前処理工程をワンストップでお引き受けします。 お客様はモデル開発に集中し、データ準備の負担を大幅に軽減できます。

データ匿名化

個人情報保護法やGDPR等の規制に準拠した適切な匿名化処理を行います。 氏名、住所、電話番号などの個人識別情報(PII)を検出・除去・置換し、プライバシーを保護しながら学習に有用なデータを維持します。

PII検出・除去

自動検出ツール+人手確認のハイブリッド方式

仮名化・k-匿名化

データの有用性を維持した匿名化手法を適用

コンプライアンス対応

個人情報保護法・GDPR等の法規制に準拠

アノテーション

LLMのファインチューニングやRLHF(人間のフィードバックによる強化学習)に必要な高品質なアノテーションデータを作成します。 専門知識を持つアノテーターチームが、一貫した品質基準でラベリングを行います。

  • テキスト分類・感情分析ラベリング
  • 固有表現抽出(NER)タグ付け
  • 質問応答ペアの作成・品質評価
  • RLHF向けランキング・比較データ作成
  • マルチモーダル(画像+テキスト)アノテーション

CPT用コーパス収集・クリーニング・前処理

継続事前学習(Continual Pre-Training)に必要な大規模コーパスの収集からクリーニング、前処理までを一貫して対応します。 ドメイン特化型LLMの構築に不可欠な高品質コーパスをご用意します。

コーパス収集

WEBクローリング、公開データセット活用、ドメイン固有文書の収集など、目的に応じた大規模テキストデータを収集します。

クリーニング・重複排除

ノイズ除去、HTML/ボイラープレート除去、重複検出(MinHash等)、言語フィルタリングを実施します。

品質フィルタリング

テキスト品質スコアリング、有害コンテンツフィルタ、ドメイン適合度評価により、高品質データのみを選別します。

トークナイズ・前処理

モデルアーキテクチャに適したフォーマットへの変換、トークナイゼーション、シャード分割を行います。

合成データ生成

実データだけでは不足するケースや、プライバシーの観点から実データが使えないケースに対応するため、 高品質な合成(Synthetic)データを生成します。

合成データの活用シーン

データ拡張(Data Augmentation)

少量の実データをベースに多様なバリエーションを自動生成し、学習データ量を増幅します。

指示チューニングデータ

指示・応答ペアのバリエーションを大量生成し、InstructionTuningの品質を向上させます。

エッジケース生成

実データでは稀なケースを意図的に生成し、モデルのロバスト性を高めます。

プライバシー保護データ

個人情報を含むデータを合成データで代替し、安全にモデル学習を実施できます。

LLM学習データについてご相談ください

データの種類・規模・納期に合わせて柔軟に対応いたします。

お問い合わせ