SERVICE 03
LLM学習データ前処理
大規模言語モデル(LLM)の性能を最大化するための
高品質な学習データの構築をアウトソーシングでお引き受けします。
サービス概要
生成AIの急速な発展に伴い、LLMの学習に使用するデータの品質がモデル性能を大きく左右する時代になりました。 当社では、データの収集・クリーニングから匿名化・アノテーションまで、学習データの前処理工程をワンストップでお引き受けします。 お客様はモデル開発に集中し、データ準備の負担を大幅に軽減できます。
データ匿名化
個人情報保護法やGDPR等の規制に準拠した適切な匿名化処理を行います。 氏名、住所、電話番号などの個人識別情報(PII)を検出・除去・置換し、プライバシーを保護しながら学習に有用なデータを維持します。
PII検出・除去
自動検出ツール+人手確認のハイブリッド方式
仮名化・k-匿名化
データの有用性を維持した匿名化手法を適用
コンプライアンス対応
個人情報保護法・GDPR等の法規制に準拠
アノテーション
LLMのファインチューニングやRLHF(人間のフィードバックによる強化学習)に必要な高品質なアノテーションデータを作成します。 専門知識を持つアノテーターチームが、一貫した品質基準でラベリングを行います。
- ✓テキスト分類・感情分析ラベリング
- ✓固有表現抽出(NER)タグ付け
- ✓質問応答ペアの作成・品質評価
- ✓RLHF向けランキング・比較データ作成
- ✓マルチモーダル(画像+テキスト)アノテーション
CPT用コーパス収集・クリーニング・前処理
継続事前学習(Continual Pre-Training)に必要な大規模コーパスの収集からクリーニング、前処理までを一貫して対応します。 ドメイン特化型LLMの構築に不可欠な高品質コーパスをご用意します。
コーパス収集
WEBクローリング、公開データセット活用、ドメイン固有文書の収集など、目的に応じた大規模テキストデータを収集します。
クリーニング・重複排除
ノイズ除去、HTML/ボイラープレート除去、重複検出(MinHash等)、言語フィルタリングを実施します。
品質フィルタリング
テキスト品質スコアリング、有害コンテンツフィルタ、ドメイン適合度評価により、高品質データのみを選別します。
トークナイズ・前処理
モデルアーキテクチャに適したフォーマットへの変換、トークナイゼーション、シャード分割を行います。
合成データ生成
実データだけでは不足するケースや、プライバシーの観点から実データが使えないケースに対応するため、 高品質な合成(Synthetic)データを生成します。
合成データの活用シーン
データ拡張(Data Augmentation)
少量の実データをベースに多様なバリエーションを自動生成し、学習データ量を増幅します。
指示チューニングデータ
指示・応答ペアのバリエーションを大量生成し、InstructionTuningの品質を向上させます。
エッジケース生成
実データでは稀なケースを意図的に生成し、モデルのロバスト性を高めます。
プライバシー保護データ
個人情報を含むデータを合成データで代替し、安全にモデル学習を実施できます。