アノテーションとは、画像やテキスト、音声などのデータに対して説明を入れる「タグ付け」のことで、AIが正しくデータを理解し機械学習させるための重要な作業です。AI開発をより効率的に進めたい企業にとって欠かせないサービスでもあります。
理想的なアノテーションを実現するには、自社が開発するAIの用途・目的に応じたサービスを提供してくれるかどうかを確認しましょう。ここでは「画像・動画(物体抽出など)」「音声(音声認識など)」「テキスト(集計・分析など)」という3つの用途に分け、アノテーションサービスを分類しました。
アノテーション代行サービス
画像・動画の
アノテーションなら
音声の
アノテーションなら
テキストの
アノテーションなら
Datatang
強み
AIデータサービス会社として多彩なアノテーション済みのデータを提供。画像3,500万枚分という世界屈指の画像データ量を保持
Lionbridge AI
強み
感情分析や合成音声の検証にも対応可能。また、300言語のネイティブ話者がおり、多言語のAI向け機械学習データを提供可能
PASONA JOBHUB
強み
音声データ収集・作成、音声アノテーション、音声書き起こしに対応。全国のクラウドワーカーが大量データを処理
Datatang
強み
45カ国のリソースパートナーや150万人のクラウドソーサを保有。音声データは41,000時間分あり
ANNOTEQ
強み
手書き文字などアノテーションの土台となるデータ収集に対尾。100万人以上のクラウドワーカーの手で実際の写真データを収集できる
FastLabel
強み
クラウド型のアノテーションツール。「固有表現抽出」「分類」「ペア分類」に対応
MLFlow
強み
テキストと動画像に対応するアノテーション代行サービス。アノテーションした教師データは、依頼者がWeb UIから随時確認可能
アノテーション代行サービスの一覧表
会社名 | サービスの特徴 |
---|---|
TASUKI Annotation |
ソフトバンク内のAI開発経験を元に構築!精度の高いアノテーション代行サービス
|
矢崎の画像アノテーションサービス |
低解像度・対象物が多い画像など、複雑で難易度の高いアノテーションに対応
|
Datatang |
世界トップクラスのシェア!AI学習データのサービスプロバイダー |
ANNOTEQ |
圧倒的な作業スピードを実現するクラウドソーシングネットワーク |
Lionbridge AI |
300言語のネイティブ話者による多言語のAI向け機械学習データが作成可能 |
harBest |
画像・動画・音声などのアノテーションデータをWebで簡単に発注できる会社 |
diNextion(ディネクション) |
ディープラーニングに必要な画像教師データの作成に対応可能 |
AI Dataアノテーションサービス |
自社開発アノテーションツールを活用した低コストのサービスを提供 |
CTE |
AIに必要なデータ作成・整理・加工業務の請負が可能 |
MLFlow(エムエルフロー)アノテーション |
依頼者側でのデータ精査は不要!大量のデータ群から必要なシーンを抽出 |
HUMAN SCIENCE |
クラウドソーシングなし!高セキュリティをポリシーとしたアノテーション代行サービス |
Lancers |
全国のフリーランスを活用した低コストアノテーションなら |
BAOBAB |
世界各国のパートナーを通じて多言語の音声データ収集や翻訳に対応 |
PASONA JOBHUB |
大量データを処理できるクラウドワーカーを活用したアノテーション代行 |
nextremer |
独自手法で高品質な訓練データを高速かつ安定的に供給 |
FLOW |
専門チームで最適なデータ処理戦略を提供 |
Global Walkers |
作成したデータセットをもとにしたAIモデルの開発まで対応 |
アイアールアルト |
人間の行動情報を動画から抽出するなど、細かな要望にも対抗可能 |
Fastlabel |
手書き文字など、アノテーションの土台となるデータ収集が得意分野 |
adish |
接雇用のSV・アノテーターによる迅速な対応 |
AOSデータ |
目的に合わせて選べる2つのアノテーションサービスを提供 |
アノテーションとは?
アノテーション(annotation)とは、「注釈」を意味する単語です。AI開発におけるアノテーションは、AIに指示するためのデータに説明を入れる作業を指します。
AIは、データを見ただけではそれが何なのかを理解できません。画像や音声などのデータに「これは人間の女性の画像」「これは猫の鳴き声」などと記入して教育する必要があります。 この説明書きは、「ラベル」や「注釈」とも言われ、こうした説明を挿入する作業がアノテーションです。
AIは知識量が多いほど精度の高いAIに育ちます。つまり、たくさんアノテーションすれば、優れたAIになるということです。
どんどんデータを流し込みたくなりますが、ここには人間の作業量の限界という壁が立ちはだかります。アノテーションは、ほぼ人間の手作業です。AIの目的は人間と同じ判断ができること。
人間の目で見たときの判断をAIに教えるには、実際に人間が目視判断しながらラベルを付けていく必要があります。
もちろん人を雇って作業させることも可能です。多くの人手でたくさんのデータにラベル付けすれば、AIの知識量は増えていきます。
しかし、作業した人の作業精度がそのままAIの精度に反映してしまうのがアノテーションの悩みどころです。
しかも作業者は誰でもいいというわけではありません。単に量だけをさばくならすぐに雇えるアルバイトの人などにお願いする選択肢も出てきますが、業績に直結するAI教育において量だけをクリアする選択肢は悪手と言えます。
アノテーションの知識がある人に依頼することで、期待する効果を得られるのです。
画像アノテーションサービスとは?
画像アノテーションサービスは、画像データにラベルやメタデータを付加することで、AIとコンピュータビジョン(CV)技術の発展を支える基礎作業です。 このプロセスにより、AIは画像内の特定の特徴やオブジェクトを認識し学習する能力を獲得します。
人間が経験から学ぶように、AIも多くの画像を通して物の識別や分類を学びます。 画像アノテーションは、医療から金融、小売業に至るまで幅広い分野で利用されており、がん細胞の特定、ATMでの顔認識による本人確認、棚管理や顧客分析など、様々な応用事例が存在します。 これにより、AIモデルの精度向上とデータ処理の効率化が図られ、テクノロジーの発展に大きく貢献しています。 画像アノテーションサービスは、AIがより正確に世界を理解し、私たちの生活を豊かにするための重要なステップとして位置づけられています。
画像アノテーションサービスの事例
衛星画像のアノテーション
~複雑で難易度の高い衛星画像のアノテーションも高い評価~ 納品データは他社のベンダーと比較しても、トップレベルの品質でした。 こちらの手数をあまりかけずに、いいアノテーションデータを作成いただいたところが一番大きいところですね。
アノテーションの種類
アノテーションには主に、「画像分類」「物体検出」「領域検出」「キーポイント」「音声データ」「文章(テキスト)」の6つの種類があります。以下の項目でそれぞれ詳しく紹介いたします。
画像分類
画像をカテゴリー別に分類し、画像が何のカテゴリーに属するかを注釈付きで示します。ここで重要なのは、画像ごとに注釈を付与すること。たとえば、馬の画像1枚に対して、「これは馬です」という1つの注釈を付けます。このように、単純に画像を見てどのカテゴリーに分類されるかを判断するのが画像分類のアノテーション作業です。
物体検出
物体検出におけるアノテーションは、「バウンディングボックス」と呼ばれる矩形領域で画像の対象物を囲み、それぞれのカテゴリーに対して注釈を付与する作業です。画像分類では、単に画像が何であるかを示すだけでしたが、物体検出では画像内の「どこに何が存在するか」までをアノテーションに付与していきます。また、画像内に複数の対象物がある場合でも、それぞれのカテゴリーを判別することが可能です。
領域検出
領域検出は、画像内の各ピクセルをカテゴリー別に分類する機械学習技術です。この手法では、人間や馬、芝生などの領域ごとに色を塗るようにして、各ピクセルをカテゴリーに分けていきます。
ピクセル単位での判別を行うため、高い精度が求められますが、その一方でアノテーション作業には時間がかかるという特徴もあります。
キーポイント
キーポイントアノテーションは、画像内の対象物を線で捉え、各カテゴリーごとに「キーポイント」と呼ばれる線分を用いてアノテーションを行います。
これまでの画像分類やセグメンテーションでは、対象物を領域として判別していましたが、キーポイントアノテーションでは、線で対象物を捉えることにより、表情の認識やポーズによる姿勢制御など、より細かな特徴を判別することが可能です。
音声データ
音声データのアノテーションでは、音声を文章に書き起こし、各単語に対して意味を付与していく作業が行われます。主に音声認識の領域で使用され、コールセンターの会話や議事録など、さまざまな場面で有効に活用されています。
文章(テキスト)
大量の文章に対してもアノテーションを行うことができます。AIや機械学習の目的に応じて、「重要な文章である」という情報を付与したり、「不要な文章である」と判定したりすることができます。これにより、AIが「目的に合致する文章」を判別することが可能になります。
同様に「不要な文章」を特定して取り除くこともできます。
アノテーションの需要が高まっている理由
近年、アノテーションの需要が益々高まっていますが、その理由として、大きく2つの社会的背景があります。
ビックデータの活用
ビッグデータとは、さまざまな種類と性質を持った巨大なデータ群です。このような膨大なデータをビジネスに活用するには、教師データの元となるデータの整理が必要不可欠。
誤ったデータの登録や、データ分類の困難化が予想されるため、正確に整理する方法が求められます。アノテーションを行えば、個々のデータが「何のデータなのか」タグ付けできるため、効率的にデータを整理することができます。
このような利便性もあり、近年アノテーションの需要が益々高まっています。
AIによる機械学習の加速化
近年、データ分析などでAIを活用するケースが増えています。AIがデータの特徴や法則性を発見するには、タグ付けされた教師データを取り込む必要があります。
正確にタグ付けされなければ、データを正しく学習することができません。つまり、アノテーションは、AIの機械学習にとって必要な要素でもあるため、無くてはならないものなのです。
アノテーションを行うことで得られるメリット
データにアノテーションを行うと、どのようなメリットが得られるのでしょうか?まずは、画像認識、動画認識、音声認識などの精度が飛躍的に向上します。事前にAIに「これは人間だ」という情報を提供することで、認識のタスクを開始することができます。
また、アノテーションの数が増えるほど、AIの精度も向上するため、できるだけ多くの教師データ情報をアノテーションで付与することが重要です。
アノテーションの実施方法
アノテーションの方法は、注釈やラベルなどの「ヘッダー」を見つけ、そこに説明を入力してきます。
もし、現在使用しているAIツールにアノテーションの機能がない場合、アノテーションを付与できるツールやアノテーションライブラリを探す必要があります。
もしCSVで表を作成している場合は、注釈やラベルの欄を追加して入力する方法もあります。
AI化する際には、注釈やラベル欄がアノテーションであることを明示することで、AIがアノテーションを認識できるようになります。
アノテーションは非常に複雑ですが、同時に重要な作業でもあります。自社の優秀な社員に任せたいと思っても、人的リソースを割くことが難しい場合もあります。
そこで頼れるのが、アノテーション作業を専門に請け負ってくれるアノテーション代行サービスです。アノテーション代行サービスは、AIに対してデータのラベル付けを行う専門のサービス。
専門業者であれば、アノテーションの知識と経験が豊富なので、安心して任せることができます。
アノテーション代行サービスの外注費用相場
アノテーション代行サービスは、依頼する内容によって価格が変動するため、ほとんどの代行会社が費用を公開していません。
見積もりを取って確認するしかありませんが、その見積もりが相場と比較してどうなのかは気になるところでしょう。アノテーション費用の内訳は、
- 品質水準
- プロジェクト管理
- 業務委託費
で構成されています。品質水準は、データの品質担保のためにどのような取り組みをしているかによって価格が変わります。
例えばシングルチェックの場合、一人のアノテーターが教師データを作成して品質を確認するため、価格は安いですが品質が安定しません。
ダブルチェックで一人がデータ作成、もう一人が品質の確認をすれば、高品質が期待できます。ただし、2人でひとつのデータを仕上げることになるため価格は高いです。
複数のアノテーターが多数決で品質を決める場合、価格は最も高く、品質は安定します。プロジェクト管理費は、アノテーション業務を管理するための費用です。アノテーターの研修コストも含まれます。
アノテーション業務をプラットフォームで提供しているサービスも多くなりました。アノテーション業務の管理を依頼者自ら管理できます。このようなプラットフォームでのアノテーションなら、プロジェクト管理費は発生しません。
業務委託費は、人件費です。対象データの種類によって、作業時間などが異なるため料金も変動します。教師データとなるデータ枚数が増えるとボリュームディスカウントを適用してくれる会社が多いです。
これを踏まえて、アノテーション費用の相場は以下を目安にしてみてください。
- 画像:分類・矩形10円/多角形25円/線10円/キーポイント5円/セグメンテーション100円
- 動画:矩形10円~
- テキスト:1文章140文字程度30円~
- ドキュメント:1文字0.4円~2円
- 音声:ケバ取り120円/分~、文字起こし250円/分~、整文350円/分~
アノテーション代行サービスに関するよくある質問
Q1.アノテーション作業とは?
AIに学習させるデータに対し言葉によるタグ付けを行うことで、意味や分類に関する情報を付与する作業のこと。物体検出の場合は、物体が写っている領域をボックスで囲み、その物体が何であるのかを表す言葉をタグ付けしていきます・アノテーション作業によるデータのタグ付けは、AIの制度の大きく関わるものであり、高品質なものが求められます。
Q2.アノテーションの課題とは?
アノテーションには通常、膨大な数のデータに対するタグ付けが必要になります。そのため、人的リソースの確保やコア業務に時間をさけないなどの課題が発生します。また、 AIの予測精度を高めるためには、高品質な教師データを作成する必要があります。
アノテーション代行サービスまとめ
AIの教師データを作成するため、データに注釈を付与するアノテーション。「画像分類」「物体検出(バウンディングボックス)」「領域検出(セグメンテーション)」「キーポイント」「文字起こし」「文章(テキスト)」などの種類があり、その作業は膨大です。知識がなければ品質の良い教師データを作成できません。アノテーション作業に悩みがあるなら、代行サービスの利用がおすすめです。
アノテーション代行サービスを提供している会社は多いため、迷ってしまうかもしれませんが、この記事で紹介した内容をぜひ参考にしていただいて、自社に合ったサービスを選択してください。