月別ボイチェビ動画数算出基準
1ヶ月の間にニコニコ動画に投稿されるボイチェビ動画の数を求めるために用いている方法を記しておきます
【方法】
ニコニコ超検索様にて、ボイチェビ動画につけられると想定されるタグをORで繋いだタグ群を用いて調査を行なっています
【音楽ジャンルの対応】
上記タグにはたとえば「結月ゆかり」が含まれており、これはボーカロイド動画にもタグがついているものもあるため、一律で音楽ジャンルは除外して、別途歌うボイスロイド系のタグを追加しています
【タグ群の最大値の取り方】
タグ群は検索でエラーとならない上限ギリギリまで設定しています
現段階で上記音楽ジャンルを指定した上でエラーとならない63個のタグを用いています
ニコニコ超検索様の検索上限の仕組みがわかっていないのですが、タグ群の文字バイト数としてだいたい1160前後が上限となっているようですので、この近辺でタグを一つ増やしたり減らしたりしながら一番タグを多く含めるタグ群を調査しています
【タグ群内タグの決定】
タグ群に含めるタグの決め方は、ボイチェビ動画に用いられるタグごとに調査日の直近の6ヶ月に動画につけられた数を調査し、その数が多い順につなげています(あまり動画数の変動がない場合は、過去の調査内容をそのまま採用)
以下の項目ごとにそれぞれ上限10までのタグをニコニコ動画の検索で確認しています
・ソフトウェア名(例:VOICEROID、CeVIO、VOICEVOXなど9のソフトウェア 20221222現在)
・キャラクター名(例:結月ゆかり、ずんだもん、琴葉茜など83のキャラクター 20221222現在)
・「ソフトウェアトーク」(音声合成トークソフト(ゆっくり以外)が用いられる動画に用いられることがあるタグ)
過去6ヶ月で1回以上動画につけられたタグ数は351タグとなっています
タグ別延べ動画数(重複してタグがついた動画も別と扱った数字)としては全体249,511動画に対し、調査に用いるタグ群内63タグで212,856動画と85.3%を網羅できている計算となります
実際は動画ごとにボイチェビ動画と判別できるタグが複数登録されることが多いですので、網羅率はもっと高くなります
例:ソフトウェアトーク劇場(202212現在検索対象)、フリモメン(202212現在対象外)の2つのタグがついた動画がある場合、ボイチェビ動画として判別されるため
この網羅率は別途データを抜き取って調査する予定です
また、タグ群に含めるタグは定期的に見直しをかけていく予定です
【検討したタグ群の組み立て方と比較】
タグ群に動画数の多いタグを含めていく際、どのような形式が良いか以下の3パターンの検討をしました
①ソフトウェア名+「ソフトウェアトーク」のみを対象とする
メリットとしてキャラクターによる偏りが少ない、管理手間がかからないことが挙げられるためまず検討したのですが、デメリットとして他に比べ検索結果動画数が少ないため、不採用となりました
②単純に使用数の多いタグを優先したタグ群
③文字バイト数あたり使用量が多いタグを優先したタグ群
②と③についてはどちらがより多くの動画を検索できるか、という比較を行いました
③は、たとえば「VOICEROID実況プレイ」であれば検索文字が19バイト32,867動画(1バイトあたり1,730動画)、「琴葉茜」であれば検索文字が6バイト4,939動画(1バイトあたり823動画)となります
この1バイトあたりの動画数が多い順にタグを並べるというものです
結果としては②の方が取得できる動画数が若干多くなりましたのでそちらを採用しております
【今後の展開】
ニコニコAPI情報を用いて、一定期間のデータを抜き取って集計できればそれが一番正確だと思います
プログラミングの学習が必要ですので、今後の課題としております