マンガサイト観測 002

マンガサイトにある 51717 タイトルの出版社情報を並べてみる。

imdex

f:id:kuroca:20210621025637j:plain
51717タイトル

違法と思われるオンラインリーディング型サイトのマンガ Thank(仮称)から現時点で抽出された 51717 のタイトル情報を国会図書館 NDL ( National Diet Library ) サーチに問い合わせて書籍データを得る。

Rf. API仕様の概要 « 国立国会図書館サーチについて https://iss.ndl.go.jp/information/api/riyou/

マンガサイト観測 001 で解説したように ISBN ではなく、サイト内で独自に割り振られたタイトルと著者名らしき文字列の情報から、タイトル名と著者名を抜き出して、NDL ( National Diet Library ) サーチの API を使いデータ照会できるように、仕様に合わせたクエリをつくり HTTPS でリクエストする。

つまり、 ISBN はわからないので、タイトルから ISBN をわりだすということが可能な API を使うということになる。 このような場合、国会図書館サーチか amazonAPI かの選択になるが、今回は制限のほぼなさそうな国会図書館サーチを選ぶ。国立国会図書館サーチの使用法は仕様公開ページをよく読んでもどこか説明が足りないので、実際に使えるサンプルを探して試行錯誤する方がよいと思う。

kuroca.hatenablog.com

マンガ Thank(仮称)のコンテンツのタイトルは独自につけられている為、というより何者かによってコンテンツ(スキャンされたマンガの画像のこと)がアップロードされた時点でメタ情報が入力されているので、そのメタ情報入力の際に明らかにタイトルの英単語のつづりを間違っているなどの場合がある。

これを間違ったそのままでクエリにして、 NDL サーチから正しい情報が引き出せないケースがあるが、現時点では、それは修正せずに間違っていようがタイトルからタイトルらしきものを文字列抽出し、著書名らしきものを文字列抽出してクエリに組み込むプログラムを作った。(つまり照会結果が無い場合、なんらかの特徴が見られることが期待できる。)

この結果を新たにデータベースに書き込んでいくが、データベースのテーブルはこのようになっている。マンガサイト観察 001 で用意した tbl_manga とは別に分けている。これは、 tbl_manga から読みだしたデータを使って、 NDL サーチにクエリをリクエストして得た情報を tbl_bookdata に書き込むということになる。

なぜデータベースを使うのか? コンテンツの数量が多いからである。 50000 を超えて、さらにあとそれの 10% 前後はまだデータ未取得で、さらには日々増えているので、一気に全データを取得...とは考えずに継続的に改良を加えながらデータをとっていく。

kuroca.hatenablog.com

tbl_ bookdata
    id INTEGER PRIMARY KEY,
    book_title text,
    url text,
    author text,
    creatortranscription text,
    volume text,
    seriestitle text,
    publisher text,
    isbn text,
    mangathank_title text,
    ex_id integer

このデータベースのテーブル tbl_bookdata に書き込まれたものから、 id, seriestitle, publisher, url を抽出したものはこうなる。

"1","null","null","null"
"2","null","null","null"
"3","null","null","null"
"4","null","null","null"
"5","null","Sony Music Labels","https://iss.ndl.go.jp/books/R100000002-I027014370-00"
"49738","null","Sony Music Labels","https://iss.ndl.go.jp/books/R100000002-I027014370-00"
"6","null","Sony Music Labels","https://iss.ndl.go.jp/books/R100000002-I027014370-00"
"7","null","null","null"
"8","null","null","null"
"9","null","null","null"
"10","null","null","null"
"11","null","null","null"
"12","null","アスキー・メディアワークス,KADOKAWA","https://iss.ndl.go.jp/books/R100000002-I024687562-00"
"13","null","アスキー・メディアワークス,KADOKAWA","https://iss.ndl.go.jp/books/R100000002-I024687572-00"
"14","null","null","null"
"15","null","null","null"
"16","null","null","null"
"17","null","null","null"
"18","null","null","null"
"19","null","null","null"
"20","null","null","null"
"21","null","null","null"
"22","null","平凡社","https://iss.ndl.go.jp/books/R100000002-I027189887-00"
"23","null","平凡社","https://iss.ndl.go.jp/books/R100000002-I028029779-00"
"24","null","平凡社","https://iss.ndl.go.jp/books/R100000002-I000011141069-00"
"25","null","平凡社","https://iss.ndl.go.jp/books/R100000002-I023371158-00"
"26","null","平凡社","https://iss.ndl.go.jp/books/R100000002-I024193406-00"
"27","null","平凡社","https://iss.ndl.go.jp/books/R100000002-I025336987-00"
"28","null","null","null"
"29","角川コミックス・エース ; KCA500-1","KADOKAWA","https://iss.ndl.go.jp/books/R100000002-I026685661-00"
"30","角川コミックス・エース ; KCA500-2","KADOKAWA","https://iss.ndl.go.jp/books/R100000002-I027116764-00"
"31","YOUNG ANIMAL COMICS","白泉社","https://iss.ndl.go.jp/books/R100000002-I030414985-00"
"32","YOUNG ANIMAL COMICS","白泉社","https://iss.ndl.go.jp/books/R100000002-I030704315-00"
"33","YOUNG ANIMAL COMICS","白泉社","https://iss.ndl.go.jp/books/R100000002-I031233553-00"
.
.
.
.
.
.

コンテンツのタイトルのみで著者の情報がミッシングしている場合は、国会図書館 NDL サーチでは必ずしも正しい照会結果になるとは限らない。 例としては、上の囲みで"Sony Music Labels"となっている 3 行は、明らかに正しくない結果だが、照会結果がゼロではなく、見当違いのものにクエリがマッチしたということになる。

上の囲みので id, seriestitle, publisher, url という並びで 1 行になっている。 id はカウントアップされいく整数で、このデータベースでは 51717 行あるので 1~51717 まである。データベーステーブル tbl_bookdata で ex_id という整数のコラムを用意したが、ここへは tbl_manga の id の値が入る。ex_id も 1~51717 まである。ということは、tbl_bookdatatbl_manga を内部結合に使うこともできる。

seriestitle, publisher については NDL サーチの結果のデータとして用意されているものだ。 seriestitle が連載誌名で publisher がその出版社名に当てはまる。これらはない場合もあるので、その場合は値は空になる。 tbl_bookdata においての url は、国会図書館サーチの結果の web ページの URL が値として入る。 tbl_manga においての url とは異なっていて、tbl_manga の url はマンガ Thank (仮称)のそれぞれのコンテンツの URL が収まっているので関連はあるが別のものを指している。 tbl_bookdata の url はマンガ Thank (仮称)のコンテンツはこの書誌であるという補足になっている関係になる。

また、国会図書館 NDL サーチでは、ことば(キーワード)の揺れにたいして特に寛容というわけでもない(が、アクセスの回数や頻度については明確な制限が提示されていないけれどもとても寛容である)ので、ことばがマッチせずに探し出せないケースが多々ある。 独自に付けられた識別のことばが含まれたまま NDL サーチにクエリが送られた場合、マッチせずに結果が無い状態になりnullで置き換えられる。

なるべくキーワードが NDL のデータベース上のものと一致するように、予め NDL 内での書籍データを確認して(何度かテストして失敗したもののクエリ内容と、手動で検索して発見される書籍データをよく見比べて)、違法漫画サイトで付与されているコンテンツタイトルを正規表現で NDL 内でのデータの収まり方に寄せて照会のリクエストのクエリを組むようにする。

コンテンツのタイトル

[田河水泡] のらくろ 漫画集 文庫版 第1巻

コンテンツのタイトルから正規表現を使って、必要のない文字列を除去しタイトルと著者に分け NDL サーチにリクエストするクエリに組み込まれる。 のらくろ 漫画集 1 田河水泡

のらくろ漫画集 (講談社): 1975|書誌詳細|国立国会図書館サーチ

出版社データ

以上のことを踏まえて、必ずしも正確ではない、コンテンツにたいして著作権を保持している可能性のある出版社の羅列。

"null"
"Sony Music Labels"
"アスキー・メディアワークス,KADOKAWA"
"平凡社"
"KADOKAWA"
"白泉社"
"徳間書店"
"Cygames,講談社"
"集英社"
"マッグガーデン"
"角川書店,角川グループパブリッシング"
"講談社"
"少年画報社"
"角川書店"
"ヒーローズ,小学館クリエイティブ"
"アスキー・メディアワークス,角川グループパブリッシング"
"光文社"
"メディアワークス,角川書店"
"スクウェア・エニックス"
"角川書店(発売),バンダイビジュアル (販売)"
"EGMONT MANGA & ANIME"
"エイベックス・エンタテインメント,エイベックス・マーケティング"
"新書館"
"バンダイビジュアル"
"オーバーラップ"
"秋田書店"
"一迅社"
"ホビージャパン"
"キルタイムコミュニケーション"
"マーベラスAQL,ポニーキャニオン"
"一迅社,講談社"
"アース・スターエンターテイメント,泰文堂"
"アース・スターエンターテイメント"
"Kadokawa"
"KADOKAWA"
"角川書店,KADOKAWA"
"ハーレクイン"
"日本文芸社"
"星海社,講談社"
"リイド社"
"集英社クリエイティブ,集英社"
"芳文社"
"双葉社"
"小学館"
"バンダイナムコアーツ"
"幻冬舎コミックス,幻冬舎(発売)"
"TBS,ポニーキャニオン"
"秋水社,大都社"
"ジェネオン・ユニバーサル・エンターテイメント"
"角川書店,角川グループホールディングス"
"ブシロード,KADOKAWA"
"富士見書房,角川グループパブリッシング"
"久保書店"
"マイクロマガジン社"
"朝日ソノラマ"
"朝日新聞社,朝日新聞出版"
"朝日新聞出版"
"創美社,集英社"
"幻冬舎コミックス,幻冬舎"
"アスキー・メディアワークス,Kadokawa"
"TYPE-MOON,Kadokawa"
"TYPE-MOON,KADOKAWA"
"アイプロダクション,祥伝社"
"ぶんか社"
"TOブックス"
"メディアファクトリー"
"SBクリエイティブ"
"角川グループパブリッシング"
"アニプレックス"
"PHP研究所"
"イースト・プレス"
"竹書房"
"一二三書房"
"コミックス,講談社 (共同刊行・発売)"
"宙出版"
"アスキー・メディアワークス,角川グループパブリッシング(発売)"
"アスキー・メディアワークス,角川グループパブリッシング (発売)"
"新潮社"
"アルファポリス,星雲社"
"エイベックス・ピクチャーズ"
"小学館,ジェネオン・ユニバーサル・エンターテイメント"
"Tonkam"
"ジーオーティー"
"Jパブリッシング"
"ラポート"
"中央公論社"
"祥伝社"
"ワニブックス"
"アスキー・メディアワークス,角川グループホールディングス"
"キングレコード"
"ノース・スターズ・ピクチャーズ,徳間書店"
"リブレ"
"スーパー・ビジョン,ポリドール映像販売"
"ノース・スターズ・ピクチャーズ,竹書房"
"マガジンハウス"
"フジテレビ映像企画部,ポニーキャニオン"
"ジェネオンエンタテインメント"
"主婦の友社"
"NBCユニバーサル・エンターテイメント"
"サード・ライン・ネクスト,星雲社 (発売)"
"ぺんぎん書房"
"宝島社"
"マーベラスエンターテイメント,ポニーキャニオン"
"みなみ出版,星雲社"
"ホーム社"
"青磁ビブロス"
"ジャイブ"
"学習研究社"
"コロムビアミュージックエンタテインメント"
"ビブロス"
"ハーパーコリンズ・ジャパン"
"アルファポリス,星雲社 (発売)"
"SG企画"
"ワーナー・ブラザース・ホームエンターテイメント"
"ハピネット"
"主婦と生活社"
"ホーム社,集英社(発売)"
"ホーム社,集英社"
"学研プラス"
"講談社,コミックス"
"虫プロ商事"
"TBS,日本コロムビア"
"フォーラムエイトパブリッシング,フォーラムエイト (発売)"
"文禄堂"
"愛媛県教育会"
"労働教育センター"
"NHN comico,双葉社"
"スターツ出版"
"エンターブレイン,角川グループパブリッシング"
"ラジオ大阪"
"ポニーキャニオン"
"GRINP"
"Kodansha,ポニーキャニオン"
"実業之日本社"
"南海出版公司"
"秋田書店,白泉社"
"白泉社,集英社 (発売)"
"あおば出版"
"中央公論新社"
"フロンティアワークス"
"小池書院"
"大都社"
"小学館,メディアファクトリー"
"東映ビデオ"
"太田出版"
"東宝"
"フロンティアワークス,KADOKAWA"
"ジュリアンパブリッシング"
"星海社,講談社 (発売)"
"ブライト出版"
"オークラ出版"
"誠文堂新光社"
"角川書店,角川グループパブリッシング (発売)"
"富士見書房,角川グループホールディングス"
"フレックスコミックス,ソフトバンククリエイティブ"
"SBクリエイティブ"
"バップ"
"G-NOVELS,誠文堂新光社"
"NHN Comico,双葉社"
"LINE,日販アイ・ピー・エス"
"LINE Digital Frontier,日販アイ・ピー・エス"
"サンリオ"
""
"ネクストF,ジャイブ"
"三交社"
"自称清純派"
"フレックスコミックス"
"ポッポ焼き屋"
"彗星社,星雲社"
"HSU出版会,幸福の科学出版"
"松竹"
"フジテレビ,東宝"
"エンターブレイン,角川グループホールディングス"
"リブレ出版"
"フレックスコミックス,ほるぷ出版"
"飛鳥新社"
"LDH pictures,バップ"
"Avex Pictures"
"ソフトバンククリエイティブ"
"「インベスターZ」製作委員会,バップ"
"大和書房"
"湖南美术出版社"
"冬水社"
"エンターブレイン,KADOKAWA"
"インデックス・コミュニケーションズ"
"モール・オブ・ティーヴィー"
"幻冬舎"
"テレビ東京,ポニーキャニオン"
"新紀元社"
"コアマガジン"
"サンタスティック・エンタテイメント"
"NBCユニバーサル・エンターテイメント,エイベックス・ピクチャーズ"
"Viz Media"
"フジテレビジョン,ポニーキャニオン"
"ワニマガジン社"
"朝日新聞社"
"オレンジページ"
"文藝春秋"
"コミックス,講談社"
"富士見書房,KADOKAWA"
"M'sワールド,GPミュージアムソフト"
"山と溪谷社"
"「嬢王3~Special Edition~」製作委員会,東宝"
"エンターブレイン"
"林檎プロモーション"
"[八木戸マト]"
"「Claymore」製作委員会,エイベックス・マーケティング"
"トゥーマックス,エイベックス"
"トゥーマックス,エイベックス・ディストリビューション"
"トゥーマックス,avex distribution"
"エンターブレイン,角川グループパブリッシング (発売)"
"ソニー・マガジンズ"
"ロングランドジェイ,ジーウォーク"
"ハーレクイン・エンタープライズ日本支社"
"早川書房"
"スタジオDNA"
"エニックス"
"KADOKAWAメディアファクトリー"
"エイベックス・マーケティング"
"河出書房新社"
"ワンツーマガジン社"
"コアミックス"
"小学館クリエイティブ,小学館"
"メディアワークス,主婦の友社"
"メディアワークス"
"松竹映像商品部"
"東映ビデオ,東映"
"ベストフィールド"
"日本評論社"
"Ariola Japan"
"リンダパブリッシャーズ,徳間書店"
"ひばり書房"
"ワーナー・ブラザースホームエンターテイメント"
"OKAWA-Verlag"
"OKAWA-VERLAGS GMBH"
"สยามอินเตอร์คอมิกส์"
"東芝エンタテインメント,ジェネオンエンタテインメント"
"偕成社"
"マーベラスエンターテインメント,松竹ビデオ事業室"
"Nozomi entertainment : Right Stuf"
"云南人民出版社"
"민음사"
"Gantz Partners,松竹ビデオ事業室"
"日本放送出版協会"
"スタジオ・シップ"
"近代映画社"
"小学館,コロムビアミュージックエンタテインメント"
"宝塚クリエイティブアーツ"
"AKS"
"台灣東販"
"ヒーローズ,小学館クリエイティブ (発売)"
"創美社"
"スコラ"
"テレビ朝日,ポニーキャニオン"
"マーベラスエンターテイメント,メディアファクトリー"
"ネクストF,ジャイブ (発売)"
"ギャガ"
"フリュー,エイベックス・ピクチャーズ"
"ABCライツビジネス,ポニーキャニオン"
"[集英社]"
"Bbmfマガジン"
"青泉社"
"潮出版社"
"白泉社,集英社"
"筑摩書房"
"フジテレビジョン"
"幻冬舎コミックス,幻冬舎 (発売)"
"ビズコミュニケーションズジャパン"
"メディアワークス,角川グループパブリッシング"
"一賽舎"
"フロンティアワークス,NBCユニバーサル・エンターテイメント"
"一賽舎,スタジオDNA"
"講談社コミッククリエイト,講談社"
"ブッキング"
"ブシロードメディア,KADOKAWA"
"Carlsen"
"茜新社"
"メディアワークス,角川書店,角川グループパブリッシング"
"ラクセント,フロンティアワークス"
"小学館クリエイティブ,小学館 (発売)"
"[斎創@さいそう。]"
"マーベラスエンターテイメント,エイベックス・マーケティング・コミュニケーションズ"
"ビクターエンタテインメント"
"大陸書房"
"モーターマガジン社"
"扶桑社"
"時鐘舎,北國新聞社"
"Gzブレイン,KADOKAWA"
"KADOKAWA Game Linkage,KADOKAWA"
"KADOKAWA Game Linkage,KADOKAWA (発売)"
"JICC出版局"
"エイベックス,Avex Distribution"
"バードランドミュージックエンタテインメント (発売),アドニス・スクウェア (販売)"
"フロンティアワークス,KADOKAWAメディアファクトリー"
"富士見書房"
"「新米姉妹のふたりごはん」製作委員会,ポニーキャニオン"
"「怨み屋本舗reboot」製作委員会,東宝"
"デジタルサイト,ジェネオンエンタテインメント"
"ハーレクイン,洋販"
"東芝エンタテインメント,ポニーキャニオン"
"小学館,ジェネオンエンタテインメント"
"ユニバーサル・ピクチャーズ・ジャパン,ジェネオンエンタテインメント"
"ミューズ・プランニング,エイベックス・マーケティング"
"集英社クリエイティブ"
"関西テレビ放送,ポニーキャニオン"
"ひかりのくに"
"東映アニメーション,ジェネオン・エンタテインメント"
"ネルケプランニング"
"東映アニメーション,東映"
"日本コロムビア"
"二見書房"
"講談社 : 講談社コミッククリエイト"
"学習研究社,少年画報社"
"Tokyopop"
"ベストセラーズ"
"岩崎書店"
"小学館,エイベックス・マーケティング・コミュニケーションズ"
"小学館,エイベックス・マーケティング"
"笠倉出版社"
"外道高校野球部,東宝"
"マーベラスエンターテイメント,キングレコード"
"ハーヴェスト出版,星雲社"
"プランタン出版,フランス書院"
"宙出版,主婦と生活社"
"エスピーオー"
"白泉社,ジェネオンエンタテインメント"
"Glénat"
"Planet Manga : Panini Comics"
"Pika édition"
"小学館,ポニーキャニオン"
"フジテレビジョン,よしもとミュージック"
"青林堂"
"富士見書房,角川書店"
"ジェネオン・エンタテインメント"
"GDH"
"NHKソフトウェア,ジェネオンエンタテインメント"
"若木書房"
"エンジェル出版"
"松文館"
"テレビ東京,バップ"
"comico,双葉社"
"日本映像,フルメディア"
"VERTICAL"
"宙出版,主婦の友社"
"サード・ライン・ネクスト,星雲社"
"インテルフィン"
"ポプラ社"
"秋水社,双葉社"
"シンエイ動画,バンダイビジュアル"
"楽楽出版"
"メディエイション,廣済堂出版"
"金の星社"
"ランティス,キングレコード"
"メイド様!プロジェクト,ジェネオン・ユニバーサル・エンターテイメント"
"藤子不二雄ファンサークルネオ・ユートピア"
"講談社,バンダイビジュアル"
"「新宿セブン」製作委員会,東宝"
"大垣書店"
"DREAMUSIC PUBLISHING,KING RECORDS"
"講談社インターナショナル"
"Funimation Entertainmment"
"アスキー,アスペクト"
"アスキー"
"テレビ朝日,ジェネオンエンタテインメント"
"テレビ東京 (製作),創通映像 (製作),シンエイ動画 (製作),バンダイビジュアル (発売)"
"クロスメディア・パブリッシング,インプレス"
"主婦の友インフォス,主婦の友社"
"ミリオン出版,大洋図書"
"SQUARE ENIX"
"姉妹社"
"ランティス,バンダイビジュアル"
"VIZ Media,LLC"
"長春出版社"
"ゴマブックス"
"三栄書房"
"Bbmfマガジン,グリーンアロー出版社"
"テレビ東京,エイベックス・ピクチャーズ"
"東京漫画社"
"シンエイ動画"
"コスミック出版"
"キングレコード,ポニーキャニオン"
"小学館,エイベックス・ディストリビューション"
"GDH,ビクターエンタテインメント"
"国書刊行会"
"NHKエンタープライズ"
"小学館クリエイティブ"
"フェアベル"

"青林堂"が含まれている。青林工藝舎は含まれていない。

著者データ

マンガ家の方のチェック用に CVS で Author (著者)と Publisher (出版社)のデータのみ確認できるファイル。

author_publisher.csv https://we.tl/t-PqxkKZBuDJ

これはつまり、ここに名前があれば、あなたの著作が、おそらく無断で掲載されているので、あなたは当事者ですからテイクダウンする対策をこうじてくださいね、ということで候。