1 Night to Laugh with Horimoto RTA記録

ドコーン!!!!

水野( ぽじぬ ) 堀元( べよむて ) 両氏の驚きはそんな表現では足りなかったかもしれない。2023年1月10日発売予定の著書『言語沼 ( けゑげなぼ ) 』に大量の誤植が見つかったのだ。

先んじて入手したメンバーが投稿した誤植の例
先んじて入手したメンバーが投稿した誤植の例。筆者によりトリミングをかけた。

ルビが大量に間違っていたとのことで、ゆる言語学ラジオサポーターコミュニティには実際の写真も投稿されている。投稿された中からいくつかを示そう。
あさ出版が出している正誤表には誤りがあるのでその点はご注意いただきたい。(「ねきべい」と「ゕぽ」がそれぞれ正)

UTF-8( ヤョツァョウビウアテ ) 本居宣長( むてえよぬよとか ) 藤原不比等( びざろょぬびばて ) Discord( ヅァシヶョデ ) Slack( ショチキ ) 、秋田喜美( ゕぽ )

勘の良い読者ならすぐ気付くかもしれないが、記事を開いたときのインパクトを第一に構成して書くべきものを飛ばして始めてしまったので一旦そちらを書かせて欲しい。

3時27分 イントロ

出だしからサビに入ってしまったので中トロかもしれない。いや、サビの下にあるなら酢飯かもしれないという疑念はさておき、この記事はゆる言語学ラジオ非公式 Advent Calendar 2022 24日目の記事であるという紹介と、私はアンジオ点心という者であるという紹介ををまずしなければならない。
昨日のまっきーさんの記事『日の目を見なかったゆる言語学ラジオ関連デザイン案たち〜2022年の活動記録とふりかえり〜』は、趣味でイラレを触る民として是非ともパk…参考にしたいところである。

12月22日の深夜、ゆサD(ゆる言語学ラジオサポーターコミュニティDiscord)の一員である私はいつものようにDiscordを開いていた。すると(翌)午前3時半ごろに水野氏から「『言語沼』に誤植が見つかり、発売が延期になる」との告知があった。YouTubeにご本人らによる説明が投稿されているので、詳細はそちらを参照されたい。

先ほど記したとおり、ゆサDにはこの告知に応じて実際の誤植の写真も上がってきた。つまりこの状況ですべきことは一つである。

3時29分 解読作戦開始

UTF-8( ヤョツァョウビウアテ ) を見た私は、シーザー暗号と似た挙動だと直感した。シーザー暗号とは、アルファベットを「ずらす」ことによる暗号だ。

シーザー暗号の例
シーザー暗号の例。cはaに、dはbに、eはcに…と二つずらしている。

UTF-8( ヤョツァョウビウアテ ) も簡単なものだ。ヤがユに、ツがテに、一つずつずれているのだ。濁点や半濁点、拗音は別に管理されていると推理できる。

UTF-8を解読したい
今回の誤植も一文字ずれと考えれば符合する。

いや、少し待って欲しい。濁点は別々に管理されているのではなかったか。そうすると、「ビ」は「ブ」または「ピ」に復元されるべきであって、「フ」に戻ってくれないのである。我々はアブダクションに失敗したらしい。

悩んでいても進みそうにないので、いったんほかの事例もみてみることにしたい。

本居宣長を解読したい
「むてえよぬよとか」を解読する。

「む」が「も」に対応することに着目すれば、二つずつずれていることがわかる。これが正しいとすると、拗音や濁音を挟むスペースが生まれることになる。
「よ」が「り」に対応することから、拗音のあとに直音が来るらしいこともわかる。これは奇しくもUTF-8と同じ実装だ。

「か」と「が」の間に何かが来るという謎も生まれてしまったが、先ほどのUTF-8( ヤョツァョウビウアテ ) が解決できるので、正しいのであろう。

UTF-8を解読できた
UTF-8も二字ずれだとわかった。

3時54分 残された疑問

しかしながら、私は二つの疑問を抱えていた。

まず、UTF-8やShift_JISなど、よく使われる文字コードでは「か」のすぐ後ろに「が」が来るし、「ョ」の二つ後に「ー」(長音)が来ない。
この二つを満たす文字セット(文字のあつまりと、その並べ方のこと。UTF-8とShift-JISは似て非なる文字セットを使っている。)を見つけることができれば全ての問題が解決したといってよい。

しかしこれがなかなか見つからなかった。ISO-2022-JPや区点コードなど様々なものをあたったが、解決には至らなかった。
長音が半角を用いていると仮定すると「ョ」「ッ」「ー」の順番になっているので符合するが、いまいち納得感がなかった。

4時25分 打開

一度誤植の例に立ち返ってみよう。

UTF-8( ヤョツァョウビウアテ ) 本居宣長( むてえよぬよとか ) 藤原不比等( びざろょぬびばて ) Discord( ヅァシヶョデ ) Slack( ショチキ ) 、秋田喜美( ゕぽ )

お気づきになっただろうか。喜美( ゕぽ ) から「き」の二つ前に「ゕ」があることがわかるのである。

本居宣長を解読できた
「ゕ」と「き」の関係に着目すると、謎が埋まる。ありがとう、秋田喜美氏とゃどかるはるニキ。

5時47分 天啓またはオラクル

解読メンバー(チームを結成していた訳ではないので少し語弊がある)の一人から、Adobe-Japan1という文字セットではないかとの提案があった。

Adobe-Japan1-7(抜粋)
Adobe-Japan1-7の代表字形グリフ一覧から一部抜粋し、横組み用ルビに指定されている領域に色付け・着目すべき文字群にマークアップした。該当ページは26ページである。

なるほど、「か」「ゕ」「が」の順番になっているし、「ョ」「ヮ」「ー」の順番になっている。
思い返してDiscord( ヅァシヶョデ ) Slack( ショチキ ) をみると、「ラ」と「ー」(長音)がともに「ョ」になっているが、一方は横組み用、もう一方は縦組み用の二つの「ョ」が見えていたのだとわかると感動する。

技術的に考えても納得のいく話だ。
DTP(コンピュータ上で行う組版のこと)ではUnicodeに代表される「文字コード」ではなくAdobe-Japan1に代表される「CID」を用いて区別している。これらの関係は、シニフィアンとシニフィエの関係といってよいだろう。

「ツジ」さんが領収書を書いて貰うときに「辻󠄀 様」と書かれて「二点之繞なんです」と伝え、「辻󠄁 様」に書き換えて貰うケースがあるかもしれない。
文字情報を伝えることを目的とする文字コードは「辻󠄀」と「辻󠄁」を同じ漢字として扱い(近年になって一部区別する方法が作られたがそこは目を瞑っていただきたい)、字体情報を伝えることを目的とするCIDでは別の形の漢字として扱っているのだ。

印刷周りでは字の形を区別することが特に重要になるので、CIDで区別することになる。今回化けたのも、横書きの文字に振るルビのためだけに用意された領域である。隣には縦書き用のルビのほかに、圏点(下のようなもの)なども並んでいる。
ちなみに、アイヌ語で「コㇿポックㇽ」などと表記する小書きのラ行も後の方に領域が確保されている。

5時59分 誤植化・復元ツールα版完成

一方の私はというと、先ほどの問題には目を瞑ってUTF-8を前提に微修正したで誤植化・復元ツールを作っていた。

これが冒頭の誤字化・復元ツールの出で立ちである。

7時2分 誤植化・復元ツールβ版完成

Adobe-Japan1であろうという情報をもとに、誤植化・復元ツールをアップデートした。

7時10分 誤植で会話

ツールの存在がウケ、誤植で会話する人々が現れ始めた。個人的な好みは「もちそョ!」(やったー!)である。

「コョビサメョキ」(サーフシャーク)に「サメ」が含まれることなども発見された。

8時41分 勝利の朝

堀元氏が起床し、我々は勝利した。落ち込んでいた堀元氏を大笑いさせることに成功したのである。コミュニティ内の投稿なのでここに貼ることは避けるが、今日も頑張ります( ゕゅいむかゑのよぼし ) !との評価を得た。

ここでタイマーストップである。

完走した感想

Adobe-Japan1であろうという情報など、シングルプレイではなし得なかったやりこみ要素にまでたどり着くことができ、大変良い経験をした。

ゆる言語学ラジオサポーターコミュニティには様々な知識をもつ人々が集っているので時折このような「祭り」が開催される。たまP氏が執筆した存在しないVTuberを48時間でプロデュースした話もその一つだろう。

少しでも「面白い」だとか「何こいつキモ」だとか思って貰えたのなら、1ヶ月でよいのでゆる言語学ラジオサポーターコミュニティに参加してみてほしい。用例達は、あなたの知識や体験談を今か今かと心待ちにしている。

考察

なぜCIDが二つズレてしまったのだろうか?
ここからは未検証の事項なので話半分に聞いていただきたいのだが、Print to PDFとAdobe製品の相性問題だという話が有力である。検証ができ次第、更新していきたい。

これ「もり気スイッチ」と同様のバグっぽいな……MSのPrint to PDFで書き出したのをAdobeに取り込むとなぜか文字が若返る(と→て、など)現象。 https://t.co/KsBFQu86s4

— 芹沢文書 (@DocSeri) December 28, 2022