本報告書は,従来からの紙での印刷による公開に加え,ネットワーク上で「電子化文書」としても公開する。本報告書は,その制作過程においても電子メールやDTP原稿といった「電子化文書」としての形態をとった。これを次に図示する。
本報告書を編集し紙上へ印刷するためにDTPソフトウェアを使用した。DTPソフトウェアの多くは主に手操作によって編集・割り付けを行うものであるが,本報告書の制作では,その作業量を軽減するために,スタイルタグを用いた自動割り付けを試みた。
制作に用いたAdobe社のPageMakerにおけるスタイルは,文中にあって行(段落)単位に表示体裁と割り付け体裁を指示するものである。利用者はスタイルの諸属性をスタイルシートにとして定義でき,それにスタイルタグ名を付けられる。
スタイルタグを原稿データに付与する処理はテキスト処理系Perlで自動的に行った。この処理は,原稿データの内容から特定のスタイルを想定し,対応するスタイルタグを付与するものである。
本報告書の基本的なタグはHTML(ハイパーテキストマーク付け言語)を若干拡張した文書記述言語SGML(JIS X 4151)で記述した。この選択は,多くの人々がWWWブラウザによって内容を閲覧できることや,JEIDAテキストコーパス[1]としての利用(研究)の方向に制約を与えないこと,さらにSGML処理系やテキスト処理系での利用やTEI(Text Encoding Initiative)への拡張を考慮した結果である。
SGMLタグを原稿データに付与する処理は,前述のスタイルタグの場合と同様に,テキスト処理系Perlで自動的に行った。この処理は,原稿データの内容から特定のスタイルを想定し,対応するスタイルタグを付与するものである。
本報告書は,日本電子工業振興協会のWWWサーバー[2]から発信し,また同FTPサーバー[3]から匿名型のファイル転送(anonymous FTP)でも配布する。
[1] 日本電子工業振興協会テキスト利用技術専門委員会が収集している自然言語研究用の資料。 [2] http://launcher.g-search.or.jp/JEIDA/ [3] ftp://launcher.g-search.or.jp/JEIDA/
本報告書の制作手順は,おおよそ次のとおりであった。
紙上の本報告書のためのマーク付けでは,次のようなスタイルタグを使用した。
ネットワーク上の本報告書のマーク付けでは,JEIDAテキストコーパスのSGML文書型定義を使用した。これは,現行の事実上の標準とみなされるHTMLをベースにしているが,コーパスとしてほとんど利用することがないと思われる次のタグが割愛されている。
また,文書管理や相互参照のために,次のタグが付加されている。HTMLでは相互参照は内部・外部共に<A>タグを用いているが,JEIDAテキストコーパスでは内部の相互参照は<LABEL>タグと<PTR>タグの組み合わせで実現している。なお,これらの追加したタグとその内容(属性値)は,WWWブラウザでは見えない。
本報告書を記述する主要なタグは,次のとおりである。正確な定義については,後述のJEIDAテキストコーパスのSGML文書型定義を参照されたい。
JEIDAテキストコーパスとしての本報告書の文書構造は,次のように記述される。
<HTML> <HEAD> <TITLE>表題</TITLE> </HEAD> <PROFILE> <BODY> 本文 </BODY> </HTML>
ここで,
<HTML>タグは,文書の全体を表わす。
<HEAD>タグは,文書の頭書きを表わし,表題を示す<TITLE>タグを含む。
<BODY>タグは,文書の本文を表わす。
<PROFILE>タグは,文書概要を表わす。
<PROFILE>タグでは,次の属性を記述する。
<TH>タグ,<TD>タグでは,次の属性を記述する。
本報告書内における相互参照は,次の2種類のタグで表わす。<LABEL>タグはHTMLにおけるNAME属性を持つ<A>タグとほぼ同じであり,また,<PTR>タグはNAME属性を持つ<A>タグを参照する<A>タグと同じである。
本報告書の外部に存在する文書の参照(ハイパーリンク)は,次のタグで表わす。このタグは,主に本報告書のベースとなっている詳細議事録への参照の記述に使用した。
本報告書の制作における入稿では次のような問題があった。
なお,心配していた外字や半角仮名文字の混入はインターネットによる電子メールのため無かった。いずれにしても,これらの問題は編集作業に少なからず負担を与えるものであり,共同執筆作業時の正書法の統一,文書処理系の機能の改善を期待したい。
本報告書の制作における編集では,執筆要領を適用しにくい内容があった。
電子協の報告書執筆要領では,見出しの章節番号は章・節・項の3レベルまでで,それ以下のレベルは,(1),(2),...,(a),(b),...などを使用した項番号をふることになっている。この基準では,例えば,ある見出しの章節番号が(1)で,その中の箇条書きの項番号が(1)になることがある。紙上の本報告書は,従来の基準になるべく沿う形で編集したが,ネットワーク上の本報告書は,見出しの章節番号についてはレベルを6まで広げ,箇条書きの項番号とは明確に区別するようにした。
ネットワーク上の本報告書は,次の二つの形態をとるようにし,その公開を通じて,より実用的な電子化文書の在り方を考えていきたいと思う。
これは本報告書の全体を一つのファイルとしてまとめたものであり,FTPでは全く問題なく,WWWでも確実に配布される。しかし,WWWでは本報告書全体が1ページとなるために,閲覧に時間がかかりすぎてしまう欠点がある。
これはWWWに対応するために本報告書をHTMLでマーク付けしたものである。HTMLの文書型がJEIDAテキストコーパスの文書型と異なるのは,一つの文書をその構造(序文と目次,複数の章・節・項など)に従って別々のページ(=ファイル)に分割して,それを参照(ハイパーリンク)する点である。このように一つの文書が別々のファイルに細分化・断片化するために,閲覧が容易になる反面,本報告書の全体が一度に配布される保証はなくなる。
文書の細分化・断片化を実現する上で,どのような要素(章・節・項など)をページ(=ファイル)の単位とするか,また,動的閲覧に対応した目次や索引をどのように持つか,現在のページの位置を見出しの章節番号で表わすか,などについては,まだ決め手はなく,試行錯誤の段階である。
<!DOCTYPE HTML [ <!-- JEIDAテキストコーパスのための文書型定義 --> <!-- (c)1996 社団法人 日本電子工業振興協会 --> <!-- 一般実体 --> <!ENTITY amp CDATA "&" -- & -- > <!ENTITY gt CDATA ">" -- > -- > <!ENTITY lt CDATA "<" -- < -- > <!-- パラメータ実体 --> <!ENTITY % text "(#PCDATA | LABEL | PTR | A | SUB | SUP | BR)" > <!ENTITY % list "(OL | UL)" > <!ENTITY % gloss "(DL)" > <!ENTITY % image "(IMG)" > <!ENTITY % table "(TABLE)" > <!ENTITY % etc "(PRE | ADDRESS | BLOCKQUOTE)" > <!ENTITY % block "(%text; | %list; | %gloss; | %image; | %table; | %etc; )" > <!ENTITY % phrase "(P | (%block;)+)" > <!ENTITY % heading "(H1 | H2 | H3 | H4 | H5 | H6)" > <!-- 文書構造 --> <!ELEMENT HTML - - (HEAD , PROFILE , BODY) > <!ELEMENT HEAD - - (TITLE) -- 頭書き -- > <!ELEMENT TITLE - - (%text;)+ -- 表題 -- > <!ELEMENT PROFILE - O EMPTY -- 文書概要 -- > <!ATTLIST PROFILE TITLE CDATA "" -- 表題 -- SUBJECT CDATA #REQUIRED -- 主題 -- DOCUMENT-TYPE CDATA "" -- 文書種別 -- ABSTRACT CDATA "" -- 要約 -- KEYWORDS CDATA "" -- キーワード -- RELEASE-DATE CDATA "" -- 発効日付 -- ORGANIZATIONS CDATA "" -- 組織 -- AUTHORS CDATA "" -- 著者 -- COPYRIGHT-INFO CDATA "" -- 著作権 -- STATUS CDATA "" -- 状態 -- FILE-NAME CDATA #REQUIRED -- ファイル名 -- LOCATION-OF-DOCUMENT CDATA "" -- 文書の位置 -- > <!ELEMENT BODY - - ((%heading;)? , (%phrase;)*)+ -- 本文 -- > <!ELEMENT %heading; - - (%text;)+ -- 見出し -- > <!-- 文書要素 --> <!ELEMENT (SUB|SUP) - - (#PCDATA) -- 上付き,下付き文字 --> <!ELEMENT P - O (%text;)+ -- 段落 -- > <!ELEMENT PRE - - (%phrase;)+ -- 割付け済み文 -- > <!ELEMENT BR - O EMPTY -- 改行 -- > <!ELEMENT ADDRESS - - (%text;)+ -- 住所 -- > <!ELEMENT BLOCKQUOTE - - (%phrase;)+ -- 引用 -- > <!-- 要約 --> <!ELEMENT DL - - (DT)+ > <!ELEMENT DT - O ((%text; | %list; | %gloss;)* , DD?) > <!ELEMENT DD - O (%text; | %list; | %gloss;)* > <!-- リスト --> <!ELEMENT %list; - - (LI)+ > <!ELEMENT LI - O (%text;)+ > <!-- 図 --> <!ELEMENT IMG - O EMPTY > <!ATTLIST IMG SRC CDATA #REQUIRED -- 記録 -- ALT CDATA #IMPLIED -- 代替 -- > <!-- 表 --> <!ELEMENT TABLE - - (TR*) -- 表 -- > <!ATTLIST TABLE BORDER NUMBER #IMPLIED -- 罫線幅 -- > <!ELEMENT TR - O (TH |TD)* -- 行 -- > <!ELEMENT (TH | TD) - O (%text;) -- 表要素 -- > <!ATTLIST (TH | TD) COLSPAN NUMBER 1 -- 列幅 -- ROWSPAN NUMBER 1 -- 行幅 -- > <!-- 相互参照 --> <!ELEMENT LABEL - O EMPTY > <!ATTLIST LABEL ID CDATA #REQUIRED -- 識別 -- > <!ELEMENT PTR - O EMPTY > <!ATTLIST PTR ID CDATA #REQUIRED -- 参照 -- > <!-- ハイパーリンク --> <!ELEMENT A - - (%text;) -(A) > <!ATTLIST A HREF CDATA #IMPLIED > ]>