付論 報告書等のネットワーク公開へ向けて

 本報告書は,従来からの紙での印刷による公開に加え,ネットワーク上で「電子化文書」としても公開する。本報告書は,その制作過程においても電子メールやDTP原稿といった「電子化文書」としての形態をとった。これを次に図示する。

1 本報告書の形態

1.1 紙上の本報告書

 本報告書を編集し紙上へ印刷するためにDTPソフトウェアを使用した。DTPソフトウェアの多くは主に手操作によって編集・割り付けを行うものであるが,本報告書の制作では,その作業量を軽減するために,スタイルタグを用いた自動割り付けを試みた。

 制作に用いたAdobe社のPageMakerにおけるスタイルは,文中にあって行(段落)単位に表示体裁と割り付け体裁を指示するものである。利用者はスタイルの諸属性をスタイルシートにとして定義でき,それにスタイルタグ名を付けられる。

 スタイルタグを原稿データに付与する処理はテキスト処理系Perlで自動的に行った。この処理は,原稿データの内容から特定のスタイルを想定し,対応するスタイルタグを付与するものである。

 

1.2 ネットワーク上の本報告書

 本報告書の基本的なタグはHTML(ハイパーテキストマーク付け言語)を若干拡張した文書記述言語SGML(JIS X 4151)で記述した。この選択は,多くの人々がWWWブラウザによって内容を閲覧できることや,JEIDAテキストコーパス[1]としての利用(研究)の方向に制約を与えないこと,さらにSGML処理系やテキスト処理系での利用やTEI(Text Encoding Initiative)への拡張を考慮した結果である。

 SGMLタグを原稿データに付与する処理は,前述のスタイルタグの場合と同様に,テキスト処理系Perlで自動的に行った。この処理は,原稿データの内容から特定のスタイルを想定し,対応するスタイルタグを付与するものである。

 本報告書は,日本電子工業振興協会のWWWサーバー[2]から発信し,また同FTPサーバー[3]から匿名型のファイル転送(anonymous FTP)でも配布する。

 [1] 日本電子工業振興協会テキスト利用技術専門委員会が収集している自然言語研究用の資料。
 [2] http://launcher.g-search.or.jp/JEIDA/
 [3] ftp://launcher.g-search.or.jp/JEIDA/

2 本報告書の制作手順

 本報告書の制作手順は,おおよそ次のとおりであった。

(1) 委員による原稿執筆
(2) 電子メールによる,電子メーリングリストへの入稿
(3) グループ単位による査読
(4) 電子メールによる,編集者への入稿
(5) 原稿データの整理
(6) 現行のHTMLやDTPソフトの機能分析,SGML文書型定義(Document Type Definition:DTD)の設計,スタイルタグの設計
(7) 不要な空白の検査・除去,外字や半角仮名文字などの検査・変換
(8) スタイルタグに基づくマーク付け,DTDに基づくマーク付け
(9) 図表の清書・デジタル化
(10) DTPソフトウェアによる割り付け
(11) SGML検証用パーザ(sgmls)によるマーク付けの検証
(12) WWWブラウザ(NetScape)によるマーク付けの検証
(13) サーバーのデータベースへの本報告書の登録,実際のアクセスによる検査

3 本報告書のマーク付け

3.1 紙上の本報告書

 紙上の本報告書のためのマーク付けでは,次のようなスタイルタグを使用した。

見出し
<H1>,<H2>,<H3>,<H4>
段落
<P0>,<P1>,<P2>,<P3>,<P4>
箇条書き
<L1>,<L2>,<L3>
図見出し
<G>
表見出し
<T>

3.2 ネットワーク上の本報告書

 ネットワーク上の本報告書のマーク付けでは,JEIDAテキストコーパスのSGML文書型定義を使用した。これは,現行の事実上の標準とみなされるHTMLをベースにしているが,コーパスとしてほとんど利用することがないと思われる次のタグが割愛されている。

フォント,文字強調,体裁関係
<FONT>,<EM>,<B>,<I>,<U>,<STRONG>,<CENTER>など
入力フォーム関係
<FORM>,<INPUT>,<SELECT>,<TEXTAREA>など
メタ情報関係
<ISINDEX>,<BASE>,<NEXTID>,<LINK>,<META>など

 また,文書管理や相互参照のために,次のタグが付加されている。HTMLでは相互参照は内部・外部共に<A>タグを用いているが,JEIDAテキストコーパスでは内部の相互参照は<LABEL>タグと<PTR>タグの組み合わせで実現している。なお,これらの追加したタグとその内容(属性値)は,WWWブラウザでは見えない。

文書概要
<PROFILE>
内部の相互参照
<LABEL>,<PTR>

4 タグの種類

 本報告書を記述する主要なタグは,次のとおりである。正確な定義については,後述のJEIDAテキストコーパスのSGML文書型定義を参照されたい。

4.1 文書構造を表わすタグ

 JEIDAテキストコーパスとしての本報告書の文書構造は,次のように記述される。

 <HTML>
  <HEAD>
   <TITLE>表題</TITLE>
  </HEAD>
  <PROFILE>
  <BODY>
   本文
  </BODY>
 </HTML>

ここで,
 <HTML>タグは,文書の全体を表わす。
 <HEAD>タグは,文書の頭書きを表わし,表題を示す<TITLE>タグを含む。
 <BODY>タグは,文書の本文を表わす。
 <PROFILE>タグは,文書概要を表わす。

4.2 文書概要を表わすタグ

 <PROFILE>タグでは,次の属性を記述する。

TITLE:
文書を分類する上での識別番号
SUBJECT:
文書の名称
DOCUMENT-TYPE:
文書の区分
ABSTRACT:
文書の要約
KEYWORDS:
文書を分類する上でのキーワード
RELEASE-DATE:
文書を発行した日付
ORGANIZATIONS:
文書を発行した組織
AUTHORS:
文書の著者
COPYRIGHT-INFO:
文書の著作権
STATUS:
文書の版の状態
FILE-NAME:
文書を格納したファイルの名前
LOCATION-OF-DOCUMENT:
文書を格納したサーバ上でのファイルの場所

4.3 章や節の見出しを表わすタグ

<H1>
最上位の見出し(例えば,「第1章 ・・・」に付ける)
<H2>
<H1>の下位の見出し(例えば,節を表わす「2.1 ・・・」に付ける)
<H3>
<H2>の下位の見出し(例えば,より下位の節を表わす「3.4.2 ・・・」に付ける)
<H4>
<H3>の下位の見出し
<H5>
<H4>の下位の見出し
<H6>
<H5>の下位の見出し

4.4 段落を表わすタグ

<P>

4.5 文章の割付けを表わすタグ

<SUB>
上付き文字(例えば,べき乗)
<SUP>
下付き文字(例えば,配列の添え字)
<PRE>
割付け済みの文章(例えば,プログラムのコーディング)
<BR>
強制的な改行(例えば,プログラムのコーディング)
<ADDRESS>
住所
<BLOCKQUOTE>
引用文

4.6 要約を表わすタグ

<DL>
要約(例えば,用語)
<DT>
要約の項目(例えば,用語の項目)
<DD>
要約の項目の説明(例えば,用語の項目の説明)

4.7 箇条書きを表わすタグ

<OL>
番号付きの箇条書き
<UL>
番号なしの箇条書き
<LI>
箇条書きの項目

4.8 図を表わすタグ

<IMG>
このタグでは,次の属性を記述する。
SRC:
図を表わすデータが格納されているファイルの名称
ALT:
図の実物を表わせない場合の説明

4.9 表を表わすタグ

<TABLE>
このタグでは,次の属性を記述する。
BORDER:
罫線幅(省略時値がゼロのため,1を与える)
<TR>
表の行
<TH>
表の見出しに相当する要素
<TD>
表の明細に相当する要素

 <TH>タグ,<TD>タグでは,次の属性を記述する。

COLSPAN:
列幅
ROWSPAN:
行幅

4.10 相互参照を表わすタグ

 本報告書内における相互参照は,次の2種類のタグで表わす。<LABEL>タグはHTMLにおけるNAME属性を持つ<A>タグとほぼ同じであり,また,<PTR>タグはNAME属性を持つ<A>タグを参照する<A>タグと同じである。

<LABEL>
参照される箇所を示す
このタグでは,次の属性を記述する。
ID:
この場所を示す文字列
<PTR>
参照する箇所を指す
このタグでは,次の属性を記述する。
ID:
参照する場所を識別する文字列

4.11 外部参照を表わすタグ

 本報告書の外部に存在する文書の参照(ハイパーリンク)は,次のタグで表わす。このタグは,主に本報告書のベースとなっている詳細議事録への参照の記述に使用した。

<A>
参照する箇所を指す
このタグでは,次の属性を記述する。
HREF:
参照する外部文書の存在する場所(すなわち,URL)

5 本報告書の制作に関する問題点

5.1 入稿時の問題

 本報告書の制作における入稿では次のような問題があった。

原稿の識別が面倒であった。
目次については事前に取り決めていたが,電子メールの題名だけでは,報告書のどの部分か,また草案なのか最終稿なのかがはっきりしない場合があった。一つの章を数人が執筆したために混乱したようである。
句読点が統一されていなかった。
「、」か「,」,「.」か「。」という選択は,執筆者の環境に左右され,それを統一することは難しいようである。また,英単語の列挙では半角の「,」が使われていた。
箇条書きの表記が統一されていなかった。
番号付きか番号なしかは余り意識されていないようである。
箇条書きを示す約物として中黒点が使われているが,文中における列挙での使用もあるので,全角のハイフンに置き換えた。
英単語の表記が統一されていなかった。
半角による表記を統一したはずであったが,WWWのような短い語句や製品名のような語句では全角表記が生じやすいようである。
余分な空白が混入していた。
電子メールによる入稿では,使用しているエディタの自動行分けによって混入しやすいようである。

 なお,心配していた外字や半角仮名文字の混入はインターネットによる電子メールのため無かった。いずれにしても,これらの問題は編集作業に少なからず負担を与えるものであり,共同執筆作業時の正書法の統一,文書処理系の機能の改善を期待したい。

5.2 編集時の問題

 本報告書の制作における編集では,執筆要領を適用しにくい内容があった。

 電子協の報告書執筆要領では,見出しの章節番号は章・節・項の3レベルまでで,それ以下のレベルは,(1),(2),...,(a),(b),...などを使用した項番号をふることになっている。この基準では,例えば,ある見出しの章節番号が(1)で,その中の箇条書きの項番号が(1)になることがある。紙上の本報告書は,従来の基準になるべく沿う形で編集したが,ネットワーク上の本報告書は,見出しの章節番号についてはレベルを6まで広げ,箇条書きの項番号とは明確に区別するようにした。

6 本報告書のネットワーク公開

 ネットワーク上の本報告書は,次の二つの形態をとるようにし,その公開を通じて,より実用的な電子化文書の在り方を考えていきたいと思う。

6.1 JEIDAテキストコーパスの文書型定義に合わせた本報告書

  これは本報告書の全体を一つのファイルとしてまとめたものであり,FTPでは全く問題なく,WWWでも確実に配布される。しかし,WWWでは本報告書全体が1ページとなるために,閲覧に時間がかかりすぎてしまう欠点がある。

6.2 WWWに対応した本報告書

  これはWWWに対応するために本報告書をHTMLでマーク付けしたものである。HTMLの文書型がJEIDAテキストコーパスの文書型と異なるのは,一つの文書をその構造(序文と目次,複数の章・節・項など)に従って別々のページ(=ファイル)に分割して,それを参照(ハイパーリンク)する点である。このように一つの文書が別々のファイルに細分化・断片化するために,閲覧が容易になる反面,本報告書の全体が一度に配布される保証はなくなる。

  文書の細分化・断片化を実現する上で,どのような要素(章・節・項など)をページ(=ファイル)の単位とするか,また,動的閲覧に対応した目次や索引をどのように持つか,現在のページの位置を見出しの章節番号で表わすか,などについては,まだ決め手はなく,試行錯誤の段階である。

7 JEIDAテキストコーパスのSGML文書型定義(DTD)の詳細

<!DOCTYPE        HTML [
<!--   JEIDAテキストコーパスのための文書型定義                                       -->
<!--   (c)1996 社団法人 日本電子工業振興協会                                       -->
<!--   一般実体                                                                      -->
<!ENTITY         amp       CDATA  "&"         -- & --                                  >
<!ENTITY         gt        CDATA  ">"         -- > --                                  >
<!ENTITY         lt        CDATA  "<"         -- < --                                  >
<!--   パラメータ実体                                                                -->
<!ENTITY         % text    "(#PCDATA | LABEL | PTR | A | SUB | SUP | BR)"              >
<!ENTITY         % list    "(OL | UL)"                                                 >
<!ENTITY         % gloss   "(DL)"                                                      >
<!ENTITY         % image   "(IMG)"                                                     >
<!ENTITY         % table   "(TABLE)"                                                   >
<!ENTITY         % etc     "(PRE | ADDRESS | BLOCKQUOTE)"                              >
<!ENTITY         % block   "(%text; | %list; | %gloss; | %image; | %table; | %etc; )"  >
<!ENTITY         % phrase  "(P | (%block;)+)"                                          >
<!ENTITY         % heading "(H1 | H2 | H3 | H4 | H5 | H6)"                             >
<!--   文書構造                                                                      -->
<!ELEMENT        HTML      - -       (HEAD , PROFILE , BODY)                           >
<!ELEMENT        HEAD      - -       (TITLE)                          -- 頭書き --     >
<!ELEMENT        TITLE     - -       (%text;)+                        -- 表題 --       >
<!ELEMENT        PROFILE   - O       EMPTY                            -- 文書概要 --   >
<!ATTLIST        PROFILE
                 TITLE     CDATA     ""                               -- 表題 --
                 SUBJECT   CDATA     #REQUIRED                        -- 主題 --
                 DOCUMENT-TYPE       CDATA     ""                     -- 文書種別 --
                 ABSTRACT  CDATA     ""                               -- 要約 --
                 KEYWORDS  CDATA     ""                               -- キーワード --
                 RELEASE-DATE        CDATA     ""                     -- 発効日付 --
                 ORGANIZATIONS       CDATA     ""                     -- 組織 --
                 AUTHORS   CDATA     ""                               -- 著者 --
                 COPYRIGHT-INFO      CDATA     ""                     -- 著作権 --
                 STATUS    CDATA     ""                               -- 状態 --
                 FILE-NAME CDATA     #REQUIRED                        -- ファイル名 --
                 LOCATION-OF-DOCUMENT          CDATA     ""           -- 文書の位置 -- >
<!ELEMENT        BODY      - -       ((%heading;)? , (%phrase;)*)+    -- 本文 --       >
<!ELEMENT        %heading; - -       (%text;)+                        -- 見出し --     >
<!--   文書要素                                                                      -->
<!ELEMENT        (SUB|SUP) - -       (#PCDATA)                 -- 上付き,下付き文字 -->
<!ELEMENT        P         - O       (%text;)+                 -- 段落 --              >
<!ELEMENT        PRE       - -       (%phrase;)+               -- 割付け済み文 --      >
<!ELEMENT        BR        - O       EMPTY                     -- 改行 --              >
<!ELEMENT        ADDRESS   - -       (%text;)+                 -- 住所 --              >
<!ELEMENT        BLOCKQUOTE   - -    (%phrase;)+               -- 引用 --              >
<!--   要約                                                                          -->
<!ELEMENT        DL        - -       (DT)+                                             >
<!ELEMENT        DT        - O       ((%text; | %list; | %gloss;)* , DD?)              >
<!ELEMENT        DD        - O       (%text; | %list; | %gloss;)*                      >
<!--   リスト                                                                        -->
<!ELEMENT        %list;    - -       (LI)+                                             >
<!ELEMENT        LI        - O       (%text;)+                                         >
<!--   図                                                                            -->
<!ELEMENT        IMG       - O       EMPTY                                                                     >
<!ATTLIST        IMG       SRC       CDATA     #REQUIRED       -- 記録 --
                           ALT       CDATA     #IMPLIED        -- 代替 --             >
<!--   表                                                                           -->
<!ELEMENT        TABLE     - -       (TR*)                     -- 表 --               >
<!ATTLIST        TABLE     BORDER    NUMBER    #IMPLIED        -- 罫線幅 --           >
<!ELEMENT        TR        - O       (TH |TD)*                 -- 行 --               >
<!ELEMENT        (TH | TD) - O       (%text;)                  -- 表要素 --           >
<!ATTLIST        (TH | TD) COLSPAN   NUMBER    1               -- 列幅 --
                           ROWSPAN   NUMBER    1               -- 行幅 --             >
<!--   相互参照                                                                     -->
<!ELEMENT        LABEL     - O       EMPTY                                            >
<!ATTLIST        LABEL     ID        CDATA     #REQUIRED       -- 識別 --             >
<!ELEMENT        PTR       - O       EMPTY                                            >
<!ATTLIST        PTR       ID        CDATA     #REQUIRED       -- 参照 --             >
<!--   ハイパーリンク                                                               -->
<!ELEMENT        A         - -       (%text;) -(A)                                    >
<!ATTLIST        A         HREF      CDATA     #IMPLIED                               >
]>

(c)1995 JEIDA