全文検索システム
ビックデータの分析で人工知能を使った話題が最近多くなっています。
データから動向や傾向さらには真意を見つけ出すことが盛んに行われることになりました。
時は遡りますが、今から30年以上前の1986年に特許情報の全文検索システムを試作した男がいました。
特許情報は抄録なり請求項を読めば、発明の内容がわかることは知的財産に携わった経験が何年かあれば
誰にでも備わることです。この抄録の全文を端から読んだのと同じ検索が行えるシステムを開発したいとの夢を私が語ったら、それを実現する仕組みを一緒に開発してくれたのです。
当時の文書の文字列から単語を抽出する切り出しソフトが、新聞や雑誌の論文の検索用に存在していたのです。
このソフトはシソーラスと言われた用語辞書に存在する用語と突き合わせて抽出するソフトでした。しかもシソーラスが時事、経済、政治などの単語が多く、技術用語が中心の特許情報には向かないものでした。
辞書を持ち意味解析技術の研究が始まったばかりの頃で、構文解析が企業の研究レベルで行われていた時期でした。そこで研究所に掛け合い、日本語形態素分析の研究用に特許情報を使うことを提案し、用語の抽出結果を検索システムに入力することにしたのです。
試作した検索システムの検索結果と、特許分類別に製本していた本を手めくりで発見した発明のヒットした内容を比較した結果、ある発明についての先行技術(公知例)の発見率はコンピュータ検索システムが86%で、
手めくりでの結果42%を大幅に上回り、独自の公知例が多数発見でき、しかも十分の一の手間で見つけられたのです。
その後、データの充実を図り、会社の事業の約8割をカバーする競合会社の特許情報を入力した全文検索システムを構築したのです。社内で開発に協力してもらった研究所の技術者にも提供することになったのですが、
事業部門の技術者が研究所で使っているシステムを見て特許部門に不公平だという苦情が寄せられ、社内の
LAN環境の充実を伴うためほぼ1年計画で事業部門への展開をしたのが1989年でした。
入力件数の増大を図る過程で、百万件を超えたら、データの入力時間が突然かかり、
デッドロック状況になってしまい処理方法を工夫するなどの苦労を重ねたものです。
1990年から始まった電子出願の結果として、全文公開公報が発行されたことに伴い、
抄録検索から公報全文検索に移行して、分野を絞らない全件の全文検索システムを実用化したのです。
特許調査の効率化が各段に進んだのですが、あまりにも効果が大きいので、社外にシステムの存在を秘密にせよとの上司の指示があり、この男「内利広」の開発成果は今まで公にされていませんでした。
30年経ったので私の責任で事実を皆さんに伝えます。
実はこの男は、私がさる業者から入手したアメリカの特許公報の印刷用の版下データから、
印刷レイアウトのための改行などの制御記号を取り除き、公報全文の情報を抽出して1988年には,
アメリカ特許の全文検索機能も提供しました。