ドイツ語をFreeOCRでスキャニングして文字認識

2008年5月30日金曜日

FreeOCRを多国語対応にした所で、ドイツ語を認識させて見ます。

(1)「File/Select Scanner」を選択

image
(2)該当するスキャナを選択
image
(3)Scanをクリック
image
(4)Canonの場合、ScanGearが起動し、プレビューが出ます。
image
(5)スキャンをクリック
image
image
(6)FreeOCRに読み込まれました。
image
(7)文字認識させる範囲を選択
image
(8)OCR言語をドイツ語に
image
(9)OCRをクリック
image
(10)ドイツ語テキストとして右画面に表示
image
(11)クリップボードにコピー
image

(12)貼り付け
Die beiden Streichquartette in B-dur KV 589
und F—dur KV 590 stehen am Ende der 23
Werke Mozarts für diese Gattung, die Joseph
Haydn etabliert hat und die von beiden Meistern
der Wiener Klassik in wechselseitigen Beziehun-
gen zu einsamen Höhen geführt worden ist. Mo-
zart selbst hatte sich in dieser Gattung erstmals im
März
1770 in Italien mit dem sogenannten »L0di-
Quartett« KV 80 versucht. Bis Mai/Juni 1790,
dem Zeitpunkt, zu dem er KV 589 und 590 in sei-
nem eigenhändigen Werkkatalog verzeichnete,
schuf Mozart das sogenannte »Hoffrneister-Quar-
tett« KV 499 (1786). femer drei Sechser-Zyklen
(KV 155-160, entstanden während der letzten
Italien—Reise 1772/ 1773; KV 168-173, kompo-
niert in Wien 1773; die sechs Joseph Haydn gewid-
meten Quartette, 1782-1785) und die sogenann-
ten »Preußischen Quartette«. Diese waren zu-
nächst ebenfalls als Sechserreihe geplant, die je-
doch mit dem D-dur—Quartett KV 575 von 1789
und unseren beiden Quartetten Torso geblieben
rst.

上の文は校正前ですがドイツ語のウムラウト( Umlaut)も問題なく変換されています。


※関連ページ
スキャナから取り込んだ文章をワードの置換で整形
英語・フランス語・ドイツ語・イタリア語・スペイン語・オランダ語対応フリーOCRソフト
中国語例文検索と中国語入力

<PR>
●使用スキャナはキャノンのCanoScan LiDE 600F(35mmフィルム対応)

英語・フランス語・ドイツ語・イタリア語・スペイン語・オランダ語対応フリーOCRソフト

2008年5月28日水曜日

フリーの文字認識(OCR)ソフトであるFreeOCRにヨーロッパ言語を追加するには次のようにします。
(本体はインストール済みとして説明します。)
(1)FreeOCRのホームページでClick here for details on installing additional languages into FreeOCRをクリック
(2)インストールしたい言語を選択したらデスクトップにダウンロード
 image
(3)解凍ソフトで解凍したら、全てのファイルを選択し「コピー」
image
(4)FreeOCRの「Setting/Open Language Folder」をクリック
image
(5)開いたtessdataの上で右クリック
image
(6)「貼り付け」を選択
image
(7)FreeOCRを再起動
図はドイツ語とフランス語を追加した場合
image
※関連ページ
アウルネットで使用中のフリーソフト
ファイルのダウンロードと解凍及びセットアップ
中文画像を中国語OCRでテキスト化する方法

デジカメで写した中国語文字をフリー中国語OCRでテキスト化

2008年5月27日火曜日

デジカメで写した中国語繁体字をテキスト化したい時、中国語を知らなくても日本語とフリーの中国語文字認識ソフトCOCR2を使うと、可能になります。その過程を大まかに記すと

(1)デジカメで写した小樽市指定歴史的建造物「旧大家倉庫」
image 
(2)テキスト化したい所をPicasa2でトリミング
image
(3)Picasa2で傾き調整
image
(4)Picasa2でコピーしJtrimで貼り付け
image

(5)「カラー/グレイスケール変換」
image
(7)「カラーネガポジ変換」
image
(8)「カラー/明るさ・コントラスト」で背景のグレイが消えるまでコントラストを強くする。
image

image
(9)これをCOCR2に貼り付け
image
(10)右側のエリアをクリックしフォントをMingLiu等の繁体字文字にする。
image
(11)候補に出た文字をクリック
image
(11)日本語文字と同じ所は日本語IMEで変換、読めない所はCOCR2でと言う様に変換していく。
image 
image
テキストで表すと
為石川縣出身的海產商人一大家七平(Ohie Shichihei)所建造的,與建築物垂直的牆壁上有(山七)的印記.外牆採用札幌軟石,高出的小屋頂和入口部分的雙層拱門為其特徵.建造物的宏偉和其獨特的外貌,成為運河地區石造倉的代表之一,2002年,曾進行外牆和屋頂瓦部分等的維修. 小樽市

※関連ページ
中文画像を中国語OCRでテキスト化する方法
・Googleのデジカメ編集フリーソフト「Picasa2の使い方
・フリー画像編集ソフト「JTrimの使い方
小樽観光(冬の小樽、春から秋へ、回転寿司、駐車場)

スキャナから取り込んだ文章をワードの置換で整形

段組された縦に長い文章をスキャナで取り込み、A4サイズにまとめようとすると段落記号があちこちに入った文章になってしまいます。
これを直すには1行ずつこの段落記号を削除すればいいのですが、文章が長いときは大変です。そこでワードの置換機能を使って整形して見ました。
(1)ワードに貼り付けたところ
image
(2)「編集/置換」で「□あいまい検索」のチェックを外し、「特殊文字」から「段落記号」を選択して「すべて置換」 をクリックします。
image 
(3)改行なしの文章に変換されました。
image
(4)今度は「検索する文字列」に 。を「置換する文字列」に 。と^p(特殊文字の段落)にして「すべて置換」をクリックします。
image
(5)。の所に段落記号が入り、改行されました。
 image
(6)最初の部分はタイトルなので、改行します。
image 
続いて残りの部分を手動で整形します。

コンテンツの一部をワードで印刷

2008年5月18日日曜日

ホームページやブログの記事を印刷する場合、ブラウザの印刷機能を使うのが一般的ですが、モニターに表示されている一部を印刷したいときはワードにコピペしてから印刷すると余計な部分を印刷せずに済みます。
例えばこのブログで投稿記事だけを印刷したい時、右側のサイドバーが不要です。
そこで必要な部分だけを選択するわけですが、こんな方法はいかがでしょうか。
(1)Googleの少し左側にポインターを持って来ます。
image
もし、Gの上ならリンクがある印の指マークになっていまいます。
image
それじゃ
image
はどうかと言うと、これはドラッグしてみると分かります。

(2)正しく選択できるどうか少しドラッグして見ます。
image
この様になればOKです。

(3)このままの状態でブラウザ右側の垂直スクロールバーを動かして、この記事の最後を表示させます。
image

(4)「さい。」の 。右辺りにポインターを持って来ます。
image

(5)ここでSHIFTキーを押しながら、クリックします。
image
投稿記事全体が選択されました。
ポイント:SHIFTには連続と言う意味があり、ここでの動作は最初にクリックした点から、これからクリックするまでを連続して選択せよと言う命令になります。
これはExcelでの連続データの選択やOutlook xpress等での不要メールの削除などに利用できます。
なおCTRLキーは飛び飛び(不連続)に選択したい時に使用されます。

image
(7)ワードを起動し、挿入ポイントで右クリックし、「貼り付け」を選択します。
image 
ワード文書内に貼り付けられたら、適当に編集して印刷します。
image
もし背景色を消したいときは
「編集/全て選択」してから、「罫線/線種とページ罫線と網かけの設定」で次にようにすると背景色が白になり、プリンタのインクを節約できます。
image
ワードの場合これは文字、これは段落、これは罫線のテーブル全体とかセルだけとか、これはオートシェイプ等と分類分けができて選択出来るるようになると、使いこなせる様になります。