― 学会誌PDFを一括ダウンロードするまでの試行錯誤 ―
Firefoxで会員制サイト(ここでは学会のウェブページを想定)から論文や学会誌のPDFをまとめて保存したい場面がある。しかし、標準動作の保存方法は、1ファイル毎にクリックなどする手作業になり、効率が悪い。
そのような用途で役に立つのが、Firefoxのアドオン DownThemAll! である。本記事では、基本的な紹介に加え、WebサイトからPDFを一括ダウンロードした実践例を中心に、つまずいた点と解決方法を含めて解説する。
DownThemAll!とは何か
DownThemAll!は、Firefoxに高度なダウンロード管理機能を追加するアドオンである。主な特徴は以下のとおりである。
- ページ内のリンクや画像を一括でダウンロードできる
- 拡張子や文字列によるフィルタリングが可能
- ダウンロードの一時停止・再開に対応
- 保存先やファイル名ルールを柔軟に指定できる
画像が大量に並ぶページを扱う用途で紹介されていることが多いが、PDFなどの文書ファイルも同じように扱える。
インストール方法(Firefoxアドオンページから)
- Firefoxアドオン公式サイト で「DownThemAll!」を検索する。または、DownThemAll!がページへの直接のリンク。
- 「Firefoxへ追加」 をクリックする
- 確認ダイアログで 「追加」 を選択する
再起動は不要で、これで使用可能になる。
実践例:学会誌PDFだけをダウンロードしたい
やりたかったこと
- 所属している(会員になっている)学会のWebページの資料のページから、会誌・文献などのPDFだけ をまとめて一括でダウンロードしたい
最初につまずいた点
ページ上で右クリックをするとメニューが現れる。メニューから、「DownThemAll!」を選んでそのまた下の階層の「DownThemAll!」 を実行した。
初期状態のまま対象を「すべて」にしてダウンロードを開始すると、
- HTMLファイル
- 画像
- JavaScript、CSS
など、PDF以外のファイルまで大量にダウンロードされてしまった。
「PDFだけ欲しい」という目的に対して、DownThemAll!は何も設定しないと対象が広すぎることが分かった。
試行錯誤してうまくいった設定
試行錯誤の末、以下の設定でPDFだけを正確にダウンロードできた。
使用した設定
- 高速フィルタリング:
pdf - サブフォルダ:
*pagetitle* - マスク:
*name*.*ext*

設定の意味と効果
- 高速フィルタリングを
pdfに設定
→ URLやファイル名に「pdf」を含むリンクのみを抽出する - サブフォルダを
*pagetitle*に設定
→ 表示中のWebページのタイトル名でフォルダが自動作成される - マスクを
*name*.*ext*に設定
→ ファイル名を変更せず、元の名前のまま保存される
この設定で「ダウンロード」ボタンを押し、実行した。
この結果、
Webページのタイトル名のフォルダが作成され、
その中にPDFだけが元のファイル名のままダウンロードされた。
この設定のまま、別のサイトのページで実行すると、そのページのタイトル名のフォルダが作られ、そこにPDFがダウンロードされた。
という、整理された結果になった。
この方法の強み:会員制サイトとの相性
今回の実践で特に有用だと感じた点は以下である。
- 会員制サイトでも、Firefoxでログイン済みならそのまま使える
- RPAや外部ダウンローダーのように、別途ログイン処理を組む必要がない
- 学会誌や論文PDFの一括保存が非常に手軽
「ブラウザで見ることが出来る状態ではあるが、まとめて保存するのが面倒」というケースにおいて、DownThemAll!は極めて実用的である。
補足:変数(プレースホルダ)について
今回使用した *pagetitle* のような変数は、DownThemAll!独自のプレースホルダである。
これらは公式サイトや変更履歴ページに記載されている。
高度な整理をしたい場合、他の変数も確認しておくとよい。
まとめ
DownThemAll!は非常に強力なFirefoxアドオンだが、目的に応じたフィルタリング設定が重要である。
特に、
- PDFだけを取得したい
- 会員制サイトの資料をまとめて保存したい
といった用途では、
- 高速フィルタリング
- ダウンロードするサブフォルダの設定
を理解して使うことで、真価を発揮する。
論文・学会誌PDFを扱う機会が多いユーザーにとって、Firefoxのこの拡張機能は導入する価値の高いアドオンである。


コメント