運営サービス

リリースチェッカーをいろいろ改善した(limit_reqとか)

前回の記事の流れで、久しぶりにリリースチェッカーの改善を進めている。ここ数日で実施した内容は以下の通り。

  • 発売日の表示バグを修正した。発売年以外未登録の商品の発売日が「2017T」のように表示されていた。
  • Googleアナリティクスを導入した。多くの方にリリースチェッカーを使っていただくべく、分析のために入れた。
  • モバイル用のCSSを調整した。見やすくなったはず。
  • RSSに含まれる和書の数を増やした。PA-API v5のドキュメントには、Search Indexを「Books」にすると和書が返ってくると書かれている。だが、実際には洋書も返ってきてしまう。なので、2ページ目(ItemPage = 2)まで検索し、不足分を補うようにした。
  • CircleCiでDockerイメージをビルドするようにした。Docker Hubの自動ビルドを使っていたのだが、開始まで10分以上待たされるのが我慢できなくなった。
  • PA-API呼び出し失敗時の404エラーを修正した。PA-API v5では呼び出し回数の制限が厳しくなっている。呼び出し失敗が続いた場合、リリースチェッカーでは503エラーを返していたつもりだった。が、実際には404が返っていた。
  • RSSクローラーのアクセス数を制限した。Apacheのプロセスが不足し、タイムアウトすることがあった。前段に置いているNginxのngx_http_limit_req_moduleを使って制限したところ、サービスが安定した。

ぼくとしては「クローラーのアクセス数制限」が会心だった。Nginxの設定ファイルを抜き書きすると、こうなる。

limit_req_zone $limit_req_per_ip zone=rss_per_ip:10m rate=1r/s;

server {
    location /rss {
        limit_req zone=rss_per_ip burst=2 nodelay;
        limit_req_status 429;

        set $limit_req_per_ip $binary_remote_addr;
        if ($http_x_requested_with = XMLHttpRequest) {
            set $limit_req_per_ip "";
        }
    }
}

クローラーだけを制限対象にしたいので、ブラウザからXMLHttpRequestでRSSにアクセスした場合は除外している。

ngx_http_limit_req_moduleのことは初めて知った。便利。

リリースチェッカーにはまだまだ改善ポイントがあると思う。引き続きやっていく。

リリースチェッカーのサーバをOracle Cloud無償ティアに乗り換えた

Oracle Cloud無償ティアが始まったことを思い出し、リリースチェッカーを試しに動かしてみたら特に問題なかったので、正式に移行しました。以前はさくらのVPSを使っていました。年間11,000円ほどの節約になります。

Oracle Cloudを使うのは初めてですが、VMインスタンスを使う分には、特にハマるポイントはありませんでした。無償で2台使えるため、同じくさくらのVPSで使っている勉強用サーバも、こちらに引っ越そうと思っています。

以下、Oracle Cloudとは無関係な話です。今回の移行を機に、リリースチェッカーをDockerコンテナで動かすようにしました。ホストにはNginxを立て、DockerコンテナのApacheにリバースプロキシしています。これで、またサーバを移行せざるをえなくなったとしても、作業が楽になりました。

リバースプロキシするようにしたのは、ダウンタイムなくDockerコンテナを切り替えたかったからです。たとえば、8080番ポートでDockerコンテナが動いているとしたら:

  1. 8081番ポートで新たなDockerコンテナを起動する
  2. Nginx設定ファイルのリバースプロキシ先を8081番に変え、リロードする
  3. 元のDockerコンテナを止める

という流れで実現できます。このあたりは何らかの手段で自動化するのがよいのかもしれませんが、デプロイ頻度が少ないので、当面は手動でいこうと考えています。

リリースチェッカーをPA-API v5に対応させた

Product Advertising API (PA-API) は、Amazonの商品情報が検索できる、Amazon公式のAPIです。そのPA-APIのバージョン4について、2019年11月末で使えなくなるとの案内が9月9日にありました。

ぼくが運営しているリリースチェッカーでも、PA-APIを利用しています。本日、バージョン5への移行対応が完了し、本番投入しました。今のところ大きな問題はなさそうです。不具合に気づかれた方は、@iwamotまでお知らせいただけると助かります。

これから移行対応される方へのアドバイスとして、APIのレート制限を超えて「429 TooManyRequests」エラーが返ってくることを前提に、がんがんリクエストを投げて、がんがんリトライするのがよさそう、という点を挙げておきます。アプリの性質にもよるでしょうが、リリースチェッカーの場合、不特定多数のユーザ(おもにフィードクローラ)からのリクエストによって、ひっきりなしにPA-APIを叩くアーキテクチャなので、律儀にウェイトを入れるとWebサーバが詰まってしまうのです。

他に苦労した点として、下記がありました。

  • 移行案内に気づいたのが10月10日で、初動が遅れてしまった
  • PA-APIのレスポンスがJSONに変わった。以前はXMLで、XSLTでゴリゴリ処理していた
  • 1回のリクエストで複数の結果が取得できるバッチリクエストが廃止された。PA-APIへのリクエスト数が増え、レート制限を超えやすくなった

移行期限が2020年1月14日に伸びそうとの噂もありますが、早めの対応をおすすめします。

プロフィール
Web開発者。現在の関心事はシステム品質の改善(特に性能効率性と保守性)。JAPAN MENSA会員。
カテゴリ別アーカイブ
記事検索