Snoopyという面白いライブラリを発見したので色々とまとめてあるサイトをさらにまとめてみようかと。
- Snoopy でHTMLを取得する - bnote
- Snoopy で Web 巡回ソフトを作る - ひきぷろぐ
- phpでどこかのhtmlソースを持って来る - 和風なギークに憧れて…
- SnoopyとHTTP_Request - ITT-WEB
これら以外はあまり情報が見つかりませんでした。
Snoopyがあまり使われていない理由は同じ機能を持つものが存在しちゃったりするからでしょうかね。
調べてみたところどうやらSnoopy単体よりかhtmlsqlとセットで使用されちゃったりしてるのですな。(htmlsqlをダウンロードするとSnoopyもセットで付いてきます)
htmlsqlについては、
- htmlSQLの基本的な使い方 - floatingdays
- SQL みたいな文法で HTML を抽出する PHP のライブラリ - Bowz::Notebook
- htmlSQL すごかった。感動した。 - REDLINE MAGAZINE
など他にも情報が盛り沢山あります。
で、先に述べたとおりスクレイピングやクローラーの類はSnoopy単体よりもhtmlsqlとのセットで使われているので、ソース探しもこれを目安に探せばいいのかも。
このhtmlsqlは名前の通りSQLライクに書くのですが、他にもjQueryライクに書くPHP Simple HTML DOM Parserなんてのもあるみたいです、多分手は出しませんが。
という訳で、使い勝手が良さそうなこれらを使って何かを作るかも。