Archive for the 'dat落ち' Category

11 月 10 2008

クローラーのスクリプトを自動作成に切り替え

Published by admin under dat落ち, サーバー, 備忘録, 管理

板毎に手動でwgetなんちゃらと書いて定期的に呼び出していたものを
ディレクトリリストを読み込んでシェルスクリプトを自動で作成するように切り替えた。

と同時に、クロールスケジュールもこのディレクトリリストから作成するようにして、
転記ミスが発生しないようにした。

いよいよ1割近い板を巡回するようになったわけですが、
転送量もさほど増えないし、巡回スレッド数も2500~3000スレ/日とそれほど増えている様子はない。

2chのdatに割いているのはプライマリの46.57Bとデイリーバックアップ用途の36.55GB。
プライマリの使用容量は27%なので、およそ12.5GB…

あれ、おかしいな2ヶ月前から2.5GBぐらいしか増えてない。
これは案外HDDが持つかしれない。

No responses yet

9 月 27 2008

211760

Published by admin under dat落ち, サーバー, 備忘録, 管理

補完しているdatが211000件を越えたみたい。

そろそろ、パーティションを移さないとDISKFULLエラーでまた大変なことになる。
現在、80%だから、88%辺りになったら移そう。

GBにすると、およそ10GBかな?

# あっという間に増えそうなので速めに移行した。
46G  9.9G   34G  23%

このままのペースで、あと34GBも有れば1年ぐらいは持つだろう。

No responses yet

3 月 26 2008

利用中?

引き続き、readc.cgiの改良をして、色々とこれからするべきことが解ってきた。
MySQLとの接続が途中で切れたりしていたので、その辺りの対策も完了。

ところで、さくらインターネットのステータスが利用中になっていて
支払状況も何故か済みになっていたのだけれど、
まだ、アルファインターネットからメールが来ない。

クレジットの引き落としも、どうやら行われていないみたいだし、
もうちょっと時間が掛かるのかな?

移行に際して色々と作業しているので、たびたび接続が切れ気味。

No responses yet

3 月 24 2008

スパゲティ

Published by admin under dat落ち, ネット, パソコン

過去ログの表示に使っているreadc.cgiが度重なる関数の追加でえらく複雑化してしまい、
現在は、インクルードしている関数を抜いて1400行ぐらいなんだけど
構造がおそらく今まで作ったスクリプトで一番複雑化していると思う。

表示に関する部分というのは殆ど完成していて、スッキリしている。
ところが、度重なる修正を加えたdatを取り寄せる部分(自鯖|p2|bg)はとってもごちゃごちゃ。

if文なんかでは、こんな風になってるところもあった。
if (($a == ‘1′ || $b == ‘2′ || $c == ‘3′) && $d != ‘4′) {
}

こんなにもぐちゃぐちゃでは、ぱっと見てどんな動作になるのかさっぱり解らない。
はっきり言って、今はとりあえず動いてるから・・・ で何とかしてる状態。

この辺りを書き直さないと後々困りそうだな。
と言うか現状困っているんだった。

No responses yet

2 月 01 2008

rsync

Published by admin under dat落ち, サーバー, 管理

システムディスクのrsyncを始めてみた。

コンテンツディレクトリは毎週tarにバックアップしていたんだけど、
設定ファイルとかが飛ぶと面倒なので…。

初回のミラーリングはもう終わったから、後は、差分更新が毎時行われるのみ
しかし、これはどうなんだ…?

cpu-6h.png
muninのグラフだとI/Owaitが占めているってのが解ったりする。

localhost-cpu-day.png

うーん、過去ログdatのファイル数が多すぎて転送リストの作成に時間が掛かってる模様。
どう分割すべきか、、、

メモリも食うし、CPUも食うからなぁ。

# あまりに作業が重いので、1日一回にした

No responses yet

12 月 31 2007

SQLを見直す

Published by admin under dat落ち, サーバー

ASKS変換のクローラーをさらに高速化してみた。

今まで1スレ当たり最大4回実行していたSQL文を見直して
1スレ当たり2回までに抑えるようにした。

この結果、50秒/35スレから35秒/35スレまで高速化できた。

SQLは、更新に掛かる時間がもの凄く多いことが解りました。
これからは、出来るだけフラグをぽこぽこ立てておいて、それを解釈するようにしよう。

No responses yet

12 月 29 2007

2007年

Published by admin under dat落ち, 管理

今日を入れてあと3日とな!?

ASKS変換のクローラーをgzip対応にして、通信を高速化してみた。
gzencodeはココから調達、、、

gzdecode Function in PHP
http://www.tellinya.com/read/2007/08/28/83.html

ものによっては、半分から4分の3ぐらいまで速くなった。
もっと前から導入すれば良かったなぁ。

今年は、GTFPを買ってから色々とゲームやグラボを買って
PCのグラフィック面がパワーアップしたり

本格的?な過去ログ倉庫の作成をしたりと
自分の作りたいものが作れるようになってきた気がする一年でした。

来年はちと忙しくなりそう。

No responses yet

12 月 17 2007

結果です。

Published by admin under dat落ち, サーバー

90631スレの圧縮作業が終了しました。
といっても、30秒の時間制限に引っかかるスクリプトをリロードして、何回も実行しただけですが。

結果から言うと、8,177,208KBまで減りました。
つまり約8GB、ほぼ半分です。

容量の少ないスレッドが多かったため、目標の4GBは無理でしたが
これで、あと半年は戦えるのではないかとおもいます。

それと、今回圧縮を掛けたことで、全ての過去ログの保存位置が統一され、
今後、作業をするときにも便利になりました。

readc.cgiで読まれたスレッドのステータス表示は以下のようになっています。

・自宅サーバーからgzで圧縮されたスレッドを読み込んだとき
 tanabota.gz
・XREAにキャッシュされているdatから読み込んだとき
 tanabota.tmp
・自宅サーバーからdatを読み込んだとき(今後はもうないはず)
 tanabota.info

# 何かおかしいと思ったら、停電でIPが変わっていた模様。
# Google仕事してるな。

google.png

No responses yet

12 月 17 2007

実験です。

Published by admin under dat落ち, サーバー

試しにex23.2ch.net以下のdatファイルを全部gz化してみました。
んで、dfした結果、以下のように。

16,980,600KB→16,602,624KB
4407ファイルを圧縮しただけでおよそ380MB減りました。

これはちょっと期待できるかも。

さらにnews23.2ch.net以下のdatファイルを全部gz化してみました。
ココだけで14555ファイルもあったりします。

dfしてみると・・・
16,603,188KB→15,581,924KB
1GBも一気に減った。すげー。

次は、wwwww.2ch.netです。
ココも10000ファイルぐらいあります。

15,581,924KB→14,641,032KB
これまた、1GB近く減りました。やべー。

No responses yet

12 月 17 2007

過去ログ倉庫gz化計画

Published by admin under dat落ち, サーバー

現在、非圧縮で扱っている過去ログ倉庫のdatを
gzで圧縮して、転送量と使用容量を減らそう という計画

参考値
使用前:112203byteのdatファイル
使用後:39675byteのgzファイル(w5)

対応
・現状のスクリプトに関数を組み込む

利用方法
1)readc.cgiで読まれ、XREA側にファイルがあった場合にgz化を進めていく
 自宅サーバーに転送後、自宅サーバー側で圧縮前のdatがあるか確認する必要がある。

2)readc.cgiで読まれ、自宅サーバーから転送する際に圧縮していく
 CPUに掛かる負荷が不明
 自宅サーバーから読み出すスクリプトを対応させれば良いだけなので対応は容易

3)1と2の両方を実行する
 組み込みが面倒になるかも

4)新規取得時に圧縮

現状
現在のdatファイル数は9万(11.9GB)
一日で増える容量は約150MB

参考値から計算すると、約3分の1となるため、
一日で増える容量は約50MB、総容量は約4GBとなる。

# 追記
早速、2と幻の4を適用してみた。
良い感じにgz化され始めた。

No responses yet

Next »