Gauche > Archives > 2011/02/01

2011/02/01 00:01:34 UTCshiro

ああ、regexp-replaceがdisplayで文字列化をやってくれるんだった。

2011/02/01 00:05:57 UTCshiro

confファイルで評価するなら、いっそのこと各置換パラメータ (room-name等) をparameterとして定義しちゃって、confファイル自体をloadさせればいいかも。そしたらトップレベル式も評価されるし。includeは既にloadでサポートされてる (非公式だけど)。

2011/02/01 02:33:48 UTChigepon

dbd.mysql は insert の場合に dbi-execute が mysql_insert_id を返すとうれしいかもしれない。

2011/02/01 02:52:17 UTCshiro

select以外の場合の戻り値ってあんまりちゃんと考えてないんだよね。dbiに見せるならバックエンドに依存しない値が望ましいけど、もともと使ってないものならバックエンド毎に意味を持たせるってのはありかもしれない。

2011/02/01 03:08:19 UTChigepon

そうですね。insert なら insert_id、update なら updateされた行を知りたいってのは良くあることだと思うので本当は dbi がそういうインターフェースを持つのが良さそうな気もします。

update された行ではなくて、「update された行数」の間違い。

2011/02/01 03:11:12 UTCshiro

dbiのレイヤではいろんなバックエンドに対応できなくちゃならなくて、insert_idとかupdate行数が定義できないバックエンドもあるから、dbi公式仕様は最大公約数的にならざるを得ない。

アプリ毎に、「バックエンドはmysqlだとわかってるからinsert_idが取れるはず」などと判断して使うのはokだろう。

2011/02/01 03:15:55 UTChigepon

Perl の場合だと http://search.cpan.org/~timb/DBI/DBI.pm を見ると last_insert_id というのがありますね。どこまでが最大公約数と判断するかは難しいなあ。

2011/02/01 03:18:18 UTCayato

例えば (dbi-do conn "insert ...") => id なんて場合には、dbdのほうでinsertとselect last_insert_id() ...の二つがクエリされる感じですか？

2011/02/01 03:19:58 UTChigepon

そういう実装になると思います。mysql の場合は dbd.mysql が mysql_insert_id を呼ぶことで last_insert_id を取得する感じだと思います。

2011/02/01 03:22:28 UTCnekoie

(どうもです。Chaton改造版、機能よさそうなのあったらどうぞ持っていってください。

2011/02/01 03:31:12 UTCayato

"insert ..."だけしたつもりが"insert ..."と"select last_insert_id () ..."の二つがクエリされてた、ってなると個人的には怖い感じがします。dbdの一個上の層でそういうの作るなら良いと思いますが（個人的には）。

2011/02/01 03:36:36 UTCayato

s/dbdの一個上/dbiの一個上/

2011/02/01 03:53:16 UTCshiro

dbiに渡すDSNのオプションでどっちも選べるようにするとか。DSNのオプションの解釈はdbdに任されてるし。insert_idみたいな非標準機能を使うアプリは当然DSNオプションも使い方に合わせて書けるし。

ところでlast_insert_idを別コールで取る場合、複数スレッドがdbにアクセスしてたらどうなるんだろう。

2011/02/01 04:17:49 UTCとおる。

insert と select last_insert_id の間にほかの人が insert するとずれません？

2011/02/01 05:01:27 UTCPettal管理人

MySQL

MySQLの場合、コネクション毎にlast_insert_idの値は個別管理されているはずです。同一コネクションの中でINSERT/SELECTを一気に行えば、last_insert_idはずれないはずです。

2011/02/01 05:06:36 UTCPettal管理人

last_insert_idの値を生成するAUTO_INCREMENTカラムの扱いは、RDBMSによって異なってくるので、異なるRDBへの移行が起こりうる場合は慎重に扱う必要があります。個人的にはdbiは現状のまま、last_insert_idを扱うラッパーを上からかけて、さらにその上から抽象化するのがいいと思っていたのですが、そうすると同じような抽象化レイヤーが二重になってしまうのかな？

2011/02/01 05:13:54 UTCPettal管理人

私自身は、以前はAUTO_INCREMENTカラムをレコードIDにするコードを書いていましたが、最近ではUUIDでレコードを識別するようにしています。UUIDの一意性がどこまで信用できるのかはまだ不安なのですが、IBMのページに大丈夫ってあったようなので、とりあえず信用しています。

ちなみにuuidgenのコードは次のとおりです。

(define (uuidgen)
  (let* ((process (run-process '("uuidgen" "-t") :output :pipe))
         (line (read-line (process-output process))))
    (process-wait process)
    line))

UNIXコマンドをそのまま使っているだけです。

2011/02/01 05:27:32 UTChigepon

Perl の DBI のように last_insert_id という項目自体は dbi にあり、値の意味は下のレイヤーによって異なるというアプローチが現実的な気がします。異なる RDB への移行の場合はそのあたりをチェックする責任はプログラマにあると。

2011/02/01 05:42:18 UTCPettal管理人

私自身は、dbiにはlast_insert_id取得を含めて欲しくないなあ、というのが正直なところです。実際問題としてAUTO_INCREMENTカラムがなければ意味がないし、INSERTの時に自動的にSELECTかけられるのもちょっと･･･。もしlast_insert_id取得をオプションにするという場合でも、呼び出し時のオプションが増えるのは好ましくありません。それにAUTO_INCREMENTカラムを使う手法って、No-SQLの利用ノウハウがRDBサイドにフィードバックされることで、だんだん少なくなっていくのではないかなあ、という気もするんですよ。（根拠はないんですが）

2011/02/01 05:57:32 UTCPettal管理人

前言一部撤回。オプションは増えてもいいです。使わなければいいんだ。last_insert_id取得をオプションで実装、というのはアリですね。

2011/02/01 08:10:07 UTCとおる。

last_insert_id は実際便利ですよね。last っていうと「最後」っていう感じがするけど、自分が最後に insert した行、っていう意味ですよね。

もう SQL は 5 年以上触ってないですが、そろそろまた仕事で使うかもしれないので、いろいろ思い出さなきゃ。

2011/02/01 08:16:11 UTCshiro

>Pettal管理人さん、本題とは関係ないけど、外部コマンド起動して出力を取るのは (process-output->string '(uuidgen "-t")) でいけますよ。

2011/02/01 08:41:30 UTCPettal管理人

ありがとうございます。圧倒的にシンプルですね。リファクタリングしなくちゃ。

2011/02/01 08:50:35 UTCPettal管理人

リファレンスを改めて確認。なんだ、こんないいFunctionを見落としてたなんて。「できた！」と思うとすぐコーディングしちゃう、悪い癖。

2011/02/01 08:59:36 UTCshiro

sf.netへのアタックの影響で、sf.netのCVSサービスがいずれフェードアウトするっぽい。いくつか古いプロジェクトはまだCVSのままだったがこの機会に移行するかなあ。 https://sourceforge.net/blog/sourceforge-attack-full-report/

2011/02/01 09:50:17 UTCshiro

リビングの床がらむ太の「ぴたごらそうち」で埋め尽くされつつある。あれはどこにいったんだ、と思って探すと装置の一部になってること多し。時々物理法則に反する動きをさせようとして「もうなんでうごかないの！」と泣いて怒っている。自然の法則は厳しいものなのだよ。そうやって身に刻め。

2011/02/01 12:21:20 UTCkoguro

Gaucheのdbiって使ったことないのですが、RDBの抽象化レイヤーって必要なんでしょうか? (ちょっと極端)

昔、Javaのアプリで複数種類のRDBに対応するようなアプリを作ったことがあるのですが、RDBごとにSQLの構文も違いますし、トランザクションやロックの考え方も異なるため、insertやselectといった単位でなく、もうちょっと大きな単位で抽象化(いわゆるビジネスロジックみたいなもの)して、各RDBごとの処理を実装することになったことがあります。

2011/02/01 12:25:31 UTChigepon

RDB の抽象化は2つの理由で必要かなと思います。

2011/02/01 12:25:51 UTCkoguro

で、性能のチューニングとか始めると個々のRDBに特化した機能をつかうはめになるので、あんまり抽象化されるとかえって使いにくかったような。

2011/02/01 12:26:21 UTChigepon

(1)いわゆるDBDを書く人たちが I/F ばらばらなものを書いてしまうのを防ぐ（プログラマが困る）

(2) もうひとつは最大公約数だけしか使わないという大半の人たちが楽できる

koguro さんのようなケースでは確かに不要だというのは賛成です。

結局チューニング等でごにょごにょすることがありますよね。

最近ではデータの取得は大きな単位での抽象化（repository）もよく見かけますね。Java の世界では特にそうかも。

2011/02/01 12:29:24 UTCkoguro

うーん、そもそも「どんなRDBでも動くアプリを作りたい」という要望ってそんなにあるんでしょうか?

2011/02/01 12:29:43 UTChigepon

はっきり言ってないです。

そうではなくて

2011/02/01 12:29:59 UTCkoguro

極端な話、今だったらMySQL固定(PostgreSQLでもいいけど)じゃだめですか?

2011/02/01 12:30:30 UTChigepon

このアプリは MySQL、もう一つのアプリは PostgreSQL という場合に似たような書き方ができるのがうれしいのではないかと。

2011/02/01 12:31:17 UTCkoguro

それだったら、「APIの指針」を決めとくレベルでいいんじゃないかなと思うのですが。

2011/02/01 12:31:29 UTCshiro

プログラマがdb毎に違うapiを覚えなくちゃならない負担を減らすっていう意味はありますね。

あ、かぶった。

2011/02/01 12:32:10 UTChigepon

MySQL 固定で良いというのは賛成です。なので Mosh でも MySQL の dbd しかありません。

2011/02/01 12:32:43 UTCkoguro

APIが似ていればよくて、一致させる必要はないような気がします。

2011/02/01 12:33:34 UTChigepon

そこは微妙なラインですね＞一致させる必要はない

2011/02/01 12:34:05 UTCshiro

そうかな? dbiみたいな形になってれば共通構造が抽象化できるチャンスは増えると思いますが

2011/02/01 12:34:58 UTCkoguro

うーん、「共通構造」って具体的にどんなものを指していますか?

2011/02/01 12:35:10 UTCshiro

たとえSQL本体がDB毎にチューニングしたものであっても、「何か

「何かSQL投げて、結果をこう料理する」というような部分は共通だったりするとか。どちらかというとアプリを書く人よりは、ミドルウェアを書く人の発想ですが。

2011/02/01 12:36:30 UTChigepon

＞「何かSQL投げて、結果をこう料理する」

まさに今そんなコードを書いています。

2011/02/01 12:37:02 UTCshiro

その場合、SQLとDSNを外から与えてもらえれば、中はdbiでだいたい書けるってことはあるんじゃないかと。

あと、いずれチューニングでDB毎にコードが分岐するとしても、とりあえず動くフレームワークを先に作っておけるってのはメリットじゃないかと。

2011/02/01 12:42:29 UTCkoguro

うーん、実際に以前業務アプリのミドルウェアを書いていたのですが、RDB毎にトランザクションやロックの考え方が変わるので、先にRDBを決定しないと設計が難しかったりしました。なので、RDBを決めないうちにプログラムを書いてうれしいかなと思ったりしています。

2011/02/01 12:44:43 UTChigepon

koguro さんのお仕事の問題領域がやや特殊なのかもしれません。自分はもう少しカジュアルなものをイメージしています。

2011/02/01 12:45:22 UTCshiro

RDBの使い方は千差万別で、気軽な永続ストレージとして使う場合と、がっつり使う場合とで違ってくるでしょう。koguroさんの使い方が特殊だとは思いませんが。

2011/02/01 12:46:09 UTChigepon

ああそうですね。特殊というのは間違い。

2011/02/01 12:46:21 UTCkoguro

いわゆるSI的なお仕事が多かったんですが、だいたい最後には「Oracle直接触らせろ」みたいな感じになってました。

まあ、dbiがいらないというのは極端ですが、例えば「MySQLのdbdのレイヤーでは、MySQLのC API+Scheme風にアレンジしたAPIを提供する」「dbiではdbdで提供するもののサブセット(最大公約数的な物)を提供する」というふうにして、個々のRDBに特化した機能を使いたい場合dbdを直接触れるようにするのがいいのかな、と思います。

2011/02/01 12:47:24 UTCeyasuyuki@twitter

たとえばJavaだとJDBCというライブラリがあるのでコネクションなどが抽象化できるわけですが。(たとえばテスト用にはPostgreSQLを使って本番用はOracle、とか)

2011/02/01 12:47:58 UTChigepon

ありますねー＞「Oracle直接触らせろ」

2011/02/01 12:48:45 UTCshiro

今でもそうなってますよ＞dbiは最大公約数、dbdはDB-specific

DB-specificというのは、dbd.mysqlなら mysql-なんちゃらという形でlibmysqlに対応するapiが見えるということです。

今のところ必要最小限の機能しか見せてないってのはありますが。精神としてはdbdで見せられるだけ見せる。

dbmインタフェースも同じですね。dbm-なんちゃらは最大公約数、dbm.gdbmなんかでは gdbm-なんちゃらでspecificなルーチンが叩ける。

2011/02/01 12:54:56 UTCkoguro

精神なそうかなと思っていたのですが、ソース見たらMySQL C APIを全部公開していないみたいだったので。

最初に思ったのは、last_index_idみたいな機能ってdbiじゃなくてdbdのレイヤでサポートすればいいんじゃないかな、と。

プログラマが個々のRDBを気にかける必要があるなら、それはdbiでなくdbdの領分かなと思います。

2011/02/01 13:00:56 UTCshiro

単に怠惰なだけです＞C APIが全部公開されてないの

2011/02/01 13:01:41 UTCkoguro

怠惰は重要な美徳です :-)

2011/02/01 13:03:46 UTCshiro

特定のRDBだけのものならdbd、というのはそのとおりだと思います。ただまあ、dbiにはお手軽インタフェースって役割もあって、そういうお手軽な使い方でlast_index_idが帰ってくるとコードがうんと短くなるっていうなら、まあサポートするのもありかなと。

もちろんオプションで。

2011/02/01 13:05:57 UTCkoguro

うーん、それならPettal管理人さんがやっていたように、「UUID生成してからinsert」の方が汎用的でいいんじゃないかなと思います。少なくともOracleだとlast_index_idの実装は面倒です。

2011/02/01 13:06:58 UTCshiro

それならそれでも。私自身はlast_index_id使ったことないので判断できませんです。

2011/02/01 13:09:59 UTChigepon

UUID パターンは行の順序を別カラムで管理しないといけないのが若干面倒かも。

2011/02/01 13:10:58 UTCshiro

う、そもそもRDBを使うときに「行の順序」なんてものがinherentにあるという概念がない。

2011/02/01 13:11:50 UTCkoguro

どこまで厳密にするかですが、「とりあえず一意っぽいIDをinsertしてみる」「一意制約違反ならIDをつくり直してもう一回やりなおす」というのはどうでしょう?

2011/02/01 13:12:26 UTChigepon

ありですねー。

2011/02/01 13:13:26 UTCeyasuyuki@twitter

それは正しい理解です。RT : shiro: う、そもそもRDBを使うときに「行の順序」なんてものがinherentにあるという概念がない。

2011/02/01 13:13:45 UTCayato

んー、dbi/dbdがデータベースのスキーマに干渉するんですか？

2011/02/01 13:14:04 UTChigepon

order by id とすると楽なのですよ（何

2011/02/01 13:14:39 UTCshiro

いや、dbiを使う人がそういうスキーマを作るってことで、dbiが勝手にidをつけるってわけじゃないです。ですよね?>all

2011/02/01 13:15:06 UTChigepon

はい。dbi の外側の話ですね。

2011/02/01 13:15:12 UTCkoguro

そのイメージです。

2011/02/01 13:16:32 UTCayato

なるほど。

2011/02/01 13:19:24 UTCPettal管理人

あれ、ちょっと目を離していた間にずいぶん盛り上がっていますね。とりあえず一言。ID（レコードの一意性）とORDER（順序）は切り離しておいた方がいいと思いますよ。両者は本質的に違う意味を持っているから。一意性は絶対的ですが、順序性は相対的です。私ならIDはUUIDにしておいて、順序性が必要であればそのためのカラムを用意します。でもAUTO_INCREMENTですむのであれば、Timestampの方が汎用性が高いです。

UUID生成してからINSERTっていう方法は、（1）クエリーの回数を減らせるのでコストが低い、（2）一意性をアプリケーション側でコントロールできるので融通が利く、というメリットがあります。その点はKoguroさんの意見に賛成です。

私がAUTO_INCREMENTの利用をあきらめたのは、MySQLとPostgreSQLではデータ型が違うし、Oracleでは扱いが厄介、という点に躊躇したからという理由があります。

2011/02/01 13:27:47 UTCPettal管理人

でも個々のRDBMSで仕様がカナリ違うからといって、すべてRDBMSに直アクセスというのはもったいない話で、可能であれば「最大公約数」的な機能をdbiで提供していただいて、その上で各RDBMSに特化した機能を実装した方が、プログラマーとしては融通が利くのかなあ、という気持ちがあります。そういう意味で「dbiはいまのままでOKなんですよね。

2011/02/01 13:55:07 UTCPettal管理人

koguroさんの「RDBを決めないうちにプログラムを書いてうれしいかなと思ったりしています」というのは、実感としてよくわかります。私もDB2、Sybase、Oracle、MysqlとRDBを渡り歩いて（なんていうと格好いいですけど、とりあえず使ってみて）、共通項はあるにしても「なんでこんな肝心なところが違うの？」と思ったことが多々ありました。でもこの20年間の流れをみていると、進化のスピードは言語＜アプリケーション＜データストア＜ハードウェアという気がするんですよね（またまた根拠はない）。そうであれば今の段階でRDBMSがある程度多様化するのは必然なのかもしれません。実際ひとつのアプリケーションが複数のデータストアを乗り換えて生き残っていくっていうケースはけっこうあります。そうすると、やはり「このコードで他のデータストアに移行できるか」って、気になります。ハードウェアの乗り換えを意識する人は多いと思うんだけど、その次はデータストアの乗り換えを意識した方がいいのかもしれない。そういう意味で最大公約数的な抽象化を行うdbiの存在は偉大だと思ってます。

2011/02/01 13:59:54 UTCkoguro

分野ごとに特性が違うのかもしれませんが、今まで私はあんまり他のデータストアに切り替えるといった例は見たことなかったです。

データベースって変えにくくて、上のプログラムが変わってもデータベースはそのままというのが多かったような。

データベースが切り替わるのはシステム全体を新しく作り替えるとき、っていうのはよくありました。

2011/02/01 14:02:34 UTCPettal管理人

業務に特化したアプリケーションだと、ここ15年はOracleだけでもいけそうですね。でも商用アプリとか、ネットサービスではけっこう乗り換えてますよ。FacebookやTwitterもそうですし。Googleは自分で作っちゃっているから中が見えませんけど、おそらく結構変えているのではないかと推測しています。Subversionも複数のデータストアに対応していたと思いますが、これも途中から選択肢を増やしたのではないかな？

2011/02/01 14:03:43 UTCkoguro

そうそう、以前まで業務アプリがメインだったんです。

2011/02/01 14:05:56 UTCPettal管理人

利用者の多いネットサービスでは、スケーラビリティを確保するため、これからHadoopとかCassandraとか、No-SQLへの移行が結構進むと思います。この流れは企業内ITにも影響しているみたいで、某オラクルの人がとある雑誌社の人達に「君たちがHadoopだなんだって、騒ぐから」みたいなことを聞いたことがあります。

しまった、s/某オラクル/某IT企業/･･･いまさらおそいか。

2011/02/01 14:09:21 UTCkoguro

うーん、おっしゃることはごもっともなのですが、No-SQLまで含めちゃうと dbi の抽象化では追いつかないような。

2011/02/01 14:10:04 UTCPettal管理人

企業内の業務アプリではRDB決め打ちが当たり前だと思います。一部のIBM派を除けば、大企業ならOracle、予算が少ない企業か部門独自ならSQL Server、一部のBIならSybaseですよね。ネットサービス系とはかなり違うような気がします。

そう、No-SQLまで含めると、dbiの抽象化では追いつかないのですよ。そこでもう1つ上のレベルで抽象化するか、違う手を打つ必要がある。私はとりあえず、MySQLの上でNo-SQLを擬似的に扱うことにしたので、dbiの上に抽象化レイヤーを作っています。

でも私自身も業務系でいまNo-SQLをメインで使うのは現実的ではないと思うので、これはあくまでもネットサービス系（ロジックは単純だけどスケールが見えない）のケースだと考えていただいた方がいいと思います。

2011/02/01 14:21:46 UTCPettal管理人

えーと、誤解を避けるために蛇足を付け加えますが、dbiにはNo-SQLを意識した機能が必要だとは「全く」思っていません。現状のまま、SQLを適切に発行できる機能があれば、それで十分です。prepare/execがきちんと分かれているだけでも、ありがたいことなんです。

2011/02/01 14:58:59 UTCPettal管理人

（小さい声で）だれかThrift対応ライブラリ作ってくれないかなあ、という他力本願的な希望はありますが。（あくまで小声で）

<< 2011/01/31

Back to the chat room

2011/02/02 >>