top of page

AIを使ったAI開発の時代(設立6周年)

  • 執筆者の写真: tomohisa kumagai
    tomohisa kumagai
  • 6月25日
  • 読了時間: 3分

今月末で、くま力学研究所は設立から6周年完走します。

支えてくださったお客様、社内のメンバー各位、有形無形でお世話になった方々へお礼申し上げます。


6年前に起業した一つのきっかけは、機械学習やディープラーニング技術の進化とコモディティ化(自分で扱える環境の普及)でした。


2-3年前にLLM生成AIが登場し、当ブログでもChatGPTを取り上げました。(ChatGPTについては続編記事を書いていたのですがお蔵入りになっている間に、)本日は更に進化した生成AIによるコードジェネレータの話です。


CursorというAIコードジェネレータがあります。プロンプトで指示して、コードを書いてくれたり、デバッグしてくれたりする生成AIツールです。

Cursor画面(Diffusion Modelをトライ中)
図 Cursor画面(Diffusion Modelをトライ中)

弊社は、PoC (Proof of Concept) のような仕事が得意です。チームが小さく小回りが利きやすい体制だからです。


機械学習でPoCをやる場合、従来は本かWebからサンプルコードを見つけそれを参考に、自分達の目的に沿うようなコードを書いて作業ベースを得る、というやり方をしていました。PoCを完遂する上で、作業ベースを得たところがスタートラインであり、そこから考察してモデルを改良したりパラメータチューニングしたりが仕事の核心だと思うのですが、Cursorを使うとスタートラインに立つまでのプロセスが圧倒的に速くできるのです。(もちろん、ChatGPTでも似たようなことが出来るのですが、Cursorはプログラム開発環境として開発されていて色々使い勝手が良い。)


現在弊社では、設立に至る経緯や考えを紹介するPR動画を製作しているのですが、一時、私の声をナレーションに使おうか、というアイデアがありました。実際に録音までしたのですが、素人の長尺のナレーションというのは、声量のばらつきが大きいことが大きな問題と分かりました。(おそらく、無意識に口とマイクの距離が変わったり、気分により発声量が変わったりしてしまう。)


この録音ファイルを、ダイナミックにゲインを変えて声量を均一にするプログラムを自作しようと思って、Cursorを使いまして、だいたい動くものが半日、細かい改良まで入れて1日で完成してしまいました。

機能としては、以下のようなもの。

  • WAVファイルをロード

  • 目標のボリューム(dB)を決める(複数のWAVファイルの一番dBの大きいところを見つける)

  • 時間に対して遂次変化するボリュームを評価し、目標ボリュームと比べて必要な補正倍率を求める(録音ボリュームが小さい所は、倍率を大きく、そうでないところは小さく)

  • 補正倍率を時間に対してスムージング

  • 補正倍率を音波形に適用

  • WAVファイルを書き出す


これをWebで調べたりしながら自分で作っていたら、1週間はかかったと思います。


WAVファイルのボリューム補正プログラムの結果
図 WAVファイルのボリューム補正プログラムの結果(上段:音波形 補正前後、中段:補正倍率 スムージング前後、下段:ボリューム(dB) 補正前後。 下段の赤が概ね一定に補正されていることが分かる。)

Cursorを導入することで、これまでより圧倒的に素早く、PoCが立ち上げられるようになりました。使える武器は使って、今後もお客様にコストパフォーマンスの良い技術サービスを提供してまいります。


(追記)PR動画はあと1週間程度で完成する予定です。あと少し!










最新記事

すべて表示
MiniCondaのインストール

今回は、科学技術計算用途でPythonを使いたい場合の環境設定に関するお話です。 1)Anaconda/Minicondaを使う理由 Pythonを「とりあえず」動かしたい場合、ついつい最短コースで、Windowsに直接インストールをしたくかもしれませんが、これは全くお勧め...

 
 
 

コメント


この投稿へのコメントは利用できなくなりました。詳細はサイト所有者にお問い合わせください。

©2021 by Kuma Dynamics Lab. co., Ltd.

bottom of page