corochannNote - Deep learning, Android TV and more

2026年AI技術開発トレンドの予想

Posted on 2026年1月11日 / 0件のコメント

第4次AIブームである生成AIが出てきてからの技術革新は驚くほど速いペースで進んでいる。そんな中でも世の中ではどういった領域に研究の熱量が向かっているか、どういったシーズが出始めているか、トレンドを自分なりに把握して先読みして自分のポジションを決めることがより一層大切になってきているように感じる。

ということで、2026年に行われるAI研究開発/トレンドがどうなるかの予想をしてみる。

Reasoningの登場のようなレベルの技術的なBreak throughが起こってくるのかはあんまり思いつかない。

AI Agent関係

オフィス系のタスク適用

Github Copilotから始まりCursor, Devin、そしてClaude Codeの登場と、これまでLLM活用は特にCoding Agentが先を走ってきていた。そして、いろんな業種がなくなると言われたりする中でも、エンジニアの開発フローが最初に変わって来ている。今後もその動きは続きつつも、それがさらに一般のホワイトワーカーが使うツールに落ちてくることになると思う。

具体的には、Word, Excel, Powerpointといったオフィス系のソフトウェアに対してAI AgentがよりNativeに組み込まれるようになってくる。

既存の動きとしては、Excelに関してはClaude in Excelという形でExcelのAddinとして自然言語で様々な表計算を自動でできるツールがリリースされたりしている。

資料作成業務に関しては、ManusやGensparkなどがWeb SlideをつくるAgentをリリースしている他、Googleの nano banana proが画像生成モデルなのに複雑なスライドを１発出力できることが話題になったりしていた（事例）。

最近発表されたClaude SkillsでもPre-built Agent Skillsとして提供されているのはオフィス系の資料作成Skillが紹介されていたりする。

pptx, xlsx, docx といったオフィス系ファイルを作るためのSkillがPre-built Agent Skillsとして提供されている

今後は、オフィス系ファイルの読み込み・作成に対してLLMの学習レベルから工夫されたり、プロダクトのUXレベルで1から作り直されることでより”Native”な形で入り込んでくるようになると思う。Cursorのように、プロダクトとして一体型のように使えるWord, Excel, Powerpoint互換のソフトウェアがでてくるのか、既存のWord, Excel, PowerpointにたいしてPluginっぽく入ってくるのか、、、両方の動きが活発に出てくると思う。

Long Horizon Taskへのトレンドは続く

“Prompt Engineering”から”Context Engineering” へと技術開発スコープが広がった2025年。Context Managementの技術は進展し、LLM自体もさらに扱えるContext長が長くなり、AI Agentの活動可能時間もさらに長くなる。

AI Agentが解けるタスクの難易度を人間が必要とする所要時間で計測した際に、Log-scale則で伸びている。
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/ より

トレンドとしては7ヶ月ごとに2倍の長さの所要時間が必要なタスクが解けるようになっているとのこと。

You can find additional details about our current methodology as well as our time horizon estimates for Opus 4.5 and other models here: https://t.co/KYGmeKO3JL
— METR (@METR_Evals) December 20, 2025

最近ALE-Agentは最適化プログラミングコンテストにおいて4時間というコンテスト時間おけるCoding taskにおいて優勝をしたが、このトレンドがそのまま続いていくと考えるのが自然で、専門家が数日かけてやるようなタスクも自律的に解いていけるようになる。

Kaggleなどの数カ月レベルのコンペにおいても、AI活用をより上手にした人が上位に行けるという形で戦い方も変わってくるのではないか。

AI Agent LayerでのPlatform標準化競争

GPTsから始まって、MCP、Claude Skillなど、アプリケーション層でPluginする形でAI Agentの挙動をカスタマイズ（専門家）させていく技術の標準化競争が進んでいる。

この標準化競争を抑えられるかは、スマホで言うところのアプリに相当し、Google PlayやApple App Storeがスマホ領域の収益の入口を抑えたのと同じくらい重要になってくると思う。

別の味方としては、ソースコードPlatformのgithub、モデルやデータセットなどのPlatformとしてのhuggingfaceに続く次のplatformとしてAgent layerのapp platformが戦場になる。MCPに関しては存在するMCP serverをまとめたものとして、github MCP RegistryやCursor registry、MCP Marketなどなど多数存在してすでに密なフィールドになっていて、MastraはMCP registry registryを公開するほどになっている。。。

少しトピックを変えて、ChatGPT interfaceからの収益化は徐々に始まってくるのではないか？広告と絡んでくるような連携など。

業務特化ユースケースの学習/改善

Frontier Modelを使う際に、Datasetをたくさん作成してLLMのWeightを学習させていく形とは別の形で、過去(オフライン)や今取り組んでいるタスクの試行錯誤(オンライン)からナレッジなりルールなりを構築する形で”学習”をおこなって精度向上させていくのが2026年のひとつのトレンドになるのではないかと思う。

ALE-Agentで、オンラインナレッジを作りながら次の方策を考えていく例

#AHC058 のfishyleneのログや簡単な分析を以下のページで公開しました。どういう感じでAIが回答を改良していったか、またどんな知見を自分で生み出したのかを確認できます。https://t.co/RoJNIYH8Bw
またALE-Bench上でのGPT-5.2の結果を公開しました。（xhighを諦めました）https://t.co/espu4KdEXY
— YI (@y_imjk) December 18, 2025

ログだけじゃなくて、解法のどの要素がどれくらい効いたかの追加調査もあってマジで面白いので見ていってください https://t.co/8VUZFH13ni pic.twitter.com/az1W3SPYHK
— エチレン (@ethylene_66) December 18, 2025

https://sakanaai.github.io/fishylene-ahc058/

モデル開発

2025年はReasoning Modelに加えてAgentic Foundation Modelが流行った年であったと思う。特にweb searchのさせ方を学習レベルで学んでいくDeep Researchが面白かった。こういったトレンドが来ていることは2025年4月に少し触れていた。

こういった新しいことをするようなBreak throughが起こってくるのかはあんまり思いつかない。

今年の一つのトレンドとしてContext managementまでモデルの学習に組み込んでLong horizon task解かせる研究が進むのかなぁ？年末から一気に研究が出始めている様子。

より長期なトレンド、大きな目標としてのAGIの実現のための研究として、Karpathy (岡野原さんのまとめ)やIlya (岡野原さんのまとめ)が語っていた内容として、次世代の研究トレンドとしてはSample efficientな学習・価値関数を自分自身で動的に変える学習といったものが挙げられていた。こういった第４次ブームの中で戦うのではなく更に次の第5, 6次ブームを起こすレベルのインパクトを狙う研究というのは2026のトレンドではなく、2-5年スパンの中長期的な研究として成果が出てくると個人的には予想。

Artificial Intelligence

2025年に読んだおすすめのAI技術書まとめ

Posted on 2025年12月31日 / 0件のコメント

年末の時期ということで今年の復習を兼ねて、2024年末頃から2025年にかけて発売されたAI関連の技術書を紹介します。

ただ本の内容のまとめを書くだけだとAmazonのレビューなど見ればわかると思うのでそれは短めにしつつ、対象読者（難易度）や、知っている範囲で著者についての背景情報について触れたり、本のスコープ外の関連分野も少し触れたりして書いてみようと思います。

順序としてはアプリケーションよりの内容（AI Agent）からはじめ、開発、モデル、基礎理論よりに移っていきます。（なのでおすすめ順ではないです。）

現場で活用するためのAIエージェント実践入門

著者: 太田真人, 宮脇峻平, 西見公宏, 後藤勇輝, 阿田木勇八
https://amzn.asia/d/410fv9S

2025年はAI Agentの年とも言われていました。そのAI Agentを体系的に学ぶ際におすすめの本です。

Xに投稿した通りなのですが、この本の凄さはその視野の広さ！まさにResearch、Engineering、Business実用まで幅広く、しかもきちんとカバーされてされています。

Research動向を追うという観点では論文だけでも100本以上？カバーされていて最先端のキャッチアップにも最適でしたし、その実応用は第2部で2025年現在の現場で導入されるレベルのAI Agentの周辺環境構築がどのように行われているかもコードレベルで勉強できます。著者が実際に第一線で働かれているので実践的なコードを学習することができます。
また、第1部、第3部はビジネス観点からの技術的なアプローチの分類から、各社の実際のProjectの進め方まで書いてあり具体的で参考になります。ところどころ図も豊富で読みやすかったです。

エンジニアだけではなく、生成AI活用を考えるビジネス開発をしている方も第1部と第3部は読みやすく、今後の案件の取り方とかに活かせるのではないかなと思いました。特に第10章では著者陣が所属するそれぞれの会社（電通総研・Algomatic・Generative Agents）における三者三様な案件の取り方・進め方の違いが具体的に書いてあり、実務を通して行き着いた戦略などを知ることができ参考になります。

著者の一人である太田真人さん(@ottamm_190)は現職Sakana AIにて一緒に働いているのですが、2024年末までWeekly AI Agents Newsをやっていたり↓、2024年末にAI Agentの今後についてまとめた記事を出していたりしました。これらも論文レベルの理解から、それをビジネスにつなげるとはどういうことか、体系的にまとめて幅広く書いていました。

https://masamasa59.hatenablog.com/entry/2024-best-papers-on-ai-agents

AI Agentに関する論文をカテゴリごとに分類したgithub repoのmasamasa59/ai-agent-papersの方は現在も更新されているようです！

LangChainとLangGraphによるRAG・AIエージェント［実践］入門

著者: 西見公宏, 吉田真吾, 大嶋勇樹
https://amzn.asia/d/hGkgHt0

Workflow型のAI Agent を構築する場合の実際のコーディングについて学びたい際に最適な本です。特にLangChain, LangGraphといった人気の高いライブラリを使いながらAI Agent構築をしていく方法がわかります。

LangSmithという機能を組み込んだ状態でLangchainを使うとすごい見やすく管理できる（Tracingといいます）というのがしれるのは良いし、 RAGのコード例もBM25+Vector SearchのHybrid RAGまでしっかりやっていてクオリティが高く、簡単なAgentを組む例もしっかり乗っていました。LangGraphをどのように使うのかの説明は後半にあります。

Generative Agents社の創業者3名で書かれている本なのですが、この会社は教育・研修サービスなども手掛けていて、教えるのコンテンツつくるのが本当に得意なんだなというのが伝わってきます。この本は「ChatGPT/LangChainによるチャットシステム構築［実践］入門」の後継に当たるような本になっています。CEO西見さんは前述の「現場で活用するためのAIエージェント実践入門」の著者でもありますね。

似たようなAI Agent開発寄りの本としてはML Bearさんの「つくりながら学ぶ！生成AIアプリ＆エージェント開発入門」もおすすめです！こちらは、この本のもとになったZennで公開されている「つくりながら学ぶ！AIアプリ開発入門 – LangChain & Streamlit による ChatGPT API 徹底活用」の方は無料でもコンテンツを見ることができます。こちらはStreamlitライブラリを使用したUI込みのアプリケーション構築まで細かく説明があり、1エンジニアがpythonだけで短いプログラム書くだけで生成AIを取り入れたアプリケーション構築ができる時代になっているということがわかります。ML_Bearさんといえばちょうどこんな2025年ふり返り記事を出されていました👀 (はい、、実は今同じ会社で働いていますっ)

Polarsとpandasで学ぶデータ処理アイデアレシピ55

これまでpythonの表形式データの分析ではpandasが使われていました。polarsは内部をrust実装で作成することでより高速な表形式データの処理ができるライブラリで最近人気になってきています(pandaに対してpolarで、もちろんpandasを意識して命名されています)。Kaggleを見ていても、どんどんpolarsを使用している例を見るようになってきており今後大きなデータを扱う際には知っておくと良いと思い読んでみました。

公式のUser guideも充実していますが、本という媒体でもっておくと電車の中で読めたりするので、まとまった文章一気に読めて理解がはかどって良かったです。
PolarsとPandasの比較でそれぞれのユースケースでどういうコードを書けばよいかがわかる用に作られています。

Polarsのコンセプトとして、Expressionを用いて処理を記述し、できるだけ処理をまとめたあとに最後一気に並列で実行できるようにしている(embarassingly parallel)ことや、lazy frameを用いることで処理のGraphを作成・最適化してさらなる複雑な処理フローの高速化までできるということなどがわかりました。Rust実装されているだけではなく、たしかにそういう並列化、処理のコンパイル最適化の工夫があるなら速度がこれまでの10倍とかで実行できるのも頷ける。大きいデータ扱うときは積極的にPolarsを使ってみたいと思った。メモリ消費もBackendでApache arrowを使うことで効率化されているっぽい。

著者の1人である@sinchir0さんは今年の関西Kaggler会#3にてLLMの量子化xファインチューニングのAblation studyについて発表されていたり、来年発売予定の「Kaggle ではじめる大規模言語モデル入門」の著者でもあり楽しみしています。

実践Claude Code入門―現場で活用するためのAIコーディングの思考法

著者: 西見公宏, 吉田真吾, 大嶋勇樹
https://amzn.asia/d/1Cv9sjH

＊12/26発売でまだ読めてないので後日アップデートします。

ここからはいくつかAI駆動開発に関する本を紹介します。2025年はエンジニアのソフトウェアの開発方法が一気に変わった年だったと思います。私自身も特にClaude Codeの出現前後辺りから一気に直接コードを書く量が減り、かわりにCoding Agentに対して自然言語で実装方針を伝えたり、質問したりするようになりました。それでもまだコーディングの実装やエラーの修正程度にしか活用できておらず、フル活用できている感覚がなく体系的に勉強しないとと思いいくつか読んでみています。

先程のGenerative agents社の３名による最新本です。

スペック駆動開発は、先日読んだMixSeekの開発手法としても採用されていたりしましたが(リポジトリのspecsディレクトリ見るとわかります)、完全に日本語でアプリケーション開発が進むようになってきたことに驚きました。また、Claude codeにただコーディングをさせるだけでなくより自律的な使い方に興味があり、これらについて書かれていそうな本書を買ってみました。

Claude CodeによるAI駆動開発入門

著者: 平川知秀
https://amzn.asia/d/hzZEt1v

この本のTutorialは「5分でフロントエンドのみのアプリケーション実装・デプロイ」→「30分でNext.jsを使ったより実践的なアプリケーションデプロイ」→「半日で社内システムデプロイ」と進んでいきます。あくまでもデモではあるものの、１アプリケーションが１日以内にデプロイまで含めて（しかもプログラミングなしに）完成してしまうのは改めて一気に時代が変わったという感じですね。

著者が実際に使っていて有用なMCP serverとの連携方法（context7, serena, playwrightなど）、CLAUDE.mdに要件を定義させていきながらステップを分けて開発していく方法、gh commandと連携させてgithub issueやPRの作成まで自動化させる、Claude codeをgithubにインストールしておきgithubアプリをスマホに入れておくことでリモートから簡単な開発をできるようにしておくなど、、現在のテクニック集が詰まっていて参考になりました。

本書の題材はtypescriptをメインにアプリケーション開発するものが基本で、pythonや機械学習といった要素は無いです。

著者の平川さん(@t_hirakawa)は、株式会社en-gineの代表をされているようです。

これらの本を読む前には以下のような本を読んでいました。今後も仕様駆動開発などが出てきていたりと、まだまだ開発方法は大きく変化する過渡期の中にいるのだと思っていて3~6ヶ月ごとに最新の本読んで学び直すくらいのキャッチアップは必要になるのだろうなと思っています。

「コード×AIーソフトウェア開発者のための生成AI実践入門」

github copilot など、生成AIを用いたコード開発支援を使うようになってきたことによる、開発手法の変化などについての説明本。具体的にgithub copilotなどを使いこなすための本という感じではなく（機能の具体的な説明やテクニックなどの紹介は少ない。）、もっとマクロに生成AIからコード支援を受けられるようにするにはどういうコードを書いていけば良いか、という話が書いてある。

それは結局AIにもわかりやすいように変数名をGlobalでConflictしないようにつけよう、意味のある関数単位でRefactorしようなど、クリーンコードを書こう、という感じでこれまでのベストプラクティスがAI活用にも役立つという話でした。

ただ、人間がレビューをする必要がある、ボトルネックになるのは人間のレビュー速度であり、それは1時間で500行程度、というような見解を示しているのは学びで面白かった。

Promptをどのように書くと良いか、さまざまなアプリケーションがどのようにPromptを作り込んでいるか？とかの紹介もありそこは勉強になった。AppendixのPractice Guideにまとめがあるので、ここを読み返すとどんなこと書いてあったかの復習ができる。

著者の服部さんはgithubで働いており、社内でコード資産を活用し合えるようにする、インナーソースの支援に取り組まれているようでそういう話も書いてあったりします。

「AIエディタCursor完全ガイド: やりたいことを伝えるだけでできる新世代プログラミング」も読み当時はおすすめだったのですが、すでにCursorのUIや機能アップデートが多く、AI Codingの分野は当面は有効期限半年程度だと思って新しい書籍を探したほうが良い気がしています。

AI Coding支援に関しては今年できることが格段に変わってきているので、その位の頻度で学び直すくらいの価値はある分野だと思います。また、Coding分野での（エンジニアの業務活用に対する）生成AI活用は他の業界と比べても格段に進化が早く、他業界での生成AI社会実装を考える際のヒントとなることも多いと思うため、どういう試行錯誤があって今の動向があるかまで把握しておくことは価値があると思います。

Data-centric AI入門

著者: 片岡裕雄 (監修), 宮澤一之、齋藤邦章、清野舜、小林滉河、河原塚健人、鈴木達哉 (著)
https://amzn.asia/d/cnP1Dti

Xでも投稿したので埋め込んでおきます。

Data-Centric AI入門の本を読んだのですがすごく良かったです。
1, 6章でModelではなくDataに注目するDCAIの考え方とその効果・実用例が紹介されていて、2~5章で画像・言語・ロボット領域におけるデータ側の品質/精度向上のための取り組みが紹介されています。
結構文章量多くて重いですが、Deep…
— Kosuke Nakago (@corochann) January 29, 2025

私個人的には最近読んだ本の中で一番好きでした。AIの研究界隈ではモデルArchitectureに意識が活きがちであるが、実応用に当たってはデータ側を見るのが重要で、そこに対してどういうアプローチが存在しているかまとまっています。単純に画像・言語・ロボットというメジャー領域をカバーしたDeep Learning時代のAI研究動向復習本としても最高だと思います。

以下にYouTube liveでの本の解説もあります。

また、Data-Centric AI Communityというconpassのコミュニティ活動も行っているようで、今度参加してみたいなと思っています。

著者の方は私個人は面識ないのですが、それぞれの領域の最先端を研究されている方がきちんと研究動向をおさえて各章を書いてくださっています。監修の片岡さんは後術する「Vision Transformer入門」も監修されているのですが、こちらもすごくおすすめです。

本とは関係ないのですが、TuringがData Centric AIを推し進めて完全自動運転の実現を目指していますね。

基盤モデルとロボットの融合マルチモーダルAIでロボットはどう変わるのか

著者: 河原塚健人, 松嶋達也
https://amzn.asia/d/bW7UbGU

第4次AIブームの次に更にでかい波が来るとしたら、ロボット基盤モデル・Physical AIではないかということで、この分野には大変注目しています。日本ではまだまだRobotics領域の基盤モデル開発に取り組む企業は少ないですが、海外ではかなり本格化してきていますね。

本書では第５章までにこれまでのアプローチの復習として、低レベル認識→高レベル認識→高レベル計画→低レベル計画（制御）の４つのモジュールに分けてモデルを用いるアプローチのそれぞれのモジュールへの基盤モデルを活用するアプローチが紹介されており、第６章で今後のメインストリームになっていくであろう全モジュールをEnd to endでつなげたロボット基盤モデルに対する説明がなされています。第５章までの先行研究の紹介が豊富で、今のロボット基盤モデル開発にいたるまでの先行研究を復習するのにとても良かったです。

第６章部分のロボット基盤モデルに関しては、この本の発売後にもすでにFigure AIからhelixがでてきたり、Physical Intelligenceからもπ0.5, π*0.6がでてきたりと、本当に進展が早く2026年に本が出るならもう第6章部分だけで1冊になるような研究の進展になっていくのだと想像しています。

https://www.figure.ai/helix より。Figure AIのhelixは高速な制御のためのSystem 1と、賢い計画のためのSystem 2が異なる周波数で動きながら1つのシステムとして動作する。

We got a robot to clean up homes that were never seen in its training data! Our new model, π-0.5, aims to tackle open-world generalization.

We took our robot into homes that were not in the training data and asked it to clean kitchens and bedrooms. More below⤵️ pic.twitter.com/D1LB7pYkGt
— Physical Intelligence (@physical_int) April 22, 2025

Physical Intelligenceのπ0.5は、データをスケールさせたことにより、とうとう現実世界で見たことのない環境に対しても汎化して特定タスクをこなせるようになった。

著者の河原塚さん(@KKawaharazuka)は、前述のData-Centric AI本でもロボットデータの章を担当されていますし、Xでもすごい情報発信してくださっています。

ロボット基盤モデルに関してはSurvey論文 (Project page: https://vla-survey.github.io/)や、スライド↓も公開されていたりします。

モジュールごとの開発からすべてのEnd to endでのアプローチに今後はメインストリームが移っていきそうという意味では再掲になりますが、Turingが自動運転領域でEnd to endの方にかけて技術開発を進めていますね。

Vision Transformer入門

著者: 山本晋太郎 (著), 徳永匡臣 (著), 箕浦大晃 (著), 邱玥(QIU YUE) (著), 品川政太朗 (著), 片岡裕雄 (監修)
https://amzn.asia/d/4smqJn5

2022年の本なのですが今読んでもとても良い内容でしたので共有します。Transformerはわかるが、Vision Transformerの方は？？な状態だったので読んでみました。本自体はかなり専門的で、どちらかというと画像領域でAI技術開発をされる専門家向けの本です。

2章ではViTのArchitecture構造をそれぞれのモジュールごと(Position embedding, patch embedding, Multi-head self attentionなど、、)に図で説明しながら、実装レベルまで交えて書いてくれており理解がきちんとできました。そのうえで、では実際の挙動としてこれがどう働くの？というところで、Position Embeddingとしてなにが学習されているかの可視化や、CNN Archとの違いとして物体のテキスチャよりも形状に着目するような認識能力が獲得される→人間もテキスチャよりも形状でものを判断する傾向があるので人間に近いと言える、などなどViTの挙動を深く理解するための分析研究まで紹介されています。

さらに、SwinTransformerをはじめとした様々な後続研究がカバーされており、現在のCV領域に対するAI研究動向を把握するのにとてもよい本でした。

Data-Centric AIと同じく片岡さん (@HirokatuKataoka)が監修されており、著者の皆様もこの分野の最先端を研究されている方々が書かれており、どちらも本当に質が高いです。

原論文から解き明かす生成AI

著者: 菊田遥平
https://amzn.asia/d/10wJQyA

原論文をちゃんと読み込む、というユニークなアプローチで書かれている本で、特に面白いのが第1章に”論文の読み方”に関する説明まであること。これはAIが論文の要約や、レポート作成などやってくれるようになってしまった今の時代において、特にこれから論文を読み始めることになる修士・博士の学生の方や、研究職就きたての方には是非読んでいただけると、ときには1次ソースをこれだけ深く読み込む事が必要なのか・書いてあることから広げていってどういう学びが得られるのかなどがわかって今後のためになるのではないかと思いました。

カバーされている論文も生成AIということでLLMに関してはもちろんですが、Transformerだけではなく、TokenizerとしてByte Paier Encoding (BPE)からSentencePieceまで説明があります。さらに画像の生成AIモデルとして拡散モデルからのDiffusion TransformerやCLIPなどの説明までありかなり幅広くカバーされています。

著者の菊田さん (@yohei_kikuta) は、もともとユビーでVPoEなども担当されていた方で、現在はAWS Japanで働かれているようです。2025年の振り返り記事も書かれていました。（←ちゃんと感想書いてみました！）

生成AIのしくみ　〈流れ〉が画像・音声・動画をつくる

著者: 岡野原大輔
https://amzn.asia/d/jbJ9g9J

＜流れ＞に着目して書いているとのことですが、中身は拡散モデルやフローマッチング、エネルギーベースモデルなどに関する説明がされています。数式を省いて、授業のように図をたくさん書きながら概念を説明してくれているのでわかりやすく理解が進むと思います。拡散モデルはテキストを生成するLLMではなく、画像や音声、動画の生成に使われている技術なので、そちらの領域の理解を深めたい方に良いと思います。

「拡散モデルデータ生成技術の数理」の数式を省いてわかりやすくした後続版という位置づけではあるものの、フローマッチングや。

岡野原さんはPFNの代表取締役社長で、私も前職では大変お世話になっていました。外部にも様々なメディアで発信されていて、Xでは@hillbig のアカウントで毎日最先端の論文の解説投稿をされていますし、日経ロボティクスでAI最前線を毎月投稿していたり（有料です）、特にもともとPFN社内むけにおこなわれていたランチトークを公開して配信しているものは最先端のAI研究トレンドがわかりやすく解説されているのでエンジニア層から非エンジニア層までメルマガ登録おすすめです！！

対称性と機械学習

著者: 岡野原大輔
https://amzn.asia/d/hsi8aVn

上記と同じ岡野原さんの本ですが、こちらは開発の本というよりは数学理論の本でかなり専門性の高いものになります。

機械学習におけるNeural Networkの設計において、入出力の対称性（並進対称性とか、回転同変性とか）を保つ際に背後で働いている数学理論として群論の説明（リー郡・アフィン郡・クリフォード代数など、、、）からされています。

私個人もMatlantisのプロジェクトに関わっていた際に使われていたNeural Network Potentialでは、原子位置の3次元座標の入力に対して、エネルギーや力の予測を出力する際に、3次元座標空間に対する回転対称性を求めるSO(3)、更に反転操作に対する対称性も課す O(3)、更に並進対称性を保つ E(3) 対称性などが望ましい帰納バイアス（というよりも物理法則）として存在していて、これを保つようにNeural Networkの設計がされていました。(SO(3)対称性を保つNeural Networkの設計を提案した初期の論文であるClebsh Gordan Netは量子力学を学んでないと理解難しいと思いますが、SO(3) 対称性を保つClebsh gordan積を非線形関数としてNeural Networkに組み込むものでとても面白いです。)

2026年始に読みたい本

「Kaggleではじめる大規模言語モデル入門自然言語処理〈実践〉プログラミング (KS情報科学専門書)」

Kagglerの takaito さん、u++ さん、sinchir0 さんが書かれた、KaggleのLLMコンペを題材にして自然言語処理に関する実践的な知識やプログラミングを学べる内容になっているとのことです。

書籍発売前から執筆の背景などがたかいとさん、u++さんから書かれていたり、それぞれのコンペでの上位参加者から解説をお願いして作成されているなど、Kaggler界隈ではオールスター的な方々が関わって執筆された本のようで楽しみです。

たかいとさんは2025振り返りを見てもわかりますが、Kaggleなど様々なコンペに参加しながら、金融領域での研究もされていて論文も書き、この書籍も執筆されていたりとほんとにどれだけ活動されているんだというすごい方です。直近の関西Kaggler会でも発表されていました。

u++さんはたくさん発信をされているのでご存じの方は多いでしょう。この他にも様々なKaggle本の執筆に携わっていたり、継続して毎週Weekly Kaggle Newsの発信もされていたりします。

Artificial Intelligence

Preferred Networksは「エンジニアとしての自信をつけてくれた場所」でした

Posted on 2024年12月25日 / 0件のコメント

2016年12月に入社して8年間お世話になったPreferred Networksを退職することになりました。せっかくの機会なのでどういったことに関わっていたのか簡単に振り返ってみたいと思います。

自分にとって、PFNを一言で表すと「エンジニアとしての自信をつけてくれた場所」です。

もともと大学では物理を専攻していて、競技プログラミングなどもまったくやったことがなく、入社当時はソフトウェアに関する実績などもなかった状態でしたが、PFNでのこの8年間を振り返ってみると本当に様々な経験をさせてもらうことができ、優秀な方々との仕事を通じて大きく成長させてもらったと感じています。

さまざまな共同研究プロジェクトを回す

最初に配属されたチームは自分が2人目（自分が来る前は1人の”チーム”だったということになりますね笑）で、製造業を中心にさまざまなパートナー企業様と共同研究をさせていただきました。

Deep Learningがでてきて急速に注目を集めていたタイミングであり、日本のあらゆる業種のトップ企業から集まってくる最先端課題に挑戦できたことはとても楽しくやりがいがありました。Webなどの世界に閉じず、現実世界にインタラクションする部分でのソフトウェア開発を行うという点も自身の興味とマッチしていて面白かったです。

新しく出てきた技術を扱い変化の早いこの業界でのプロジェクトは、期間も短く区切られており、成功による継続や、技術的な不確実性検証の結果として期待したほどの結果が出ないことによるプロジェクト中断も頻度高く行われるため、高速なPDCAサイクルが回っていたことも成長につながったと感じます。

そして何といっても同僚がとにかく優秀で、どんなに難しい課題でも常に解決策を模索し、チームで議論し一丸となって解いていくという体験は最高に刺激的でした。

OSS公開とチーム立ち上げ

物理畑出身の私はDeep Learningを画像や言語ではない、よりサイエンスの領域へ適用していくことに興味を持っていました。そんな中、生物/化学への応用を検討をしてみようということで参加したIPAB創薬コンテストではチームメンバーのドメイン知識と当時流行り出したGraph Neural Network (GNN)の技術を組み合わせたことでグランプリ受賞をすることができ、その際に使用したGNNの実装をライブラリ化して、Chainer ChemistryとしてOSS公開することもできました。

特に優れたスキルがあるわけでもない自分がOSSを公開することができたということは自信につながりましたし、この頃はモデルの多様性も大きく日々いろいろなNeural Networkの実装を行いその精度検証をするのが楽しかった記憶があります。

これらの活動をきっかけに、化学領域でもいくつかプロジェクトが動き始め、新しいチームの立ち上げにも関わることができました。

製品化とJV立ち上げ、〜グローバル展開〜

その後2017年ごろ、「基盤モデル」という言葉が出始めるまえに、原子シミュレーションを汎用的に行える基盤モデルであるPFPを開発するという共同研究が立ち上がりました。技術の尖ったSeedsの研究から製品化まで到達するというのは、これまでの経験からもとても難しいことも感じていながらもいつかは達成したいと思い続けていたことでした。このプロジェクトではさまざまな困難がありながらも、必要なタイミングで最適な方が参画してくれることになるなど奇跡に奇跡が重なって、2年の共同研究を経て最終的にMatlantisとして製品リリースされるに至り、2021年にPFCCというJVを立ち上げて製品展開するに至ることができました。

現在では100近い組織に導入していただいており、グローバル展開もはじまっています。現在の生成AIも然り、多くの技術はアメリカが最先端を進む中で、「日本発のSaaSで世界に挑む」ということもずっとやりたいと思っていたことであり、Matlantisはそれができているプロダクトです(しかも言語や慣習にとらわれないサイエンスという領域で!)。自分は一度エンジニアの職務を思い切り減らしてグローバル展開などに携わらせてもらっていたりしました。グローバル展開はいまもまさに現在進行形で進んでいて、今後がとても楽しみなプロダクトです。PFCCのミッション「革新的な材料・素材の創出を可能にすることで、持続可能な世界を実現する」は社会貢献度も高く共感していて、こんなプロジェクトに携われたことは本当に幸運でした。

国産LLM開発

直近ではPLaMo-100Bモデルの事後学習にたずさっていました。

この時点で国内ではまだ例のほぼない100Bレベルをきちんと学習させ切って使えるものにするというのは、プレッシャーも感じつつ、大勢で時間をかけて一つのモデルを作り上げるという体験は、これまでの時代とは違うもので、チームワークをより密に感じながら開発を進めることができ貴重な体験でした。

（→こういった開発を元にしたサービスがPLaMo Primeとしてリリースされていますので、ぜひご覧ください！）

さいごに

振り返ってみると、自分は特定の業界に対して専門知識を持つスペシャリストではなく、さまざまな業界の専門職の方とDeep Learning領域を結ぶ横断領域で間をつなぐジェネラリストとして動いてきたように思います。

その際に、PFN Valuesにもある”Motivation driven”に任せて、さまざまな領域に移らせていただき、幅広い経験をさせていただいたことは本当にありがたかったと思います。

今から全く同じ経験ができるかというと会社のフェーズも変わっており異なることもあると思いますが、PFN Valuesをはじめとする文化は継続されており、エンジニアとして裁量を持って挑戦ができ、それを通じて成長できる環境であることは間違いないと自信をもって言えます。

フェーズの変化というと、Plantの外販、PreferredAIリリース、Misemiseリリース、PFCP, MN-Coreの外販などなど、、、最近は立て続けに各チームから製品が生まれており、事業化フェーズのギアが完全に切り替わったように感じます。

これからは外側から応援しつつ、さらなる飛躍を日々ニュースで見るのを楽しみにしています。

この最高の職場で働けたこと、そしてお世話になった方々には本当にとにかく感謝しています、ありがとうございました！

Artificial Intelligence/Machine Learning

AI分野の論文キャッチアップ方法まとめ 2024

Posted on 2024年4月18日 / 0件のコメント

LLMをはじめとする生成AIが出てきてから、業界での論文の公開速度が異常でついていくのに必死。どこをチェックすれば一次情報にアクセスできるのか、情報収集方法を見直してみる。

⭐⭐: 自分が積極的に使いたいもの

⭐: 自分が使いたいもの

🤖: LLM使って（要約とかしてくれる）いるプロジェクト

日常的な情報収集

毎日、どこから最新情報仕入れるか。

⭐⭐🤖AI NEWS

https://buttondown.email/ainews/archive/

著名人のTwitter, 業界トップ企業などのDiscord, RedditなどSNSの動向をチェックし、LLM（本稿執筆2024/4時点ではClaude Opusを用いているらしい）で要約してまとめてくれているページ。

海外のSNSを要約してくれているので、特にGlobalの企業動向含めて把握するのに良さそう！！

最初の部分、AI Reddit Recap, AI Twitter Recap, AI Discord Recapだけ（少し前の記事ならPART X: AI Twitter Recapと、PART 0: Summary of Summaries of Summariesだけ）なら10分程度で読めそう。

⭐huggingface papers

https://huggingface.co/papers

@AKさんが毎日更新しているTrending paperのまとめが見れる。

日付ごとに話題性の高い論文を厳選して載せている感じがあり、サムネイルでみれるので、著者や所属機関もわかりやすい。毎日チェックしたい人は良さそう。

⭐Deep Learning Monitor

https://deeplearn.org/

特定の単語で引っ掛けておいて、リスト作れる。

１週間分くらいの最新のフォローアップするのに良さそう。

前は”HOT” tagがあった気がするが、今はなくなっている？

⭐Paperswithcode

https://paperswithcode.com/

名前の通り、論文の実装コードの所在を調べたいときやベンチマークのランキングを見るときに使うことの方が多いサイトだが、Trending Researchのところで、特に押さえておく論文もわかりそう。

日本語での使い方説明

⭐X (Twitter)

特定の人のアカウントフォローしていくのは良さそう。

ただ、Twitter依存したくないので★１つ

DeepLearning.AI

https://www.deeplearning.ai/the-batch/

ニュースサイト。

⭐🤖 自前開発: LLMで論文抽出・要約→Slack投稿

arxivの特定トピックから、自分の興味あるトピックを引っ張っってもらって見ていくとかは良さそう。

やり方はググるといっぱい出てくる。
いくつか例:

イベントトリガー系

⭐⭐Google Scholar Alerts

https://scholar.google.com/scholar_alerts?view_op=list_alerts&hl=en

特定の著者のフォローなどはこちらが良いかな。

気になっている人のGoogle scholarのページの右上にある”Follow”ボタンで、その著者の新しい論文の出版時などにメールトリガーを設定することができる。

⭐各学会、Conferenceのページ

NeurIPS, ICML, CVPR, ICLR などは本当は毎年チェックできると良いのかも。

検索系

新しく特定のトピックついて調べたい時に、どういう論文があるかを検索・リストアップする系。

⭐⭐🤖 typeset.io

https://typeset.io/

いとうさんが紹介してた

https://t.co/47wr1Oh6tc すごくて、それ以外にもAI論文サーベイ表作成・関連論文検索・AI論文質問コパイロット・論文のリフレージング・任意のPDFに対応などアカデミック活動のすべてをサポートしていて凄い。https://t.co/Ol9dutTw8m pic.twitter.com/fuiQCXmaWZ
— いとう (@k1ito) December 30, 2023

⭐Semantic Scholar

https://www.semanticscholar.org

王道で、クエリから検索するならSemantic scholarやGoogle scholarが良さそう。

“Multimodal foundation models”の検索例: https://www.semanticscholar.org/search?q=multimodal foundation models&sort=influence

⭐Google Scholar

Google Scholar

arxiv-sanity

https://arxiv-sanity-lite.com/?rank=time

検索できるし、トレンドのリストを見ていくこともできる。

が、個人の運営でサーバーが弱いのか反応が遅い。

深くSurveyする時

特定論文の引用をたどったりとか、引用している最新の文献を知りたい時。

⭐⭐ Connected papers

https://www.connectedpapers.com/

論文のCitation graphを確認できる。特定の論文の引用・被引用で特に影響力の強い論文がどれか？などを可視化して表示できる。

文献管理ツール

番外編で、では毎日たくさんでてくる論文をどうやって管理するかという話。

あたりが有名どころかな。

比較調べてみる。

EndNoteは買いたくないあなたへ捧ぐ！文献管理ソフト徹底比較【Zotero / Mendeley / ReadCube Papers / Paperpile】｜SD
【2023年最新版】文献・論文管理ソフトとリソースおすすめ30選！ | Octoparse

上の参考文献が良かった。Zotero (Desktop動作、無料) かPaperpile (Web動作、有料) が動作軽いらしくて良さそう。

Zotero
- 無料
- Desktop動作
Paperpile
- 有料 (例えばPersonal useのAcademic版が$2.99)
- Web動作

まとめ

以下で運用してみることに。

AI NEWS、Deep Learning Monitor、Xで日々の最新動向キャッチアップ

イベントトリガーは以下を設定する。

著者：Google Scholar Alerts
学会：学会ごとに調査

特定トピックについて調べるときは、typeset.io や Semantic Scholar, Google Scholarで論文リストアップをして、Connected Papersで周辺論文調査。

論文管理はPaperpileを使ってみようと思う。

Appendix: ChatGPTに聞いた版

https://chat.openai.com/share/2993ee11-78e8-4a92-95cb-86f74ffcf369

Machine Learning

シンギュラリティの日に劇的な変化はあるのか？

Posted on 2024年2月1日 / 0件のコメント

ChatGPTの誕生は、その分野を問わないあまりに汎用的な応答に対し世界が驚いていて、技術的なブレークスルーとなっているのは間違いない。人によっては、「ChatGPTの誕生ですでにシンギュラリティが到達した」とも言われるが、一方で世界は一瞬で劇的に変わっているわけではない。

Xでフォローしている方々も、なんだかんだ劇的には変わらないのではないかと予想している人も多いように感じる。

LLMでAI技術が指数関数的に進む雰囲気あるけど、なんだかんだ人間のAI開発効率が指数関数的に伸びるからな感じだし、昔から「シンギュラリティの10年後(2060年)も、道路は車が走り山手線の車両は四角いままで、人間が律速な物理世界は簡単には変わらない」とは思っていたけど確信に変わりつつある。
— いもす (@imos) April 2, 2023

chatGPT4、ほんの数年前の人類の文明レベルから見たらオーバーテクノロジーに見えるレベルなのに、現代人はしれっと受け入れてる。案外シンギュラリティもこんな感じで意外と日常の変化は緩やかなものかもしれない。
— 山本一成🌤️チューリングのCEO (@issei_y) January 15, 2024

まずChatGPTをはじめとするLLMについて。自分の理解としては、Neural Network (とくにLLMで用いられているTransformer)　は入力文章の長さNに対して、1回の推論にかかる時間はたかだか O(N)〜O(N^2) であるという事実。

例えばNeural Networkを用いてNP Completeな問題の巡回セールスマン問題(TSP)が多項式時間で解けるようになるかというと否だろう（解けてしまうならP≠NP問題が、P=NPとして解かれたことになる）。この世の中の問題には、問題に応じた難しさというものが決まっていて、これはある離れた２点間を旅行するときにどんなに最短でもその距離を移動しないと到達できない（ワープできない）のと同じで、難しさに応じた問題を解くのには物理的にそれだけの空間(メモリ量)・時間・エネルギーが必要であるということだと理解している。

LLMとは別に、特に画像生成領域の方で流行っているモデルで拡散モデル(Diffusion Model)というものがある。この拡散モデルは同じモデルを拡散ステップの数だけ(多いと数千回などが使われる)推論する必要があるのだが、今はこの拡散ステップを問題の難しさに寄らずに固定の数で推論している。

これに関連する内容で、自分が専攻していた量子コンピュータの分野では断熱定理というものがある。この定理では、ある初期状態Aから計算を始めて、答えの状態Bに正しく遷移するのに必要な時間はその問題（量子断熱計算では問題がハミルトニアンHの時間変化で定義される）の難しさに依存する、とされていて、簡単な問題なら多項式時間で解けるし、難しい問題は指数的な長さの時間をかける必要があるとしている。

つまり、難しい問題を正確に解くには、その難しさの分だけの時間をかける必要があるのだ。これは拡散モデルの拡散ステップを増やすことに相当する（その意味では画像生成の多くは多項式時間で解ける”簡単目な問題”に属するということなどだと思う）。

上記のような考えでAGIが出てきたとしても”指数関数的な”飛躍(多項式時間で解けないような問題が高速に解かれるようになる)というのは起きないと考えられる。

ただし、定数倍の加速はありえて、それが10倍だとしたら、100年の技術進歩が10年に高速化されてしまうのだからやっぱり恐ろしいスピードアップにはなるのだと思う。

将棋AIは人間のプロより棋力が上となってしまった現在だが、全く何も理解できないわけではなく、ほとんどの手は後から考察すればその意図が見えてくるようなもので、これから先いろんな領域でAIがそういうような感じで使われるようになるのだと感じている。

Machine Learning

LLM+Searchの可能性と直近の論文まとめ

Posted on 2024年1月28日 / 1件のコメント

昨年末に以下のような投稿をした。

最近LLM + 探索がホット
チェス・将棋・囲碁は学習による評価値と膨大な探索でコンピュータが人間を越すようなものが作れた。
LLMというコンパスをつかって、ゲームではなく知的空間を探索できるようになった。今後どんな発見ができるのか、楽しみ。
— Kosuke Nakago (@corochann) November 29, 2023

OpenAIではQ* と言われるプロジェクトが水面下で動いているという噂があるとかないとか。読み物としては以下が面白かったです。

最近Google Deepmindが”FunSearch”、”AlphaGeometry” の論文を出したが、LLM+Searchはもっと汎用的にワークする可能性があり、今後もこの方向性でインパクトのある成果を量産してくるのではないかと思っています。

ではLLMを用いて探索を行うというのは具体的にはどういうことを指すのか、直近の論文動向を紹介します。

タスク(思考)を分解して、正しい答えに辿り着くタイプ

まず最初に紹介する3つの論文は探索というよりは、思考の分解です。ゴールに辿り着くまでの経路をきちんとステップに分けて、１つ１つ考えることで正しい答え(ゴール)に到達する精度が上がります。

CoT: Chain of Thought

“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”
https://arxiv.org/abs/2201.11903

これは、Few shot exampleをPromptとして与える際に、回答に至る思考過程を含めて上げることで答えの精度が向上することを示した論文です。上図の具体例を見るとわかりやすいですね。このように、１発で答えを出すのではなく、途中経路を含めて思考を実際に出力することで正しい答えに行き着くことができるようになります。

この派生で、Zero-shot-CoTというものも提案されています。

“Large Language Models are Zero-Shot Reasoners”
https://arxiv.org/abs/2205.11916

こちらのPromptはもっと単純で、”Let’s think step by step” という言葉を入れるだけで回答精度が向上するというもの。使うのがとても簡単で引用も多くされている論文です。

オリジナルのCoTの用にFew shot exampleをいれなくても、”Let’s think step by step” の一文を入れるだけでLLMが問題に応じて思考/タスクを分解して考え、正しい答えに到達することができています。

ReAct: Reasoning and Action

“ReAct: Synergizing Reasoning and Acting in Language Models”
https://arxiv.org/abs/2210.03629
https://react-lm.github.io/

CoTではReasoningだけだったのに対し、ReActはActionとしてWeb検索(より具体的にはWikipediaから関連する文章を検索し、LLMへの入力として補完)を加えることで性能向上をしています。

AutoGPT

https://news.agpt.co/
https://github.com/Significant-Gravitas/AutoGPT

ReActをさらに発展させて、いろいろな作業を自動化してくれるようにしたツール。

例えばこちらの例では、コーディングを全くせずに3分でWebサイトの構築ができたデモが共有されています。

Alright, this is getting too crazy. Soon you won't even need to code anymore.

I setup AutoGPT and it I asked it to build a website for me.

And it succeeded. In under 3 minutes. Using react and tailwindcss. All by itself. pic.twitter.com/OW7qSNqq2B
— Sully (@SullyOmarr) April 7, 2023

LLM + Search: LLMを再帰的に利用して探索

さて、ここからが今回の本題で、目標に対する最適化を、LLMを再帰的に利用して探索することで達成するタイプの研究です。

Voyager

“Voyager: An Open-Ended Embodied Agent with Large Language Models”
https://voyager.minedojo.org/
https://arxiv.org/abs/2305.16291
https://github.com/MineDojo/Voyager

LLMを用いたOpen World Searchの例として、Minecraftをとかせています。

上述したReActやAutoGPTよりも以下のような独自の工夫を取り込むことで良い性能が出ており、Diamond Toolの発見までできています。

1. Automatic Curriculum
- 次に解くべき小タスクを決めます。現在の自分自身の入力をもとに、難しすぎず新しいタスクを考えます。（LLM自身にはある程度Minecraftの事前知識があることは良しとされているように思われます）
2. Skill library
- ソードと盾を装備してゾンビを倒す”combatZombie”など、ある程度の塊のコードを関数化＝Skill化し、それをSkill Libraryに登録しておくことで、以降それらのSkillを参照し呼び出せるようにしています。こうすることにより、過去に成功した複雑な動作を使い回すことができます。
- Skill Libraryの参照にはRAGのように、そのSkillの説明文に対するEmbeddingを用いています。
3. Iterative prompting mechanism
- 現在の自身周辺の環境状態や、コード実行時のエラーなどをもとに、次の実行修正などを考えます。

この論文ではLLMのOpen world searchの能力を見ることを目的とし、画像入力や生のコントローラーコマンド出力ではなく、MinecraftのAPIを経由して現在状態の取得や行動をおこなっています。

LLMが出力するいろいろなコードを実行させてみて、その挙動を見ることで、所望のアウトカムが得られるような行動＝Skillを獲得していく
Skill Libraryという概念を通じて、自分自身の成長を取り込みながらより難しいタスクに挑戦していくことができる。

といったあたりでLLMを用いた探索が活用されています。Minecraftの事前知識があったからここまでうまく解けたのかもしれませんが、考え方は汎用的でいろいろなタスクに応用できる可能性を感じました。

以下３つはDeepMindの論文です。どれもタスクの達成度合いを定量的にスコアリングできるようなタスクに対して、そのスコアを上げるような出力をLLMを用いて探索しています。

RestEM

“Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models”
https://arxiv.org/abs/2312.06585

ReST: Reinforced Self-Training
EM: Expectation Maximization
を組み合わせた手法、ReST^EMを提案しています。

1. Generate (E-step): The language model generates multiple output samples for each input context. Then, we filter these samples using a binary reward to collect the training dataset.
2. Improve (M-step): The original language model is supervised fine-tuned on the training dataset from the previous Generate step. The fine-tuned model is then used in the next Generate step.

LLM自分自身に回答候補を複数出力させるE-stepと、その中で良かった候補をデータとしてSFTすることでLLMを改善させていくM-stepとで構成されています。

本論文では、以下2つの定量評価が可能なタスクに対して提案手法がうまくいくことを示しています。

MATH (Mathematical problem solving): Hendrycks’ MATH dataset
APPS (Code Generation): APPS (Introductory) dataset.

E-stepは更新されたLLMを用いつつも、M-stepは毎回Pretrained weightからFine tuneしているようで、とにかくOverfittingが問題になっていそうでした。

Rest^EMは、LLMを人手で作った正解データで教師あり微調整するのでなく、1) 各問題の候補解を生成 2)候補の報酬を計算 3)報酬で重み付けし再学習を繰り返す。期待値最大化法の一種とみなせる。数学やプログラミングなど自動評価できる場合に有効。人手の作成データより有効 https://t.co/5pK4tAnPVG
— Daisuke Okanohara / 岡野原大輔 (@hillbig) December 13, 2023

FunSearch

“Mathematical discoveries from program search with large language models”
https://www.nature.com/articles/s41586-023-06924-6
https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/

Deepmindから、Natureの論文です。

FunSearchは、Function space searchの略で、LLMを用いて難しい問題に対してより良いスコアが得られるような関数(解法・アルゴリズム)を探索します。探索の際、Evolutionary Algorithmを用いてよいコード生き残らせながらどんどん進化させていくことでよりよいアルゴリズムが得られる仕組みとなっています。

論文では、cap set problem, online bin packingの2つの問題において、既存のヒューリスティックアルゴリズムよりもよいアルゴリズムを見つけることに成功しています。

全体の仕組みとしては、学習済みLLM (Code出力に特化したCodeyを使用) から解の候補を出力させ、それぞれのスコアを評価した後、生き残らせるものをPrograms dabaseに保存していきます。

次の解の候補を出力する際はEvolutionary Algorithmをもちいて、より良い候補にしていきます。このEAの部分はかなりヒューリスティックな印象があったので今後もっと改善されていくかもしれません。

また、プログラム出力をさせる際の工夫として、完全にゼロからコードを考えさせるのではなく、その問題に特化したテンプレートは与えてあげて、ヒューリスティクスアルゴリズムのコアになる部分 (下図の priority, heuristic) だけを考えさせるようにしているようです。

AlphaGeometry

“Solving olympiad geometry without human demonstrations”
https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
https://github.com/google-deepmind/alphageometry

こちらもDeepmindからNature論文です。

国際数学オリンピック(IMO)の幾何問題を30問中25問解くことができたようです。

Neuro Symbolic approachを用いており、幾何問題を機械が扱うシンボルに変換しながら解いていくようです。ここで使われているLanguage modelは、専用のデータセットを1億件用意して学習したと書かれており、汎用的なLLMから出発したわけではなく、最初から本タスク専用に作成したモデルを用いていそうです。

Figure showing the process of AlphaGeometry solving a simple problem.

まとめ

LLMを用いることで、複雑な問題に対する検討の際に自動で小タスクに分ける（経路を分解する）ことができるようになり [CoT]、必要に応じて外部から情報を取ってくる・行動を起こしてその変化を見るといったこともできます [ReAct, AutoGPT, Voyager]。探索の過程で得られた知見を保持しておき、将来”Skill” などとして有効活用することもできたり [Voyager]、Brush upさせながら改善していくこともできます [FunSearch]。探索過程の結果を学習データとして、LLM自分自身をそのタスクに特化したスペシャリストにしていくこともできます [Rest^EM]。

一方で、REST^EM、FunSearch、AlphaGeometryは全て、解の出力後にその解の良さ具合(reward)をすぐに評価できることを前提としています。そのためか、現時点では数学・コーディングの問題に適用範囲がとどまっているようです。

LLMを用いることで、入力・出力が定型でないようなタスクが扱いやすくなったため、探索対象として考えられるアプリケーションはまだまだたくさんあると思います。今後もこの領域で面白い成果が出てきそうで楽しみです。

Chainer

Kaggle Digit Recognizer にCNNで挑戦、公開Kernelの中で最高精度を目指す

Posted on 2017年12月10日 / 0件のコメント

QiitaでKaggle advent calendarをやっていたので寄稿しました。

Kaggle Digit Recognizer にCNNで挑戦、公開Kernelの中で最高精度を目指す

Chainer

Kaggle Digit Recognizer Tutorial: chainer_sklearn を使ったお手軽ディープラーニング

Posted on 2017年12月10日 / 0件のコメント

QiitaでKaggle advent calendarをやっていたので寄稿しました。

Kaggle Digit Recognizer Tutorial: chainer_sklearn を使ったお手軽ディープラーニング

Crypto

仮想通貨を投資的側面から考えてみる

Posted on 2017年12月3日 / 0件のコメント

仮想通貨市場は投機か投資か？

最近ビットコインの値上がりがすごいですね。

ニュースでもビットコインなどの仮想通貨に関するのニュースを見ない日はないといってもいいくらい、毎日記事にあがっており、それを受けて自分の（結構な額の）資金をトレードして、その結果をブログに公表している人も多く見るようになってきました。

下の図はここ１年のビットコインの価格チャートです。2017年2月には11万円だったのが今は120万円を突破しています。ここ10カ月で価格が10倍以上に跳ね上がるというかなり異常とも思える上がり方ですよね。

https://bitflyer.jp/ja-jp/bitcoin-chartより

ここまで上がるなら自分も買っておけば将来得をするのでは、、、と思うのは自然な発想だと思います。

ただ一方で、周りの人と話をすると

「今のビットコインは投機的な資金だけで動いている」
「ビットコインは今バブルだからいつか絶対暴落する、怖くて今は手が出せない」
「ビットコインはただのデジタル通貨で実態が伴っていない」
「仮想通貨なんて正しい価格というものが存在しない、ただのギャンブルでしょ」

と、投資=ファンダメンタルズ　で価格が上がっているのではなく、ギャンブル的要素で価格相場が動いている。というような意見をよく聞きます。

実際、今の市場はかなり “投機” 的目的での資金流入・流出があり間違いではないと思うのですが、自分は”投資” 的基準でビットコインおよびその他アルトコインを買ってもいいのではないかなと思っている方なので、その考えを共有してみたいなと思います。

ちなみに「投資」と「投機」の言葉の違いは、、以下をご参考ください（めんどくさいので他の記事に説明をお任せします）

投資＝資本に投じる
投資というのは生産的な手段のためにお金を出し、それを何らかの形で運用してもらうことでその果実を受け取ると言うものになります。
投機＝機会に投じる
投機における「機会＝チャンス」というのは単純には短期的な値動きを指すのが一般的です。株や為替などにおける短期的な価格変動をチャンスとして捉えて取引をすることが投機となります。
http://money-magazine.org/%E6%8A%95%E8%B3%87%E3%81%A8%E6%8A%95%E6%A9%9F%E3%81%AE%E9%81%95%E3%81%84%E3%82%92%E7%90%86%E8%A7%A3%E3%81%99%E3%82%8B/より

http://money-bu-jpx.com/news/infographic/article004555/　より

仮想通貨の価格はなにで決まるか？

ここからの見解は完全に個人的な見解です。今まで経済学を専攻していたわけでもなければ、金融職に就いているわけでもなく、また仮想通貨・ブロックチェーンの開発に携わったり、研究しているわけでもないので、ここに書かれていることはまったく的を得ていなかったり、すでにどこかで書かれていることなのかもしれません。

価格の決定理論

古典的にミクロ経済学では、価格の決定などは研究がされています。自由経済では、需要と供給の量により価格が自動で調整されて最適なところへ向かうという「神の見えざる手」などは有名ですね。

現在では株や派生商品（デリバティブ）などの金融商品が生まれましたが、ブラック・ショールズによる方程式によりオプション価格を決定できるようになるなど、金融市場は数学・物理学の知識も入りながら経済学により理論が提案されその理論に従って運用がなされてきました。

しかし、仮想通貨に関しては、１コインが何に相当するという物との交換による基準もなければ、信用自体、これまで行われてきた絶対的立場・中央機関（国など）に任せるのではなく、システムにより構築するというこれまでの通貨とは性質が異なるものです。”適性な価格”というものがなになのか、自分の知っている限りではまだきちんと理論だてられていないです。

ではビットコインなどの仮想通貨の価格が上下するのは、何も根拠がなくただのゲームのように決まるのかというとそうでもないと思っています。

仮想通貨の取引が行われるようになると、その取引高に応じて、企業が事業として参入・サービスが生まれてくると感じています。

仮想通貨エコシステムの現状

仮想通貨口座・販売所・取引所サービス

自分が仮想通貨の口座を開いてみたのはここ1か月の最近のことですが、既にかなり仮想通貨を取り巻くインフラが整備されてきているということを知りました。

仮想通貨を売買できる販売所・取引所はすでにかなりの数あります。国内で有名なのは Coincheck, Zaif, BitFlyer, などでしょうか（他にもたくさんあります）。GMO もコイン事業に参入するなど、今後もさらに増えていくものと思われます。

口座作成の手続きが驚くくらい簡単
- どのくらい簡単かというと例えばCoincheckの場合Facebookのアカウントで作るボタン押せばもうアカウント作成は終了です。銀行のようにどこかに行く必要もなく、ネットを開いてアカウント作るだけ。ほんとに1分もかかりません。
- 銀行口座から入金したり、仮想通貨の売買を行うためには本人確認が必要となりますが、それもマイナンバーカードの写真を撮ってアップロードするだけくらいだったような気がします。
仮想通貨の売買はいつでもでき、一瞬で完了する。
- これはFXや先物などの取引をしている人にとっては特に驚くことではないかもしれませんが、口座に入金後、仮想通貨を買いたいと思ったらその額を打ち込んでボタンをクリックすると次の瞬間には日本円の資金が仮想通貨に移動しています。
仮想通貨の送金なども簡単
- 試しに、Coincheckで買ったビットコインをZaifへ送金してみました。
  (Zaifでもビットコイン買えるので送金と手数料取られてしまうだけです。今回は実験ということでやってみました。)
  1. 受け取り側口座(Zaif)で、ビットコインを受け取る用のアドレスを確認する
  2. 送金側口座(Coincheck)でビットコインを購入しておく
  3. 送金側口座(Coincheck)から受け取り側口座のアドレスに対して、金額を指定して送金指示をする。

これだけです。銀行振込の口座番号がアドレスという文字列に変わるだけです。銀行名・支店番号・口座番号など複数の項目を入力する必要がなく、アドレスという一つの文字列だけで通貨のやり取りができるという意味で、銀行振込よりも必要なステップが少ないです。

こういった瞬時にデジタル通貨が移動するというUX (User experience)は、振込先の確認や暗証番号の入力のためにカードを探すなどといった作業が毎回求められる銀行のオンラインバンキングとは違うもので、新鮮に感じました。（もちろん、誤送金などのトラブルは出てくるんだろうなと思います。）

まだ仮想通貨をやり取りしたことのない方は、口座作って数千円とか１万円でもいいので入金して仮想通貨買ってみるだけでもしてみると印象が変わるのではないかなと思います。

銀行のオンラインバンキングシステム（〇〇ダイレクトなど）と、すでに引けを取らないシステムが出来上がっていて、見やすいUIでお金をやり取りできる環境が整いつつあることに気付きました。

法整備

そして日本にしては珍しく、法整備も現時点できちんと進められてきているように感じます。

2017年4月には資金決済法が改正され、「仮想通貨」は法律で定義されています。また、仮想通貨で得られた所得は雑所得として扱われ課税対象となるという見解も示されています。

上記の仮想通貨取引をおこなう企業に対しても、金融庁は”仮想通貨交換業者” という形で登録されているようです。銀行同様の法整備が進められてきています。

仮想通貨交換業者登録一覧

仮想通貨の取引額による仮想通貨エコシステムへの影響

現在仮想通貨はビットコインだけではなく、ビットコインキャッシュ・イーサリアム・ネム・モナなど様々な通貨が出てきています。これらの仮想通貨（の取引量）が育っていくにあたって、以下のようなフェーズをたどるのではないかなと考えます

イノベーター理論と勝手に対応付けしてみます。イノベーター理論の説明は以下参照

マーケティング用語集　イノベーター理論

１．新しい仮想通貨がプログラムとして開発され、リリースされる

　　参入層：イノベーター
　　　技術や思想に対して共感している人からの資金の流入
　　　新しさに対して

２．販売所など、仮想通貨口座サービスで取り扱われ始める

　　参入層：アーリーアダプターによる資金の流入
　　　　投機的資金の流入

やり取り可能通貨としてプログラミングができない一般の人でも扱えるようになってくる。
マイナーなども参入してきて、ブロックチェーンを運用していくためのシステムも整ってくる段階と推測。

ある程度の額取引がされるようになってくれば、仮想通貨のサービス会社が取り扱うようになります。そうすると、プログラミングを通すことなく仮想通貨が買えるようになるため、新しい物好きな人や投機目的の人たちが仮想通貨をやり取りするようになる。

ただしこの段階ではまだ出来高はそれほど大きくないため、販売所経由による販売となります。その場合、仮想通貨の購入に大きくスプレッドを取られてのやり取りがされたり、価格も連続的に変化することは難しく窓を開けたりするなど、まだ安定してない。

３．取引所で扱われる

　　参入層：アーリーマジョリティの前半くらい
　　　投機的資金追加流入

仮想通貨の中でも、他の仮想通貨を売買する際に使う基軸通貨としての使用も可能になってくる。

多くの人が取引を行うようになってくると、仮想通貨口座サービス内で取引を成立させることができるようになり、取引所経由でのやり取りが可能となります。取引所では販売所とは違い、その場の買う側と売る側の言い値で合意をとって価格が決定されながら動いていくようになり、一般的には販売所よりも手数料・スプレッドを抑えて取引が可能になります。

ここら辺まで来ると、基軸通貨として他のアルトコインとのやり取りができるようになり通貨間を（手数料をかなり抑えて）資金が行き来できるようになってきます。

（ここから先は将来の話）

４．先物など、既存の証券口座で扱われはじめる

　　参入層：アーリーマジョリティ
　　　機関投資家も含めた投資的資金の流入

現在ビットコイン先物が上場するというニュースがあります。

ここまでくれば、資本と同等の扱い。

５．実際のサービスに広く普及し、使われる

　　参入層：レイトマジョリティ

　　　投資的資金の追加流入

通貨の本来持つ役割である、財とのやり取りがメインとなるフェーズです。これがいつになるのかは将来の動向に注目です。ここまで行くと、仮想通貨に価値がないということは言えなくなり、価格の暴落は起きたとしても０になることはないでしょう。

将来は段階５はもっと早い段階から行われるようになってくると思います。

仮想通貨の取引額と価格を関連付けて理論だてる

アイデアだけ書いておきます。（勉強不足でこれ以上は発展させられない）

取引総額（毎時刻単位）　C

取引総額に対する、サービス利用のための資金使用率　　r

投機的な価値は C のみで決まるようなもの。

実際に使用される価値　V = C * r　で、これが投資的な意味での通貨の価値。

R := 1/r とすると、C=VR で、

Rは、実際のサービスへの使用総額に対する取引総額（流通額）の倍率を表す。

CやRは通貨の思想や技術により変わる。また、時刻によっても変わる。

例

　・よい技術が使われていれば（Transactionが早い、手数料が安いなど）、使用メリットが大きく相対的に、V=Crも大きくなる。

　・通貨が目指す使用対象範囲
　　これは株価と同じだろう、使われる業界ごとに安定度や成長度などが違いそれに応じて

仮想通貨を株価と対応付けるとするなら、Cが企業の時価総額、RがPERと対応づくような感じになるのだろうか。。Rはある程度業界水準のようなものがこれから決まってくるだろう。
一方で、AmazonはPERが例外的に多いなどの例もあるように、将来性のあると判断された通貨はRの値が大きく、Vが小さくてもCが大きくなるということは起こっていくと思う。（Bitcoinはまさにその段階か？）

仮想通貨の価格はこの取引総額を一つの重要因子としているだろう。

個人投資家だけでなく、法人の資金が流入してくるようになれば、株価をきちんと計算する証券アナリストなどの職があるように、仮想通貨の価格もこれから理論だてて説明されてくることになると思います。

相転移

H2Oという一つの物質が常温では水だが、温度を上げていくと100℃を境に水蒸気となり急に性質が変わる。同じように温度を下げていくと０℃で氷となり急に性質が変わる。

金融市場でも上昇トレンドから、エネルギーがたまりすぎるとある瞬間一気にバブルがはじけるがこれも相転移の一種だと思う。

何が言いたいかというと、価格であっても連続的に安定して変化するだけではなく、あるイベントを境に一気にその価値が上がる・下がるということが起こる。

上で言う仮想通貨エコシステムもそう。最初は小さく取引が行われているだけかもしれないが、ある程度取引高が増えたりしたあとに、それを取り巻くサービスが導入されると、利便性が上がって一気に価値が上がると思う。この、サービスをどこまで導入するか（導入コスト）　VS　サービスを導入した際の既存サービスから良くなる部分のせめぎあいで仮想通貨の取引総額が決まっていくのかなと感じる。

他にも下記の概念って結局相転移だと思う。金融がやっているのはその部分を”価格”という見える指標としてリスクなどを扱っていくということだと思う。

いつまで既存システムで運用し、いつ新規システムに移るのが良いか？
SNSの新陳代謝：いつまでMixi使い、いつFacebookに移るか？いつInstagramにうつるか？
いつまで大企業の既存サービスを買い、いつベンチャー企業の新規サービスに移るのか？
いつまでクレカをつかい、いつからデジタル通貨に移るのか？
いつまでBitcoin使い、いつから次の通貨に移るのか？

結局サービスの新陳代謝をよりスムーズに行えるような仕組みが提供されてきているということだと思う。

今まで国の法定通貨は絶対的な存在として運用されていたものだけど、仮想通貨はどんどん提案されているので新陳代謝が行われるようになるのだろうか。

新陳代謝ではないかな？

とはいえ、一般の人が資金をどんどん新規通貨に鞍替えしていくというのはできないし、現実的ではない。現状ではハードフォークを行い、既存通貨と新規通貨どちらも同じ通貨量がユーザーに行くようになっている。。ここら辺も経済理論が出てくる or 既にあるんじゃないかな。

結局、仮想通貨により何が良くなるのか

現実的にすでに起こっているメリット

取引手数料のコストダウン

１．クレジットカードなどの代替　

2020 年の国内電子決済市場は 87 兆円を突破

によれば、国内の決済市場は現在58兆円、このうちの3％程度(数兆円)は手数料としてクレジットカード会社に支払われていることになる。この部分は仮想通貨の導入によって今後変わってくるのではないだろうか。

お店が支払う加盟店手数料の額は、クレジットカードの利用額に対する手数料率によって算出されます。
手数料率はカード会社によっても若干異なりますが、加盟店の業種によってかなり変わってきます。回収リスクの高い業種では高めに、粗利の低い業種では低めに設定されるのが一般的です。
飲食店：4～7％
小売店、専門店：3～5％
百貨店：2～3％
家電量販店、コンビニエンスストア：1～1.5％
https://www.cloudpayment.co.jp/blog/4214/より

ビックカメラなどではすでにビットコインでの決済が導入されているが、まだ便利に使えるというほどの状況までは達していないようだ。

海外への送金など　仮想通貨には国内・海外といった概念はなく、常に一定の手数料で行える

ただ、現状Bitcoinでは、Coin checkで送金手数料0.005 btc かかります(2017.12.03のレートで600円程度)。これでは手数料格安というにはまだ遠いかなという気がします。ただし、多分送金額によらない手数料なので、大金を移動したい際には現状十分機能するのかもしれません。

Bitcoinはアルゴリズムの関係上（プルーフオブワークにかかるコストが高い）、手数料を下げるのは難しいので、そこはほかの仮想通貨（アルゴリズム）によって、手数料が下がっていくことを期待します。

２．銀行の仲介を介す必要のない資金移動

銀行の使いづらいシステムとは違い24時間365日稼働し続けるシステム。
今までオンラインバンキングで”システムの動作時間外です”という表示を何度見たことか。。。こういったことは時々刻々とマイナーがTransaction処理の確認を行っているブロックチェーンでは存在しない。
取引時間外などで取引ができなくなったり手数料が上がるということもない。
簡単に口座を持てる（本人確認など必要なく口座が持ててしまう。）ようになる。
煩雑な手続きをして口座を作っていたが、仮想通貨口座ではそういった無駄な事務処理・書類作業は存在しない。

その他、これから動向が大きくなってくる動向

３．IPOの代わりに、ICOによる資金調達

証券取引所を仲介しない、煩雑な手続きをスキップした資金調達

投資側としては、提示される資料がこれまで以上に不確かな状態で判断をしなければならなくなるが、その分スピードを重視し、仲介手数料を抑えた資金調達が可能になる

４．その他

保険・ギャンブルなどの確率的現象・賭け市場に対するリスク分散の仲介手数料削減
あらゆる”契約”に際して、ブロックチェーンを導入した信頼性担保が検討される

これだけの潜在的な可能性がある仮想通貨、ビットコインの価格は急騰していますが、一方でまだその市場規模はほかの市場規模と比べればまだまだ小さいです。

ビットコインの市場規模はビルゲイツ資産の1/2に過ぎない！ビットコイン市場の拡大はこれから

The Bitcoin Economy, in Perspective
https://howmuch.net/articles/worlds-money-in-perspective　より

投機的理由だけではなく、投資的側面から、仮想通貨の価格決定のための理論はこれからどんどん研究されてくるのでしょう。

Diary/Machine Learning

社会人からはじめる機械学習勉強 Week 28 – 最終週　内定

Posted on 2017年4月1日 / 0件のコメント

2016/7/4～7/10

2016年1月に始めた機械学習の勉強。独学で勉強してSeRanetをリリースし、転職活動。面接を終えて残すは結果を待つのみ。。。

内定

最終面接から6日後、待ちに待ってようやく面接結果のメールがとどいた。結果は内定！

現職との日程調整も行って、転職先の入社日は2016/12/1ということになった。

総括

今まで八方美人でいろいろなことに興味がむいていて何か一つのことに専門性を磨くための決心がついていなかった。

機械学習は本当に生涯を賭けてやりたいと確信し、独学で勉強しはじめた。

もともと物理系で大学・大学院を卒業、機械学習の研究をしていたわけではなく、ソフトウェアのプログラミングも本格的に始めたのは社会人になってからという僕でも、会社に通いながらの勉強、7か月たち、とうとう目標達成してやりたいことをやるための転職を成し遂げることができた。

付録：SeRanetの改良案

転職活動は終了したが、SeRanetプロジェクトは自分の中ではまだ最終系まで行っていない。Globalなコンテキスト(このピクセル部分は草原の画像である、など)を、考慮したうえでの超解像を行うことによってより精度が上がると考えていて、そこまではやってみたい。

そのためにはSemantic segmentationが使えそうだ。Semantic segmentationの結果をFusionして組み合わせることで、精度の高い超改造ソフトができると思う。これでSOTAをとれるんじゃないかと思っているので試してみたい。

AI Agent関係

オフィス系のタスク適用

Long Horizon Taskへのトレンドは続く

AI Agent LayerでのPlatform標準化競争

業務特化ユースケースの学習/改善

モデル開発

現場で活用するためのAIエージェント実践入門

LangChainとLangGraphによるRAG・AIエージェント［実践］入門

Polarsとpandasで学ぶ データ処理アイデアレシピ55

実践Claude Code入門―現場で活用するためのAIコーディングの思考法

Claude CodeによるAI駆動開発入門

Data-centric AI入門

基盤モデルとロボットの融合 マルチモーダルAIでロボットはどう変わるのか

Vision Transformer入門

原論文から解き明かす生成AI

生成AIのしくみ 〈流れ〉が画像・音声・動画をつくる

対称性と機械学習

2026年始に読みたい本

さまざまな共同研究プロジェクトを回す

OSS公開とチーム立ち上げ

製品化とJV立ち上げ、〜グローバル展開〜

国産LLM開発

さいごに

日常的な情報収集

⭐⭐🤖AI NEWS

⭐huggingface papers

⭐Deep Learning Monitor

⭐Paperswithcode

⭐X (Twitter)

DeepLearning.AI

⭐🤖 自前開発: LLMで論文抽出・要約→Slack投稿

イベントトリガー系

⭐⭐Google Scholar Alerts

⭐各学会、Conferenceのページ

検索系

⭐Semantic Scholar

⭐Google Scholar

arxiv-sanity

深くSurveyする時

⭐⭐ Connected papers

文献管理ツール

まとめ

Appendix: ChatGPTに聞いた版

タスク(思考)を分解して、正しい答えに辿り着くタイプ

CoT: Chain of Thought

ReAct: Reasoning and Action

AutoGPT

LLM + Search: LLMを再帰的に利用して探索

Voyager

RestEM

FunSearch

AlphaGeometry

まとめ

仮想通貨市場は投機か投資か？

仮想通貨の価格はなにで決まるか？

価格の決定理論

仮想通貨エコシステムの現状

仮想通貨口座・販売所・取引所サービス

法整備

仮想通貨の取引額による仮想通貨エコシステムへの影響

仮想通貨の取引額と価格を関連付けて理論だてる

結局、仮想通貨により何が良くなるのか

取引手数料のコストダウン

１．クレジットカードなどの代替

２．銀行の仲介を介す必要のない資金移動

３．IPOの代わりに、ICOによる資金調達

４．その他

内定

総括

付録：SeRanetの改良案

Polarsとpandasで学ぶデータ処理アイデアレシピ55

基盤モデルとロボットの融合マルチモーダルAIでロボットはどう変わるのか

生成AIのしくみ　〈流れ〉が画像・音声・動画をつくる

１．クレジットカードなどの代替