なかなか新しいこと勉強しないプログラマのおいら、AIはやろうかなと。遅いよ！

更新記録というかただの日記というか

2019/12/27

dataframeの扱いで苦しむ

というのは間違いでdata収集の時点で、重複データがった、すると、DataFrameのJoinでleftだとのrightだのがコラムに追加された。どこに間違いがあるのかデバッグが簡単ではなかったが、googleシートなんかで確認した。

DataFrameは0.20バージョンがリリースらしい。怖いからまだバージョンアップしない。またハマる仕事になるから。なんかハマる作業と性格が辛い。体が辛いし家族がおざなりになるよ。アホなのではまり込まないようにしないと。ダメな性格。できそうでできないとハマるということか。新しい機能が追加されているはずだけど、GitHubとの関係、ソースとの対応がわからない。TFSみたいにラベルがあるのだろうか。

データのチューニングの前にデータの収集で相当な作業パワーがかかっている。まったりするのが至高のはずなのに、ハマると地獄になるので、なんでもオプションぐらいの心構えの方が楽園をこの世に実現できる。

あ、そうだった、データの重複は下記のように対応したのだった。

sort -r -u raceFile.csv -o outputUnique.txt

-rオプションは逆順という意味で、そうしないと空白データみたいなのがうえにきて、DataFrameの自動的な型決めが失敗するという。マニュアルでやればなんとかなるのかな。苦労が多いが仕事とはこういうものだろう。

2019/12/25

学習データがだめってことで再取得。URLを追加して。threadDelayしないとWEBサーバーから拒否されるので、threadDelayに1000000を追加したら大丈夫のようだ。１秒。

レースURLは毎回変わらないのでファイルで保存したほうが効率がよい。課題。

Deep Learning基礎

最初はきっとゼロからつくる系の一本でいってよい。他読んでもわからないし。ベストセラーになるには理由がわかる。ともかくリーダブルです。

ゼロから作るDeep Learning ❷ ―自然言語処理編

作者:斎藤康毅
出版社/メーカー: オライリージャパン
発売日: 2018/07/21
メディア: 単行本（ソフトカバー）

自然言語は斜め読んだ。それで十分。詳細をわかりたくなったら読める。それがゼロから作るのいいところ。

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

作者:斎藤康毅
出版社/メーカー: オライリージャパン
発売日: 2016/09/24
メディア: 単行本（ソフトカバー）

こっちの１のほうもいいね、途中でやめたけど雰囲気をつかめる。

他の専門書って、数式振りかざすだけで、詳細を斜め読むこともできないから、結局わからない。ディテールを斜め読むと理解できる現象に名前をつけたい。

Kerasをつかって手を動かしたい段階。ただしPythonを知らぬ。Haskellでやりたいのだが。コードをいくつも並行して眺める段階かな。自然言語処理がやりたい。なぜならこんな文章書きたくないからな。

適宜更新するリンク集になるかな。。だるかったら更新できない。

LSTM

Keras LSTMでサクッと文章生成をしてみる | cedro-blog

Keras LSTM の文章生成を単語単位でやってみる | cedro-blog

KerasのSingle-LSTM文字生成サンプルコードを解説 - Qiita

滝沢カレンを作る技術 - sola 初心者には図解が嬉しい

Text generation using a RNN with eager execution | TensorFlow Core

lstm_text_generation_comment/lstm_text_generation_refactored.py at master · YankeeDeltaBravo225/lstm_text_generation_comment · GitHub

おいおい、ユニットとか入力シェイプがわからないよ、公式もよくわからない

以下がわかりやすいにゃ

Keras input explanation: input_shape, units, batch_size, dim, etc - Stack Overflow

Dense Layer

全結合レイヤーらしい。行列のdot計算はするのか。

通常の全結合ニューラルネットワークレイヤー．

Denseが実行する操作：output = activation(dot(input, kernel) + bias)ただし，activationはactivation引数として渡される要素単位の活性化関数で，kernelはレイヤーによって作成された重み行列であり，biasはレイヤーによって作成されたバイアスベクトルです.（use_biasがTrueの場合にのみ適用されます）． Coreレイヤー - Keras Documentation

イメージはこれかな。

Sample dense neural network with 2 fully connected layers, 2 dropout... | Download Scientific Diagram

ReLu

活性化関数のSigmoid、Tangent 、ReLu、Leaky ReLuの違い - Qiita

Simoid

SoftMax

こいつは活性化関数のReLuとかとは違うと理解した。確率化するためのレイヤーかな

Keras.NET

C#でKerasを使う。おいらならF#かな。

GitHub - SciSharp/Keras.NET: Keras.NET is a high-level neural networks API, written in C# with Python Binding and capable of running on top of TensorFlow, CNTK, or Theano.

競馬をAIで儲ける

なんかやることなくて。。。モチベーション上がるのはやっぱりあぶく銭です。

まずは情報収集おば。

まずどうやって定式化すればいいんだよ？

ML.netにランキングがあるから、あれか？

それとも分類して一位を割り出す？そもそも一着って分類対象なんだろうか？どっちかというとランキングのほうが筋がいい気がする。

AIが競馬予想で回収率180％突破の快挙！『電脳賞』優勝のITエンジニアが語る戦略が鮮やかすぎて目からウロコ

僕は逆に回収率の意味で、馬の強さを機械学習で求めるのは不利だと思っています。なぜなら人力予想においても、強い馬なのか弱い馬なのかはある程度みえているからです。そこで機械学習をかけて当たる確率を上げることができても、おそらく回収率自体は上がらない。

機械学習でないやや泥臭いアルゴリズム使った例。機械学習には否定的。

「1番人気が勝つレースは買わない」、「レースにロジックを合わせるのではなく、ロジックをレースに合わせる」、「追い込みが効きやすい＝荒れやすいレースを選ぶ」……こうした、回収率向上だけを至上命題にロジックを磨き込んでいった「ニコちゃんAI教場」チームの戦略からは、長年の競馬愛好家にもヒントになるようなポイントがいくつもあったのではないでしょうか。

競馬のオッズ、確率と期待値について（プロローグ） | お手持ちの勝馬投票券は確定までお捨てにならないようお願い致します

競馬予測AI「Mamba」の思考に迫る - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)

Mambaは終わったのかな。

競馬で負けることがなくなる？競馬予想AIの仕組みとは？｜AI/人工知能のビジネス活用発信メディア【NISSENデジタルハブ】

競馬予想AIを作る〜ニューラルネットワークによる相対評価データセットの取り扱い例〜 | ココン株式会社 COCON Inc.

競馬予想AI再び -前編-　〜LambdaRank編〜 | ココン株式会社 COCON Inc.

競馬予想AI再び -後編-　〜アンサンブル学習編〜 | ココン株式会社 COCON Inc.

開発者ブログ | 株式会社AlphaImpact

第10.5回（総集編）競馬予測と機械学習 | 株式会社AlphaImpact あー、何着以内という分類問題にするか、タイムの回帰問題にするかってこの記事は言っている。

発表文献 | 株式会社AlphaImpact

ディープラーニングで競馬予想 - Qiita

競馬の予測モデルを自作した話