kaggleでの表データテクニック調べていくよ〜

今更だけどkaggleの表データのチップスみたいなの調べていく。

完全にメモの殴り書きになる感じがするけど、とりあえずやってみよう。

気になるのは以下あたり。 この中からピックアップしつつ調べていこう。

https://www.kaggle.com/code/gpreda/santander-eda-and-prediction

https://www.slideshare.net/mlm_kansai/kaggle-138546659

http://kaggler-ja-wiki.herokuapp.com/%E3%81%AA%E3%82%93%E3%81%A7%E3%82%82kaggle%E9%96%A2%E9%80%A3%E3%83%AA%E3%83%B3%E3%82%AF

qiita.com

気になるあれこれ target encoding OOF ENSEMBLE

https://www.kaggle.com/code/cdeotte/forward-selection-oof-ensemble-0-942-private/notebook

RFM分析という顧客分析の手法を用いてユーザの分類や特徴量を作成する(Recency:最新購入日、Frequency:購入頻度、Monetary:購入金額) 門脇 大輔,阪田 隆司,保坂 桂佑,平松 雄司. Kaggleで勝つデータ分析の技術 (Japanese Edition) (p.337). Kindle 版.

lightGBMの初期パラーメータはあんまり良くない。

https://alphaimpact.co.jp/downloads/pydata20190927.pdf

こういうのもっと見つけて手を動かしてみたい https://www.kaggle.com/code/tushiro/03-cdle

時系列データのcloss validation

カテゴリ変数のラベルエンコーディングについて https://qiita.com/sinchir0/items/b038757e578b790ec96a

カテゴリ変数の扱い

時間のデータの特徴量作成