2020-03-01から1ヶ月間の記事一覧

word2vecの学習(その2 学習と作ったモデルで近い単語を検索)

書いてる理由 itemのレコメンドをやりたい。 せっかくword2vecの記事も書いたし自分で学習そういえばしてない。 日本語のデータセットで単語をベクトルにしたろ。 概要 word2vecの学習と作ったモデルで近い単語検索。 参考 https://own-search-and-study.xyz…

word2vecの学習(その1 データ準備)

書いてる理由 itemのレコメンドをやりたい。 せっかくword2vecの記事も書いたし自分で学習そういえばしてない。 日本語のデータセットで単語をベクトルにしたろ。 概要 word2vecで自分で学習するためのデータを用意するところをやる。 参考 https://own-sear…

Pytorchでtransformer(その3 学習とテストデータを使った予測)

書いてる理由 NLPやるぞー レビューがポジティブかネガティブかを判断する ネットワークは書いたから次は学習と予測 参考 pytorchによる発展ディープラーニング Attention is All You Need 概要 これまでIMDbのデータを扱う方法と、テキストデータを使った分…

Pytorchでtransformer(その2 ネットワーク作成)

書いてる理由 NLPやるぞー レビューがポジティブかネガティブかを判断する transformerのネットワークを組んで、classificationするモデル定義をする 参考 pytorchによる発展ディープラーニング Attention is All You Need 概要 raishi12.hatenablog.com 前…

Confusion Matrixを超お手軽に

書いてる理由 分類とかしてるとConfusion Matrix確認したくなる。 自分でaccuracyとかRecall/Precisionを計算してもいいけどめんどい。 そうだsklearnだ 概要 scikit-learnならtrueとpredictのリストを用意すれば速攻でできる。 参考 note.nkmk.me 詳細 conf…

Pytorchでtransformer(その1 Dataloaderの準備)

書いてる理由 NLPやるぞー レビューがポジティブかネガティブかを判断する IMDbデータをtsvにしたので、それを使うためのDataLoaderの準備 参考 pytorchによる発展ディープラーニング 概要 raishi12.hatenablog.comとぶっちゃけほぼ一緒。 唯一違うのは、fas…

レコメンド * Deep learning

求人情報のレコメンドをdeep learningでやりたいんだけど意外とないなーーーと思ってたら、良さげなsurvay ペーパーみっけた。 このあたり Neural Collaborative Filtering Deep Factorization Machine Wide & Deep Learning Multi-View Deep Neural Network…

Pytorchでtransformer(その0 IMBd datasetの準備)

書いてる理由 NLPやるぞー レビューがポジティブかネガティブかを判断する 参考 pytorchによる発展ディープラーニング 概要 IMDbという映画のレビューのテキスト(英語)を使って、テキストがポジティブかネガティブかを判定するためのモデルを作る。ためのデ…

postgresqlでcreate functionとcommaでのsplitとその突合

書いてる理由 AWSのRedShiftを使う。 RedShiftがpostgresqlベースで使い方忘れる。 posgreのPG/psqlの簡単な使い方を残す。 参考 www.postgresql.jp 概要 postgresqlでのPG/psqlの書き方とカンマ区切りのレコードの突合で含まれてたら1、そうでなければ0を返…

word2vec(Continuous Bag-of-wordsとSkip-gram)とfasttextによる単語のベクトル表現

書いてる理由 NLPやるぞー 参考 pytorchによる発展ディープラーニング ソース github.com 概要 1個前で学習用のデータからボキャブラリーを作成し、そのボキャブラリーの単語にindex番号を振ることで単語を数値化して、それを集めて文章を数値化することを書…

pytorchで単語をIndex表現に変換する方法とテキストファイルのDataLoaderを作る

書いてる理由 NLPやるぞー 参考 pytorchによる発展ディープラーニング 詳細 github.com テキスト解析を実行する場合、画像と同じ様にテキストを何らかの数値の羅列にして扱いたい。 前回、mecabやjanomeで文章を分かち書きしたが、このままでは数値ではない…

janomeとmecab+neologd

書いてる理由 NLP 参考 pytorchによる発展ディープラーニング 詳細 github.com やっぱNLPやることに決めた! 最初はjanomeとmecab+neologdを動かすところ。 日本語のテキスト解析に欠かせないのが、文章の分かち書き。 例えば上の文章を分かち書きすると、上…

pytorchでPSPNet(その4 予測用スクリプト作成)

書いてる理由 pytorchを基礎からもう一回 参考 pytorchによる発展ディープラーニング https://arxiv.org/pdf/1612.01105.pdf 詳細 pytorch_work/predict.py at master · ys201810/pytorch_work · GitHub 昨日は疲れすぎアンド頭痛でさすがに更新できなかった…

pythonでlistをこちょこちょする時

ここに一つのlistがあります。 a = [1, 2, 3, 4, 5] これを以下の様に、出力が偶数番目だけ*2されたリストが欲しいです。 [1, 4, 3, 8, 5] こんな時は、リスト内包表記かlambda。 # リスト内包表記 [x * 2 if x % 2 == 0 else x for x in a] # lambda list(m…

pytorchでPSPNet(その3 学習用スクリプト作成2)

書いてる理由 pytorchを基礎からもう一回 参考 pytorchによる発展ディープラーニング https://arxiv.org/pdf/1612.01105.pdf 詳細 pytorch_work/train.py at master · ys201810/pytorch_work · GitHub 前回は、network/dataloaders_dict/criterion/scheduler…

pytorchでPSPNet(その3 学習用スクリプト作成1)

書いてる理由 pytorchを基礎からもう一回 参考 pytorchによる発展ディープラーニング https://arxiv.org/pdf/1612.01105.pdf 詳細 pytorch_work/train.py at master · ys201810/pytorch_work · GitHub これまで作成したネットワーク/Loss関数を使って学習す…

pytorchでPSPNet(その2 Loss関数を作る)

書いてる理由 pytorchを基礎からもう一回 参考 pytorchによる発展ディープラーニング https://arxiv.org/pdf/1612.01105.pdf 詳細 pytorch_work/loss.py at master · ys201810/pytorch_work · GitHub 今日はLoss関数の部分 PSPNetは前回の通り、outputが二つ…

pytorchでPSPNet(その1 ネットワークを作る[DecodeとAuxiliary Loss])

書いてる理由 pytorchを基礎からもう一回 参考 pytorchによる発展ディープラーニング https://arxiv.org/pdf/1612.01105.pdf 詳細 pytorch_work/network.py at master · ys201810/pytorch_work · GitHub PSPNetでセマンティックセグメンテーションする。 昨…

pytorchでPSPNet(その1 ネットワークを作る[Pyramid Pooling])

書いてる理由 pytorchを基礎からもう一回 参考 pytorchによる発展ディープラーニング https://arxiv.org/pdf/1612.01105.pdf 詳細 pytorch_work/network.py at master · ys201810/pytorch_work · GitHub PSPNetでセマンティックセグメンテーションする。 昨…

pytorchでPSPNet(その1 ネットワークを作る[Feature Map])

書いてる理由 pytorchを基礎からもう一回 参考 pytorchによる発展ディープラーニング https://arxiv.org/pdf/1612.01105.pdf 詳細 pytorch_work/network.py at master · ys201810/pytorch_work · GitHub PSPNetでセマンティックセグメンテーションする。 今…

pytorchでPSPNet(その0 Pascal VOCデータのDataloader周り)

書いてる理由 pytorchを基礎からもう一回 参考 pytorchによる発展ディープラーニング 詳細 PSPNetでセマンティックセグメンテーションする。 Pascal VOCのデータのダウンロードに残り二日ってどういうこと〜〜???たかが2G1時間でダウンロードしてくれええ…

pytorchでPSPNet(その0 Pascal VOCデータの画像とアノテーションのリストを作成する関数の作成)

書いてる理由 pytorchを基礎からもう一回 参考 pytorchによる発展ディープラーニング 詳細 PSPNetでセマンティックセグメンテーションする。 データのダウンロードでほとんど時間が持ってかれたので、画像とアノテーションのリストを取得するところだけ作成…

コロナ、、、恨む・・・

毎日何かしらを書きたいと思っているが、さすがにちょっと辛いのでここで最近思っていることをば。。 コロナウイルス、、、てメェええええええええ 株:クッソ落ちた。200万くらい吹っ飛んだ タバコ:喫煙所が全部閉鎖でニコチン切れで仕事が辛ららら いやー…

pytorchでVGG(続き)

書いてる理由 pytorchを基礎からもう一回 参考 pytorchによる発展ディープラーニング 詳細 以下のコードで画像を予測。 # ミニバッチのサイズを指定 batch_size = 32 # DataLoaderを作成 train_dataloader = torch.utils.data.DataLoader(train_dataset, bat…

pytorchのDatasetの準備

書いてる理由 pytorchを基礎からもう一回 参考 pytorchによる発展ディープラーニング 詳細 以下のコードでDatasetまで準備 # coding=utf-8 import os import glob import torch.utils.data as data from PIL import Image from vgg_finetune import ImageTra…

pytorchでVGG

書いてる理由 pytorchを改めて基礎からやりたい 参考 pytorchによる発展ディープラーニング 詳細 以下のコードで画像を予測。 PILで読んで、toTensorでTensor型にして、unsqueeze_でバッチサイズの次元を追加してパラメータをロードしてあるnet(input)で予測…

MacにElasticSearchを入れてanalyzerでスプリットして検索する

書いてる理由 ElasticSearchでなんらかのセパレータで区切られているレコードを検索したい。 やったこと ElasticSearchにセパレータでスプリットするカラム定義を記述してデータを投入して検索。 参考 www.elastic.co 詳細 以下の手順でできた。 # settingで…

新規事業の実践論で良かったところ

書いてる理由 新規事業の実践論を最近電車で読んでる。 刺さったところを残したい やったこと 新規事業の6ステージの話とMVPの考え方 参考 新規事業の実践論。 詳細 新規事業の6ステージは以下で流れていく。 1. WILL: おぼろげでも取り組みたい顧客課題を見…

MacにElasticSearchを入れてインデックスを貼る

書いてる理由 高速検索を仕事でやりたい。 そうだElastic Searchだ やったことねーから基礎からべんきょ やったこと macにelastic searchを入れた インデックスを貼った インデックスを確認した インデックスを削除した マジで触りだけ。最終的には、Elastic…

テキスト前処理の話(part2)

書いてる理由 NLPをやりたい 機械学習・深層学習よる自然言語処理入門をやってて、その内容で使えるものを残す。 やったこと 前回の前処理を使ってロジスティック回帰でレビューのレート予測 参考 Amazon CAPTCHA 詳細 nlp_work/train_amazon_review.py at n…