pipenvの使い方メモ

久しぶりに更新するんだけど、アクセス履歴を見るとtotal PVが1200超えていて、未だに毎日何らかのアクセスがあるのがちょっと嬉しい。今回は機械学習系じゃないが、今ちょうどBERTの亜種のSentence Bertを扱っているのでそのうち描こうかなーと思います。 …

2020-05-06

gensimのword2vecのmost_similarと平均ベクトルを作ったmost_similar_by_vectorの結果の違いを正す

書いてる理由 word2vec実践中 most_similarと平均ベクトルを作ってmost_similar_by_vectorした時の結果が違うので調べた参考無し概要 gensimのword2vecでmodel.most_similarでの計算結果と、自分で平均ベクトルを作って計算したmost_similar_by_vectorの…

2020-05-01

LightGBMをmacにインストールと実行

書いてる理由二値分類問題を解く必要が出た軽量で学習が早いlightGBMを使っとく参考 lightgbmで二値分類の一連の流れをしたメモ - Qiita 概要 macにlightGBMをインストールして、skleranから適当なデータセットを利用して動作を確認する。コード https:/…

2020-04-30

SentencePieceの学習方法

書いてる理由 pytorchでbertやりたい日本語を扱う方法を調べ中参考 www.smartbowwow.com 詳細ここまでやってきたBERTは英語の文章をメインで利用していて、文章を単語に分割するtokenizerが英語向け。昔の記事で、BERT(BertJapaneseTokenizer)で日本語を…

2020-04-27

Bertの日本語プレトレインモデル調査

やってる理由 BERTを日本語で使いたいここまで英語だったので日本語のプレトレインは何があるか調べる詳細ちょいちょい存在するっぽい。調べるまでは東北大学のやつしか知らなかったけど、色々あった。 No 作成者公開日リンク 1 東北大学 2019/12/13 ht…

2020-04-26

PytorchでBERTのネットワークを作る（その４　学習）

書いてる理由自然言語処理やりたい BERTをpytorchで書く参考 pytorchによる発展ディープラーニング概要ここまでで用意したネットワーク、プレトレインモデルで学習してポジネガ判定をする。コード github.com 詳細今回は学習部分。ここまで作ってきた…

2020-04-25

PytorchでBERTのネットワークを作る（その４　同じ単語が違う意味で表現できているかを確認）

書いてる理由自然言語処理やりたい BERTをpytorchで書く参考 pytorchによる発展ディープラーニング概要 bankという単語の二つの意味、銀行と土手が異なる単語として扱えているかを確認する。コード github.com 詳細ここまでに作ってきた、BERTのネット…

2020-04-23

PytorchでBERTのネットワークを作る（その３　プレトレインモデルをloadする）

書いてる理由自然言語処理やりたい BERTをpytorchで書く参考 pytorchによる発展ディープラーニング概要 bankという単語の二つの意味、銀行と土手が異なる単語として扱えているかを確認する前に、pre-trainモデルをloadする方法を書く。コード github.com…

2020-04-22

PytorchでBERTのネットワークを使って同じ単語で別の意味として扱えているか確認(休憩)

あー今日はコードだけ！ムズムズだ。。明日解説。やったことは、"bank"という単語には銀行と土手という意味があり、同じ単語だけど違う意味で使われる。これをちゃんと別の意味として扱えているかを確認した。コード github.com 参考 pytorchによる発…

2020-04-20

PytorchでBERTのネットワークを作る（その２）

書いてる理由自然言語処理やりたい BERTをpytorchで書く参考 pytorchによる発展ディープラーニング概要と一言前回はBERTの全体の概要を説明した。全体の概要は以下で、単語のIDのリストをベクトル変換するEmbedding Moduleで単語自体のベクトル化、位置…

2020-04-19

PytorchでBERTのネットワークを作る

書いてる理由自然言語処理やりたい BERTをpytorchで書く参考 pytorchによる発展ディープラーニング Attention is All You Need 概要と一言めっちゃレコメンドの続きをやりたいんだけど、仕事に関わっちゃうからコードや結果が載せられないので自然言語処…

2020-04-18

PytorchのEmbeddingメモ

いつもtorch.nn.Embeddingの意味合いを忘れるのでメモ。 import torch from torch import nn embed = nn.Embedding(num_embeddings=4, embedding_dim=10, padding_idx=0) # num_embeddingsが種類の数、embedding_dimはベクトル表現の次元数、padding_idxがpa…

2020-04-14

軽い悩み

真剣な悩みを持っている身近な人を知っている一方、俺のくだらない悩み。「リモートになって、就業時間以外も仕事に関係する作業をしてしまう。」このブログ、毎日何か新しくやったことを書こうと思って始めて、最初は仕事終わってから仕事に直接関係ない…

2020-04-12

pandasメモ

# -*- coding: utf-8 -*- import pandas def group_by_cnt(df, column_name): """ column_nameでdfをgroup byしてcount """ return df.groupby(column_name).count() def nan_count(df): """ NANの行数のカウント """ return df.isnull().sum() def df_len(d…

2020-04-10

Matrix FactorizationにおけるSGDでのパラメータ更新式

書いてる理由 Neural Collaborative FilteringでMFが出てきた良くわかってないから理解したい pythonでのコードがあったけど、その中でSGDのパラメータ更新の式が良くわからなかったので深堀りたい参考 tips-memo.com 詳細昨日の記事でlossの微分で理解が…

2020-04-09

Matrix Factorizationの実際の計算

以下の式動かしながら行列の偏微分について考えてたら時間なくなった。。また明日。 # coding=utf-8 import numpy def matrix_factorization(R, P, Q, K, steps=5000, alpha=0.0002, beta=0.02): Q = Q.T for step in range(steps): for i in range(len(R))…

2020-04-08

Matrix Factorizationの次元圧縮について

書いてる理由 Neural Collaborative Filteringの説明の中でMFが出たけどよく考えたらあんまりMFを理解していない Collaborative Filteringのuser * item配列の次元圧縮がMF(ドヤァアアアアア)とか言ったけど、まじで次元圧縮になってる？？なんかいまいち分…