2019-04-02から1日間の記事一覧

きょうのよしなしごと

ワークス徳島研&国立国語研から、日本語の単語分散表現が公開されました!約1億のウェブページを含む大規模コーパス「NWJC」を利用し、形態素解析器「Sudachi」の複数粒度分割をもとに、word2vec(gensim)とfastTextで学習。ライセンスはApache2.0。先日の年…