技術

Juliaでk-mean法(4) Word2vec

はじめに  これまでのk-means記事 Juliaでk-mean法(1) Bag of Words / ニュース記事Juliaでk-mean法(2) 距離関数についてJuliaでk-mean法(3) TF-IDF  今...
技術

Juliaで日本語Word2vecを使ってみた(2) wikipediaデータ

はじめに  以前の記事「Juliaで日本語Word2vecを使ってみた」でWord2vec(FastText)を使ってみました。FastTextには2つのデータが用意されています。二つの違いは学習元のテキストです。 Commo...
技術

Julia:関数split()と日本語文字列で困ったこと

はじめに  文字列を分割する関数 split() ですが、日本語文字列を区切りなしで分割する際にちょっと困ったことがあったので、まとめておきます。  まずは、関数 split() の挙動について整理しておきます。 区切り...
技術

Juliaで日本語Word2vecを使ってみた

はじめに  k-meansで、BOW、Tf-IDFをやってみましたが、そもそも文書数が少ないので、その中での情報だけを使って文書の特徴を出そうとするのには限界がありました。 そこで、事前に大量の文書を用いて計算されたWord2vec...
技術

Juliaでの文字列操作 – Pythonと比較 –

はじめに  次の記事に触発されて書きました。 いろんな言語での文字列操作の比較(VBA, Java, C#, PHP, Python, JavaScript)(Qiita)  Juliaが含まれていません! ならばという...
技術

Juliaでk-mean法(3) TF-IDF

はじめに  これまで、BOW形式のベクトルを使ってk-meansを試してきました。 Juliaでk-mean法(1) Bag of Words / ニュース記事Juliaでk-mean法(2) 距離関数について  しかし...
技術

Juliaでk-mean法(2) 距離関数について

はじめに  前回、BOW形式での単語ベクトルを使ってk-means法でクラスタリングしたところ、散々だったという報告をしました。 続いて、TF-IDFでの単語ベクトルで実験を行いました。実はこれでもあまり精度がよくないものの、BOW...
技術

Juliaでk-mean法(1) Bag of Words / ニュース記事

はじめに  Juliaでk-means法でのクラスタリングを行ってみます。 Bag of Wordsとは、文書中に出現する単語数をその文書の特徴とする方法で、単語の出現順序は考慮しません。具体的には、単語を各要素のラベルとして、その...
技術

Juliaでジップの法則を確認(2) ニュース記事の場合

はじめに  以前の記事で、小説データを使ってジップの法則を確認しました。しかし、ジップの法則とはかなり乖離していることがわかりました。 それが、小説を題材にしたことによるものなのかどうかを確認するために、他のデータを使うべく、前回の...
技術

JuliaでYahoo!ニュースをスクレイピング

はじめに  前回の記事「Juliaでジップの法則(Zipf's law)を確認」で、青空文庫の小説を使ってジップの法則を確認しました。結果は、かなりのずれが見られたわけですが、ほかのコーパス、例えばニュース記事などではどうなのかも確...
タイトルとURLをコピーしました