技術 Juliaでk-mean法(4) Word2vec はじめに これまでのk-means記事 Juliaでk-mean法(1) Bag of Words / ニュース記事Juliaでk-mean法(2) 距離関数についてJuliaでk-mean法(3) TF-IDF 今... 2022.08.10 技術
技術 Juliaでk-mean法(3) TF-IDF はじめに これまで、BOW形式のベクトルを使ってk-meansを試してきました。 Juliaでk-mean法(1) Bag of Words / ニュース記事Juliaでk-mean法(2) 距離関数について しかし... 2022.07.26 技術
技術 Juliaでk-mean法(2) 距離関数について はじめに 前回、BOW形式での単語ベクトルを使ってk-means法でクラスタリングしたところ、散々だったという報告をしました。 続いて、TF-IDFでの単語ベクトルで実験を行いました。実はこれでもあまり精度がよくないものの、BOW... 2022.07.24 技術
技術 Juliaでk-mean法(1) Bag of Words / ニュース記事 はじめに Juliaでk-means法でのクラスタリングを行ってみます。 Bag of Wordsとは、文書中に出現する単語数をその文書の特徴とする方法で、単語の出現順序は考慮しません。具体的には、単語を各要素のラベルとして、その... 2022.07.13 技術
技術 Juliaでジップの法則を確認(2) ニュース記事の場合 はじめに 以前の記事で、小説データを使ってジップの法則を確認しました。しかし、ジップの法則とはかなり乖離していることがわかりました。 それが、小説を題材にしたことによるものなのかどうかを確認するために、他のデータを使うべく、前回の... 2022.07.04 技術
技術 Juliaでジップの法則(Zipf’s law)を確認:小説の場合 はじめに 前回の記事で、青空文庫からテキストを取得して、操作できる形式に変換することができました。 せっかく、自然言語のテキストが大量に扱えるようになったので、自然言語処理関連でのいろいろを考えていきたいと思います。 今回は、自然... 2022.06.25 技術
技術 Juliaで複雑ネットワークを可視化(2) 共起情報の可視化 はじめに ここでは、Julia上で、日本語テキストから形態素間の共起関係を抽出し、それをグラフ表現で表示する方法を紹介します。グラフの表示に関しては、前回の記事に準じます 使用するのは次のパッケージです。 HTTP.jlht... 2022.06.18 技術
技術 Juliaで日本語テキストからワードクラウド はじめに ここでは、Juliaでワードクラウドを作成します。 前回までに、Juliaでの日本語形態素解析を紹介したので、日本語テキストを対象とします。 実行環境は、SageMaker Studio Labです。 事前準備(フ... 2022.05.28 技術
技術 Juliaで形態素解析(2)SageMaker Studio Lab はじめに 前回、Juliaで形態素解析を行う方法を紹介しましたが、その方法では、SageMaker Studio Lab上では形態素解析が使えません。SageMaker Studio LabはUbuntu上で動いているのですが、そ... 2022.05.22 技術
技術 Juliaで形態素解析 はじめに ここでは、Juliaで形態素解析を行う方法を紹介します。 次の二つの方法があります。 「MeCab.jl」:形態素解析システム「MeCab」のラッパー「Awabi.jl」:Juliaで書かれた形態素解析器(ただし、... 2022.05.20 技術