形態素解析

技術

Juliaでk-mean法(4) Word2vec

はじめに  これまでのk-means記事 Juliaでk-mean法(1) Bag of Words / ニュース記事Juliaでk-mean法(2) 距離関数についてJuliaでk-mean法(3) TF-IDF  今...
技術

Juliaでk-mean法(3) TF-IDF

はじめに  これまで、BOW形式のベクトルを使ってk-meansを試してきました。 Juliaでk-mean法(1) Bag of Words / ニュース記事Juliaでk-mean法(2) 距離関数について  しかし...
技術

Juliaでk-mean法(2) 距離関数について

はじめに  前回、BOW形式での単語ベクトルを使ってk-means法でクラスタリングしたところ、散々だったという報告をしました。 続いて、TF-IDFでの単語ベクトルで実験を行いました。実はこれでもあまり精度がよくないものの、BOW...
技術

Juliaでk-mean法(1) Bag of Words / ニュース記事

はじめに  Juliaでk-means法でのクラスタリングを行ってみます。 Bag of Wordsとは、文書中に出現する単語数をその文書の特徴とする方法で、単語の出現順序は考慮しません。具体的には、単語を各要素のラベルとして、その...
技術

Juliaでジップの法則を確認(2) ニュース記事の場合

はじめに  以前の記事で、小説データを使ってジップの法則を確認しました。しかし、ジップの法則とはかなり乖離していることがわかりました。 それが、小説を題材にしたことによるものなのかどうかを確認するために、他のデータを使うべく、前回の...
技術

Juliaでジップの法則(Zipf’s law)を確認:小説の場合

はじめに  前回の記事で、青空文庫からテキストを取得して、操作できる形式に変換することができました。 せっかく、自然言語のテキストが大量に扱えるようになったので、自然言語処理関連でのいろいろを考えていきたいと思います。 今回は、自然...
技術

Juliaで複雑ネットワークを可視化(2) 共起情報の可視化

はじめに  ここでは、Julia上で、日本語テキストから形態素間の共起関係を抽出し、それをグラフ表現で表示する方法を紹介します。グラフの表示に関しては、前回の記事に準じます 使用するのは次のパッケージです。 HTTP.jlht...
技術

Juliaで日本語テキストからワードクラウド

はじめに  ここでは、Juliaでワードクラウドを作成します。 前回までに、Juliaでの日本語形態素解析を紹介したので、日本語テキストを対象とします。 実行環境は、SageMaker Studio Labです。 事前準備(フ...
技術

Juliaで形態素解析(2)SageMaker Studio Lab

はじめに  前回、Juliaで形態素解析を行う方法を紹介しましたが、その方法では、SageMaker Studio Lab上では形態素解析が使えません。SageMaker Studio LabはUbuntu上で動いているのですが、そ...
技術

Juliaで形態素解析

はじめに  ここでは、Juliaで形態素解析を行う方法を紹介します。 次の二つの方法があります。 「MeCab.jl」:形態素解析システム「MeCab」のラッパー「Awabi.jl」:Juliaで書かれた形態素解析器(ただし、...
タイトルとURLをコピーしました