「ゲンバノアンゼン」は工場の最前線で働くわたしとよりよい生産現場のために「安全」や「生産性」について学ぶブログです。

ゲンバノアンゼン

未分類 生産性・仕事術

機械学習とは?生産現場の効率化につながる11の解析方法を解説

機械学習
お悩み社員

生産現場に機械学習(AI、ビッグデータ活用)というキーワードがあふれ出したけど、何ができるかわからない

実際に専門家に機械学習によるデータ解析を依頼したけど、知らない単語が多すぎて何を言っているかわからない

と実際に生産現場でデータ解析窓口になる方や、専門家のヒアリングを受ける方で困惑している方も多いかと思います。

そんな方へ答える形でこの記事を書いていきます。

この記事の内容

・機械学習の定義、何に役立つかがわかる

・機械学習による解析手法の考え方がわかる

細かい計算手法というよりは、考え方をまとめていますので、ご一読ください。

機械学習とは?

機械学習とは、与えられた問題や課題、環境に応じてコンピュータ自身が学習し、学習結果を活かした問題解決や課題解決などを行う仕組み全体のことをいいます。

人工知能(AI)やディープラーニングという言葉が広まっていますが、人口知能を実現するための手法のメインとして、機械学習が用いられています。

解析したい現象や対象に応じて計算方法(アルゴリズム)を選択していく必要がありますので、各アルゴリズムの性質を理解していきましょう。

機械学習の種類

入力データの分類ごとに、機械学習の種類が分かれています。

教師あり学習

教師あり学習は、問題の答えをコンピュータに与えることで機械学習のモデルを学習させていく手法です。

特徴を表すデータと、答えがあるデータがあることが前提となります。

例)ある機械の汚れ進行度(温度、差圧)を抑えたい、あるプロセスの生産効率を高めたい、などが答えとして必要です。

 教師なし学習

教師なし学習では、答えである目的変数(正解)を与えません。

教師なし学習では、特徴を表すデータを入力し、そのデータを変換して別の形式で表現したり、集合を見出したりすることで、入力データの構造を理解することが目的です。

そのため、教師あり学習と比べると、結果の解釈が難しく、分析者の主観的な解釈が必要となります。

強化学習

強化学習とは、ある環境の中で行動するプレーヤーが最大の報酬を得られるように学習していく手法です。

将棋におけるPonanza、囲碁AIにおけるAlpha Goなどが有名な例です。

将棋の場面と操作を特徴量、王手に優位な手を目的変数とすると、何度もプレーヤーが試合を行うことで、特徴量と目的変数の組を人手に頼らず収集できます。

機械学習は何に使われる?

機械学習は様々な場面で使われています。

自動車の自動運転、文書の自動分類、自動翻訳などです。

医療分野ではレントゲン画像の解析で病気の早期発見にも役立っています。

そして多くのデータを取り扱う生産現場において生産効率向上や問題解決をしていくうえでも用いられています。

機械学習に必要な情報とは?

実際に機械学習を用いるためには、データ収集が必要です。

集まったデータに正解ラベルを割り振ったり、機械学習をしやすい形式に加工したり、不要なデータを削除したり、別の情報源からのデータを加えたりという作業が必要になります。

統計的にデータを確認したり、各種グラフで可視化してデータの大枠をとらえたりすることも必要です。

これらをデータの前処理といいますが、機械学習業務の80%以上の時間に費やされると言われています。

機械学習の種類 教師あり

まずは機械学習の「教師あり」7種類を紹介します。

1. 線形回帰

線形回帰(Liner Regression)は回帰問題の予測を行うアルゴリズムです。

基本的でわかりやすいアルゴリズムであり、誤差を最小化するパラメーターを求める時には、教師あり学習に共通した枠組みとなっています。

2. 正則化

正則化は過学習を防ぐための手法の1つで、線形回帰などのアルゴリズムとともに利用します。

中でもRidge回帰とLasso回帰の2つが代表的な手法です。

パラメーターαを用いて、グラフの形状をシンプルにすることができます。

正則化

3.ロジスティック回帰

ロジスティック回帰は、教師あり学習の分類タスクに用いられるアルゴリズムです。

データが各分類に属する確率を計算することで分類します。

ロジスティック回帰

外気温に対して、雪が溶けてブーツを履かなくて良い確率を上図の緑の線のように求めることができます。

4. サポートベクトルマシン

サポートベクトルマシンは、非常に応用範囲が広く、分類と回帰のどちらにも使えるアルゴリズムです。

分類に関して述べると、ロジスティック回帰に比べてきれいに分類できます。

サポートベクトルマシンはマージン最大化という基準により、決定境界ができるだけデータから離れるようにできています。

5. ナイーブベイズ

ナイーブベイズとは、自然言語の分類問題に利用されるアルゴリズムです。

スパムメールのフィルタリングに応用されています。

ナイーブベイズ

文章を特徴量からなるベクトルに変換し、それをナイーブベイズで言語ラベルが現れる確率を学習していきます。

6. ランダムフォレスト

ランダムフォレストは決定木という複数のモデルを束ねてより高い性能のモデルを作成する手法です。

回帰にも分類でも使えます。

ランダムフォレストの多数決は、様々な人に聞いて総合的に判断するのと似ています。

ランダムフォレストでは、それぞれの決定木で多数決をとって予測結果とすることで、正解率が向上します。

特徴量ごとに予測結果に対しての重要度を可視化することができます。

7. ニューラルネットワーク

ニューラルネットワークは、生物の神経回路網を模倣することから始まったとされます。

ニューラルネットワークを応用したディープラーニングは、画像認識や音声認識のような分野で良いパフォーマンスを出すと言われています。

ニューラルネットワーク

1つのモデルで1つの事象を正しく表現することは難しいため、ニューラルネットワークでは中間層にいくつもの出力結果を重ね合わせ、それを重ね合わせて最終的な結果を決定するのです。

中間層の数や深さを調整することで、より複雑な境界の学習が可能となります。

 

機械学習の種類(教師なし)

次に機械学習(教師なし)の種類を4つ紹介します。

8. 主要因解析(PCA

数ある次元削減手法の中でも、歴史が浅く、さまざまな分野で利用されています。

主成分分析を使うことで、相関のある多変量解データを主成分で簡潔に表現できます。

9. LSA

LSAは、自然言語処理の技術として提案されてたものです。

LSAによって、大量の文書データから単語がもつ潜在的な関連性を見つけ出すことができます。

「車」と「自動車」のようなわたしたちはおなじ意味を持つ単語を類似度(特徴量)という形で数値化し、各単語の関連性を示すことができます。

文中の単語の数と文書の数だけ行列として計算するので、計算量が多く非常にコストがかかる場合があります。

10. NMF

NMFNon-negative matrix factorization)は、入力データ、出力データの値が非負であるという性質を持った次元削減手法です。

画像データなどを扱う際に、モデルとして解釈しやすい利点があります。

NMF

PCA(左)とNMF(右)の比較

PCAでは画像を正と負で明暗を表現しているのに比べ、NMFでは特徴的なぶぶんだけが明るく、その他はゼロ(暗く)なるので潜在変数の意味がわかりやすくなります。

11. LDA

LDALatent Dirichlet allocation)は次元削減手法の1つで、文書のモデル化に適したものです。

新聞などのニュース記事では、スポーツや教育などのトピックを1つ、もしくは複数もっています。

LDAを使えば、文書がもつ単語をもとに、複数のトピックを割り当てることができます。

12. k-means法

似た者同士のデータをクラスタとしてまとめる手法をクラスタリングといいます。k-means法はクラスタリングの一種であり、その手法の簡潔さからデータ分析においてよく使われています。

また、そのほかにクラスタリングの手法としてよく使われるものとして、「混合ガウス分布」、「LLE(Local Liner Embedding)」などがあります。データの次元や複雑さに応じて解析手法を選択します。

まとめ

今回の記事はいかがでしたでしょうか。

わたし個人としての使い方の例は以下の通りです。

  • プロセスの問題の原因がわからないので、原因となるパラメーターを抽出したい;ランダムフォレスト等で重要度を表現
  • 生産設備の不具合状況を不具合ととらえるのを人の目ではなく、画像に判断させたい;ニューラルネットワーク
  • 膨大な検査データや過去運転記録から異常兆候を早期に発見する;LSAやMNFなど(テキストマイニング)

データ解析の専門家とのコミュニケーションを深めて、現場の現象の解析を進め、現場をよくするアイディアを可視化していきましょう。

  • この記事を書いた人

しば

30代前半、製造現場の最前線で管理者を務めています。 文献や実践から得られた学びをこのブログを通じてみなさんと共有していきたいと思います。

-未分類, 生産性・仕事術

Copyright© ゲンバノアンゼン , 2019 All Rights Reserved.