と実際に生産現場でデータ解析窓口になる方や、専門家のヒアリングを受ける方で困惑している方も多いかと思います。
そんな方へ向けて、わたしも人工知能や機械学習について学び、この記事を書いていきます。
この記事の内容
- 機械学習の定義、何に役立つかがわかる
- 機械学習による解析手法の考え方がわかる
細かい計算手法というよりは、考え方をまとめていますので、ご一読ください。
機械学習とは?
機械学習とは、与えられた問題や課題、環境に応じてコンピュータ自身が学習し、学習結果を活かした問題解決や課題解決などを行う仕組み全体のことをいいます。
人工知能(AI)やディープラーニングという言葉が広まっていますが、人口知能を実現するための手法のメインとして、機械学習が用いられています。
解析したい現象や対象に応じて計算方法(アルゴリズム)を選択していく必要がありますので、各アルゴリズムの性質を理解していきましょう。
機械学習に必要な情報とは?
実際に機械学習を用いるためには、データ収集が必要です。
集まったデータに正解ラベルを割り振ったり、機械学習をしやすい形式に加工したり、不要なデータを削除したり、別の情報源からのデータを加えたりという作業が必要になります。
統計的にデータを確認したり、各種グラフで可視化してデータの大枠をとらえたりすることも必要です。
これらをデータの前処理といいますが、機械学習業務の80%以上の時間に費やされると言われています。
機械学習は何に使われる?
機械学習は様々な場面で使われています。
自動車の自動運転、文書の自動分類、自動翻訳などです。
医療分野ではレントゲン画像の解析で病気の早期発見にも役立っています。
そして多くのデータを取り扱う生産現場において生産効率向上や問題解決をしていくうえでも用いられています。
その他の事例は以下の通り。
- 囲碁・将棋・チェスを指す
- 実在しない人物の画像や動画をつくる(ディープラーニング技術の応用:ディープフェイク)
- サッカーの戦術を映像から見抜く
- AIを駆使して新規材料の開発を効率的に行う(マテリアルズインフォマティクス)
- 橋やトンネルのひび割れの点検を効率的に行う(画像診断技術)
- 画像の特徴をとらえ、がん細胞やポリープの早期発見・見落とし防止
- 自動翻訳機能や音声翻訳でディープラーニングを活用
2013年に発表されたオックスフォード大学のフレイ博士が発表した論文の中で、あと10~20年でAIに奪われる仕事・奪われにくい仕事を推定しています。
AIに奪われる仕事TOP15
- 電話販売員
- 不動産登記の審査・調査
- 手ぬいの仕立て屋
- コンピューターでのデータ収集・加工
- 保険業者
- 時計修理人
- 貨物取扱人
- 税務申告代行者
- フィルム写真の現像技術者
- 銀行の新規口座開設担当者
- 図書館司書の補助員
- データ入力作業員
- 時計の組立・調整工
- 保険金請求・保険契約代行者
- 証券会社の一般事務員
AIに奪われない仕事TOP15
- レクリエーション療法士
- 整備・設置・修理の監督者
- 危機管理責任者
- メンタルヘルス・薬物ソーシャルワーカー
- 聴覚訓練士
- 作業療法士
- 歯科矯正士
- 医療ソーシャルワーカー
- 口腔外科医
- 消防・防災の第一線監督者
- 栄養士
- 宿泊施設の支配人
- 振付師
- セールスエンジニア
- 内科医・外科医
AIに奪われる仕事は、比較的単純な業務お行う仕事が多く含まれているようです。
また一方で、AIに奪われない仕事では、人の心に関わる仕事や対話がh津ような仕事が多く含まれているようです。
AIや機械学習の弱点は?
万能のツールとも見える機械学習・AIですが、まだまだ完璧には程遠い状態です。
AIがかかえる弱点は2つです。
- フレーム問題:常識を持たないので、人間のように適当に考えることができない。どこまで考慮すればよいかわからず、無限に考えすぎてしまう。
- シンボルグラウンディング問題:言葉の本当の意味をAIは理解していない。シマとウマを知ってシマウマという言葉を覚えても、新たな記号を覚えるだけで意味を分かっていない。
やはりAIには人が本能で感じるような「心地よい」「美しい」という抽象的な概念を理解することが難しいと考えられています。
AIが知能を獲得したとしても、人間と同じような感じ方をできるようにはらないという見方が大勢を占めています。
しかし人が心を持っていることは証明できないのと同じで、AIが外見上心があると思えれば、その時点で「AIは心を持っている」ととらえてもよいのかもしれません。
機械学習の種類
入力データの分類ごとに、機械学習の種類が分かれています。
教師あり学習
教師あり学習は、問題の答えをコンピュータに与えることで機械学習のモデルを学習させていく手法です。
特徴を表すデータと、答えがあるデータがあることが前提となります。
例)ある機械の汚れ進行度(温度、差圧)を抑えたい、あるプロセスの生産効率を高めたい、などが答えとして必要です。
教師なし学習
教師なし学習では、答えである目的変数(正解)を与えません。
教師なし学習では、特徴を表すデータを入力し、そのデータを変換して別の形式で表現したり、集合を見出したりすることで、入力データの構造を理解することが目的です。
そのため、教師あり学習と比べると、結果の解釈が難しく、分析者の主観的な解釈が必要となります。
強化学習
強化学習とは、ある環境の中で行動するプレーヤーが最大の報酬を得られるように学習していく手法です。
将棋におけるPonanza、囲碁AIにおけるAlpha Goなどが有名な例です。
将棋の場面と操作を特徴量、王手に優位な手を目的変数とすると、何度もプレーヤーが試合を行うことで、特徴量と目的変数の組を人手に頼らず収集できます。
機械学習の種類 教師あり
まずは機械学習の「教師あり」7種類を紹介します。
1. 線形回帰
線形回帰(Liner Regression)は回帰問題の予測を行うアルゴリズムです。
基本的でわかりやすいアルゴリズムであり、誤差を最小化するパラメーターを求める時には、教師あり学習に共通した枠組みとなっています。
2. 正則化
正則化は過学習を防ぐための手法の1つで、線形回帰などのアルゴリズムとともに利用します。
中でもRidge回帰とLasso回帰の2つが代表的な手法です。
パラメーターαを用いて、グラフの形状をシンプルにすることができます。
3.ロジスティック回帰
ロジスティック回帰は、教師あり学習の分類タスクに用いられるアルゴリズムです。
データが各分類に属する確率を計算することで分類します。
外気温に対して、雪が溶けてブーツを履かなくて良い確率を上図の緑の線のように求めることができます。
4. サポートベクトルマシン
サポートベクトルマシンは、非常に応用範囲が広く、分類と回帰のどちらにも使えるアルゴリズムです。
分類に関して述べると、ロジスティック回帰に比べてきれいに分類できます。
サポートベクトルマシンはマージン最大化という基準により、決定境界ができるだけデータから離れるようにできています。
5. ナイーブベイズ
ナイーブベイズとは、自然言語の分類問題に利用されるアルゴリズムです。
スパムメールのフィルタリングに応用されています。
文章を特徴量からなるベクトルに変換し、それをナイーブベイズで言語ラベルが現れる確率を学習していきます。
6. ランダムフォレスト
ランダムフォレストは決定木という複数のモデルを束ねてより高い性能のモデルを作成する手法です。
回帰にも分類でも使えます。
ランダムフォレストの多数決は、様々な人に聞いて総合的に判断するのと似ています。
ランダムフォレストでは、それぞれの決定木で多数決をとって予測結果とすることで、正解率が向上します。
特徴量ごとに予測結果に対しての重要度を可視化することができます。
7. ニューラルネットワーク
ニューラルネットワークは、生物の神経回路網を模倣することから始まったとされます。
ニューラルネットワークを応用したディープラーニングは、画像認識や音声認識のような分野で良いパフォーマンスを出すと言われています。
1つのモデルで1つの事象を正しく表現することは難しいため、ニューラルネットワークでは中間層にいくつもの出力結果を重ね合わせ、それを重ね合わせて最終的な結果を決定するのです。
中間層の数や深さを調整することで、より複雑な境界の学習が可能となります。
機械学習の種類(教師なし)
次に機械学習(教師なし)の種類を4つ紹介します。
8. 主要因解析(PCA)
数ある次元削減手法の中でも、歴史が浅く、さまざまな分野で利用されています。
主成分分析を使うことで、相関のある多変量解データを主成分で簡潔に表現できます。
9. LSA
LSAは、自然言語処理の技術として提案されてたものです。
LSAによって、大量の文書データから単語がもつ潜在的な関連性を見つけ出すことができます。
「車」と「自動車」のようなわたしたちはおなじ意味を持つ単語を類似度(特徴量)という形で数値化し、各単語の関連性を示すことができます。
文中の単語の数と文書の数だけ行列として計算するので、計算量が多く非常にコストがかかる場合があります。
10. NMF
NMF(Non-negative matrix factorization)は、入力データ、出力データの値が非負であるという性質を持った次元削減手法です。
画像データなどを扱う際に、モデルとして解釈しやすい利点があります。

PCA(左)とNMF(右)の比較
PCAでは画像を正と負で明暗を表現しているのに比べ、NMFでは特徴的なぶぶんだけが明るく、その他はゼロ(暗く)なるので潜在変数の意味がわかりやすくなります。
11. LDA
LDA(Latent Dirichlet allocation)は次元削減手法の1つで、文書のモデル化に適したものです。
新聞などのニュース記事では、スポーツや教育などのトピックを1つ、もしくは複数もっています。
LDAを使えば、文書がもつ単語をもとに、複数のトピックを割り当てることができます。
12. k-means法
似た者同士のデータをクラスタとしてまとめる手法をクラスタリングといいます。k-means法はクラスタリングの一種であり、その手法の簡潔さからデータ分析においてよく使われています。
また、そのほかにクラスタリングの手法としてよく使われるものとして、「混合ガウス分布」、「LLE(Local Liner Embedding)」などがあります。データの次元や複雑さに応じて解析手法を選択します。
まとめ
今回は「人工知能と機械学習とは?生産現場の効率化につながる11の解析方法を解説」としてまとめてきました。
わたし個人としての使い方の例は以下の通りです。
- プロセスの問題の原因がわからないので、原因となるパラメーターを抽出したい;ランダムフォレスト等で重要度を表現
- 生産設備の不具合状況を不具合ととらえるのを人の目ではなく、画像に判断させたい;ニューラルネットワーク
- 膨大な検査データや過去運転記録から異常兆候を早期に発見する;LSAやMNFなど(テキストマイニング)
データ解析の専門家とのコミュニケーションを深めて、現場の現象の解析を進め、現場をよくするアイディアを可視化していきましょう。