【TED】コンピュータはいかに物体を即座に認識できるようになったのか

スポンサーリンク

ジョセフ・レドモン

こんにちは。

今日は、TEDから、コンピュータによる画像認識についてのスピーチ動画をお借りしてきました。

ここ10年程度で急速な発展を遂げてきた画像認識技術。

どのようにして技術を向上させてきたのか。

どのようなことに利用されているのでしょうか。

動画には日本語字幕がついています。

英語が苦手な方もお楽しみいただけます。

スピーカーについて

今回、TEDの壇上に上がったのは、ジョセフ・レドモン氏。

ワシントン大学の大学院生です。

オープンソースの物体検出システム”YOLO(You Only Look Once)”に取り組んでいます。

スポンサーリンク

画像検出技術の目覚ましい発展

画像検出技術は、ここ10年の間に、大きな発展を遂げてきました。

「10年前、コンピュータービジョンの研究者は、コンピュータで犬と猫を見分けるのはほとんど無理だと考えていました(Ten years ago, computer vision researchers thought that getting a computer to tell the difference between a cat and a dog would be almost impossible)」

それから10年。

「コンピュータは何千種もの物を識別できるようになっています(computers know thousands of other categories as well.)」

犬と猫の区別もつかなかったコンピュータは、人工知能の発達とともに、その識別能力が著しく向上しました。

ですが、まだ問題があります。

それは、処理速度の問題です。

レドモン氏が画像検出の研究に取り組み始めた頃には、1枚の画像を処理するのに20秒もかかっていたそうです。

「以前の物体検出システムは、このような画像を受け取ると、沢山の領域に分割し、それぞれの領域を分類プログラムにかけ、高いスコアが出たところに物体が検出されたと見なしていました(in the past, object detection systems would take an image like this and split it into a bunch of regions and then run a classifier on each of these regions, and high scores for that classifier would be considered detections in the image.)」

1つの画像を幾つもの画像に分割して、そのそれぞれに対して検出プログラムを走らせる。

たった1つの画像に対する計算量が著しく多かったのです。

これに対し、「我々のシステムでは、物体検出を行うために、画像を何千回も見る代わりに、たった一度しか見ないのです(With our system, instead of looking at an image thousands of times to produce detection, you only look once)」

独自のアルゴリズム、さらにはハードウェアの機能向上などにより、1つの画像を分割することなく、物体検出が行えるようになったのです。

これにより、計算量が圧倒的に少なくなります。

この技術を開発したことにより、「ほんの数年で、1画像あたり20秒から20ミリ秒へと1000倍高速化しました(So in just a few years, we’ve gone from 20 seconds per image to 20 milliseconds per image, a thousand times faster.)」

1画像あたり20ミリ秒。ほぼリアルタイム処理と言っても良いでしょう。

その利用は他分野に

この画像処理システムは、”YOLO”と呼ばれています。

YOLOシステムは、何か特定の分野に限定されたシステムではありません。

汎用検出システム、すなわち、「どのような領域の画像に対してもトレーニングできます(we can train this for any image domain.)」

例えば、自動運転車用にトレーニングすれば、交通標識を識別するためなどに利用できます。

例えば、医療用にトレーニングすれば、ガン検出のためなどに利用できます。

すでに実際に使われている例として、動物の個体数調査に利用されています。

利用が広がる背景

YOLOシステムが様々な分野で利用されている背景には、その汎用性以外にも、別の理由があります。

オープンソースだという理由です。

オープンソース、すなわち、誰でも無料で使えるのです。

高機能で汎用性が高く、しかも無料。

さらに、どこの誰が作ったのかわからないようなものではなく、ワシントン大学で研究・開発されているという安心感。

これにより、YOLOはその利用者数を増やしています。

感想

画像認識システムは、コンピュータの目に当たる部分。

目の機能が向上すると、コンピュータが出来ることは増えていきます。

スピーチで挙げられていた例の他にも、生産現場で不良品を見分けるために使用したり、防犯カメラで犯人の顔を識別したり、様々な分野で、これまで以上の成果を出せるようになっていくことでしょう。

このように技術が向上していくことで、いずれは人型ロボット(アンドロイド)も作られるのでしょう。

人間とロボットが平和的に共存する世界。

生きている間に見てみたいものです。

スポンサーリンク

シェア/フォローありがとうございます