コンピューター ビジョンの進歩が交通の自律性を推進

視覚は強力な人間の感覚入力です。 これにより、私たちが当たり前だと思っている複雑なタスクやプロセスが可能になります。 輸送や農業からロボット工学や医療に至るまで、さまざまなアプリケーションで AoT™ (モノの自律性) が増加するにつれて、人間のような視覚と認識を提供するカメラ、コンピューティング、機械学習の役割が重要になってきています。 学問分野としてのコンピューター ビジョンは、1960 年代に、主に人工知能 (AI) と機械学習の新興分野に携わる大学で始まりました。 半導体とコンピューティング技術が大幅に進歩したため、次の XNUMX 年間で劇的に進歩しました。 ディープ ラーニングと人工知能の最近の進歩により、コンピューター ビジョンのアプリケーションがさらに加速し、リアルタイムで低遅延の認識と環境認識が可能になり、さまざまなアプリケーションで自律性、安全性、効率性が実現しています。 輸送は、大きな恩恵を受けている分野の XNUMX つです。

LiDAR (Light Detection and Ranging) は、レーザーを使用してオブジェクトの周囲の 3D 環境を決定するアクティブな光学イメージング アプローチです。 これは、コンピューター ビジョン ソリューション (純粋に周囲光に依存し、3D 認識にレーザーを使用しない) が破壊しようとしているテクノロジの 3 つです。 共通のテーマは、人間のドライバーは深度認識に LiDAR を必要としないため、機械も同様であるということです。 現在の商用 LXNUMX 自動運転機能 (特定の地域や気象条件での完全な自動運転、ドライバーが数秒で制御できる状態) の現在の製品 LiDAR を使用する. 純粋な視覚ベースの技術では、この機能を商業的に提供することはまだできていません。

広告

テスラTSLA
は、パッシブ カメラ ベースのコンピューター ビジョンを使用して乗用車の自律性を実現することを強く支持しています。 同社の最近の AI Day イベントで、Elon Musk と彼のエンジニアは印象的なプレゼンテーションを行いました 他のイニシアチブの中でも特に、複数のテスラ モデルの完全自動運転 (FSD) 機能をサポートする AI、データ管理、およびコンピューティング機能。 FSD では、人間のドライバーが常に運転タスクに従事している必要があります (これは L2 自律性と一致しています)。 現在、このオプションは、米国とカナダの顧客が購入した 160,000 台の車両で利用できます。 各車両に搭載された 8 台のカメラ一式が、360° の占有マップを提供します。 これらの車両からのカメラ (およびその他の) データを使用して、ニューラル ネットワーク (自動ラベル付けを使用) をトレーニングし、物体を認識し、潜在的な車両の軌跡をプロットし、最適なものを選択し、適切な制御アクションをアクティブにします。 新しいデータが継続的に収集され、ラベリング エラーや操作ミスが検出されるため、過去 75 か月間にニューラル ネットワークの最大 12 の更新が行われました (1 分ごとに最大 7 回の更新)。 トレーニングされたネットワークは、専用のコンピューティング エレクトロニクスのオンボードの冗長アーキテクチャを通じて、計画と制御アクションを実行します。 テスラは、FSD が最終的に自動運転車 (AV) につながると予想しています。これは、特定の運用設計ドメインで人間のドライバーの関与を必要としない完全な自動運転 (L4 自動運転とも呼ばれます) を提供します。

Phiar、Helm.ai、NODAR などの他の企業 また、コンピューター ビジョンの道も追求しています。 NODAR は、特許取得済みの機械学習アルゴリズムを通じてカメラの位置ずれと振動の影響を調整することを学習することにより、ステレオ カメラ システムのイメージング範囲と 3D 知覚を大幅に拡大することを目指しています。 最近、12万ドルを調達しました 主力製品である Hammerhead™ の製品化には、「市販の」自動車グレードのカメラと標準のコンピューティング プラットフォームを利用します。

コストとサイズは別として、LiDAR の使用に対するよくある議論は、カメラに比べて範囲と解像度が限られているということです。 たとえば、200 m の範囲と 5 ~ 10 M ポイント/秒 (解像度に似た PPS) の LiDAR が現在利用可能です。 200 m では、レンガやタイヤの破片などの小さな障害物が登録するポイントは非常に少なく (おそらく垂直方向に 2 ~ 3、水平方向に 3 ~ 5)、オブジェクトの認識が困難になります。 より長い距離では、物事はさらに粗くなります。 比較すると、30 Hz で動作する標準的なメガピクセル カメラは 30M ピクセル/秒を生成できるため、長距離でも優れた物体認識が可能です。 より高度なカメラ (12 M ピクセル) では、これをさらに増やすことができます。 問題は、この膨大なデータをどのように活用し、ミリ秒レベルのレイテンシ、低消費電力、および劣化した照明条件で実用的な認識を生み出すかです。

広告


認める、カリフォルニアに本拠を置く会社は、この問題を解決しようとしています. CEO の Mark Bolitho によると、その使命は次のとおりです。完全自動運転車に超人的な視覚を提供」 同社は 2017 年に設立され、現在までに 75 万ドルを調達し、70 人の従業員を擁しています。 Juniper Networks の卒業生である RK Anand は、共同設立者の 120 人であり、最高製品責任者です。 彼は、ダイナミック レンジが 3 dB を超える高解像度カメラを高フレーム レート (OnSemi、Sony、Omnivision など) で使用することで、AV の実現に不可欠な高解像度 XNUMXD 情報の作成に必要なデータが得られると考えています。 これを実現する要因は次のとおりです。

  1. データを効率的に処理し、自動車環境の正確で高解像度の 3D マップを作成するカスタム設計の ASIC。 これらは TSMC 7 nm プロセスで製造され、チップ サイズは 100 mm² で、1 GHz の周波数で動作します。
  2. 何百万ものデータ ポイントをオフラインで処理してトレーニング済みのニューラル ネットワークを作成する独自の機械学習アルゴリズム。これにより、効率的に動作し、継続的に学習することができます。 このネットワークは知覚を提供し、オブジェクトの分類と検出、セマンティック セグメンテーション、車線検出、交通標識、信号認識を含みます。
  3. 電力を大量に消費し、待ち時間が長くなるオフチップのストレージと乗算操作を最小限に抑えます。 Recogni の ASIC 設計は、対数演算用に最適化されており、加算を使用します。 トレーニング済みのニューラル ネットワークで重みを最適にクラスタリングすることにより、さらなる効率が実現されます。

トレーニング フェーズでは、商用 LiDAR をグラウンド トゥルースとして使用して、高解像度、高ダイナミック レンジのステレオ カメラ データをトレーニングし、深度情報を抽出して、ミスアライメントや振動の影響に対して堅牢にします。 Anand 氏によると、彼らの機械学習の実装は非常に効率的であるため、キャリブレーション LiDAR (100 m の範囲にグラウンド トゥルースを提供する) によって提供されるトレーニング範囲を超えて深度推定を推定することができます。

広告

上記のトレーニング データは、8.3 Hz のフレーム レート (約 30B ピクセル/秒) で動作する 0.5 メガピクセルのカメラのステレオ ペアを使用して日中に実施されました。 これは、トレーニングされたネットワークが、トレーニングに使用された 3 m の範囲を超えてシーン内の 100D 情報を抽出する能力を示しています。 Recogni のソリューションは、昼間のデータによる学習を夜間のパフォーマンスに推定することもできます (図 2)。

広告

アナンド氏によると、距離データの精度は 5% 以内 (長距離) で、2% 近く (短距離) です。 このソリューションは、業界をリードする 1000 ミリ秒のレイテンシと 6W の消費電力 (25 TOPS/W) で 40 TOPS (10 秒あたりの兆操作) を提供します。 整数演算を使用する競合他社は、この指標で 1 倍以上低くなっています。 Recogni のソリューションは現在、複数の自動車 Tier XNUMX サプライヤーで試験運用中です。

預言者 (「アクションがどこにあるかを予測して見る」)フランスを拠点とする は、イベントベースのカメラを AV、先進運転支援システム (ADAS)、産業オートメーション、消費者向けアプリケーション、ヘルスケアに使用しています。 2014年に設立された、 同社は最近、50 万ドルの C ラウンドの資金調達を完了しました、これまでに合計 127 億 120 万ドルを調達しました。 携帯電話の大手メーカーであるXiaomiも投資家の26社です。 Prophesee の目標は、網膜の受容体が動的情報に反応する人間の視覚をエミュレートすることです。 人間の脳は、シーンの変化を処理することに重点を置いています (特に運転の場合)。 基本的な考え方は、しきい値を超える光強度の変化 (イベント) を検出するカメラとピクセル アーキテクチャを使用し、このデータのみをコンピューティング スタックに提供してさらに処理することです。 ピクセルは非同期で (通常の CMOS カメラのようにフレーム化されていません) 動作し、従来のフレームベースのカメラのように光子を統合する必要がなく、データの読み出し前にフレーム全体がこれを完了するのを待つ必要がないため、はるかに高速です。 データ帯域幅、意思決定の待ち時間、ストレージ、および消費電力の削減という大きな利点があります。 同社初の商用グレードの VGA イベントベース ビジョン センサーは、高ダイナミック レンジ (>3 dB)、低消費電力 (センサー レベルで 5 mW または XNUMX nW/イベント) を特長としていました。 業界をリードするピクセルサイズ (< XNUMX μm) の HD (High Definition) バージョン (ソニーと共同開発) も発売されました。

広告

これらのセンサーは Metavision® センシング プラットフォームの中核を形成します。Metavision® センシング プラットフォームは、AI を使用して自動運転アプリケーションにスマートで効率的な認識を提供し、輸送分野の複数の企業によって評価されています。 AV と ADAS の前向きな認識とは別に、Prophesee は、L2 および L3 アプリケーションのドライバーのキャビン内モニタリングについて、顧客と積極的に関与しています (図 4 を参照)。

自動車の機会は有利ですが、デザインインのサイクルは長くなります。 過去 XNUMX 年間、Prophesee は、産業用アプリケーションのマシン ビジョン分野に大きな関心と注目を集めてきました。 これらには、高速計数、表面検査、振動モニタリングが含まれます。

広告

プロフェシーが最近発表したコラボレーション 産業オートメーション、ロボット工学、自動車、IoT (モノのインターネット) の機会を活用するために、マシン ビジョン システムの主要な開発者と協力しています。 その他の当面の機会は、携帯電話の画像ブレ補正と AR/VR アプリケーションです。 これらは、ADAS/AV の長期的な機会に使用されるセンサーよりもフォーマットの小さいセンサーを使用し、消費電力がさらに低く、レイテンシが大幅に低くなります。


イスラエルはハイテク分野の主要なイノベーターであり、多額のベンチャー投資と活発なスタートアップ環境を備えています。 2015 年以降、ベンチャー主導のテクノロジー セクターへの投資は約 70 億ドルに上ります。. この一部は、コンピューター ビジョンの分野にあります。 Mobileye は、1999 年にヘブライ大学の主要な AI 研究者である Amnon Shashua が、ADAS および AV のカメラベースの認識に焦点を当てるために会社を設立したときに、この革命の先頭に立ちました。 同社は 2014 年に IPO を申請し、Intel に買収されました。INTC
2017 年に 15 億ドル。 今日では、コンピューター ビジョンと AV の分野で主導的な役割を果たしています。 IPOを申請する意向を表明した そして独立した存在になる。 Mobileye の収益は年間 1.4 億ドルで、わずかな損失 (75 万ドル) でした。 50 の自動車 OEM にコンピューター ビジョン機能を提供し、ADAS 機能用に 800 の自動車モデルに展開しています。 将来的には、インテルのシリコン フォトニクス プラットフォームに基づくこのコンピューター ビジョンの専門知識と LiDAR 機能を使用して、L4 車両の自律性 (ドライバー不要) をリードする予定です。 Mobileye が最終的に公開されたときの評価額は、約 50 億ドルと見積もられています。

広告

シャンペル キャピタルはエルサレムに拠点を置き、輸送や農業からセキュリティや安全性に至るまで、さまざまな用途向けのコンピューター ビジョンに基づく製品を開発している企業への投資の最前線に立っています。 Amir Weitman は共同設立者であり、マネージング パートナーであり、2017 年にベンチャー企業を立ち上げました。最初のファンドは 20 社に 14 万ドルを投資しました。 彼らの投資の 2018 つは、XNUMX 年に SPAC の合併によって公開され、LiDAR ユニコーンとなった Innoviz への投資でした。 Omer Keilaf (イスラエル国防軍の諜報部隊の技術部隊出身) が率いる、 同社は現在、ADAS および AV 向けの LiDAR 展開のリーダーであり、BMW とフォルクスワーゲンで複数の設計を獲得しています。

Champel Capital の 2022 番目のファンド (Impact Deep Tech Fund II) は 30 年 100 月に開始され、現在までに 2022 万ドルを調達しました (目標は 12 年末までに XNUMX 億ドルです)。 主な焦点はコンピュータ ビジョンで、XNUMX つの企業に XNUMX 万ドルが展開されています。 そのうちの XNUMX つは、輸送とロボット工学にコンピューター ビジョンを使用しています。

タンクU、 ハイファを拠点とし、2018 年に事業を開始し、10 万ドルの資金を調達しました。 Dan Valdhorn は CEO であり、シグナル インテリジェンスとコード解読を担当するイスラエル国防軍のエリート ハイテク グループである Unit 8200 の卒業生です。 TankU の SaaS (サービスとしてのソフトウェア) 製品は、車両とドライバーにサービスを提供する複雑な屋外環境でプロセスを自動化し、保護します。 これらの製品は、自動車、自家用車、給油ステーション、充電ステーションの所有者が、自動化された金融取引における盗難や詐欺を防止するために使用しています。 車両燃料サービスは、年間約 2 兆ドルの世界収益を生み出し、そのうち 40% または 800 億ドルを消費する自家用および商用車の所有者です。 小売業者とフリート所有者は、盗難や詐欺 (たとえば、許可されていない自家用車にフリート燃料カードを使用するなど) により、年間最大 100 億ドルを失います。 CNP (Card not present) 詐欺や改ざん/燃料の盗難は、特にモバイル アプリで盗まれたカードの詳細を支払いに使用する場合に、追加の損失の原因となります。

広告

同社の TUfuel 製品は、ワンタップで安全な支払いを容易にし、ほとんどの種類の詐欺をブロックし、詐欺の疑いがある場合に顧客に警告します。 これは、これらの施設の既存の CCTV からのデータとデジタル トランザクション データ (POS やその他のバックエンド データを含む) でトレーニングされた AI エンジンに基づいて行われます。 車両の軌跡と動力学、車両 ID、移動時間、走行距離、給油時間、燃料量、燃料履歴、ドライバーの行動などのパラメーターは、不正行為を検出するために監視される属性の一部です。 このデータは、小売業者がサイト運営を最適化し、顧客ロイヤルティを高め、ビジョンベースのマーケティング ツールを展開するのにも役立ちます。 CEO の Dan Valdhorn によると、同社のソリューションはフリートの 70%、クレジット カードの 90%、改ざん関連の詐欺イベントの 70% を検出します。

ソノール は、イスラエル全土にある 240 のステーションとコンビニエンス ストアのネットワークを所有および運営するエネルギー サービス会社です。 TUfuel はそのサイトに導入されており、強化されたセキュリティ、詐欺防止、および顧客ロイヤルティを実証しています。 米国では、ガソリン スタンドやコンビニエンス ストア機器の大手グローバル サプライヤーと協力して、製品の試験が進行中です。 アフリカやヨーロッパでも同様の取り組みが進行中です。

広告

テルアビブを拠点とする ITC ベングリオン大学の機械学習学者によって 2019 年に設立されました。 ITC は、SaaS 製品を作成します。 「渋滞が発生し始める前に、交通量を測定し、渋滞を予測し、信号機をスマートに操作して緩和します。」 TankU と同様に、既製のカメラ (すでに多数の交差点に設置されている) からのデータを使用して、ライブ交通データを取得します。 街中の数千台のカメラからのデータが分析され、車両の種類、速度、移動方向、車両の種類 (トラックと車) の順序などのパラメーターが、独自の AI アルゴリズムのアプリケーションを通じて抽出されます。 シミュレーションにより、最大 30 分前までに交通の流れと潜在的な交通渋滞の状況が予測されます。 これらの結果を使用して交通信号が調整され、交通の流れがスムーズになり、渋滞が防止されます。

AI システムのトレーニングには、典型的な都市全体で 25 か月の視覚データが必要であり、教師あり学習と教師なし学習の組み合わせが含まれます。 ITC のソリューションは、テルアビブ (2020 年に世界で最も混雑した都市で 75 位) に既に展開されており、信号機で制御されている数百の交差点に数千台のカメラが展開されています。 ITC のシステムは、現在 XNUMX 台の車両を管理しており、今後も増加が見込まれています。 同社は、 同様の機能 ルクセンブルグと、米国の主要都市で試験運用を開始しています。 世界的に、そのソリューションは、イスラエル、米国、ブラジル、オーストラリアにある運用サイトで 300,000 台の車両を管理しています。 CTO の Dvir Kenig は、この問題の解決に情熱を傾けています。つまり、人々に個人的な時間を与え、温室効果ガスを削減し、全体的な生産性を高め、そして最も重要なこととして、混雑した交差点での事故を減らすことです。 Kenig氏によると、 「私たちの導入により、交通渋滞が 30% 減少し、非生産的な運転時間、ストレス、燃料消費、汚染が減少しました。」

広告

屋内ロボティクス ました 2018年に設立 & 最近 18万ドルの資金調達. イスラエルのテルアビブ近郊に本拠を置く同社は、屋内のセキュリティ、安全、およびメンテナンス監視のための自律型ドローン ソリューションを開発および販売しています。 CEO 兼共同設立者の Doron Ben-David は、IAI で蓄積されたロボット工学と航空学の重要な経験を持っています。アイエイアイ
(主要な防衛請負業者)とMAFAT(イスラエル国防省内の高度な研究機関)であり、米国のDARPAに似ています。 スマート ビルディングと商用セキュリティ マーケットプレイスへの投資の増加により、屋内の小規模および大規模な商業スペース (オフィス、データ センター、倉庫、小売スペース) でコンピューター ビジョンやその他の感覚入力を使用できる自律システムの必要性が高まっています。 インドア ロボティクスは、既製のカメラと熱および赤外線範囲センサーを搭載した屋内用ドローンを使用して、この市場をターゲットにしています。

Ofir Bar-Levav は最高事業責任者です。 彼は、GPS の欠如が屋内ドローンの建物内での位置特定を妨げていると説明しています (通常、GPS が拒否されているか、不正確です)。 さらに、便利で効率的なドッキングおよび電源ソリューションが不足していました。 Indoor Robotics は、ドローンに取り付けられた 80 台のカメラ (上、下、左、右) と、室内空間とその内容を正確にマッピングする単純な距離センサーでこれに対処します。 カメラ データ (カメラはローカリゼーション データとマッピング データを提供します) と温度センサー (ドローンにも搭載されています) は AI システムによって分析され、潜在的なセキュリティ、安全性、メンテナンスの問題を検出し、顧客に警告します。 ドローンは、天井に取り付けられた「ドッキング タイル」から電力を供給されるため、貴重な床面積を節約し、充電しながらデータを収集できます。 人間の労働が複雑で、採用、維持、トレーニングの面で費用がかかるこれらの平凡なプロセスを自動化することの経済的利点は明らかです。 空中ドローンと地上ベースのロボットの使用には、資本コストと運用コスト、床面積の有効活用、障害物に遭遇することなく自由に移動できること、カメラ データ キャプチャの効率の点でも大きな利点があります。 Bar-Levav 氏によると、Indoor Robotics の屋内インテリジェント セキュリティ システムにおける TAM (Total Addressable Market) は 2026 年までに XNUMX 億ドルに達する見込みです。今日の主な顧客の場所には、大手グローバル企業の倉庫、データ センター、オフィス キャンパスが含まれます。

広告


コンピューター ビジョンは、動作の自動化、セキュリティ、スマート ビルディングの監視、不正行為の検出、および交通管理において、自律性ゲームに革命をもたらしています。 半導体と AI の力は強力なイネーブラーです。 コンピューターがこの信じられないほどの感覚モダリティをスケーラブルな方法で習得すると、可能性は無限大になります。

出典: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/