プライバシー強化技術:技術者向け入門
プライバシー強化技術(PET)とは、ソフトウェアやシステムによってデータが処理、保存、および/または収集される個人のプライバシーまたは秘密性を高める技術です。価値があり、すぐに使用できる3つのPETは、差分プライバシー、分散型およびフェデレーション分析と学習、暗号化計算です。これらはプライバシーについて厳格な保証を提供するため、プライバシーデータの侵害を最小限に抑えながらデータを活用する方法として、ますます普及しています。
2023年5月30日
プライバシー強化技術は、NISTと英国政府からの公開呼びかけ、シンガポール、ヨーロッパなど、これらの技術をどのように、そしてどこで使用できるか、すべきかを決定するためのニュースでかなり頻繁に取り上げられています。開発者、アーキテクト、または技術者として、これらの技術について既に聞いたことがあるか、または実際に使用している可能性がありますが、ここ数年で研究と実装が大幅に変化しているため、知識が古くなっている可能性があります。
この入門では、堅牢なプライバシー保証を提供する最も重要な技術について説明します。この記事の最後には、それらを適用できる場所と開始方法をよりよく理解できるようになります。これらの学びは苦労して得られたものであり、私が最近リリースしたO'Reillyの書籍『Practical Data Privacy』でさらに詳しく説明しています。私は、実践的なショートカットとアドバイスを共有し、プライバシー技術を自信を持って使用するための学習曲線を大幅に短縮するために、この本を書きました。プライバシーエンジニアリングの分野の神秘性を解き明かすことで、最初からアーキテクチャ、アプリケーション、データフローにプライバシーを組み込むよう促したいと考えています。
PETとは?
プライバシー強化技術(以降、PET)とは、ソフトウェアやシステムによってデータが処理、保存、および/または収集される個人のプライバシーまたは秘密性を高める技術です。これらの技術は、この処理の一部として使用されることが多く、ユーザーや従業員などの内部参加者から直接生のデータまたはプレーンテキストデータを処理(そして多くの場合、蓄積)する通常の方法を変更します。提供されるプライバシーを高めることで、所有リスクを軽減し、ユーザーにデータの処理方法に関するより良い選択肢を提供します。
プライバシーは、技術的、法的、政治的、社会的、そして個人の概念です。この記事では、ユーザーがシステムとやり取りする際のアイデンティティと情報をナビゲートするためのより多くの選択肢を可能にするプライバシーの基本的な技術的側面を学びます。もちろん、製品にプライバシーを組み込むには、他にも多くの側面があります。現時点では、これらはこの記事の範囲外ですが、プライバシー・バイ・デザインを探求し、プライバシーとセキュリティエンジニアリングの分野をさらに深く掘り下げることを強くお勧めします。
なぜ今なのか?
しばしば個人関連データを使用してトレーニングされる機械学習システムの普及により、プライバシーに対する脅威領域が増大しました。ChatGPT、Stable Diffusion、その他の巨大言語モデルやビジョンモデルなどのシステムは、機械学習とのインタラクションの楽しい新しい方法を提供し、特定のタスクに対して変革的または有用なものとなります。残念ながら、これらは膨大な量の個人データを使用することが多く、同意またはオプトアウトの選択肢がなく、不明瞭な労働者の権利の下でトレーニングされます。これらはプライバシーに関する懸念だけでなく、所有権に関する懸念でもあり、クリエイター、コーダー、トレーニングされずに済ませたい人々からのいくつかの係属中の訴訟に反映されています。
これらのシステムは、個人情報を抽出する方法やトレーニングデータの人口情報をモデル自体から直接抽出する方法に関する研究の拡大で明らかになったように、未知の新しいリスクを生み出すことがあります。また、生成AIがトレーニングデータに非常に近いデータを再現する方法や、非常に大規模なモデルの記憶化に関する一般的な問題に関する重要な研究もあります。この記憶化は非常に危険であり、エンコードされた空間における位置が本質的にまばらで、したがって非常に分かりやすい外れ値を公開する可能性があります。スペースと時間の制約により、これらのモデルとその使用に関する社会的、倫理的、環境上のリスクは省略します。
ありがたいことに、これらの問題はますます注目を集めており、差し迫ったリスクへの認識が高まっています。ユーザーの希望と権利を完全に無視して、すべてのデータをただ吸い取ることはもはや許容できません。「研究」の一環として、データをランダムにスクレイピングして公的に投稿することはクールではありません。そして、企業と政府は、ユーザーにより多くの選択肢、透明性、同意の選択肢を与えながら、データサイエンスと有用なデータ分析をどのように継続できるかを問いかけ始めています。
プライバシー技術は、データサイエンスのニーズとユーザーの同意、認識、プライバシーのニーズを調和させる方法の1つです。近年まで、これらの技術は主に研究開発ラボにありました。過去5年間で、それらはラボから本番システムに移行しました。これらは人々により良いプライバシーを提供する唯一の方法ではありませんが、既にデータ成熟の道のりを進んでおり、現在および新しいデータシステムに優れたプライバシーを構築する必要がある組織にとって、良い出発点となります。
どのようなPETを知るべきか?
この記事では、以下のPETのみを学びます。
- アーキテクチャ、統合、監視、管理を行うエンジニアリングチームがあれば、本番システムに対応可能である
- プライバシーについて厳格で科学的な保証を提供する
- 将来性があり、使用が増加している
最初にこれらを学び、その後関連技術を評価することをお勧めします。そうすることで、最適な選択肢から始めて、主要な最新の技術を使い切った場合にのみ、それらから逸脱できます。
差分プライバシー
差分プライバシーは、匿名化などの問題を検討するための今日の「ゴールドスタンダード」である、プライバシーを測定および理解する方法に関する厳格で科学的な定義です。これは、シンシア・ドゥワークとアーロン・ロスを含む複数の研究者によって2006年に開発および拡張されました。それ以来、元の定義と実装は大幅に拡張されました。差分プライバシーは現在、GoogleやAppleなどのいくつかの大規模なデータ組織で日常的に使用されています。
定義
差分プライバシーは、本質的に個人のプライバシー侵害を測定する方法です。元の定義では、1人の個人の追加または削除によって異なる2つのデータベースを定義しています。これらのデータベースにクエリを実行するアナリストは、特定の人がデータセットに含まれているか、含まれていないかを判断しようとする潜在的な攻撃者でもあります。データベースの所有者としてのあなたの目標は、データベース内の個人のプライバシーを保護することですが、アナリストに情報を提供することも必要です。しかし、あなたが答える各クエリは、データベース内の1人または数人の個人に関する重要な情報を漏洩する可能性があります。どうすればよいでしょうか?
差分プライバシーの定義に従って、1人が削除または追加されたデータベースがあるとします。アナリストが最初にその個人を含まないデータベースにクエリを実行し、次にデータベースに再度クエリを実行して結果を比較するとします。それらの結果から得られた情報は、その個人のプライバシー侵害です。
現実世界のプライバシー実装からの具体的な例を見てみましょう。米国国勢調査です。10年ごとに、米国政府は米国に居住するすべての人を一度だけ数えようとします。3億3000万人以上の人々を正確に調査することは、そのように聞こえるほど困難であり、その結果は、連邦資金、米国議会における代表権、および米国の正確な人口を表すことに依存する多くの他のプログラムなどを支援するために使用されます。
それはデータ検証の観点から困難であるだけでなく、米国政府は参加者のプライバシーを提供したいと考えています。したがって、正直な回答の可能性を高め、悪用して公開されたデータに彼らのデータを接続したり、連絡を取ったり、その他の目的でデータを悪用したりする可能性のある人や組織から、人々を望ましくない注目から保護します。過去には、米国政府は、十分なプライバシーを提供することを期待して、エントリを抑制、シャッフル、およびランダムに変更するさまざまな技術を使用していました。
しかし、残念ながらそれはできませんでした。特に、消費者データベースが安価になり、広く利用可能になったためです。ソルバーソフトウェアを使用することで、彼らは以前のリリースを攻撃し、低コストで提供されたいくつかの利用可能なデータセットのみを使用して、元のデータの45%を再構築することができました。アメリカ人の大部分を網羅する消費者データベースを持っているとしたら、どうでしょうか?
このため、彼らは厳格な保証を提供するために差分プライバシーに目を向けました。国勢調査ブロックの例を使って説明しましょう。あなたが住んでいるブロックに、アメリカ先住民(ネイティブアメリカン)である人が一人だけいるとします。その人のプライバシーを守るために、その人を単純に含めないという方法をとるかもしれません。
それは良い直感ですが、差分プライバシーは実際、その人が参加した場合にどれだけのプライバシー侵害が発生するかを判断する方法を提供し、これによっていつ応答し、いつ応答しないかを判断することができます。これを理解するには、一人が特定のクエリをどれだけ変更できるかを知る必要があります。この例では、その人はアメリカ先住民の人数を1人分変更します。
ですから、私が攻撃者で、その人が追加される前にアメリカ先住民の総数を照会すると0になり、追加された後で照会すると1になります。これは、一人がこのクエリに最大で1だけ寄与することを意味します。これが差分プライバシーにおける感度です。
最大寄与量、つまり感度が分かれば、差分プライバシー機構と呼ばれるものを適用できます。この機構は実際の回答(ここでは1)を受け取り、慎重に構成されたノイズを回答に適用して、不確実性を十分に高めることができます。この不確実性により、個人のプライバシー侵害の量と、攻撃者の情報利得を制限することができます。
ですから、事前に照会したときに得られる数が0ではなく、実際には2だったとしましょう。その後、その人が追加され、再度照会すると、今度は再び2、あるいは3、1、0、または4という回答が得られます。機構によってどれだけのノイズが追加されたのかを正確に知ることは決してできないため、その人が本当にそこにいるかどうかは不明です。これが差分プライバシーの力です。
差分プライバシーはこの情報漏洩を追跡し、それを削減し、巧みにランダム化する方法を提供します。クエリを送信すると、返される結果の確率分布があり、最も高い確率は実際的结果に近いものになります。しかし、結果の一定の誤差範囲にある結果が得られる可能性もあります。この不確実性は、差分プライバシーの応答において、もっともらしい否認可能性または合理的な疑いを挿入するのに役立ち、これが科学的かつ現実的な意味でプライバシーを保証する方法です。もっともらしい否認可能性は法的概念であり、被告が事実上ありうる(または可能性のある)反論を提供することを可能にするものですが、他の状況にも適用できます。差分プライバシーは、その本質から、別の回答の可能性がある確率を挿入し、参加者にとって実際の数字(または参加自体)を確認も否定もできない余地を残します。
確かに、良さそうですね…しかし、実際にはどのように実装するのでしょうか?これらの保証を提供するのに役立つ、差分プライバシー機構と呼ばれる確率的プロセスがあります。それらは、
- 元のデータの境界を作成すること(外れ値の影響を排除し、一貫性を確保するため)
- 特定の分布とサンプリング要件を持つ確率的ノイズを追加すること(疑いを増やし、結果の確率分布を制限された状態に保つため)
- 測定されたプライバシー損失変数を時間とともに追跡して、誰かが過剰に露出される可能性を減らすこと
によってそうします。これらのアルゴリズムを自分で書く必要はありません。Tumult Analytics、OpenMinedとGoogleのPipelineDP、PyTorchのOpacusなど、いくつかの信頼できるライブラリを使用できます。
これらのライブラリは通常、データエンジニアリングまたは準備ステップ、または機械学習トレーニングに統合されます。適切に使用するには、データについてある程度の理解があり、現在のユースケースを知っており、ノイズを調整するためのいくつかのパラメータを設定する必要があります(たとえば、個人がデータセットに存在できる回数など)。
ユースケース
差分プライバシーはすぐにすべてのデータアクセスに取って代わるわけではありませんが、匿名化に関する質問をされている場合に非常に重要なツールです。データをサードパーティ、一般公開、パートナー、さらにはより広範な社内関係者に公開する場合、差分プライバシーはデータ内の人々にとって測定可能な安全性を生み出すことができます。一人の従業員の盗まれた資格情報が、あなたの全体のユーザーデータベースではなく、あいまいな集計結果の漏洩を意味する世界を想像してみてください。データサイエンティストが公開されたデータから実際のデータを逆方向にエンジニアリングしても恥ずかしい思いをしなくて済むことを想像してみてください。そして、実際には生のデータが不要な社内ユースケースに差分プライバシーデータアクセスを許可することがどれほど簡単になるかを想像してみてください。これにより、データチームの負担が軽減され、リスクと「シャドーIT」操作がいたちごっこのように発生する可能性が減少します。
差分プライバシーはこれら以外にも多くのユースケースに適合します。いくつかの例を説明したい場合は、Damien Desfontainesによる差分プライバシーに関する投稿を読んで、Tumult Analyticsなどのライブラリを試してみることをお勧めします。書籍のリポジトリにも、いくつかの例があります。
差分プライバシーは確かに結果にノイズを追加することに注意してください。そのため、データの実際の使用方法と、分析を成功させるために提供する必要があるものを考慮する必要があります。これはおそらくあなたにとって新しいタイプの調査であり、プライバシーとユーティリティの問題(特定のユースケースの情報量を最適化し、同時に提供されるプライバシーを最大化したい)について考えることを促進しました。この記事のほとんどのテクノロジーでは、これらのトレードオフを分析して意思決定を行う必要があります。明確にするために、すべてのデータは現実のある種の表現であるため、データは決して100%正確ではありません。したがって、これらのトレードオフは、プライバシーコントロールを実装する場合にのみより明白になります。
分散型およびフェデレーション分析と学習
Martin Fowlerは以前、データ最小化としても知られるDatensparsamkeitの概念を紹介しました。これは、実際に必要なデータのみを使用し、追加のデータを収集または保管しないという考え方です。この概念を念頭に置いて、分散型またはフェデレーテッド分析(およびその機械学習対応物)は、データ最小化を保証するために、元のデータストレージとユーザーデバイスの端にあるデータを残します。データを収集して中央に保存するのではなく、分析、機械学習モデル、トレーニング、または処理をデータに直接送信し、結果のみを収集します。
定義
今日のデータサイエンスでは、多くの場合、すでに分散型データに対処しています。データはデータセンター、マシン、コンテナ全体に保存されており、このフェデレーションはApache Sparkコードなどのインターフェースまたはフレームワークによって抽象化されています。分散型またはフェデレーテッド分析と学習は、より大規模なネットワークを必要とし、実際の物理的なストレージのフェデレーションをエッジに直接、または最小限にいくつかの大規模なデータ形成にプッシュします。
フェデレーテッドラーニングは、Googleによって2016年に最初に実装されましたが、それ以前にも、分散型デバイス全体でエッジコンピューティングとデータ分析を行う多くの例がありました。彼らの最初のインプリメンテーションはユーザーの携帯電話を使用し、ローカルキーボードデータを使用して言語モデルをトレーニングし、より良いキーボード予測を実現しました。おそらく眉をひそめさせ、規制の圧力が高まる可能性のある機密性の高いキーボードデータを中央に収集する代わりに、彼らは分散型集約器を展開し、トレーニングラウンドを調整し、各トレーニングラウンドの勾配更新を電話から収集しました。これらの更新は平均化され、新しいトレーニングラウンドのためにすべての参加者に送信されます。モデルはすべてのデバイスで共有されますが、各個人のトレーニングデータはそれぞれのデバイスに残ります。
現在、この最初のインプリメンテーションの多くの拡張があり、機械学習モデルのトレーニングの代わりに、クエリまたはその他のデータ分析がデバイス全体で実行され、集計された結果が返されるフェデレーテッドデータ分析も可能です。これらの勾配更新または集計された応答は基になるデータに関する情報を漏洩させる可能性があるため、差分プライバシーを組み込むか、暗号化された計算を活用してプライバシーと秘密保護を向上させるための重要な作業も行われています。フェデレーテッドアプローチをサポートする統計および機械学習アルゴリズムの多様性が増加しており、エッジコンピューティングまたはクロスサイロ設定の展開と管理のためのアーキテクチャも多様化しています。クロスサイロ設定では、プライバシー保護なしに生データまたは不十分に匿名化されたデータを共有する代わりに、共有分析または学習のために分散型設定を使用したい2つ以上のデータパートナーが参加します。
ユースケース
分散型またはフェデレーテッド分析と学習は、決して中央集中化されるべきではない非常に機密性の高いデータと直接連携する組織に適しています。また、パートナーが組織間または組織内で生データまたは不十分に匿名化されたデータを共有するデータ共有ユースケースにも適しています。
分散型データは真のDatensparsamkeitを可能にし、チームがユーザーからより多くのデータの収集を要求するたびに検討する必要があります。個人データを中央に保存することは、データサイエンスと分析を行うためのナイーブな方法であり、本質的に無限の新しいリスクを生み出し、不明瞭なビジネスモデルを促進します。ユーザーから同意を得ること、不要なデータを削除すること、データ分析、機械学習、その他の処理をエッジに送信するという創造的な方法を見つけることなど、作業と組織を合意に基づく、ユーザー主導の、プライバシーを第一とするものにするための習慣を今すぐ形成する必要があります。
フェデレーテッドラーニングをさらに詳しく調べたい場合は、Flowerを見て、通常使用している機械学習フレームワークについていくつかの例を実行してください。フェデレーテッドアーキテクチャの詳細については、InfoQでの私の講演を見て、フェデレーテッドラーニングに取り組んでいるいくつかの大規模な組織や機関の専門家によって書かれた洞察力のある要約論文Advances and Open Challenges in Federated Learningを確認してください。
フェデレーテッドラーニングによって提供されるプライバシーとセキュリティの保証は、参加者が自分の貢献を暗号化することを可能にする暗号化計算を使用することで強化できます。暗号化計算と暗号化学習は、分散データ上で安全に計算するための新しい方法を提供します。次のセクションでこのテクノロジーを探ります。
暗号化計算
データを復号化せずに実際にデータ上で計算できるとしたらどうでしょうか?魔法のように聞こえますよね?違います—暗号化です!暗号化計算の分野は過去5年間で劇的な成長と画期的な進歩を遂げ、これらのテクノロジーを研究室から本番システムに移行しました。
定義
皆様は、データやファイルストレージの静止時暗号化、そしてウェブ開発や多くのセキュアなメッセージングおよびファイル転送アプリケーションで使用されるエンドツーエンド暗号化に既に精通されていることでしょう。暗号化計算は、これらとは少し異なる方法でデータを暗号化します。通常、データを暗号化する場合、暗号文に残っている可能性のある情報を隠すためにかなりのランダム性を含めます。これは、これらのユースケースにおけるセキュリティモデルとニーズに合致しています。暗号化計算では、プレーンテキストを暗号化しますが、秘密分散などの暗号システムまたはプロトコルを使用して、暗号化されたデータ上で計算を続けられるようにします。最後に、計算の最終結果を復号化すると、プレーンテキストデータで計算した場合と同じ実際の結果が明らかになります。
これはプライバシーにどのように影響しますか?暗号化では、プライバシーを異なる視点から考えることがよくあります。この新しいプライバシーの概念を「秘密性」と呼びましょう。値を秘密にしたい場合、誰がいつどのようにそれを閲覧できるかを正確に制御したいと考えています。明らかに、これは復号化されていないデータへのアクセス制御を強化するため、プライバシーにも役立ちます。さらに、個々の入力を実際に明らかにすることなく計算を可能にすることで、追加の保護レイヤーを提供します。最終的な分析は、元の関係者の同意と参加を得てのみ公開できます。
この分野には、準同型暗号(HE)と安全な多者計算(MPC)の2つの主要な分野があります。準同型暗号は、準同型特性を持つ暗号システムを使用し、より伝統的な暗号プロトコルに従います。暗号化と復号化に使用される鍵があります。HEシステムは計算コストが高いですが、特定のユースケース(特に入力サイズが小さい場合)に基づいた特殊なハードウェアや最適化によって高速化できます。
安全な多者計算は、複数の当事者が共同でまたは共通の環境(選挙、オークション、組織横断的なシナリオなど)で何かを計算するデータ共有暗号化のユースケース向けに構築されています。データは、特定のシナリオのセキュリティ、参加者の要件、ユースケースに合わせて選択されたさまざまなMPCプロトコルを使用して暗号化されます。一般的な選択肢の1つは秘密分散であり、これは秘密の値を取り、参加者に配布できる暗号化された共有に分割することを可能にします。複数のプレーヤーが共有に寄与すると、グループは一緒に値を計算し、最後にそれらを組み合わせて、共有計算の復号化された結果を明らかにすることができます。想像できるように、MPCプロトコルは複数のやり取りを必要とするため、ネットワーク遅延、同期、暗号化されたメッセージサイズが最大の性能要因となります。
ユースケース
暗号化計算は、望ましくない方法で機密データを公開するプレーンテキスト演算の優れた代替手段です。たとえば、準同型暗号化を使用して、ユーザーに機密データを送信させ、アルゴリズムまたはシステムを介して結果を取得できます。ユーザーだけが結果を復号化できますが、その結果はシステムによって暗号化された入力に対して生成されました。または、MPCを使用して、パートナーとの現在のプレーンテキストデータ共有と計算を置き換え、実際の秘密性、つまりより多くのプライバシーを計算にもたらすデータに提供できます。これらの計算を、1つ以上の当事者だけが最終出力を明らかにできる方法で設計することで、明確な保護を備えたデータ共有システムを設計できます。
投票、オークション、機密計算など、このテクノロジーには他にも多くのユースケースがあります。さらに詳しく調べたい場合は、Zama.aiによる準同型暗号に関する取り組み、MPC Allianceのリソース、またはMorten Dahlによる秘密分散の紹介をご覧ください。私の書籍リポジトリからのJupyterノートブックもあり、暗号化計算の章では、これらのプロトコルの基本的な構成要素を説明し、それらを実際のデータサイエンスと暗号化された学習の設定で使用する方法を示しています。
現在のデータアーキテクチャで頻繁に見られる、暗号化計算を使用して改善できる2つの具体的なユースケースがあります。これらを概説して、独自のアーキテクチャでの暗号化の使用を促進します。
結合の発見:プライベートセットインターセクション(PSI)
プライベートセットインターセクションは、暗号化計算のアプリケーションであり、2つ以上の当事者が自分のデータセットを比較し、値を直接明らかにすることなく交差部分を検出できるようにします。このテクノロジーは、マーケティングまたはデータ処理目的で共有ユーザーを識別するために使用される今日の多くの安全でないデータ共有に取って代わる可能性があります。
電子メール、ユーザー名、電話番号などの識別子を共有する代わりに、組織はこれらの識別子を特定の暗号システムを使用して暗号化します。これにより、暗号化された識別子を比較して一致する識別子を検出できます。これの実装方法やパフォーマンスの最適化に関する選択肢には、いくつかのセキュリティ上の注意点があります。特に、組織のデータセットのサイズが異なる場合です。このインターセクションステップは、さらに暗号化計算と組み合わせて、インターセクションまたはこれらの識別子に関連する追加データを復号化することなく分析できます。これにより、人間が復号化された空間で直接的なインターセクションを見ることはなくなるという追加の利点が得られます。
詳細を知りたい場合は、書籍と書籍リポジトリにいくつかの具体的な例(コードを含む)があります。
プライベートクエリ:プライベート情報検索(PIR)
プライベート情報検索により、ユーザーはデータベースクエリなどの情報を要求できますが、データベース所有者にはクエリや要求が公開されません。そのためには、暗号化計算の構成要素を活用します。これは、データ所有者が、検査結果や極秘文書などの非常に機密性の高い個人データを持っている場合に特に便利です。ユーザーに要求の秘密性を提供することで、ある程度の否認可能性も保証されます。これはプライバシーを保証する上で重要な要素です。
現在実稼働している最高のPETを検討したので、プライバシー技術のより広範なカテゴリにある関連技術を分析しましょう。
関連技術
関連技術は非常に多く、1つの投稿では網羅できません!このセクションでは、人気または興味深い特性に基づいていくつかの技術を選択しました。このリストは網羅的ではありませんが、機密データを取り扱う際に他の選択肢の概要を提供できます。
PII検出
個人識別情報(PII)の検出は、個人関連データを管理する多くの組織にとって困難ですが、必要な問題です。過去10年間で、組織はPIIをより適切に識別およびラベル付けするために、混合テクノロジー(ルールセット+機械学習)をますます適用しています。組織に強力なデータガバナンスとデータプライバシープログラムがまだない場合は、基本から始める必要があります。適切なドキュメントの作成、PIIのラベル付け、データガバナンスとデータプライバシーの理解の構築に重点を置いてから、PETを日々の業務に取り入れる必要があります。
擬名化のためのフォーマット保持暗号化
データを暗号化されていない集中化された方法で処理する必要があるため、PETが適合しないユースケースがあります。これが当てはまる場合は、擬名化などの非常に基本的なプライバシー技術の世界に入ります。一般的な用途に最適な擬名化も暗号化の性質を持っており、フォーマット保持暗号化の分野を活用して、一意で逆コンパイルが困難な識別子を作成します。この記事の他のテクノロジーほどプライベートまたは秘密ではありませんが、暗号化された擬名を使用できる状況では、生のプレーンテキストデータを使用するよりもはるかに優れています!マスク、トークン化、改行など、特定のユースケースの制約や要件がある場合は、検討すべき他のいくつかの擬名化形式もあります。
エンクレーブ
エンクレーブは、データの処理をコンピューターの残りの部分から保護するセキュアなコンピューティング環境です。これは、Trusted Execution Environments(TEE)と呼ばれることもあります。実行中のプロセス(個人ではない)をプライベートに保ちたい状況では、エンクレーブが適切です。これは秘密性の問題の一部のみに適合します。共有コンピューティング環境またはクラウドを実行している組織を信頼できない場合ですが、他のプライバシー技術と組み合わせて使用して、セキュリティの追加レイヤーを追加することもできます。一般に、エンクレーブは、敵対的なクラウドでコンピューターインフラストラクチャを運用するなどの、州レベルのセキュリティ問題に最も適しています。これらは高価であり、今日の機密データを処理する組織が直面するほとんどのプライバシーと秘密の問題には適切ではありません。
クリーンルーム
クリーンルームは、データの使用環境、ソフトウェア、コンテキストを制御する方法であり、データアナリストまたは科学者が信頼できず、作業を監視する必要がある場合によく使用されます。理論的には、アクセスを制限し、データサイエンティストまたはアナリストの作業を観察するだけで、プライバシーを確保できます。しかし、その後、資格のある個人が作業を監査して、個人データが公開されていないことを確認する必要があります。多くの場合、これらのクリーンルームは、データへの生のプレーンテキストアクセスを提供するため、アナリストまたは科学者がデータセット内の個人について何かを学ぶ可能性は非常に高くなります。同等の資格を持つアナリストまたは科学者を監査に必要とするため、この作業を外注する代わりに、分析に直接使用した方が良いでしょう。クリーンルームは通常、機密データの処理をより多く行いたいが、最新のプライバシー技術に精通していないか、洗練されていない企業で使用されます。より強力なプライバシー保証を提供するには、前述の推奨テクノロジーを使用して、堅牢なデータサイエンスと分析環境を作成します。アナリストが自分の仕事のためにこれらのテクノロジーの使い方と調整方法を学習するようにし、不適切な慣行を発見することを期待して彼らの仕事を監視する代わりに。
合成データ
合成データは、実際のデータまたはデータに関する理解から、リアルなデータを作成する機能です。実際のデータの代わりに合成データを使用すると、デバッグ、テスト、プロトタイピング、システム検証など、ソフトウェアとシステムの設計と開発のいくつかの部分でプライバシーをサポートできます。プライバシーを強化するためにより安全な方法を使用する合成データシステムと、安全性が低いシステムがあります。残念ながら、非専門家がこれらの違いを認識するのは容易ではありません。
機械学習合成データの可能性を確認したい場合は、Gretel.aiによる差分プライバシー合成データの作成に関する取り組みをご覧ください。ソフトウェアのこの部分を適切に活用するには、差分プライバシーについて学ぶ必要がありますが、合成データで差分プライバシーを使用することは、機械学習を使用する予定の場合に最も安全な選択肢です。それ以外の場合は、機械学習以外の方法をお勧めし、実際のデータの入力が求められた場合は、方法論を深く掘り下げることをお勧めします。
将来、プライバシーを常に尊重する合成データシステムが広く利用できるようになることを願っています。これは、エンジニア、開発者、データ担当者がソフトウェア、アーキテクチャ、パイプラインを安全にテスト、モデリング、実験するために大いに役立ちます。
プライバシーの設計
PETと潜在的なユースケースの概要ツアーに刺激を受けて、より多くの情報とやる気を得て、システムにプライバシーを現実的に設計し始められることを願っています。これは一度限りの絶対的なプロセスではなく、組織のリスク許容度、技術的準備、プライバシー意識によって推進される漸進的でアジャイルなプロセスです。
ユーザーにプライバシー、透明性、選択肢をさらに提供するためのあらゆる前進は、小さな勝利です。組織がPETの準備ができていないことに気付いた場合でも、プライバシーの普及と変化するリスクと技術的状況の認識向上に取り組むことができます。これらのトピックについて製品設計と実装の定期的な一部として話し合うことで、PETを「良いアイデア」から実際のシステムへと進化させる新しい道が開かれます。
キャリアの変更や転換の方法を探している場合は、成長しているプライバシーエンジニアリング分野を調べてください。プライバシーエンジニアは、PETの設計、アーキテクチャ、統合、実装を担当しています。データシステムの実装方法を根本的に変えたいデータサイエンティストや技術者のために、「Practical Data Privacy」を執筆しました。プライバシー技術をより深く理解することで、ユーザーの選択肢と真のプライバシーを実現します。
最後に、プライバシーは技術以上のものです。それは個人的、社会的、文化的、政治的なものです。社会問題にテクノロジーを適用することは、多くの場合、単純で危険なことです。プライバシー技術は、世界におけるプライバシーと力のアクセスにおける現実の不平等に対処するための多くのツールの1つです。データアクセス、監視、データシステムによって再現または深化される不平等の中心的な問題は解決できませんし、解決しません。これらの問題は学際的な性質のものであり、私たちの技術領域外の多くの専門知識が必要です。
対話、意識向上、複数分野のチーム、そしてデータの権力と責任における真の変化は、プライバシーにおける現在のギャップを根本的に変え、エンパワーメントされた、ユーザー中心の、プライバシーを意識したソフトウェアとシステムを作り出すことができます。次のステップを踏むことを選択した場合、プライバシー技術を用いてユーザー中心のデータシステムを設計、構築、運用する多くの技術者のひとりとなるでしょう。それは、データの使用が透明で、公正で、ユーザー主導である未来を支えるものです。
謝辞
フィードバックによりこの投稿を大幅に改善してくれたLauris Jullien氏に特別な感謝を述べます。
重要な改訂
2023年5月30日: 公開