怠惰な努力家

くいっぱぐれないように日々勉強していることを記すブログ

GCP Data Engineerに合格しました

はじめに

Google Cloud Certified Professional Data Engineer に合格しましたので、その勉強方法を共有したいと思います。

ざっくり以下の流れで対応しました。

 ・ビッグデータを支える技術を読む

・模擬試験をうけてみる

・模擬試験をベースに、各サービスのDocumentationの必要そうなとこを読み込む

 

以上

勉強開始から1ヶ月ほど、約20時間ほどで受かりました。

 

合格にあたってのポイント

まずなによりも、ビッグデータ周りの基本的な考え方を理解する必要があります。

(Data Lake, Messaging Queue, Data Warehouse, Data Mart, Job, Streaming etc)

 

 

そのうえで、Googleの各サービスがどれに該当するのか、そしてどういう用途に向いているかを把握することが大事です。

Choosing a Cloud Storage Option は理解しておくとよいです。

 

 個別のサービスで理解すべき点については、Beta版を受けた方のレビューが参考になります。試験の直前になって気づいてあまり私自身はこれを参考にしていないですが、振り返ってみると非常によくあたっています。

Beta Exam Report

 

上記レポートにない点で、私が重要だと思う点を挙げたいと思います。

DataProc

端的にいうと、Hadoopクラスタ。

ただ、Google Cloud Storageが絡むことにより、Computing ResourceとStorageを分離することができる。

これは必ず理解しておかないといけない考え方です。

通常のHadoopクラスタは、データを各ノードに分散して格納することで、計算も分散することが出来るようにしています。常にクラスタを維持しておかないいけないことに加え、計算リソースが追加で必要な場合は、ノードの追加が必要→データの再配置の発生となり、非常に管理が手間でした。そこで、GoogleCloudでは超高速なネットワークを整備することで、クラスタを利用しないときは完全に削除することが可能、利用するときだけ動かして、都度データをGoogle Cloud Storageからコピーしてくるという仕組みをとることが可能になっています。

ネットワークが遅いという常識を覆すような発想です。これを聞いたときは、晴天の霹靂のような驚きでした。

 

 

Machine Learning

機械学習の一般論に関して理解しておくとよいです。深い知識はいりません。

 

Cloud Spanner

Beta版の当時 は、まだないサービスであったため上記レポートに含まれていないですが、Google肝いりのサービスであるため、概要を理解しておく必要があります。

 

まとめ

 ポイントを抑えれば比較的簡単に合格できると思います。

試験勉強をしたことにより、Googleスゲー感が芽生え、今後使うならGoogleCloudだなと洗脳されてしまいました。

 

おまけ

 私のスペック

  • 情報セキュリティが専門。
  • 機械学習やデータエンジニアリングはそのなかで必要になった場面で経験あり。
  • GCPのみならず、AWSやAzure等のクラウド は触ったことすらない。

 そのほか参考情報

 私自身Hadoop含めデータベース技術にあまり詳しくなかったので、その際に参考になった資料を紹介したいと思います。

 

Hadoopについての概要を勉強したい方は以下が参考になります。

データベースやストリーミングの 一般論では、以下が参考になりました。