データ分析基盤 Embulkを使った分析基盤のデータ型について – データ分析入門シリーズ Embulkを使う上で型の不整合に関するエラーに遭遇することが多かったので情報を整理します。Embulkを使う上では、データソース、Embulk、BigQueryの3つの型を意識する必要があります。この記事では、それぞれのスキーマで定義され... 2021.11.09 データ分析基盤
データ分析基盤 Digdagを使ってスケジューリングをしてみよう – データ分析入門シリーズ データ分析基盤を作っていく上で、定期実行したい場面は数多くあります。これまで定期実行といえば cron を使っていました。データのロードも cron で実行することはできますが、ログを収集したり、複雑なタスク管理をcronで実現するのは少し... 2021.10.28 データ分析基盤
データ分析基盤 Embulkで独自のログを解析するためにparserを開発する – データ分析入門シリーズ 独自に出力しているログを Embulk 経由で BigQuery に流すまでの作業記録です。目標下記の記事では MySQL の値を Embulk にロードできるようになりました。MySQL の値をロードするために embulk-input-... 2021.10.26 データ分析基盤
データ分析基盤 Embulkを使ってMySQLのデータをBigQueryに流す手順 – データ分析入門シリーズ Embulkを使ってMySQLのテーブルをBigQueryに流すまでの手順を書いています。環境を準備するMySQLが動いているサーバ(あるいはMySQLにアクセス可能なサーバ)にembulkをインストールしてコマンドを使えるようにしておきま... 2021.10.07 データ分析基盤
データ分析基盤 GCPのBigQueryを試してみた – データ分析入門シリーズ Google Cloud Platformも大して使ったことがなかったのに BigQuery を使ってみることになった。調べたり手を動かした結果を記録してます。BigQueryって何?大きなデータを扱うためには適切な物理サーバを用意してセッ... 2021.09.17 データ分析基盤
データ分析基盤 Embulkをインストールする手順 – データ分析入門シリーズ 準備編embulkにはJavaが必要です。今回用意していたサーバにはJavaを準備していなかったので下記の手順でJavaを使えるようにしました。インストール手順公式ページ()のクイックスタートに従って進めていきます。まずは最新版のjarファ... 2021.09.15 データ分析基盤