データ分析基盤 Embulkを使った分析基盤のデータ型について – データ分析入門シリーズ Embulkを使う上で型の不整合に関するエラーに遭遇することが多かったので情報を整理します。Embulkを使う上では、データソース、Embulk、BigQueryの3つの型を意識する必要があります。 この記事では、それぞれのスキーマで定義... 2021.11.09 データ分析基盤
データ分析基盤 Digdagを使ってスケジューリングをしてみよう – データ分析入門シリーズ データ分析基盤を作っていく上で、定期実行したい場面は数多くあります。これまで定期実行といえば cron を使っていました。データのロードも cron で実行することはできますが、ログを収集したり、複雑なタスク管理をcronで実現するのは少し... 2021.10.28 データ分析基盤
データ分析基盤 Embulkで独自のログを解析するためにparserを開発する – データ分析入門シリーズ 独自に出力しているログを Embulk 経由で BigQuery に流すまでの作業記録です。 目標 下記の記事では MySQL の値を Embulk にロードできるようになりました。 MySQL の値をロードするために embul... 2021.10.26 データ分析基盤
データ分析基盤 Embulkを使ってMySQLのデータをBigQueryに流す手順 – データ分析入門シリーズ Embulkを使ってMySQLのテーブルをBigQueryに流すまでの手順を書いています。 環境を準備する MySQLが動いているサーバ(あるいはMySQLにアクセス可能なサーバ)にembulkをインストールしてコマンドを使えるようにし... 2021.10.07 データ分析基盤
データ分析基盤 GCPのBigQueryを試してみた – データ分析入門シリーズ Google Cloud Platformも大して使ったことがなかったのに BigQuery を使ってみることになった。調べたり手を動かした結果を記録してます。 BigQueryって何? 大きなデータを扱うためには適切な物理サーバを用意... 2021.09.17 データ分析基盤
データ分析基盤 Embulkをインストールする手順 – データ分析入門シリーズ 準備編 embulkにはJavaが必要です。今回用意していたサーバにはJavaを準備していなかったので下記の手順でJavaを使えるようにしました。 インストール手順 公式ページ()のクイックスタートに従って進めていきます。 ... 2021.09.15 データ分析基盤