データ分析基盤

データ分析基盤

Embulkを使った分析基盤のデータ型について – データ分析入門シリーズ

Embulkを使う上で型の不整合に関するエラーに遭遇することが多かったので情報を整理します。Embulkを使う上では、データソース、Embulk、BigQueryの3つの型を意識する必要があります。 この記事では、それぞれのスキーマで定義...
データ分析基盤

Digdagを使ってスケジューリングをしてみよう – データ分析入門シリーズ

データ分析基盤を作っていく上で、定期実行したい場面は数多くあります。これまで定期実行といえば cron を使っていました。データのロードも cron で実行することはできますが、ログを収集したり、複雑なタスク管理をcronで実現するのは少し...
データ分析基盤

Embulkで独自のログを解析するためにparserを開発する – データ分析入門シリーズ

独自に出力しているログを Embulk 経由で BigQuery に流すまでの作業記録です。 目標 下記の記事では MySQL の値を Embulk にロードできるようになりました。 MySQL の値をロードするために embul...
データ分析基盤

Embulkを使ってMySQLのデータをBigQueryに流す手順 – データ分析入門シリーズ

Embulkを使ってMySQLのテーブルをBigQueryに流すまでの手順を書いています。 環境を準備する MySQLが動いているサーバ(あるいはMySQLにアクセス可能なサーバ)にembulkをインストールしてコマンドを使えるようにし...
データ分析基盤

GCPのBigQueryを試してみた – データ分析入門シリーズ

Google Cloud Platformも大して使ったことがなかったのに BigQuery を使ってみることになった。調べたり手を動かした結果を記録してます。 BigQueryって何? 大きなデータを扱うためには適切な物理サーバを用意...
データ分析基盤

Embulkをインストールする手順 – データ分析入門シリーズ

準備編 embulkにはJavaが必要です。今回用意していたサーバにはJavaを準備していなかったので下記の手順でJavaを使えるようにしました。 インストール手順 公式ページ()のクイックスタートに従って進めていきます。 ...
タイトルとURLをコピーしました