Linux command line tool + pipe 學習筆記之一:讓R 加入pipe的一環

最近我在幫General Mobile Corporation開發RTB系統。為了要處理有點大量,又沒有太大量的資料,與其直接用貴鬆鬆的AWS EMR(Elastic Map Reduce)去跑Apache Spark, 我選擇用基本的pipe與一些精巧的小程式,搭配nodejs與R來達成整理資料的目的。 動機則來自於很久以前讀過的文章:Command-line tools can be 235x faster than your Hadoop cluster以及過去自己維護過HDFS Cluster的經驗。 »