利用R處理大量的JSON資料 (Streaming Style)

這陣子我接了一個案子,要幫忙核桃運算開發他們產品BigObject Analytics的R Client。恰巧,他們的RESTful API在撈資料的時候,吐回來的格式是jsonlines: {"Sepal.Length":"5.1","Sepal.Width":"3.5","Petal.Length":"1.4","Petal.Width":"0.2","Species":"setosa" »

資料科學團隊的Hello World

這週末我參加了資料科學愛好者年會系列活動的第一場:資料科學團隊培訓及導入經驗分享會。 由於我已經親身經歷了一個資料科學團隊的建立過程,親身體驗了不少在建立資料科學團隊時不應該發生的錯誤。因此,難得有機會聽聽陳老師的經驗,就一定要來取經,並且和我自己的想法做印證呀! 在上課的過程中,聽到老師許多生動的描述資料科學的各種能力、資料素養和創意的養成和團隊會遇到的困難等等。這些種種要點,更讓我確定一個,我在過去已經萌芽的一個信念:Dashboard的製作就是資料科學團隊的Hello World。 Hello World 是每一種程式語言中最基本、最簡單的程式,也通常是初學者所編寫的第一個程式。它還可以用來確定該語言的編譯器、程式開發環境,以及執行環境是否已經安裝妥當。換句話說,它除了擔任初學者的第一個任務之外, »

資料工程的挑戰 --- 乾淨的資料

這陣子我聽了一系列Felix在MLDM Monday跟大家分享,關於資料工程的一些心得。這除了要感謝Felix的熱情分享以外,還要感謝萬惡之首 家齊的大力推坑! 恰巧,這個領域也是我一直在思考的問題。一系列的討論下來,也讓我對這個問題有接近最本質的看法。 Felix的演講雖然著重在技術面,著重在效能,但是他也點出了一個資料工程的觀點:資料要乾淨,後面的人才好做事。而根據我自己聽下來的心得,以及自己工作中的心得,我認為這部份其實包含了兩個面向:乾淨和正確。而這三點恰巧是我目前想到的,資料工程最重要的三個要點。 這篇文章想分享,在最近事件所激發出我對於乾淨的資料的一些想像。 資料的乾淨度 乾淨度其實牽涉到後續在取用資料時,能不能取得資料, »