電子信箱 service [at] infrastarmusic.com
幣圖誌首頁 facebook粉絲團 google plus google plus
發表日期:2015-07-07


大家好我是貓大,經過上周的文章,相近大家都已經了解到,非結構性的語言資料在大數據的世界中有多麼重要,既然有這麼多且中要的文字資料,那我們要怎麼從這些巨量的非結構性資料中找出有用的資訊呢?讓貓大來為您一一介紹吧!

自然語言處理
Natural Language Processing,簡稱NLP,主要是讓電腦能夠妥善處理文字、語言,最終讓電腦可以理解字自然語言。其中,語音辨識、自動分詞、語法分析、資訊檢索、文字校對、翻譯等等皆屬於自然語言處理的範疇。目前的發展遇到的幾個難點是,單詞的邊界界定,意即取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合,也就是斷詞。在英文中,我們可以用空白字元當作斷詞的分割依據,但是中文並沒有詞與詞之間的邊界,因此漢語的自然語言處理又比拉丁語系更加困難。另外,再與法的模糊性上面也很難處哩,自然語言的語法通常是模稜兩可的,我們必須仰賴詞句中的前後文才可以選擇出最佳的語意,但是機器並不懂語意,因此只能透過建立多顆剖析樹方式
找出適合的語句,稱為語法剖析(Parse)。而辭意的分歧也是目前遇到的難題之一,同樣一個詞有可能具有多種意義,我們必須想辦法讓機器可以從中選出使句子最為通順的解釋。
發表日期:2015-06-12



大家好,我是貓大!還記得前一陣子教大家怎麼取得財經數據,提供各位讀者自己也能動手做統計分析的方法嗎?在<財經數據哪裡找?點進來便知道&gt;一文中提到六個獲取財經數據的方法,並且比較過其優缺點,除了我們提供的這些綜合性、國際性的網站外,還有各個國家的統計局網站資料,甚至是運用自己的資金去購買Bloomberg整理好的數據,在這個資訊爆炸的時代下,要取得資料與數據已經不是非常困難的事情,而是將我們取得的原始資料,處理為我們能夠分析的資料更為重要,因此今天貓大要跟大家聊聊我們取得的資料會是什麼樣子?而這些資料又該如何為我們所能使用呢?
發表日期:2015-05-26



大家好,我是貓大!各位還記得嗎?在不久之前的文章<超高速即時處理架構–Storm上的高頻交易系統>中提到了kafka一詞,這周貓大就要為各位介紹什麼是kafka,為什麼需要用到它,以及帶來的好處又是什麼。
發表日期:2015-05-05

大家好,貓大又來了!看到貓大,就代表一個禮拜又過去了。感嘆時間一分一秒的流逝,卻無法回到過去,只好努力活在當下,為未來創造這一秒的留影。不知道各位看倌是否與貓大一樣正在感嘆青春流逝得太快,不知道大家在上個禮拜留下了多少美好的回憶?
好,不裝文青了,不過我們今天要談的內容,還真跟時間有那麼一點點的關係。

在高頻交易系統中,最重要的一塊就是資料的累積。而歷史資料累積的完整,能夠提供強大的資料挖礦演算法一個強大的後盾,讓資料挖礦的過程中,完全無後顧之憂。但是,一天五個小時的開市時間,以每秒來計算,單一一種股票或期貨,就會有一萬八千筆資料,更別論還有其他的市場資料和技術指標等。那如此大量的歷史之料,要用什麼時光盒來保存呢?今天貓大會為大家介紹兩種技術,分別是Hadoop的HDFS(Hadoop Distributed File System)及HBase。

發表日期:2015-03-31



大家好,我是貓大!提起華爾街上最會投資的人,大家的第一反應都是股神巴菲特。不得不承認,巴菲特的確是華爾街上的傳奇。但是有這麼一個人雖然不在華爾街上活躍,他所創立的公司創造出的業績卻已經在華爾街引起了軒然大波。在巴菲特的平均收益處於二十個百分點的時候,他創造出的回報率已經高達34%。他在2014年的收入高達15億美元,這使得他成為了世界上最富有的對沖基金經理人。與同期相比,他比其他對沖基金經理人的收益高出十個百分點,比標普500的收益高出二十個百分點,就連在2008年金融危機的時候,他依然保持著極高的投資回報率。
發表日期:2015-03-20



大家好,我是貓大!記得不久前和大家介紹了Storm的基本概念,在<現正火紅的分散式運算框架:Storm,初探!>一文中提到,我們使用了分散式運算架構Storm,來幫助我們進行非常高速的高頻交易股價處理,以及大量的市場狀態運算。今天將為大家更深入的介紹在高頻交易系統中,我們是如何應用這套架構來加速我們的市場狀態運算。
發表日期:2015-03-13



大家好,我是貓大!還記得上次和小咪討論的「進場信號」嗎?貓大透過將策略分成小策略、中策略、大策略的方式,再運用交易室的分層投票機制,來讓不同種類的策略彼此相互驗證來產生綜效,提高進場信號的準確度。大家有回想起來了嗎~?
發表日期:2015-03-06


大家好!貓大來了!在前不久的Sort Benchmark Competition(資料排序基準競賽)中,Spark在三十分鐘內將多達100 TB的資料量排序完成,打破了由Hadoop保有72分鐘的世界記錄,而且所使用的機器數量是Hadoop的十分之一!Spark這一次參加的是資料排序基準競賽中的GraySort項目,此項目是針對極大量資料的排序的效能做的比賽,究竟是什麼樣的架構讓Spark在此次競賽中遠遠超越傳統的Hadoop Map Reduce呢 ?

發表日期:2015-02-24


大家好!我是貓大,大家還記得我的好友咪咪(那位想要知道自己養的貓,會不會抓老鼠的那位愛貓人士)嗎?在過去文章什麼 ? SVM會賺錢 !中貓大介紹了SVM的概念,以及如何通過LIBSVM,幫助使用者解決分類問題。
發表日期:2015-02-10


大家好,我是貓大!在02月04日上午的時候,發生了一件令人難過的大事件,那就是台灣復興航空,一架載有58人從台北飛往金門的GE235班機,起飛後不久發生撞橋墜落基隆河意外。消息一傳出便使得復航股價立即重挫跌停,在當天早上11點34分下挫0.9元新台幣,跌停至12.15元新台幣價位,而母公司國產實業也遭拖累,股價由紅翻黑。發生如此重大的緊急事件,採礦貓該如何因應這種緊急事件,以保障投資人不至於血本無歸呢?
發表日期:2015-02-03


俗話說:當賺錢不再是目的,你才會成為有錢人。大家好!我是貓大。

挖礦(Data Mining)是貓大畢生的使命和責任,而賺錢僅是完成使命過程中的副產品。與大家分享挖礦過程中的心得和成果則是貓大生活中最快樂的事情之一!不過今天,貓大要跟大家分享的既不是心得,也不是成果,而是方法!

一直以來,貓大都在跟大家分享各種關於股價走勢的預測技術,程式交易的概念和含義,近期還為大家分析了一些時事跟股價之間的關係。
發表日期:2015-01-25


各位好,我是貓大。先前在「光速世界的礦工──高頻交易上的資料挖礦」中曾經提到,由於高頻交易變化多端的趨勢波動,我們必須在數十毫秒內算出兩千多種自定義的市場狀態規則,以供人工智慧演算法即時建模。究竟如何辦到?關鍵之一是開源的分散式運算框架:Storm。
發表日期:2015-01-20


大家好,貓大又來啦!台灣各縣市長已經上任三個多禮拜了,大家對於他們的表現是否有感呢?今天貓大就要來跟大家談談「台灣選舉」對於台股的影響,讓大家能夠在台灣「兩年一小選、四年一大選」的選舉文化下,更能精準地掌握大盤的走勢唷!喵~

11月29日台灣九合一選舉,國民黨兵敗如山倒,人們紛紛對於執政黨投下了不信任票,希望換個政黨做做看,於是台灣的第二大黨--民進黨,便在這次的聲浪中,取得了13個縣市的執政權,國民黨更是只剩下了6個縣市長席次,整個台灣瀰漫了一股改革換新的氛圍。

但是,股市市場也會是如此嗎?根據貓大平常看新聞報紙以及網路的經驗,每到選舉前夕,台灣大企業的老闆總會紛紛現身表態,呼籲民眾(員工?)支持某某政黨候選人,公司才有未來,台灣才能拚經濟、有競爭力。貓大也常常聽到坊間謠傳著「若某某政黨當選,隔週股市就會大跌」的說法。難道,台灣個股市行情,沒有辦法也感染到改革的氛圍,持續地受到台灣選舉文化--藍綠對決的綁架嗎?
發表日期:2015-01-06


大家好,我是貓大!在前兩次透過黑色星期五和國際油價下跌的事件,介紹了緊急應變模型的前兩種,今天貓大要帶大家再透過一個最近發生的新聞事件案例來說明「我們是如何針對突發事件做模型的調整」,並且替投資用戶即時作出停損判斷。如此不會讓用戶來不及對最新的事件反應而血本無歸,也讓用戶可以不需時時注意突發狀況。因為這些採礦貓都幫您想好策略了!至於是用什麼方法呢?讓我們看下去!
發表日期:2014-12-30


大家好,貓大又來了!上篇文章中,貓大以「黑色星期五股價下跌」的新聞為例,針對該類似事件,介紹了應變措施三種形態的第一種。本週將透過其它事件來介紹第二種形態的應變措施。如何進行模型的調整,就讓我們繼續看下去吧!

回顧最近的新聞,由於國際油價跌跌不休,引發金融市場的動盪,導致歐美股市11月12日也跟著重挫,全球股市於一周內市值蒸發1.2兆美元(約台幣38兆)。國際能源總署(IEA)宣布下修明年石油需求預測後,分析師紛紛預測油價將繼續下跌,美國前能源部長Bill Richardson甚至喊出每桶45美元。代表美國標準的西德州中級原油(WTI)11月12日以每桶57.81美元收盤,為2009年5月以來首度跌破58美元,當周跌幅高達12%;而做為國際標準的北海布侖特(Brent crude)原油11月12日以61.85美元作收,從今年六月以來跌幅已達44%,當周跌幅10%。

發表日期:2014-12-19


大家好!貓大又來了!本篇文章中,要介紹如何「針對突發事件的發生,進行模型調整」。
首先讓我們來回顧近幾週的新聞「感恩節」。感恩節是美國人民認定的重要節日之一,這一天也是各大零售業與百貨公司衝業績的關鍵時刻。以往感恩節後的黑色星期五,都會帶起採購的狂潮,連帶的帶動起美股的上漲。不過2014年的黑色星期五消費卻不如預期,美股不升反降,道瓊工業平均指數下跌了51.44點、收於17776.80點,跌幅為0.29%;標普 500指數下跌了14.12點、收於2053.44點,跌幅為0.68%;納斯達克指數下跌了64.28點、收於4727.35點,跌幅為1.34%。
發表日期:2014-12-13


大家好,貓大又來了!今天貓大要跟大家談的是虛擬矩陣(Virtual Matrix)。每一位程式人在寫程式時(尤其是大程式),一定常常遇到記憶體不足(Out of Memory)的問題。尤其在採礦程式中,我們需要大量的泥土(資料),並從資料內挖掘有利益價值的礦物(有用的資料),但當電腦的記憶體無法容下如此大量的泥土(資料)時,便會跑出記憶體爆炸的錯誤。
發表日期:2014-12-03


大家好! 採礦貓又來了,之前向各位介紹過的SVM分類演算法是否非常有趣呢? 本周貓大將為您說明另一種分類演算法,更直觀、更簡單,就是Decision Tree!下列介紹將會帶著讀者們一起了解決策樹的原理及應用。

決策樹是什麼?

樹,是由樹枝、樹葉、及樹幹所構成的,要讓一棵樹長的好看,就必須修剪樹枝、樹葉;決策樹亦是。 決策樹是用來處理分類問題的樹狀結構,構成決策樹的元件是節點與分支,其中節點又分為三種類型:
發表日期:2014-11-25


大家好,我是貓大!貓大的好朋友小咪自從看了採礦貓分享的文章後,也打算開始利用電腦程式產生策略模型來進行投資了。藉由文章以及貓大的介紹,小咪認識了羅吉斯回歸、支撐向量機(SVM),以及類神經網路(ANN)的模型,並開始著手運用這些策略模型來進行投資預測。

此時,小咪碰到了一個奇怪的現象──明明使用同一天的歷史資料產生出來的三種模型,在即時環境下進行投資,卻會在同一個時間點產生出不同的結果。好比在早上10點10分10秒時,SVM和ANN同時都產生了下秒準備買進的進場信號,但羅吉斯回歸卻沒有動靜,有時候則是一種模型有信號,另外兩種則沒有結果。小咪對這個現象感到困惑,不知道該聽從哪個策略的結果才好,於是小咪又回來請教貓大。
發表日期:2014-11-23


大家好!我是貓大,本週專欄將為讀者介紹,類神經演算法(ANN),如何能像我們人類大腦一樣學習,貓大將帶讀者了解什麼是ANN,以及它的概念與應用。

什麼是類神經網路?

類神經網路是一種利用電腦來模仿生物神經網路的結構和功能的運算模型,它使用大量的相連人工神經元來模仿生物神經網路的能力,並且經過學習的過程,使得電腦能夠就像人類那樣具有推理能力。