跳到主要內容

淺談機器學習原理-Nonlinear Transform

Nonlinear Transform

淺談機器學習原理-Nonlinear Transform

Nonlinear Transform

*通用能力 gerneralization : 就是將訓練好的模型,放到正式環境可以正常的運作,通常Linear Model的gerneralization會比較好,因為線性模型解決的問題比較單純。缺點是應用侷限比較大。

參考Chih-Chung Chang老師的範例:縣性與非線性分類範例 https://www.csie.ntu.edu.tw/~cjlin/libsvm/

非線性問題

當如果今天假設要圈出裡面小圈圈的資料,我們就無法使用線性的模型,我們可以用非線性解像圈圈的方程式sign(x12x22+r)sign(-x1^2-x2^2+r) 來解決,在演算法我們利用reduce來將不會的問題透過已知的問題來解決,所以在這個問題 我們將圈圈的方程式(非線性模型)reduce成線性模型來解決。

Reduce 方法論


  • 我們調整圓形的方程式改為z0z_0,z1z_1,z2z_2來轉換線性方程式,{(xn,yn)}\{{(x_n,y_n)}\} => {(zn,yn)}\{{(z_n,y_n)}\} 在這空間資料中只要能找線,就可將不同的分類區分,圖中可以線性可以線去做分類。

  • 透過向量方式來轉換成線性方程式 我們找到一個方式將非線性資料X透過向量轉換為Z後,希望透過線性方程式方式來學習,得到正解。

當我們Nonlinear transform轉換成線性方程式,當有新的資料進來我們無法使用invertiable(逆向工程)的方式去轉回非線性的方程式,而是使用mapping的方式將新的資料也一樣透過Nonlinear transform來驗證是否正確。這過程中我們需要考慮兩個因素:

  1. Feature Transform ϕ\phi : 考慮資料複雜程度、關聯性等等
  2. Linear model AA :考慮適合的Linear model,重點:任何情況可以優先考慮Linear Models來解。

Mail Spam

範例: 電子郵件垃圾分類問題

資料特徵:郵件主題、文件名稱、電子郵件內容
模型比較: Linear model, Poly-2 model

深度學習

deep learning概念:先學習重要features後再組合結果,適用在複雜的任務,透過資料本身raw features來學習,但是也不是所有的案例都需要使用深度學習的模型。

問題複雜度與Transforming

當我們使用transform項次越高,雖然可以讓performance更好但是所需要的更高運算與儲存成本,資料量如何沒有很多情況下但用transform項次高去進行學習,有可能造成overfitting狀況發生。所以不是dimension越高就越好,因為會造成需要運算成本越高且會有overfitting狀況發生。

Overfitting

就是模型將<考題,答案>整個背下來,當你測試或是上線正式機就發現整個準確度下降,所以EinEinEoutEout都可以有好準確度

所以我們可以利用靶來說明,f為理想的方程式,g是我們假設的hypothesis也可以稱為模型,當找到的g越接近f表示我們離事實越接近,會影響f、g之間的距離為Bias和Variance,所以重點是要用對模型且特徵資料需要預先處理/找到對關鍵的資料集才有可能找到理想解(最接近實務的解)。

用途 Low Variance High Variance
Low Bias 理想解(最接近實務的解) 表示找的解有接近靶心,但是因模型複雜度較高,所以g之間的變異數也較大
High Bias 模型找出來的解離理想解偏差太多 模型的解偏差太多且加上資料之間變異數大

我們希望訓練出來的模型,放到測試機執行,至少error小於或等於測試機訓練時的誤差值,

  • Underfitting : 當我們找到的模型太過簡單,例如線性方程式,造成訓練資料集時誤差bias很大,
  • Overfitting : 使用複雜的模型解,造成g之間的變異數很大,在訓練資料集可以符合但使用測試資料時出現巨大誤差

Model selection is important bnt not trivial

參考資料

台大資訊 人工智慧導論影片
https://www.youtube.com/watch?v=8sPQJkSpe0c
https://www.youtube.com/watch?v=MSQykQAsdoQ
https://www.csie.ntu.edu.tw/~cjlin/libsvm/

留言

這個網誌中的熱門文章

JavaBean 和POJO

前言 今天介紹JavaBean和POJO的不同,這兩個名詞在JAVA文章常常被拿來使用以及討論。在JDK1.1時候釋出才有的一個標準架構,很多時候常常被搞混,所以我們特別開闢一章來加以討論。POJO規範在企業級應用已經廣大的被使用的規範。 解釋 POJO : 全名為Plain-old-Java-object,只需要繼承Object就可以,沒有特定規定,只要建立的類別有setter/getter方法都可以稱為POJO JavaBean: JavaBean通常用來封裝多個物件成為單獨物件使用,規範比較嚴格,規則如下 規則 說明 1 需要實作序列(Serializable/Externalizable) 2 不能有參數的建構子( no-arg constructor) 3 需要有公用setter/getter 4 屬性必須要私人(private) 5 屬於特定POJO規則 比較 所有的JavaBean都為POJO,但是所有的POJO不一定為JavaBean 都可以當作重複元件 都必須序列化 特性都為可用性、易用性和持久化使用 - 應用 由圖我們可以知道POJO在應用程式中,主要用來存取資料庫資料達到持久化的目的,並提供給商業邏輯流程處理使用。這種POJO的架構提供程式人員開發時的可以很有規則將資料封裝並加以使用。 範例1. JavaBean(以員工為實例) JavaBean建立員工物件,可以發現Employee物件建構子沒有任何參數,屬性為私有化並setter/getter的命名方式。 //實作序列化 public class Employee implements java.io.Serializable{ private int id; private String name; //無參數建構子 public Employee(){} //以下實作setter/getter public void setId(int id){this.id=id;} public int getId(){return id;} public void setName(String ...

GSON基礎教學

GSON 前言 JSON是很常見的資料交換格式,在JAVA領域常用處理JSON的函式庫:GSON、FastXML和JSON-B,本章節會以GSON為主,學習目標如下 JSON格式說明 GSON 套件函式 GSON: 物件轉換JSON字串 GSON: JSON字串轉換物件 JSON 格式說明 JSON全名為JavaScript Object Notation,它是一種輕量級的資料交換格式,會大為流行的理由,主要是他比傳統用xml更輕巧且容易處理, JSON表達方式物件會用大括弧{},陣列則是用中括號[]。 用JSON字串來表達Employee的物件內容,由JSON字串可以知道物件name、age、sex和salary屬性。 JSON表示員工資料方式: {“name”:”Jack Bryant”, “age”:18, “sex”:”M”,”salary”:3500.00} JSON陣列表示方式: 跟我們使用JAVA的陣列方式類似,內容值可以是數字’、文字、布林、陣列、物件、null等等。 範例: 字串: [“紅”、”橙”、”黃”、”綠”、”青”、”藍”、”紫”} 布林: [true, true, false, false, true, true] GSON 套件函式 Gson為google所發布的函式庫,主要將物件與json字串之間的轉換時方便使用。當我們將JAVA物件轉換成JSON字串稱為 序列化 ,JSON字串轉換至JAVA物件稱為 反序列化 。 GSON: 物件轉換JSON字串 有了JSON基本概念後,我們進入本章重點,首先我們需要建立員工類別(Employee),定義如下 物件 屬性 員工類別 Employee name 名字 age 年紀 sex 性別 salary 薪水 /** * name:員工類別 */ public class Employee implements Serializable { //constructor public Employee(String name, double salary){ this.name = name; this.sala...

H2資料庫(1)-基本安裝與介紹

H2資料庫介紹 H2為嵌入式資料庫,使用java開發,跨平台且內含資料庫管理介面,好處開發階段方便開發人員使用。 比較 詳細比較表: http://www.h2database.com/html/features.html#comparison 由圖比較可以知道,H2比其他資料庫更為優勢,以下會介紹開發時常用的模式: 嵌入式模式Embedded Mode 嵌入式資料庫會與應用程式共用同一JVM底層,在這個模式下persistent或是in-memory資料庫都支援,也沒有連線數的限制。但壞處是只可以給該應用程式使用,其他人無法直接存取資料庫。 伺服器模式 Server Mode 外部應用程式可以藉由JDBC或是OBC的方式連結該資料庫,它也支援persistent或是in-memory資料庫,也沒有連線數的限制。 混合模式 Mixed Mode 同時有嵌入式與伺服器的模式去讓外部應用程式連線或是自己應用程式連線。 安裝H2 database 官方網站: http://www.h2database.com/html/main.html 下載安裝程式 出現安裝連結,本次範例使用 Windows installer 的安裝連結 下載安裝程式後,點擊兩下,進入安裝畫面,按”下一步” 一直按”下一步”後,會出現”完成” 安裝完成後,會出現一個說明網頁,你可以點選Quickstart 它會告訴你,如何進入DBRMS畫面以及開啟資料庫服務 開啟windows的視窗圖示,執行 H2 Console後,會執行H2資料庫 進入DBRMS的登入畫面,使用者預設為”SA”,密碼為空值”“,按下”connect”進入,SQL命令中心 登入後,可以在空白處執行SQL語法 8.大致上安裝H2資料庫滿快速,操作畫面也是很好上手,如果系統在開發階段個人覺的滿推薦給大家使用看看。 參考 H2官方網站