[JS]
[DE]
[USE] plot
[PLUGIN] ml.plugin
[PLUGIN] math.plugin
[PLUGIN] image2.plugin
[PLUGIN] popup.plugin
[PLUGIN] R.plugin
[PLUGIN] file.plugin
[PLUGIN] help.plugin
[PLUGIN] button.plugin
[TITLE] R - Einführung in ML mit CNN (1)
[AUTHOR] Stefan Bosse
[VERSION] 11.2023

# Einführung in Einführung in ML mit CNN (Teil 1)

[FUN]
```js
Plot.create=function (data,options) { console.log(options); drawPlot(0,Plot(data,options))}
new HelpUI({
  welcome:'Enter search pattern (with optional wildcards *)',
  label:'HelpBot',
  callback:function (text) {
    var result = R.help(text)
    return result?result:'Sorry, found nothing helpful.'
  }
})
```

[TOC]

## Vorwort

Bitte folgenden Code ausführen um notwendige Bibliotheken zu laden. Nicht erforderlich bei nativer R Software.

>! Der Code in dieser Übung wird in einem eigenen Web Worker Prozess unabhängig von der Frontend Seite ausgeführt. Daher muss der Worker zuerst EINMAL gestartet werden.

[R] R Worker Starten { lines:2; height:5 }
```R
install.packages(["math","ml","image"])
worker()
```

[R] R Set-up { lines:2; height:5 }
```R
use math,plot,imager,geometry,cnn
dev.new(width=500)
print("Libraries opened.")
print(R.version)
options(digits=3)
```

>! Es wird in diesem Kurs der R-Dialekt r+ verwendet. R+ ist eine Reimplementierung von R in JavaScript und läuft direkt in Web Browsern und node webkit Applikationsprogrammen. Es ist keine Softwareinstallation erforderlich.

- R+ ist nahezu R Syntax mit einigen Ergänzungen die die Programmierung und lesbarkeit von Programmen erleichtern.

- Nicht alle R Packages sind in R+ enthalten, und es kann Abweichungen geben. Hier werden vor allem das *imager*, *math*, und *cnn* Package verwendet.

- Dennoch lassen sich die meisten öffentlich verfügbaren algorithmischen Lösungen und Hilfestellungen mit R+ umsetzen.

## Literatur

- Lese "Learning R Programming" [Kun Ren,2023](http://edu-9.de/uploads/Lehre/asd3k/tutorials/9781785880629.pdf)

## Synthetische Bilder

- Synthetische Bilder können mit Matrizen oder Bildobjekten erstellt werden.
- Matrizen sind immer monochromatische Grauwertbilder (zweidimensional)
- Eine Matrix wird mit `matrix(init,nrow,ncol)` erzeugt
- Alternativ kann als Initialwert auch ein Vektor (z.B. randomisiert mit `runif(nrow*ncol)*scale`) übergeben werden
- Es sollten für Bilder kompakte und typisierte Arrays verwendet werden, d.h., mit dem Zusatz `mode='uint8'`. Gängige Datentypen sind *uint8*, *uint16*, und *uint32*. bei einige Berechnungen und Operationen muss *float32* verwendet werden.
- Im Package *geometry* gibt es eine Reihe von Funktionen um geometrische Objekte in Matrizen und Bildern zu erzeugen, wie z.B. (*x* ist eine Matrix oder ein Bild):
  + `draw.line(x,value,from,to)`
  + `draw.rectangle(x,value,center?,left?,top?,width?,height?,angle?,filled?)`
  + `draw.circle(x,value,center,width?,height?,radius?,angle?,filled?)`

>! Synthetische Bilder sollten immer statistisch parametrisiert werden, d.h. unter Anwendung von Monte Carlo Simulation und Veränderung von Parametern.

- Für diese Übung werden synthetische Bilder mit geometrischen Figuren (nicht gefüllt) erzeugt:
  + Linie, Ellipse/Kreis, Rechteck, mit der mittleren Intensität *i*~1~
  + **Nur ein Objekt pro Bild**
  + Es gibt einen Hintergrund nicht *i*~0~, d.h. der Kontrast soll verkleinert werden:
  
$
%%ascii
C=(i_1-i_0)/(i_1+i_0)
$

[R] Universelle Funktion zum Erzeugen von synthetischen Geometriebildern. Es wird von einer Bildgröße von 32 × 32 Pixel ausgegangen.  { lines:20; height:20 }
```R
im.width  = 32
im.height = 32
function generateImage(i0,i1,w,h,shape,filled) {
  im = matrix(i0+runif(1,-i0/10,i0/10),im.height,im.width,mode='uint8')
  p = [
    round(rnorm(1,im.width/10,im.width-im.width/10)),
    round(rnorm(1,im.height/10,im.height-im.height/10))
  ]
  if (shape == "circle") {
    a = runif(1,0,360)
    w = w+runif(1,-w/10,w/10)
    h = h+runif()
    draw.circle(im,i1,center=p,angle=a,width=w,height=h,filled=filled)
  } else if (shape=="rectangle") {
    a = runif(1,0,360)
    w = w+runif(1,-w/10,w/10)
    h = h+runif()
    draw.rectangle(im,i1+runif(1,-i1/10,i1/10),center=p,angle=a,width=w,height=h,filled=filled)  
  } else if (shape=="line") {
    a = runif(1,0,2*3.1415)
    dx = sin(a)
    dy = cos(a)
    p2 = [
      p[1]+round(dx*w),
      p[2]+round(dy*h)
    ]
    draw.line(im,i1+runif(1,-i1/10,i1/10),from=p,to=p2)  
  }
  im.noise = matrix(rnorm(im.height*im.width,0.8,1.2),im.height,im.width)
  im = im*im.noise
  { 
    w = w,
    h = h,
    a = a,
    shape = shape,
    center = p,
    image=im
  }
}
im.test = generateImage(50,200,8,10,'line',FALSE) 
plot(im.test$image,main=im.test$shape)
```

[TODO]
Erzeuge einen Datensatz mit jeweils *N* Linien, Kreise, und Rechtecken. Nachfolgend ist dieses für Rechtecke gezeigt. Ergänze Kreise (Ellipsen mit *w* != *h*) und Linien (*w* und *h* geben die rechteckige Rahmenboxgröße an).

[R] Datensatz Synthetische Bilder { lines:20; height:20 }
```R
use math,imager,plot
im.dataset = data.frame()
N = 100
for (i in 1:N) {
  w = runif(1,8,20)
  h = runif(1,8,20)
  im = generateImage(50,200,w,h,'rectangle',FALSE) 
  push(im.dataset,im)
}
# TODO Line, Ellipse/Circle
print(summary(im.dataset))
plot(im.dataset[1,"image"])
```

## Randomisiertes Sampling

Bisher liegen die annotierten Beispielsdaten in einer Datentabelle in geordneter Reihenfolge. Für das Training (Anpassung) (und ggfs. den Test) eines datengetriebenen Modells *M*(*x*) ≈ *f*(*x*)=*x*→*y* sind aber randomisiert gereihte Dateninstanzen sinnvoll oder gar erforderlich (hängt vom Anpassungsverfahren ab).

>! Die Datentabelle mit annotierten (gelabelten) Dateninstanz soll eine randomisierte Reihenfolge der Zeilen erhalten.

- Dazu verwendet man z.B. die *sample* Funktion

[R] Beispiel Randomisiertes Sampling eines Vektors { lines:20; height:20 }
```R
x = [1,2,3,4]
print(sample(x))
print(sample(x,2))
print(sample(x,4,replace=TRUE))
```

[TODO]
Erzeuge einen randomisiert gereihten Datensatz (*im.dataset* aus *im.dataset*).

[R] Randomisiert gereihter Datensatz { lines:20; height:20 }
```R
use math,imager,plot
im.dataset = ...
print(summary(im.dataset))
```

## Datenteilung: Trainings- und Testdaten

Neben der Randomisierung der Reihenfolge von Datensätzen ist eine Partitionierung in Trainings- und Testdaten i.A. erforderlich. Für die Anpassung des Modells werden nur die Trainingsdaten verwendet.

>! Ein Problem bei einer schrittweisen Anpassung eines Modells and Daten ist die Spezialisierung (Overfitting), d.h., das Modell kann nur bei den Trainingsdaten gute Ergebnisse liefern, nicht aber bei unbekannten (oder Testdaten).

Typischerweise teilt man die gesamte annotierte Datenmenge zu 80/20 % auf, Der Großteil wird für das Training verwendet.

>! Hat man nur eine kleine Datensatzmenge kann auch 100% für das Training verwendet werden. Dann ist aber keine Prüfung des Modells bezüglich Generalisierung und allgemeingültiger Qualität (Fehler, Akkuratheit, Präzision) möglich.

- Die Aufteilung kann mit der *split* Funktion erfolgen
  + Die Split Funktion teilte eine Datenmenge in Untermengen ein. Entweder sequenziell oder randomisiert (mit `random=TRUE`, aber immer disjunkte Mengen)
  + Der `prob=[p1,p2,..]` Parameter ist ein Vektor der die verteilung der Daten auf die Partitionen angibt (Summe muss kleiner als 1 sein)
  + Die Funktion gibt eine Liste der Partitionen zurück
  + Die Split Funktion kann auf Vektoren ebenso auf Datentabellen angewendet werden.
  
  
[R] Trainings- und Testdatenpartitionierung in R+ { lines:20; height:20 }
```R
use math,imager,plot
parts = split(im.dataset,prob=[0.8,0.2],random=TRUE)
im.dataset.train = parts[[1]]
im.dataset.test  = parts[[2]]
print(summary(im.dataset.train))
print(summary(im.dataset.test))
```

## Das CNN Modell

Ein CNN Modell besteht aus verschiedenen Ebenen:

1. Convolutional Layer (C): Mathematische kernelbasierte Matrixoperation hier mit mehreren Filtern (Kernels), mit bestimmten Padding und Striding ⇒ *n* Filter erzeugen aus einem Bild *n* neue Bidler!
   + Dei einzelnen Filter (matrizen) sind unabhängig, deren Koeffizienten werden durch das Trasining angepasst
   + Die Matrixoperation basiert auf Produkt-Summen (immer lineare Funktion)
2. Pooling Layer (P): Auch kerlnelbasierte Matrixoperation, aber nicht paramaterisierbar, d.h., Anwendung einer Funktion wie Maximumsauswahl oder Mittelwertberechnugn auf Filtermaske.
3. Funktionale Schicht (F): Abbildung von Matrizen durch Pixeloperation (z.B. ReLu Funktion);
4. Künstliches Neuronales Netzwerk (Fully Connected FCANN)
   + Hier ist jedes Neuron mit allen Pixel aller Ausgabebilder der vorherigen Ebene verbunden!
   + Ggfs. am Ausgang noch mit einer Softmax Funktion für Klassifikationsaufgaben
   + Softmax impliziert immer eine FC Schicht

C und P treten i.A. paarweise auf (CP Paare) und wirken hier häufig dimensions- und größenreduzierend. Das ist nicht verwunderlich da am Ende nur eine geringe Dimensionalität (hier Vektor mit drei Werten) berechnet werden soll.

Es wird mit der ´cnn::cnn´ Funktion erzeugt. Es können die Schichten (Layer), also die Modellstruktur und Architektur, und der Trainingsalgorithmus bestimmt und parametrisiert werden. Standardmäßig wird ein Stochastic Gradient Descent Trainer (SGD) verwendet.

[TODO]
Berechne für die verwendeten Netzwerke die Gesamtzahl dynamischer Parameter aus den einzelnen Schichten.

[INPUT]

[R] Das CNN Modell erstellen { lines:20; height:20 }
```R
use cnn
im.cnn = cnn({
   {type='conv',kernel.size=[4,4],filter=8 },
   {type='pool',kernel.size=[2,2] },
   # {type='fc',num.neurons=20 },
   {type='softmax', num.classes=3}
  },
  input.size=[32,32],
  labels = ['line','circle','rectangle']
  # batch.size = 5
)
print(summary(im.cnn))
```

## Training des Modells

Das Training erfolgt mit `cnn::train` Funktion. Es wird benötigt:

- Die Eingabedaten *x* (hier Liste von Bildmatrizen);
- Die Ausgabedaten *y* (hier Vektoren von Zeichenketten, der Labels);
- Oder eine Datentabelle bzw. Matrix mit einer Formel die den Ein -und Ausgabezusammenhang darstellt, d.h., `y~x`, jeweils mit den Spaltennamen ersetzt.
- Das Training ist inkrementell, d.h., kann mehrfach hintereinander wiederholt werden. Eine Epoche durchläuft alle Instanzen des Trainingsdatensatzes!
- Wir deine Callback Funktion angegeben wird das Training asynchron ausgeführt.

[TODO]
Führe  ein Training exemplarisch mit einem kleinen Netzwerk und *N*=100 durch (`epochs=30`) und notiere exemplarisch die Entwicklung des Loss- und kategorischen Fehlerwerts. Wie entwickelt sich das Training mit zunehmenden Epochen?

[INPUT]

[R] Das CNN Modell trainieren { lines:20; height:20 }
```R
# Asynchrone Funktion!
im.cnn.train.loss=list()
im.cnn.train.error=list()
cnn::train(im.cnn,
           im.dataset.train,
           formula=shape~image,
           epochs=30,
           callback=function (status) { 
             push(im.cnn.train.loss,status$loss)
             push(im.cnn.train.error,status$error)
             cprint(status)
           }
)
```

[R] Trainingsverlauf plotten { lines:20; height:20 }
```R
plot(as.vector(im.cnn.train.loss),main="Loss")
plot(as.vector(im.cnn.train.error),main="Error")
```

## Statistische Analyse

>! Der Loss oder Fehlerwert vom Training ist nur begrenzt aussagekräftig (und ist dynamisiert) wenn es um die Frage der Qualität des Modells und dessen Allgemeingültigkeit geht (Generalisierung). Dazu müssen die Trainings- und vor allem Testdaten nochmals vom Modell berechnet werden.

Was wird benötigt?

1. Der mittlere Klassifikationsfehler des Modells für:
   + Trainingsdaten
   + Testdaten
2. Der klassenspezifische Fehler, also die Konfusionsmatrix für:
   + Trainingsdaten
   + Testdaten
3. Accuracy, Precision, Recall, F1-Score

Die Berechnung des Modells mit Eingabedaten erfolgt mit `cnn::predict(model,x)`. Man bekommt eine Liste mit `{score:numeric,value:label}` oder eine Datentabelle mit entsprechenden Spalten. Der Score ist der numerische Ausgabewert der Softmax oder Neuronenschicht, der Wert ist die kategorische Klasse als "best winner".

[R] Statistische Analyse des Modells (und der Daten) { lines:20; height:20 }
```R
use math,plot,cnn,stats
results.train       = cnn::predict(im.cnn,im.dataset.train$image)
results.train.error = 1-sum(results.train$value==im.dataset.train$shape)/nrow(im.dataset.train)
results.test        = cnn::predict(im.cnn,im.dataset.test$image)
results.test.error = 1-sum(results.test$value==im.dataset.test$shape)/nrow(im.dataset.test)
print (paste(results.train.error*100,'%',results.test.error*100,'%'))
print(confusionMatrix(results.train$value,im.dataset.train$shape))
print(confusionMatrix(results.test$value,im.dataset.test$shape))
```

[QUESTION]
Was stellt man schon bei den ersten Versuchen fest (Ergebnisse für Trainings- versa Testdaten)?

[INPUT]

## Aufgabe

1. Wiederhole die Experimente für *N*=100 mit verschiedenen Modellarchitekturen:
   + Ein CP Paar mit 8 Filtern
   + Ein CP Paar mit 4 Filtern
   + Zwei CP Paaren mit 4/4 Filtern
   + Zwei CP Paaren mit 8/8 Filtern

2. Notiere die Ergebnisse. Wo gibt es Falschklassifikationen?

3. Wiederhole das Experiment mit *N*=500,1000. Gibt es eine Verbesserung?

4. Hat die Anzahl der Epochen einen Einfluss auf die Qualität des Modells (je mehr desto besser?). Es geht vor allem um die Ergebnisse mit den Testdaten.

[INPUT]

[BUTTON] Hilfe { action:post; label:Absenden; style:"color:red" }
```
{
  url:'edu-9.de:28888',
  // url:'localhost:28888',
  form:['Name','Email','Pin','Frage'],
  email:{from:'$Email', to:'sbosse@uni-bremen.de', name:'$Name'},
  subject:'Hilfe Kurs ML $TITLE',
  message:'$Name: $Frage',
  attachments:[{filename:'$FILE.json',content:'$CODE'}],
  pin:1827,
}
```

[BUTTON] Einreichung (Assignment #01-46158 ) { action:post; label:Absenden; style:"color:green" }
```
{
  url:'edu-9.de:28888',
  // url:'localhost:28888',
  form:['Name','Email','Pin','Kommentar'],
  submit: { from:'$Email', to:'sbosse@uni-bremen.de' },
  assignment:'01-46158',
  name : '$Name',
  comment : '$Kommentar',
  attachments:[{filename:'$FILE.json',content:'$CODE'}],
  pin:1827,
}
```

[BUTTON] Prüfen { action:post; label:Laden; style:"color:browm" }
```
{
  url:'edu-9.de:28888',
  // url:'localhost:28888',
  form:['ID','Pin'],
  load: { id:'$ID' },
  pin:[1827,9223],
}
```

[BUTTON] Bewerten (Lehrer) { action:post; label:Absenden; style:"color:blue" }
```
{
  url:'edu-9.de:28888',
  // url:'localhost:28888',
  form:['ID','Marking','Pin','Remarks'],
  submit: { id:'$ID', from:'sbosse@uni-bremen.de', name:'$Name' },
  marks : '$Marking',
  remarks : '$Remarks',
  attachments:[{filename:'$FILE.json',content:'$CODE'}],
  pin:9223,
}
```

---

Einführung in Einführung in ML mit CNN (Teil 1)

Inhalt.

Einführung in Einführung in ML mit CNN (Teil 1)

Vorwort

Literatur

Synthetische Bilder

Randomisiertes Sampling

Datenteilung: Trainings- und Testdaten

Das CNN Modell

Training des Modells

Statistische Analyse

Aufgabe

Vorwort

Bitte folgenden Code ausführen um notwendige Bibliotheken zu laden. Nicht erforderlich bei nativer R Software.

Der Code in dieser Übung wird in einem eigenen Web Worker Prozess unabhängig von der Frontend Seite ausgeführt. Daher muss der Worker zuerst EINMAL gestartet werden.

R Worker Starten

install.packages(["math","ml","image"])
worker()

▸

[]

✗

≡

R Set-up

use math,plot,imager,geometry,cnn
dev.new(width=500)
print("Libraries opened.")
print(R.version)
options(digits=3)

▸

[]

✗

≡

Es wird in diesem Kurs der R-Dialekt r+ verwendet. R+ ist eine Reimplementierung von R in JavaScript und läuft direkt in Web Browsern und node webkit Applikationsprogrammen. Es ist keine Softwareinstallation erforderlich.

R+ ist nahezu R Syntax mit einigen Ergänzungen die die Programmierung und lesbarkeit von Programmen erleichtern.
Nicht alle R Packages sind in R+ enthalten, und es kann Abweichungen geben. Hier werden vor allem das imager, math, und cnn Package verwendet.
Dennoch lassen sich die meisten öffentlich verfügbaren algorithmischen Lösungen und Hilfestellungen mit R+ umsetzen.

Literatur

Lese "Learning R Programming" Kun Ren,2023

Synthetische Bilder

Synthetische Bilder können mit Matrizen oder Bildobjekten erstellt werden.
Matrizen sind immer monochromatische Grauwertbilder (zweidimensional)
Eine Matrix wird mit matrix(init,nrow,ncol) erzeugt
Alternativ kann als Initialwert auch ein Vektor (z.B. randomisiert mit runif(nrow*ncol)*scale) übergeben werden
Es sollten für Bilder kompakte und typisierte Arrays verwendet werden, d.h., mit dem Zusatz mode='uint8'. Gängige Datentypen sind uint8, uint16, und uint32. bei einige Berechnungen und Operationen muss float32 verwendet werden.
Im Package geometry gibt es eine Reihe von Funktionen um geometrische Objekte in Matrizen und Bildern zu erzeugen, wie z.B. (x ist eine Matrix oder ein Bild):
- draw.line(x,value,from,to)
- draw.rectangle(x,value,center?,left?,top?,width?,height?,angle?,filled?)
- draw.circle(x,value,center,width?,height?,radius?,angle?,filled?)

Synthetische Bilder sollten immer statistisch parametrisiert werden, d.h. unter Anwendung von Monte Carlo Simulation und Veränderung von Parametern.

Für diese Übung werden synthetische Bilder mit geometrischen Figuren (nicht gefüllt) erzeugt:
- Linie, Ellipse/Kreis, Rechteck, mit der mittleren Intensität i₁
- Nur ein Objekt pro Bild
- Es gibt einen Hintergrund nicht i₀, d.h. der Kontrast soll verkleinert werden:

\[ {C}=\frac{{{i}_{{1}}-{i}_{{0}}}}{{{i}_{{1}}+{i}_{{0}}}} \]

Universelle Funktion zum Erzeugen von synthetischen Geometriebildern. Es wird von einer Bildgröße von 32 × 32 Pixel ausgegangen.

im.width  = 32
im.height = 32
function generateImage(i0,i1,w,h,shape,filled) {
  im = matrix(i0+runif(1,-i0/10,i0/10),im.height,im.width,mode='uint8')
  p = [
    round(rnorm(1,im.width/10,im.width-im.width/10)),
    round(rnorm(1,im.height/10,im.height-im.height/10))
  ]
  if (shape == "circle") {
    a = runif(1,0,360)
    w = w+runif(1,-w/10,w/10)
    h = h+runif()
    draw.circle(im,i1,center=p,angle=a,width=w,height=h,filled=filled)
  } else if (shape=="rectangle") {
    a = runif(1,0,360)
    w = w+runif(1,-w/10,w/10)
    h = h+runif()
    draw.rectangle(im,i1+runif(1,-i1/10,i1/10),center=p,angle=a,width=w,height=h,filled=filled)  
  } else if (shape=="line") {
    a = runif(1,0,2*3.1415)
    dx = sin(a)
    dy = cos(a)
    p2 = [
      p[1]+round(dx*w),
      p[2]+round(dy*h)
    ]
    draw.line(im,i1+runif(1,-i1/10,i1/10),from=p,to=p2)  
  }
  im.noise = matrix(rnorm(im.height*im.width,0.8,1.2),im.height,im.width)
  im = im*im.noise
  { 
    w = w,
    h = h,
    a = a,
    shape = shape,
    center = p,
    image=im
  }
}
im.test = generateImage(50,200,8,10,'line',FALSE) 
plot(im.test$image,main=im.test$shape)

▸

[]

✗

≡

Aufgabe. Erzeuge einen Datensatz mit jeweils N Linien, Kreise, und Rechtecken. Nachfolgend ist dieses für Rechtecke gezeigt. Ergänze Kreise (Ellipsen mit w != h) und Linien (w und h geben die rechteckige Rahmenboxgröße an).

Datensatz Synthetische Bilder

use math,imager,plot
im.dataset = data.frame()
N = 100
for (i in 1:N) {
  w = runif(1,8,20)
  h = runif(1,8,20)
  im = generateImage(50,200,w,h,'rectangle',FALSE) 
  push(im.dataset,im)
}
# TODO Line, Ellipse/Circle
print(summary(im.dataset))
plot(im.dataset[1,"image"])

▸

[]

✗

≡

Randomisiertes Sampling

Bisher liegen die annotierten Beispielsdaten in einer Datentabelle in geordneter Reihenfolge. Für das Training (Anpassung) (und ggfs. den Test) eines datengetriebenen Modells M(x) ≈ f(x)=x→y sind aber randomisiert gereihte Dateninstanzen sinnvoll oder gar erforderlich (hängt vom Anpassungsverfahren ab).

Die Datentabelle mit annotierten (gelabelten) Dateninstanz soll eine randomisierte Reihenfolge der Zeilen erhalten.

Dazu verwendet man z.B. die sample Funktion

Beispiel Randomisiertes Sampling eines Vektors

x = [1,2,3,4]
print(sample(x))
print(sample(x,2))
print(sample(x,4,replace=TRUE))

▸

[]

✗

≡

Aufgabe. Erzeuge einen randomisiert gereihten Datensatz (im.dataset aus im.dataset).

Randomisiert gereihter Datensatz

use math,imager,plot
im.dataset = ...
print(summary(im.dataset))

▸

[]

✗

≡

Datenteilung: Trainings- und Testdaten

Ein Problem bei einer schrittweisen Anpassung eines Modells and Daten ist die Spezialisierung (Overfitting), d.h., das Modell kann nur bei den Trainingsdaten gute Ergebnisse liefern, nicht aber bei unbekannten (oder Testdaten).

Typischerweise teilt man die gesamte annotierte Datenmenge zu 80/20 % auf, Der Großteil wird für das Training verwendet.

Hat man nur eine kleine Datensatzmenge kann auch 100% für das Training verwendet werden. Dann ist aber keine Prüfung des Modells bezüglich Generalisierung und allgemeingültiger Qualität (Fehler, Akkuratheit, Präzision) möglich.

Die Aufteilung kann mit der split Funktion erfolgen
- Die Split Funktion teilte eine Datenmenge in Untermengen ein. Entweder sequenziell oder randomisiert (mit random=TRUE, aber immer disjunkte Mengen)
- Der prob=[p1,p2,..] Parameter ist ein Vektor der die verteilung der Daten auf die Partitionen angibt (Summe muss kleiner als 1 sein)
- Die Funktion gibt eine Liste der Partitionen zurück
- Die Split Funktion kann auf Vektoren ebenso auf Datentabellen angewendet werden.

Trainings- und Testdatenpartitionierung in R+

use math,imager,plot
parts = split(im.dataset,prob=[0.8,0.2],random=TRUE)
im.dataset.train = parts[[1]]
im.dataset.test  = parts[[2]]
print(summary(im.dataset.train))
print(summary(im.dataset.test))

▸

[]

✗

≡

Das CNN Modell

Ein CNN Modell besteht aus verschiedenen Ebenen:

Convolutional Layer (C): Mathematische kernelbasierte Matrixoperation hier mit mehreren Filtern (Kernels), mit bestimmten Padding und Striding ⇒ n Filter erzeugen aus einem Bild n neue Bidler!
- Dei einzelnen Filter (matrizen) sind unabhängig, deren Koeffizienten werden durch das Trasining angepasst
- Die Matrixoperation basiert auf Produkt-Summen (immer lineare Funktion)
Pooling Layer (P): Auch kerlnelbasierte Matrixoperation, aber nicht paramaterisierbar, d.h., Anwendung einer Funktion wie Maximumsauswahl oder Mittelwertberechnugn auf Filtermaske.
Funktionale Schicht (F): Abbildung von Matrizen durch Pixeloperation (z.B. ReLu Funktion);
Künstliches Neuronales Netzwerk (Fully Connected FCANN)
- Hier ist jedes Neuron mit allen Pixel aller Ausgabebilder der vorherigen Ebene verbunden!
- Ggfs. am Ausgang noch mit einer Softmax Funktion für Klassifikationsaufgaben
- Softmax impliziert immer eine FC Schicht

Aufgabe. Berechne für die verwendeten Netzwerke die Gesamtzahl dynamischer Parameter aus den einzelnen Schichten.

Das CNN Modell erstellen

use cnn
im.cnn = cnn({
   {type='conv',kernel.size=[4,4],filter=8 },
   {type='pool',kernel.size=[2,2] },
   # {type='fc',num.neurons=20 },
   {type='softmax', num.classes=3}
  },
  input.size=[32,32],
  labels = ['line','circle','rectangle']
  # batch.size = 5
)
print(summary(im.cnn))

▸

[]

✗

≡

Training des Modells

Das Training erfolgt mit cnn::train Funktion. Es wird benötigt:

Die Eingabedaten x (hier Liste von Bildmatrizen);
Die Ausgabedaten y (hier Vektoren von Zeichenketten, der Labels);
Oder eine Datentabelle bzw. Matrix mit einer Formel die den Ein -und Ausgabezusammenhang darstellt, d.h., y~x, jeweils mit den Spaltennamen ersetzt.
Das Training ist inkrementell, d.h., kann mehrfach hintereinander wiederholt werden. Eine Epoche durchläuft alle Instanzen des Trainingsdatensatzes!
Wir deine Callback Funktion angegeben wird das Training asynchron ausgeführt.

Aufgabe. Führe ein Training exemplarisch mit einem kleinen Netzwerk und N=100 durch (epochs=30) und notiere exemplarisch die Entwicklung des Loss- und kategorischen Fehlerwerts. Wie entwickelt sich das Training mit zunehmenden Epochen?

Das CNN Modell trainieren

# Asynchrone Funktion!
im.cnn.train.loss=list()
im.cnn.train.error=list()
cnn::train(im.cnn,
           im.dataset.train,
           formula=shape~image,
           epochs=30,
           callback=function (status) { 
             push(im.cnn.train.loss,status$loss)
             push(im.cnn.train.error,status$error)
             cprint(status)
           }
)

▸

[]

✗

≡

Trainingsverlauf plotten

plot(as.vector(im.cnn.train.loss),main="Loss")
plot(as.vector(im.cnn.train.error),main="Error")

▸

[]

✗

≡

Statistische Analyse

Der Loss oder Fehlerwert vom Training ist nur begrenzt aussagekräftig (und ist dynamisiert) wenn es um die Frage der Qualität des Modells und dessen Allgemeingültigkeit geht (Generalisierung). Dazu müssen die Trainings- und vor allem Testdaten nochmals vom Modell berechnet werden.

Was wird benötigt?

Der mittlere Klassifikationsfehler des Modells für:
- Trainingsdaten
- Testdaten
Der klassenspezifische Fehler, also die Konfusionsmatrix für:
- Trainingsdaten
- Testdaten
Accuracy, Precision, Recall, F1-Score

Die Berechnung des Modells mit Eingabedaten erfolgt mit cnn::predict(model,x). Man bekommt eine Liste mit {score:numeric,value:label} oder eine Datentabelle mit entsprechenden Spalten. Der Score ist der numerische Ausgabewert der Softmax oder Neuronenschicht, der Wert ist die kategorische Klasse als "best winner".

Statistische Analyse des Modells (und der Daten)

use math,plot,cnn,stats
results.train       = cnn::predict(im.cnn,im.dataset.train$image)
results.train.error = 1-sum(results.train$value==im.dataset.train$shape)/nrow(im.dataset.train)
results.test        = cnn::predict(im.cnn,im.dataset.test$image)
results.test.error = 1-sum(results.test$value==im.dataset.test$shape)/nrow(im.dataset.test)
print (paste(results.train.error*100,'%',results.test.error*100,'%'))
print(confusionMatrix(results.train$value,im.dataset.train$shape))
print(confusionMatrix(results.test$value,im.dataset.test$shape))

▸

[]

✗

≡

Frage. Was stellt man schon bei den ersten Versuchen fest (Ergebnisse für Trainings- versa Testdaten)?

Aufgabe

Wiederhole die Experimente für N=100 mit verschiedenen Modellarchitekturen:
- Ein CP Paar mit 8 Filtern
- Ein CP Paar mit 4 Filtern
- Zwei CP Paaren mit 4/4 Filtern
- Zwei CP Paaren mit 8/8 Filtern
Notiere die Ergebnisse. Wo gibt es Falschklassifikationen?
Wiederhole das Experiment mit N=500,1000. Gibt es eine Verbesserung?
Hat die Anzahl der Epochen einen Einfluss auf die Qualität des Modells (je mehr desto besser?). Es geht vor allem um die Ergebnisse mit den Testdaten.

Hilfe

Einreichung (Assignment #01-46158 )

Prüfen

Bewerten (Lehrer)

Created by the NoteBook Compiler Ver. 1.25.0 (c) Dr. Stefan Bosse (Tue Dec 19 2023 08:50:39 GMT+0100 (Central European Standard Time))