A Star in R

Gepostet: , Zuletzt aktualisiert:

a_star <- function(graph, heuristic, start, goal) {
  #' Finds the shortest distance between two nodes using the A-star (A*) algorithm
  #' @param graph an adjacency-matrix-representation of the graph where (x,y) is the weight of the edge or 0 if there is no edge.
  #' @param heuristic an estimation of distance from node x to y that is guaranteed to be lower than the actual distance. E.g. straight-line distance
  #' @param start the node to start from.
  #' @param goal the node we're searching for
  #' @return The shortest distance to the goal node. Can be easily modified to return the path.

  # This contains the distances from the start node to all other nodes, initialized with a distance of "Infinity"
  distances = rep(Inf, nrow(graph))
  
  # The distance from the start node to itself is of course 0
  distances[start] = 0
  
  # This contains the priorities with which to visit the nodes, calculated using the heuristic.
  priorities = rep(Inf, nrow(graph))
  
  # start node has a priority equal to straight line distance to goal. It will be the first to be expanded.
  priorities[start] = heuristic[start,goal]
  
  # This contains whether a node was already visited
  visited = rep(FALSE, nrow(graph))
  
  # While there are nodes left to visit...
  repeat {
    # ... find the node with the currently lowest priority...
    lowest_priority = Inf
    lowest_priority_index = -1
    for(i in seq_along(priorities)) {
      # ... by going through all nodes that haven't been visited yet
      if(priorities[i] < lowest_priority && !visited[i]){
        lowest_priority = priorities[i]
        lowest_priority_index = i
      }
    }
    if (lowest_priority_index == -1){
      # There was no node not yet visited --> Node not found
      return (-1)
    } else if (lowest_priority_index == goal){
      # Goal node found
      print("Goal node found!")
      return(distances[lowest_priority_index])
    }
    cat("Visiting node ", lowest_priority_index, " with currently lowest priority of ", lowest_priority)
    
    # ...then, for all neighboring nodes that haven't been visited yet....
    for(i in seq_along(graph[lowest_priority_index,])) {
      if(graph[lowest_priority_index,i] != 0 && !visited[i]){
        # ...if the path over this edge is shorter...
        if(distances[lowest_priority_index] + graph[lowest_priority_index,i] < distances[i]){
          # ...save this path as new shortest path
          distances[i] = distances[lowest_priority_index] + graph[lowest_priority_index,i]
          # ...and set the priority with which we should continue with this node
          priorities[i] = distances[i] + heuristic[i,goal]
          cat("Updating distance of node ", i, " to ", distances[i], " and priority to ", priorities[i], "\n")
        }
        # Lastly, note that we are finished with this node.
        visited[lowest_priority_index] = TRUE
        cat("Visited nodes: ", visited, "\n")
        cat("Currently lowest distances: ", distances, "\n")
      }
    }
  }
}

Über den Algorithmus und die Programmiersprache in diesem Snippet:

A Star

Der A-Stern-Algorithmus (A & ast;) ist ein Algorithmus, der verwendet wird, um das Problem des kürzesten Pfades in einem Graphen zu lösen. Dies bedeutet, dass bei einer Anzahl von Knoten und den Kanten zwischen ihnen sowie der “Länge” der Kanten (als “Gewicht” bezeichnet) und einer Heuristik (dazu später mehr) die A & ast; Der Algorithmus findet den kürzesten Weg vom angegebenen Startknoten zu allen anderen Knoten.

Beschreibung des Algorithmus

Das Grundprinzip des A-Stern-Algorithmus (A & ast;) besteht darin, den Knoten mit der aktuell kleinsten Priorität (der kürzesten Entfernung vom Start plus der Heuristik zum Ziel) iterativ zu betrachten und alle noch nicht besuchten Nachbarn zu aktualisieren, wenn der Pfad dazu über ist der aktuelle Knoten kürzer. Dies ist dem Dijkstra-Algorithmus sehr ähnlich, mit dem Unterschied, dass der Knoten mit der niedrigsten Priorität als nächstes besucht wird und nicht der Knoten mit der kürzesten Entfernung. Im Wesentlichen verwendet Dijkstra die Entfernung als Priorität, während A & ast; verwendet den Abstand plus der Heuristik.

Warum ist das Hinzufügen der Heuristik sinnvoll? Ohne sie hat der Algorithmus keine Ahnung, ob er in die richtige Richtung geht. Bei der manuellen Suche nach dem kürzesten Pfad in diesem Beispiel haben Sie wahrscheinlich Pfade nach rechts gegenüber Pfaden nach oben oder unten priorisiert. Dies liegt daran, dass sich der Zielknoten rechts vom Startknoten befindet, sodass das Gehen nach rechts zumindest im Allgemeinen die richtige Richtung ist. Die Heuristik gibt dem Algorithmus diese räumlichen Informationen.

Wenn also ein Knoten die derzeit kürzeste Entfernung hat, aber im Allgemeinen in die falsche Richtung geht, während Dijkstra diesen Knoten als nächstes besucht hätte, wird A Star dies nicht tun. Damit dies funktioniert, muss die Heuristik zulässig sein, was bedeutet, dass sie die tatsächlichen Kosten (d. H. Die Entfernung) niemals überschätzen darf - was beispielsweise für die geradlinige Entfernung in Straßennetzen der Fall ist. Intuitiv übersieht der Algorithmus auf diese Weise niemals einen kürzeren Pfad, da die Priorität immer niedriger als die tatsächliche Entfernung ist (Wenn der aktuell kürzeste Pfad A ist, wird Pfad B untersucht, wenn er auf irgendeine Weise kürzer sein könnte.) Eine einfache Heuristik, die diese Eigenschaft erfüllt, ist die geradlinige Entfernung (z. B. in einem Straßennetz).

Im Einzelnen führt dies zu den folgenden Schritten:

  1. Initialisieren Sie den Abstand zum Startknoten als 0 und den Abstand zu allen anderen Knoten als unendlich
  2. Initialisieren Sie die Priorität zum Startknoten als geradlinigen Abstand zum Ziel und die Prioritäten aller anderen Knoten als unendlich
  3. Setzen Sie alle Knoten auf “nicht besucht”.
  4. Während wir nicht alle Knoten besucht und den Zielknoten nicht gefunden haben:     1. Suchen Sie den Knoten mit der aktuell niedrigsten Priorität (beim ersten Durchgang ist dies der Quellknoten selbst).     1. Wenn es sich um den Zielknoten handelt, geben Sie dessen Entfernung zurück     1. Überprüfen Sie für alle Knoten daneben, die wir noch nicht besucht haben, ob die derzeit kleinste Entfernung zu diesem Nachbarn größer ist, als wenn wir über den aktuellen Knoten gehen würden     1. Wenn dies der Fall ist, aktualisieren Sie die kleinste Entfernung dieses Nachbarn auf die Entfernung von der Quelle zum aktuellen Knoten plus die Entfernung vom aktuellen Knoten zu diesem Nachbarn und aktualisieren Sie die Priorität auf die Entfernung plus die geradlinige Entfernung zu der Zielknoten

Beispiel des Algorithmus

Betrachten Sie das folgende Diagramm: Grafik für den A-Star-Algorithmus (A & ast;) für kürzeste Wege

Die Schritte, die der Algorithmus in diesem Diagramm ausführt, wenn Knoten 0 als Startpunkt und Knoten 5 als Ziel in der angegebenen Reihenfolge angegeben werden, sind:

  1. Besuch des Knotens 0 mit der derzeit niedrigsten Priorität von 8,0
  2. Aktualisieren der Entfernung von Knoten 1 bis 3 und der Priorität auf 9.32455532033676
  3. Aktualisieren der Entfernung von Knoten 2 bis 4 und der Priorität auf 10.32455532033676
  4. Besuch von Knoten 1 mit der derzeit niedrigsten Priorität von 9.32455532033676
  5. Aktualisieren der Entfernung von Knoten 3 auf 9 und der Priorität auf 11.82842712474619
  6. Aktualisieren der Entfernung von Knoten 4 auf 13 und der Priorität auf 15.82842712474619
  7. Besuch von Knoten 2 mit der derzeit niedrigsten Priorität von 10.32455532033676
  8. Besuch von Knoten 3 mit der derzeit niedrigsten Priorität von 11.82842712474619
  9. Aktualisieren der Entfernung von Knoten 5 auf 12 und der Priorität auf 12.0
  10. Zielknoten gefunden!

Endgültig niedrigster Abstand von Knoten 0 zu Knoten 5: 12

Laufzeit des Algorithmus

Die Laufzeitkomplexität von A Star hängt davon ab, wie es implementiert wird. Wenn ein Min-Heap verwendet wird, um den nächsten zu besuchenden Knoten zu bestimmen, und die Adjazenz unter Verwendung von Adjazenzlisten implementiert wird, ist die Laufzeit O(| E | + | V | log | V|) (|V| = Nummer Anzahl der Knoten, |E| = Anzahl der Kanten). Wenn wir einfach alle Entfernungen durchsuchen, um den Knoten mit der niedrigsten Entfernung in jedem Schritt zu finden, und mithilfe einer Matrix nachsehen, ob zwei Knoten benachbart sind, steigt die Laufzeitkomplexität auf O(| V | ^ 2).

Beachten Sie, dass dies dasselbe ist wie bei Dijkstra. In der Praxis können jedoch bei Auswahl einer guten Heuristik viele der Pfade eliminiert werden, bevor sie untersucht werden, was zu einer signifikanten Zeitverbesserung führt.

Weitere Informationen darüber, wie die Heuristik die Komplexität beeinflusst, finden Sie im Wikipedia-Artikel.

Speicherkomplexität des Algorithmus

Die Speicherplatzkomplexität von A Star hängt davon ab, wie es ebenfalls implementiert ist, und entspricht der Laufzeitkomplexität sowie dem für die Heuristik erforderlichen Speicherplatz.

R

The R Logo

R ist eine interpretierte Sprache, die erstmals 1993 veröffentlicht wurde und in den letzten Jahren erheblich an Popularität gewonnen hat. Es wird hauptsächlich für Data Mining und -science sowie für Statistiken verwendet und ist eine beliebte Sprache in Disziplinen außerhalb der Informatik, die von Biologie bis Physik reichen. R ist dynamisch typisiert und verfügt über eine der vielfältigsten Bibliotheken für Statistik, maschinelles Lernen, Data Mining usw.

<! - Ende des Auszugs ->

Anreise zu “Hello World” in R.

Das Wichtigste zuerst - hier erfahren Sie, wie Sie Ihre erste Codezeile in R ausführen können.

  1. Laden Sie die neueste Version von R von r-project.org herunter und installieren Sie sie. Sie können auch eine frühere Version herunterladen, wenn Ihr Anwendungsfall dies erfordert.
  2. Öffnen Sie ein Terminal, stellen Sie sicher, dass der Befehl R funktioniert und dass der Befehl, den Sie verwenden werden, sich auf die Version bezieht, die Sie gerade installiert haben, indem SieR --version ausführen. Wenn der Fehler “Befehl nicht gefunden” (oder ähnlich) angezeigt wird, starten Sie die Befehlszeile und, falls dies nicht hilft, Ihren Computer neu. Wenn das Problem weiterhin besteht, finden Sie hier einige hilfreiche Fragen zu StackOverflow für Windows, Mac und Linux .
  3. Sobald dies funktioniert, können Sie das folgende Snippet ausführen: print (" Hello World "). Sie haben zwei Möglichkeiten, dies auszuführen: 3.1 Führen Sie “R” in der Befehlszeile aus, fügen Sie einfach das Code-Snippet ein und drücken Sie die Eingabetaste (Drücken Sie “STRG + D” und geben Sie “n” gefolgt von der Eingabetaste ein, um das Menü zu verlassen). 3.2 Speichern Sie das Snippet in einer Datei und nennen Sie es etwas, das mit “.R” endet, z. hello_world.R und führen SieRscript hello_world.R aus. Tipp: Verwenden Sie den Befehl ls (dir in Windows), um herauszufinden, welche Dateien sich in dem Ordner befinden, in dem sich Ihre Befehlszeile gerade befindet.

Das ist es! Beachten Sie, dass das Drucken von etwas auf die Konsole nur eine einzige Zeile in R ist - diese niedrige Eintrittsbarriere und das Fehlen des erforderlichen Boilerplate-Codes machen einen großen Teil der Attraktivität von R aus.

Grundlagen in R.

Um in R implementierte Algorithmen und Technologien zu verstehen, muss man zunächst verstehen, wie grundlegende Programmierkonzepte in dieser bestimmten Sprache aussehen.

Variablen und Arithmetik

Variablen in R sind wirklich einfach. Sie müssen weder einen Datentyp deklarieren noch deklarieren, dass Sie eine Variable definieren. R weiß das implizit. R ist auch in der Lage, Objekte und ihre Eigenschaften auf verschiedene Arten einfach zu definieren.

some_value = 10
my_object <- list(my_value = 4)
attr(my_object, 'other_value') <- 3

print((some_value + my_object$my_value + attr(my_object, 'other_value'))) # Prints 17

Arrays

Das Arbeiten mit Arrays ist in R ähnlich einfach:

# Create 2 vectors of length 3
vector1 <- c(1,2,3)
vector2 <- c(4,5,6)

# Create names for rows and columns (optional)
column.names <- c("column_1","column_2","column_3")
row.names <- c("row_1","row_2")

# Concatenate the vectors (as rows) to form an array, providing dimensions and row/column names
result <- array(c(vector1,vector2), dim = c(2,3), dimnames = list(row.names, column.names))

print(result)
# Prints:
#       column_1 column_2 column_3
# row_1        1        3        5
# row_2        2        4        6

Wie diejenigen unter Ihnen, die mit anderen Programmiersprachen wie Java vertraut sind, möglicherweise bereits bemerkt haben, handelt es sich nicht um native Arrays, sondern um Listen, die wie Arrays gekleidet sind. Dies bedeutet, dass Arrays in R erheblich langsamer sind als in Programmiersprachen niedrigerer Ebene. Dies ist ein Kompromiss, den R zugunsten der Einfachheit eingeht. Es gibt jedoch Pakete, die echte Arrays implementieren, die erheblich schneller sind.

Bedingungen

Wie die meisten Programmiersprachen kann R “if-else” -Anweisungen ausführen:

value = 1
if(value==1){
   print("Value is 1")
} else if(value==2){
     print("Value is 2")
} else {
     print("Value is something else")
}

R kann auch switch-Anweisungen ausführen, obwohl sie im Gegensatz zu anderen Sprachen wie Java als Funktion implementiert sind:

x <- switch(
   1,
   "Value is 1",
   "Value is 2",
   "Value is 3"
)

print(x)

Beachten Sie, dass diese Funktion ziemlich nutzlos ist, es jedoch andere Funktionen für komplexere Anwendungsfälle gibt.

Schleifen

R unterstützt sowohl for- als auch while-Schleifen sowie break- und next-Anweisungen (vergleichbar mit continue in anderen Sprachen). Zusätzlich unterstützt R “Wiederholungsschleifen”, die mit “while (true)” - Schleifen in anderen Sprachen vergleichbar sind, aber den Code ein wenig vereinfachen.

value <- 0
repeat {
  value <- value + 1
  if(value > 10) {
    break
  }
}
print(value)

value <- 0
while (value <= 10) {
  value = value + 1
}
print(value)

value <- c("Hello","World","!")
for ( i in value) {
  print(i)
}

for(i in 1:10){
  print(i)
}

Funktionen

Funktionen in R sind einfach zu definieren und erfordern zum Guten oder Schlechten keine Angabe von Rückgabe- oder Argumenttypen. Optional kann ein Standardwert für Argumente angegeben werden:

my_func <- function (
  a = "World"
) {
  print(a)
  return("!")
}

my_func("Hello")
print(my_func())

(Dies druckt “Hallo”, “Welt” und dann ”!“)

Syntax

R erfordert die Verwendung von geschweiften Klammern ({}), um Codeblöcke in Bedingungen, Schleifen, Funktionen usw.; Dies kann zwar zu lästigen Syntaxfehlern führen, bedeutet jedoch auch, dass die Verwendung von Leerzeichen für die bevorzugte Formatierung (z. B. Einrücken von Codeteilen) den Code nicht beeinflusst.

Fortgeschrittenes Wissen in R

Für weitere Informationen hat R einen großartigen Artikel Wikipedia. Die offizielle Website ist r-project.org.