Status: Beginn der Arbeiten an der neuen Engine

Corvus

Zitat von The King

Hm, das wage ich gerade mit der heutigen Hardware stark zu bezweifeln. Außerdem müsstest du da allein bei deiner Spritegröße ~72.000 Sprites füllen, damit der Buffer auf eine annähernde Größe kommt. Die Devise hat ja gelautet, und lautet auch bis heute noch "Batchen, batchen, batchen". Deshalb, ohne dass ich es noch gebenchmarkt habe, wiegen die gewonnen Kosten durch die Verwendung eines einzelnen Buffers für so gut wie das ganze Programm (d.h. kein Bufferwechsel) garantiert jeden etwaigen Verlust durch die Größe aus.

Das kann man schwer nachprüfen. Ich habe nicht sehr viele verschiedene Rechner auf denen ich Benchmarks ausführen kann, ich könnte mir aber sehr wohl vorstellen, dass gewisse Hardware Probleme mit zu großen Buffern haben kann. Je nachdem wie die Daten auf der Karte abgelegt werden könnte es dort zu ziemlichem aufwand führen bei gewissen Größen.
Falls zum Beispiel alle Daten des Buffers in aufeinanderfolgenden Speicherblöcken platziert werden (um Performance zu gewinnen) so können zu große Buffer definitiv zu erhöhtem Aufwand führen.

Zitat von The King

Nein, das muss man so nicht machen, wäre in jedem Fall definitiv viel zu viel Aufwand, da geb ich dir Recht. Ich habe das so gelöst, dass ich die Sprite-Zeichen-Befehle nicht direkt auf den Buffer übertrage, sondern in einer Kommando-Queue zwischenspeichere. Diese sortiere ich dann nach Z und Textur (später noch shader), dauert wie ich bereits geschrieben habe nur wenige Millisekunden bei einer plausiblen Anzahl an Sprites. Damit kann ich dann einen Buffer verwenden, und den auch in einem Rutsch befüllen.

Das ist schon eine beträchtliche Menge an overhead. Sortieren nach 3 Kriterien kann im Worst-Case ziemlich schlechte Ergebnisse liefern. Vor allem wenn du pro Frame sortieren musst (wenn wir davon ausgehen, dass sich die Objekte in jedem Frame bewegen ==> Worst-Case)

Zitat von The King

Ein interessanter Unterschied der scheinbar zwischen OpenGL und DirectX existiert, in letzterem ist bis 9 die Performance enorm gesteigert wenn man jedes Frame den ganzen Buffer neu befüllt (da ansonsten die Grafikkarte hängt während man den Buffer sperrt). Dazu sperre ich am Ende des Frames den gesammten Buffer mit dem "DISCARD"-flag, damit er gelöscht wird, und danach bei jedem Sprite mit "NO-OVERWRITE", das garantiert der Grafikkarte dass sie den Buffer auch verwenden kann während die CPU arbeitet. Ab DirectX11 ist es sogar ohne diese Flags nicht mehr möglich, einen Buffer von CPU-Seite aus zu befüllen, d.h. es entsteht keinerleich Nachteil durch statische oder dynamische Sprites...

Das scheint tatsächlich ein Unterschied zu sein. In OpenGL sperrt man keine Buffer. Wie sich die Performance im Vergleich verhält zu komplettem Neu-befüllen oder teilweise Füllen dazu habe ich keine Daten, das könnte man aber sicher ausprobieren.

Zitat von The King

Das würd ich so nicht unbedingt sagen. Zumindestens die Sache multiple Bufferschreibvorgänge und mehrere Buffer erzeugt auch einen gewissen Overhead auf CPU-Seite, allein wegen der API-Aufrufe und des Speichertransfers... das wären in dem Fall 19k weniger Aufrufe zum Sperren des Buffers, das hat bei mir noch ne Menge Performance für die (noch) unoptimierte N^2 Kollisionabfrage rausgeholt...

Wenn du die Textur wechselst und den selben Buffer erneut zeichnest sind das ebenfalls Aufrufe an die Hardware. Ich würde lediglich einen zusätzlichen Aufruf zum binden des neuen Buffers hinzufügen. Das ist eine relativ schnelle Operation und bei kleinen Zahlen wie 5 oder 6 Buffern keinerlei Problem.

Juliean

Zitat

Das kann man schwer nachprüfen. Ich habe nicht sehr viele verschiedene Rechner auf denen ich Benchmarks ausführen kann, ich könnte mir aber sehr wohl vorstellen, dass gewisse Hardware Probleme mit zu großen Buffern haben kann. Je nachdem wie die Daten auf der Karte abgelegt werden könnte es dort zu ziemlichem aufwand führen bei gewissen Größen.
Falls zum Beispiel alle Daten des Buffers in aufeinanderfolgenden Speicherblöcken platziert werden (um Performance zu gewinnen) so können zu große Buffer definitiv zu erhöhtem Aufwand führen.

Müsste man aber tatsächlich erstmal benchmarken um zu wissen dass es sich hierbei um ein reales Problem handelt. Sonst nach dem Motto "Premature optimization is the root of all evil" eher das einfacherere und Programmiertechnisch gesehen eleganerte nehmen. Wenn das für dich mehrere Buffer sind, vollkommen in Ordnung, seh ich selber halt leicht anders. Ich werd selber eventuell benchmarks machen, sobald ich ein realistisches Szenario habe, um zu sehen welche Methode tatsächlich "besser" ist.

Zitat

Das ist schon eine beträchtliche Menge an overhead. Sortieren nach 3 Kriterien kann im Worst-Case ziemlich schlechte Ergebnisse liefern. Vor allem wenn du pro Frame sortieren musst (wenn wir davon ausgehen, dass sich die Objekte in jedem Frame bewegen ==> Worst-Case)

Nunja, die Sortierfunktion ist ja mal fast unabhängig von der Anzahl der Kritieren, da kommen lediglich ein paar Bool-Operationen dazu. In meinem Fall ist es gerade so, dass ein Großteil der Sprites eh schon in der richtigen Ordnung kommen: Die Tilemap kann ja mehr oder minder als ganzes gerendert werden, außer es schiebt sich hier und da ein Sprite dazwischen. Auf dem Papier mag die Soriertung vielleicht schlimm aussehen, realistisch gesehen braucht aber z.B. auf meinem PC gerade die Sortierung der gesamten Krystmap samt NPCs (insgesamt exakt 10.000 sprites) 0.00077 s, also nichtmal 5% der Ziel-Framerate von 60 FPS. Werd heute jedenfalls mal mit dem Z-Buffer spielen, und schauen wie sich die Sache verhält wenn ich nur noch Alpha-Sprites und den Rest getrennt nach der Textur sortiere (kleinere Container werden ja schneller sortiert). Einen richtigen Worst-Case durch Bewegung gibt es bei mir auch nicht, da ich ja die Zeichen-Kommandos sortiere, und die werden jeden Frame neu eingefügt. Ist eben so eine Sache, was auf dem Papier total abwegig klingt (statt direkt zu zeichnen erst Kommando-Klasse erstellung und in Vector einfügen; dann sortieren) kann realistisch gesehen so gut wie nichts ausmachen und wie in meinem Fall durch den einmaligen, Cache-Optimalen Füllvorgang des Vertexbuffers sogar Performance geben...

Aber irgendwie bin ich gerade unschlüssig, eigentlich könnte ich die opagen Sprites in verschiedene Kontainer, je nach Texture geben, und diese dann unsortiert sondern einfach mit einer doppelten Schleife in einen Buffer schreiben. Das sollte bei dir theoretisch auch funktionieren, oder ist das tatsächlich die Befürchtung dass ein großer Buffer langsamer sein könnte warum du automatisch mehrere Buffer für verschiedene Texturen hernehmen willst? Weil so bliebe der Sortiertschritt erspart, du müsstest halt lediglich die Sprites nicht direkt übertragen, sondern wie ich als sprite-Befehl zwischenspeichern und dann bearbeiten. Weiß nicht wieviel sich das dann bei OpenGL tatsächlich bringt, probieren würd ich es jedenfalls...

Zitat

Wenn du die Textur wechselst und den selben Buffer erneut zeichnest sind das ebenfalls Aufrufe an die Hardware. Ich würde lediglich einen zusätzlichen Aufruf zum binden des neuen Buffers hinzufügen. Das ist eine relativ schnelle Operation und bei kleinen Zahlen wie 5 oder 6 Buffern keinerlei Problem.

Ja, aber es ist eben ein Aufruf weniger. So gesehen genau 1/3 weniger aufrufe, gerade da der Vertex-Buffer-Wechsel zumindest in DirectX eines der teuresten Kommandos ist. Aber im Endeffekt kann man den Unterschied eh nur durch Benchmarks herausfinden. Ich werd mal, wenn genug Funktionalität und Kontent da ist, wohl ne kleine Benchmarking-Session einlegen... aber zur Zahl der Buffer, solltest du tatsächlich vorhaben für jede Textur einen eigenen Buffer zu verwenden, wird das abhängig von der Art des Spiels und der Maps schon viel höher sein. Ich kann nur sagen wie es bei Terranigma ist, du hast ja immer schonmal zwischen 3-5 NPCs auf der Map, dann hast du noch Ark. Arks Schatten im Sprung wäre noch etwas, dann die Tilemap. Autotiles sind auch eine eigene Grafik, die könnte man aber theoretisch in einen Atlas tun oder z.B. ans Tileset anfügen. Nebel, Panorama sind nochmal zusätzliche. Animationen wären auch im Endeffekt ihr eigener Buffer, bei Ark würde dann halt der hergenommen werden, aber zB. wenn ein Gegner gerade explodiert, aber ein anderer derselben Art noch da ist. Gold, sofern welches auf dem Boden liegt.
Da kann schon einiges zusammenkommen, klar könnte man das optimieren, und ist halt wirklich abhängig von wie dein Spiel ist. Das Thema ist jetzt eh ziemlich breitgetreten worden, ich seh halt insgesamt relativ viele Contras und nur sehr wenige Pros für die multiple Buffer-Methode, gerade wenn ich meine noch ausbaue, sodass die Sortierung im Endeffekt wegfällt... es ist halt nur der zusätzliche Schritt des Sammelns der Befehle dabei, das geht aber schon in den verschwindenden ns-Bereich...

Corvus

Zitat von The King

Müsste man aber tatsächlich erstmal benchmarken um zu wissen dass es sich hierbei um ein reales Problem handelt. Sonst nach dem Motto "Premature optimization is the root of all evil" eher das einfacherere und Programmiertechnisch gesehen eleganerte nehmen. Wenn das für dich mehrere Buffer sind, vollkommen in Ordnung, seh ich selber halt leicht anders. Ich werd selber eventuell benchmarks machen, sobald ich ein realistisches Szenario habe, um zu sehen welche Methode tatsächlich "besser" ist.

Da gibt es einen großen Unterschied zwischen DirectX und OpenGL. DirectX ist einheitlich auf allen Systemen da es von einer Instanz entwickelt wird. Bei OpenGL kann jeder Hardware-Produzent für jedes Modell eine andere Implementation durchführen.
Ich kann man vorstellen, dass es bei DirectX möglicherweise nicht zu einem Problem führt; aber bei OpenGL halte ich es sehr wohl für möglich, dass einige Hardware bei zu großen Buffern Probleme haben wird.
Es ist auch schwer festzustellen, was wirklich "besser" ist. Man verliert an einer Ecke um an der anderen zu gewinnen.

Zitat von The King

Nunja, die Sortierfunktion ist ja mal fast unabhängig von der Anzahl der Kritieren, da kommen lediglich ein paar Bool-Operationen dazu. In meinem Fall ist es gerade so, dass ein Großteil der Sprites eh schon in der richtigen Ordnung kommen: Die Tilemap kann ja mehr oder minder als ganzes gerendert werden, außer es schiebt sich hier und da ein Sprite dazwischen. Auf dem Papier mag die Soriertung vielleicht schlimm aussehen, realistisch gesehen braucht aber z.B. auf meinem PC gerade die Sortierung der gesamten Krystmap samt NPCs (insgesamt exakt 10.000 sprites) 0.00077 s, also nichtmal 5% der Ziel-Framerate von 60 FPS. Werd heute jedenfalls mal mit dem Z-Buffer spielen, und schauen wie sich die Sache verhält wenn ich nur noch Alpha-Sprites und den Rest getrennt nach der Textur sortiere (kleinere Container werden ja schneller sortiert). Einen richtigen Worst-Case durch Bewegung gibt es bei mir auch nicht, da ich ja die Zeichen-Kommandos sortiere, und die werden jeden Frame neu eingefügt. Ist eben so eine Sache, was auf dem Papier total abwegig klingt (statt direkt zu zeichnen erst Kommando-Klasse erstellung und in Vector einfügen; dann sortieren) kann realistisch gesehen so gut wie nichts ausmachen und wie in meinem Fall durch den einmaligen, Cache-Optimalen Füllvorgang des Vertexbuffers sogar Performance geben...

Das ist nicht ganz so simpel King. Vielleicht ist das nicht viel Arbeit für deinen PC, aber ein kleines Netbook oder ein schwacher Laptop könnte enorme Probleme mit der Sortierung haben. Du produzierst ja kein einfaches 2D-Spiel für Top-of-the-Line Hardware. Du musst dir Gedanken über deine Zielgruppe machen.
Ich persönlich will, dass mein Projekt auf möglichst vielen, auch sehr einfachen, Rechnern laufen kann. Ich programmiere genau deswegen mit Java und OpenGL damit das Projekt völlig unabhängig von dem OS und der Hardware ist. Gleichzeitig will ich lieber hier und dort auf Kleinigkeiten verzichten wenn sich dadurch große Mengen an Arbeit für die CPU einsparen lassen. Das Sortieren von allen Sprites nach 3 Kriterien in jedem einzelnen Frame gehört definitiv zu etwas, was ich lieber nicht implementieren will.

Zitat von The King

Aber irgendwie bin ich gerade unschlüssig, eigentlich könnte ich die opagen Sprites in verschiedene Kontainer, je nach Texture geben, und diese dann unsortiert sondern einfach mit einer doppelten Schleife in einen Buffer schreiben. Das sollte bei dir theoretisch auch funktionieren, oder ist das tatsächlich die Befürchtung dass ein großer Buffer langsamer sein könnte warum du automatisch mehrere Buffer für verschiedene Texturen hernehmen willst? Weil so bliebe der Sortiertschritt erspart, du müsstest halt lediglich die Sprites nicht direkt übertragen, sondern wie ich als sprite-Befehl zwischenspeichern und dann bearbeiten. Weiß nicht wieviel sich das dann bei OpenGL tatsächlich bringt, probieren würd ich es jedenfalls...

Ich verstehe im Moment nicht ganz worauf du mit einer doppelten-Schleife hinaus willst. Ich werde noch viele Tests über die kommenden Tage durchführen was das Buffern von Daten angehen wird. Ich werde einmal schauen was dabei herauskommt.

Zitat von The King

Ja, aber es ist eben ein Aufruf weniger. So gesehen genau 1/3 weniger aufrufe, gerade da der Vertex-Buffer-Wechsel zumindest in DirectX eines der teuresten Kommandos ist. Aber im Endeffekt kann man den Unterschied eh nur durch Benchmarks herausfinden. Ich werd mal, wenn genug Funktionalität und Kontent da ist, wohl ne kleine Benchmarking-Session einlegen... aber zur Zahl der Buffer, solltest du tatsächlich vorhaben für jede Textur einen eigenen Buffer zu verwenden, wird das abhängig von der Art des Spiels und der Maps schon viel höher sein. Ich kann nur sagen wie es bei Terranigma ist, du hast ja immer schonmal zwischen 3-5 NPCs auf der Map, dann hast du noch Ark. Arks Schatten im Sprung wäre noch etwas, dann die Tilemap. Autotiles sind auch eine eigene Grafik, die könnte man aber theoretisch in einen Atlas tun oder z.B. ans Tileset anfügen. Nebel, Panorama sind nochmal zusätzliche. Animationen wären auch im Endeffekt ihr eigener Buffer, bei Ark würde dann halt der hergenommen werden, aber zB. wenn ein Gegner gerade explodiert, aber ein anderer derselben Art noch da ist. Gold, sofern welches auf dem Boden liegt.
Da kann schon einiges zusammenkommen, klar könnte man das optimieren, und ist halt wirklich abhängig von wie dein Spiel ist. Das Thema ist jetzt eh ziemlich breitgetreten worden, ich seh halt insgesamt relativ viele Contras und nur sehr wenige Pros für die multiple Buffer-Methode, gerade wenn ich meine noch ausbaue, sodass die Sortierung im Endeffekt wegfällt... es ist halt nur der zusätzliche Schritt des Sammelns der Befehle dabei, das geht aber schon in den verschwindenden ns-Bereich...

Ich arbeite sehr viel mit großen Texturatlassen, sehr viele verschiedene Texturen verwende ich kaum, vor allem weil ja die einzelnen Sprites von diesen Spielen so klein sind.
Bei einer Tile-Größe von 16x16 ist eine 2048x2048 Textur eine ganze Menge. Abhängig von dem Spiel lassen sich dabei leicht alle bis hin zur Hälfte aller Tiles unterbringen. Damit vermindert man zusätzlich auch die Anzahl der Textur-Bindungen.

Bei OpenGL jedoch ist das binden eines Buffers nicht sehr teuer. Zumindest bei meinen Tests stellte es sich heraus, dass Buffer sehr viel schneller gebunden werden als Texturen und Shader.

Aber wie gesagt, wenig steht noch fest. Vielleicht werden meine Tests noch dazu führen, dass ich etwas verändern werde.

Juliean

Zitat

Da gibt es einen großen Unterschied zwischen DirectX und OpenGL. DirectX ist einheitlich auf allen Systemen da es von einer Instanz entwickelt wird. Bei OpenGL kann jeder Hardware-Produzent für jedes Modell eine andere Implementation durchführen.
Ich kann man vorstellen, dass es bei DirectX möglicherweise nicht zu einem Problem führt; aber bei OpenGL halte ich es sehr wohl für möglich, dass einige Hardware bei zu großen Buffern Probleme haben wird.
Es ist auch schwer festzustellen, was wirklich "besser" ist. Man verliert an einer Ecke um an der anderen zu gewinnen.

Treiberunterschiede gibt es sowohl bei DX als auch OpenGL, und soweit ich informiert bin ist die Situation gerade in den letzten Jahren bei OpenGL relativ vereinheitlicht worden. Es gibt auch bei DirectX bestimmte Dinge die auf fast jeder Hardware schneller laufen, aber bei einigen obskuren Low-Budget-Karten nochmal nen tick langsamer. Die Frage ist halt, ob man diese Einzelfälle auch unterstützen möchte. Die Sache kommt mir halt wirklich sehr vage vor, so wie die Behauptung dass std::vector<> langsamer wäre als ein pures Array, oder dass das direkte Übergeben eines vectors/map diese kopiert (mittlerweile erledigt der move constructor solche angelegenheiten)... konnte auch bei google und gamedev.net keinen einzigen Hinweis darauf finden dass soetwas schon einmal jemandem aufgefallen wäre, und da gibt es beiträge ob unsigned int oder int schneller sind Kommt mir daher etwas wie eine Vermutung aus dem Bauch heraus ohne wirklichen technischen Hintergrund vor, die zwar vorkommen könnte, aber nicht sehr wahrscheinlich ist. "Könnte", "müsste", "sollte" sind gefährliche Worte, und wie gesagt, "premature optimization" ist halt tatsächlich die Wurzel vieles übels...

Zitat

Das ist nicht ganz so simpel King. Vielleicht ist das nicht viel Arbeit für deinen PC, aber ein kleines Netbook oder ein schwacher Laptop könnte enorme Probleme mit der Sortierung haben. Du produzierst ja kein einfaches 2D-Spiel für Top-of-the-Line Hardware. Du musst dir Gedanken über deine Zielgruppe machen.

Zu verkomplizieren sollte man es aber auch nicht. Ein etwaiges Netbook in dieser Leistungsklasse wird gerade eine dermaßen miese Grafikkarte besitzen, dass im Verhältnis das Sortieren wenig herausfällt. So ist es zumindestens auch auf meinen zwei Laptops, einer etwas betagter, der andere mittelmäßig neu, bei keinem fällt das sortieren Überproportional ins Gewicht. Meine Zielgruppe, sofern sich die sich so einfach definieren lässt (immerhin schreibe ich die Engine unabhängig von 2D/3D, mit augenmerk auf 3D) sind jedenfalls nicht PCs von Anno Schnee die keine Liste von realistischen 500 Sprites sortieren können. Bei unseren Vergleichen von Zielgruppe zu reden finde ich auch nicht unbedingt zielführend (wortwitz, haha), da das Produkt im Endeffekt mit den tatsächlichen Werten an Ressourcen vmtl auf jedem Gammelpc laufen würde, auch wenn jedes Sprite fünfmal sortiert und dreimal übereinander gezeichnet würde. Da mir das aber nicht egal ist, schreib ich halt das was bei meinen verfügbaren Test-PCs am besten läuft, den Rest sehe ich dann eh in der Open-Beta.

Zitat

Ich verstehe im Moment nicht ganz worauf du mit einer doppelten-Schleife hinaus willst. Ich werde noch viele Tests über die kommenden Tage durchführen was das Buffern von Daten angehen wird. Ich werde einmal schauen was dabei herauskommt.

Naja, ich meine soetwas wie

Code

std::map<size_t, std::vector<SpriteCommand> m_vCommands // command vectors sorted by texture


for(auto& commandList : m_vCommands)
{
// set texture
for(auto& commandi : commandList)
{
// draw sprite
}
}

Alles anzeigen

Da würden halt die Sprite-Befehle per Texture-Ptr präsortiert werden, und dann automatisch in passender Reihenfolge ausgeführt. Wobei ich mir nicht sicher bin ob die wiederholten map-zugriffe das sortieren ausgleichen würde.

Zitat

Bei einer Tile-Größe von 16x16 ist eine 2048x2048 Textur eine ganze Menge. Abhängig von dem Spiel lassen sich dabei leicht alle bis hin zur Hälfte aller Tiles unterbringen. Damit vermindert man zusätzlich auch die Anzahl der Textur-Bindungen.

Verwendest du bereits animierte/autotiles? Diese erreichen nämlich teilweise enorme Ausmaße, sofern man diese "cachen" will (sonst müsste ich für jedes Autotile 4 Sprites verwenden, damit kann ich jetzt eines verwenden, muss dafür alle möglichen Kombinationen/Animationsstufen in eine Textur mergen). Ich hab auch noch nicht ausprobiert ob das ansortieren der Tiles in eine quadratisch 2^n textur irgendwelche Auswirkungen hat, derweil lade ich einfach die Tileset-Grafik so wie sie vom Maker kommt.

Zitat

Bei OpenGL jedoch ist das binden eines Buffers nicht sehr teuer. Zumindest bei meinen Tests stellte es sich heraus, dass Buffer sehr viel schneller gebunden werden als Texturen und Shader.

Die Frage ist, wie genau du getestet hast? Es kann sein dass das einbinden des Buffers selber schnell geht, aber dafür beim nächsten Draw-Call einiges mehr an Zeit draufgeht. Nur eine Möglichkeit, die mir so spontant einfallen würde.

Corvus

Zitat von The King

Treiberunterschiede gibt es sowohl bei DX als auch OpenGL, und soweit ich informiert bin ist die Situation gerade in den letzten Jahren bei OpenGL relativ vereinheitlicht worden. Es gibt auch bei DirectX bestimmte Dinge die auf fast jeder Hardware schneller laufen, aber bei einigen obskuren Low-Budget-Karten nochmal nen tick langsamer. Die Frage ist halt, ob man diese Einzelfälle auch unterstützen möchte. Die Sache kommt mir halt wirklich sehr vage vor, so wie die Behauptung dass std::vector<> langsamer wäre als ein pures Array, oder dass das direkte Übergeben eines vectors/map diese kopiert (mittlerweile erledigt der move constructor solche angelegenheiten)... konnte auch bei google und gamedev.net keinen einzigen Hinweis darauf finden dass soetwas schon einmal jemandem aufgefallen wäre, und da gibt es beiträge ob unsigned int oder int schneller sind Kommt mir daher etwas wie eine Vermutung aus dem Bauch heraus ohne wirklichen technischen Hintergrund vor, die zwar vorkommen könnte, aber nicht sehr wahrscheinlich ist. "Könnte", "müsste", "sollte" sind gefährliche Worte, und wie gesagt, "premature optimization" ist halt tatsächlich die Wurzel vieles übels...

Es gibt viele obskure Fallen im Hardware-Bereich. Ein Beispiel, welches ich bei OpenGL lernen musste, ist es, dass man wann immer möglich 4-byte Datentypen verwenden sollte. Wenn man zum Beispiel einen Indize-Buffer füllen will, und nur wenige Elemente zu speichern braucht kommt man einfach auf die Idee Bytes für die Indizes zu nehmen. Jedoch ist die Performance bei Bytes um ein vielfaches schlechter (bei meinen Tests ca 10 mal) als wenn man Integer verwendet.
Solche Sachen gibt es sehr wohl. Was deinen Vektor angeht so wäre ich schon skeptischer, auf Software-Seite, besonders bei C++, kann man nie so ganz sagen was schneller sein wird und was langsamer. Immerhin wird dort einiges optimiert und rausgekürzt.

Zitat von The King

Verwendest du bereits animierte/autotiles? Diese erreichen nämlich teilweise enorme Ausmaße, sofern man diese "cachen" will (sonst müsste ich für jedes Autotile 4 Sprites verwenden, damit kann ich jetzt eines verwenden, muss dafür alle möglichen Kombinationen/Animationsstufen in eine Textur mergen). Ich hab auch noch nicht ausprobiert ob das ansortieren der Tiles in eine quadratisch 2^n textur irgendwelche Auswirkungen hat, derweil lade ich einfach die Tileset-Grafik so wie sie vom Maker kommt.

Soweit ich mich korrekt errinere verwendet der RPG-Maker XP nur 48 Varianten pro Autotile. Das wären immernoch nicht sehr viele.
Aber nein, das Autotile-System wie im RPG-Maker verwende ich nicht. Es ist mir ein wenig zu grob und ich sehe im Moment nicht den Bedarf danach. Animierte Tiles sind jedoch relativ einfach. Je nach Anforderung kann man da verschiedene Ansätze wählen.

Juliean

Zitat

Es gibt viele obskure Fallen im Hardware-Bereich. Ein Beispiel, welches ich bei OpenGL lernen musste, ist es, dass man wann immer möglich 4-byte Datentypen verwenden sollte. Wenn man zum Beispiel einen Indize-Buffer füllen will, und nur wenige Elemente zu speichern braucht kommt man einfach auf die Idee Bytes für die Indizes zu nehmen.

Das erscheint mir gar nicht so obskur, sondern aufgrund der Art wie GPUs arbeiten logisch. Egal ob beim Arbeiten mit Shader, beim setzen von Konstanten-Register, überall werden prinzipiell floats (4byte) verwendet. Es gibt die Möglichkeit, Int und bool zu verwenden, aber sonst werden (DX) keine weiteren Datentypen mehr unterstüzt. Es gab mal half-precision, zumindestens in Shadern, aber das wurde bald eingestellt weil es nicht viel schneller war. DirectX erlaubt vmtl aus diesem Grund auch für die Index-buffer bloß 32 bit integer, in der 9er-Version waren auch 16-bit möglich. Die Vertex-Buffer kann man ebenfalls nur mit 32-Bit Daten füllen. Ich erinnere mich gehört zu haben, dass auch CPUs schneller mit 32-Bit Datentypen arbeiten, weswegen es nur von Performance-technischer Sicht aus wenig Sinn macht, short etc. zu verwenden (außer man hat andere Gründe dafür). Ist aber auch wieder ein gutes Beispiel für verfrühte Optimierung, die im Endeffekt die Performance verschlechtert, und warum das eben meistens schlecht ist (wobei es auch verständlich ist, immerhin ist Datentransfer ein großer Flaschenhals, da kommt man schon mal in Versuchung auch hier an der Optimierungsschraube zu drehen).

Zitat

Soweit ich mich korrekt errinere verwendet der RPG-Maker XP nur 48 Varianten pro Autotile. Das wären immernoch nicht sehr viele.

Ah, ich lese gerade, du verwendest nur 16x16-Tiles, ich hab derweil noch die vierfach-platzfressende 32*32er-Größe vom Maker drin. Werd wohl im Endeffekt wegen Speicher etc.. auch noch runtergehen, aber erstmal alles zum Laufen bekommen. Aber soweit sind 48*Frames (bis zu 16 maximal soweit) gar nicht so wenig.

Corvus

Aber Terranigma selbst verwendet doch nur, soweit ich mich errinere, 16x16 Tiles. Wieso verwendest du 32x32?

Juliean

Weil das der Standard vom Rpg-Maker war, und ich erstmal zum Maps importieren die alte Größe genommen habe. Wollte schon einfach 1:2 runterskalieren, da "ruckelt" aber im Moment noch die
Kamera zu heftig, brauch da noch eine Lösung - bei geringerer Präzision wird die Bewegung der Tilemap wenn sich die Kamera bewegt relativ stockend...

Corvus

Seit der letzten Erweiterung an der Engine bin ich jetzt auf 1.1 Millionen Dreiecke hoch gestiegen. Dazu haben eine Vielzahl von Veränderungen geführt, hauptsächlich aber das umstellen der Vektordaten.
Zuvor habe ich jeweils pro Eckpunkt eines Dreiecks x, y, z, u, v, r, g, b, a übertragen. Jetzt übertrage ich x, y, z, w, u, v, s, t, r, g, b, a. Dabei sind w, s und t einfach nur 1. Das war natürlich eine ziemliche Dummheit von mir diese Werte vorher einfach auszulassen.

Juliean

Zitat

Seit der letzten Erweiterung an der Engine bin ich jetzt auf 1.1 Millionen Dreiecke hoch gestiegen. Dazu haben eine Vielzahl von Veränderungen geführt, hauptsächlich aber das umstellen der Vektordaten.

Das das ja doch ein ziemlich hoher Wert ist, hab ich selber mal den Vergleich gemacht. Meine Setting sind 2560x1600 Auflösung, sämptliche Sprites sind random-verteilt über den Bildschirm, zwar statisch aber wie erwähnt macht das (auch gebenchmarkt) in meinem Fall keinen Unterschied. Ziel-FPS ist 60. Hier meine Ergebnisse:

- Zuallerstmal mein Test mit dem Entity/Component-System. Dabei ist jedes angezeigte Sprite voll funktionstüchtig: Animation, Richtungsänderung, Springen, etc... alles dabei. Dabei gibt es jetzt zwei Werte, die sich durch den ganzen Test durchziehen. Ich scheine nämlich ziemlich Füllraten/Sampling-Limitiert zu sein, sicher dass du bei deinen Tests nicht standardmäßig den Z-Buffer aktiviert hast? Mit Kopien von Ark als Entity komme ich auf 30.000 Entities, mit einem weißen 1x1-Punkt (dennoch Textur) auf 45.000. Das ist ein mehr als aktzeptierbarer Wert, sogar in Current-Gen Shootern wie Battlefield 3 befinden sich laut einiger interessanter Paper so gut wie nie mehr als 10.000 Einheiten auf einer Map. Das das Entity-System dennoch stark optimierungsfähig ist, gerade in Bezug auf Cache-Freundlichkeit, kommt ein etwas spezifischerer Test:

- Wenn es allein ums Sprite-Zeichnen geht, schaffe ich unsortiert mit dem weißen Punkt 350.000 Sprites, mit der Ark-Grafik lediglich 75.000 (dazu später der Kommentar). Unsortiert = der Sortierschritt wird weggelassen, trotzdem speichere ich die Kommandos zwischen und verarbeite sie "deferred". Und jetzt zum interessanten Teil:

- Sortiert schaffe ich mit dem weißen Punkt 100.000, mit den Ark-Sprites ebenfalls (!) 75.000. Dabei habe ich sowohl nach worst als auch best-case sortiert, die Ergebnisse sind annähernd ident. Je höher ich die Zahl an Arks schraube, desto geringer wird auch der Unterschied, sprich bei ~250.000 Arks beträgt die Framerate sortiert und unsortiert jeweils 12 FPS

Nun, finde ich alles relativ interessant. Zum einen bin ich hier offensichtlich stark Füllraten-Limitiert, das werde ich noch mit dem Z-Buffer nachtesten, ansonsten bin ich mit den Ergebnissen soweit zufrieden. Gerade die Sort-Tests bestätigen mich darin, dass bevor das Sortieren zum Problem wird, die anzezeigt Menge an Sprites zum Problem werden könnte. Schon klar, ich hab einen besseren PC, aber die Daten sind ja ganz eindeutig - meine CPU und GPU sind annähernd gleich alt und stark, und wenn mein i7 980X auf einem Kern (so enorm viel schneller ist das Teil bei single-threaded spielen gar nicht mal) bei n^2 komplexität bei n = 100.000 noch flüssig läuft, schafft das auch jede alte Gammelmaschine bei ~1000-2000 Sprites.

Achja, bevor ichs vergesse, hab mich aus eigenem Interesse mit unserem Fachbereichleiter Game & unserer Professorin für Computergrafik bzgl des Vertex-Buffer-Themas unterhalten, und beide haben mir nahegelegt dass soetwas definitiv auf neuerer Hardware unter keinen Umständen mehr vorkommt (= sofern nicht bei der Produktion enorm Mist gebaut wurde, da wär dann die ganze Karte Schrott). Was absolut dafür spricht dass die Hersteller das vermeiden wollen ist, dass im 3D-Bereich, der je mittlerweile hauptsächliche Zielgruppe der GraKa-Hersteller ist, die High-Poly-Modelle teils alleine mehrere Mbyte an Daten haben können (gut und gerne mal 100+byte für rigged meshes mit bump-map etc...), und gerade in AAA-Titel eine der verbreitsten Taktiken um die Performance zu erhöhen immer noch das Speichern von möglichst vielen Meshes in einem großen Vertexbuffer ist, um die Bufferwechsel zu minimieren. Teilweise werden sogar statische Meshes mehrere Male prä-transformiert abgelegt, um sie dann in einem Ruck zu zeichnen, in kombination mit riesigen Textur-Atlässen, um gleich 3-4 meshes zu kombinieren. Das würde nicht gemacht werden, wenn es dabei zu Performanceeinbußen käme, denn solche Buffer werden gut und gerne mehrere 100 MB groß. Der technische Hintergrund ist jener, dass zum einen die Grafikkarte die Daten ohnehin als Datenstrom interpretiert, sobald der Vertexbuffer geladen wurde, streamt sie einfach die Daten von Drawcall-Anfang bis Ende durch (wie halt im Call angegeben), da macht es keinen Unterschied ob der Buffer 1 kb oder 200 mb groß ist. Was den VB-wechsel tatsächlich so langsam gemacht hat, ist zum einen dass das Layout des Buffers mit den Shader-Daten und dem gewünschten Input-Layout verglichen werden musste, das fällt in DX11 zumindestens weg; außerdem kommt ein Stall zustanden, wenn du den Buffer wechselts während die Karte noch am zeichnen ist, das bekommst du beim aufruf direkt gar nicht mal mit, das verzögert aber spätestens beim Present-Aufruf (oder wie auch immer das bei OpenGL gehandhabt wird) die Programmausführung enorm.Tatsächlich erhöht es schon allein daher Performance, nur einen Buffer zu haben, weil dieser dann in einem Block im RAM liegt, was nicht nur das wechseln reduziert, aber im Fall des Wechsels das Laden schneller macht. Aus ähnlichem Grund verwenden manche Spiele einen eigenen Speicher-Allocator, der im voraus schonmal soviel Speicher in einem Block reserviert, wie nur irgendwie notwendig sein könnte (und um die Kosten des new-Aufrufs zu eliminieren). Aus ähnlichem Grund ist es auch Gang und Gäbe, die in DirectX11 eingeführten Konstantenbuffer nicht wie "gewohnt" pro Shader/Model/etc.. zu haben und zu wechseln, sondern nur einen CBuffer je Kategorie zu haben, und diesen dann vor jedem Drawcall neu zu befüllen. Das ist in den meisten Fällen um bis zu 100% schneller, auch wenn dabei u.u. öfter in den Buffer geschrieben werden muss, auch wenn sich die Daten nicht geändert hätten. Also wie gesagt, wer auch immer dich auf die Idee mit der Sache mit den großen Buffern und der schlechten Performance gebracht hat, das kannst du getrost vergessen, ist zumindestens heutzutage nicht mehr so.

Zitat

Zuvor habe ich jeweils pro Eckpunkt eines Dreiecks x, y, z, u, v, r, g, b, a übertragen. Jetzt übertrage ich x, y, z, w, u, v, s, t, r, g, b, a. Dabei sind w, s und t einfach nur 1. Das war natürlich eine ziemliche Dummheit von mir diese Werte vorher einfach auszulassen.

Das finde ich definitiv interessant, muss ich bei meinen Grafik-Klassen auch mal probieren. Sprites sind derweil noch auf 16 byte aligned. Ich weiß jedenfalls noch dass damals, als ich am 3D-Partikelsystem gearbeitet hatte, das weglassen von 2 float-Zahlen die Performance ziemlich erhöht hat, obwohl dann insgesamt bloß 18 float-Werte im Buffer waren. Da war ich aber auch ziemlich bandbreiten-limitiert, bzw. kann es leicht sein dass du in DX durch das sperren des Buffers damit halt wenig gewinnst, weil dann auch die immer-gleichbleibenden Daten mittransferiert werden... wobei ich sogar glaube, dass DX das automatisch aligned, macht er zumindest bei Konstantenregister so.

EDIT: Achja, weils mich auch interessieren würde, könntest du eventuell eine Test-Applikation von deiner Engine mit den Dreiecken erstellen, am besten mit veränderbarer Anzahl? Ansonsten mit der Anzahl wo bei dir gerade noch 60 FPS laufen, damit ich in etwa direkt vergleichen kann? Kann ich natürlich gerne auch für dich machen, falls es dich auch interessiert. Wobei mich ja schon interessieren würde wie die Sache auf deinem PC aussieht

Achja, allgemein, bisschen fetter hervorgehoben, ich werde heute oder morgen die erste Tech-Demo rausbringen, erstmal lediglich DX11, also für Win7+Nutzer, damit ich mal nen ersten Eindruck bekommen, und ihr seht wie sich das ganze in etwa so spielt...

Corvus

Hier eine kleine Test-Applikation für dich King. Sehr begrenzt im Funktionsumfang. Die Fenstergröße ist konstant bei 1024x1024, ich hoffe, das ist kein Problem für dich.
Les dir am besten die beigelegte Readme für die Steuerung durch. Außerdem ist es empfehlenswert das Programm über die Kommandozeile zu starten damit man entsprechende Print-Nachrichten lesen kann.
Es sollte sich aber auch durch einen Doppelklick starten lassen falls Java vollständig installiert worden ist.

Die neueste Version von Java ist notwendig um das Programm zu starten.

Edit: Du solltest beim ausführen beachten, dass ich Rechtecke zeichnen lasse und jedes Rechteck aus 2 Dreiecken besteht. Daher musst du die Anzahl der Pictures mit 2 multiplizieren um auf die Anzahl der Dreiecke zu kommen.

Juliean

Wollte es probieren, das Programm beendet sich aber jedesmal kurz nach dem Starten mit einem leeren schwarzen Bildschirm, ohne Fehlermeldung. Habs sowohl normal als auch über die Konsole probiert. Eben auch nochmal Java aktualisiert und neu gestartet, hilft nichts. ~~Scheint jedenfalls kein exception zu sein, weil die hatte ich vorher als ich aus der geöffneten rar-Datei starten wollte.~~ Verwende hier und hab gerade nur nen PC mit Win8 zur Hand, liegt es eventuell da dran?

EDIT: Diese etwas verwirrende Fehlermeldung wirft er mir, wenn ichs mit java -jar ausführe... hilft das weiter?

Corvus

Ja, sehr interessant.
Das ist wohl einer der Gründe, warum man das Programm auf verschiedener Hardware testen sollte. So wie es aussieht erstellt dein Grafikkartentreiber beim kompillieren eines Shaders eine Nachricht in das Log. Bei meiner Grafikkarte wird das Log nur für Fehlerfälle verwendet und ich habe, nachlässigerweise, Werte im Log als Fehler interpretiert. Ein ziemlich dummer Fehler meinerseits.

Hier, versuche es doch bitte nocheinmal.

Juliean

So, jetzt ging es. Habs mal soweit probiert, bis zu 300.000 Bilder zeigt er bei 60 FPS an, beim 4.ten mal 3 drücken springt er dann auf 4 runtern. Beim fünften mal auf 30, beim 6. mal schließt das Programm. Über die Kommandozeile lässt es sich interessanterweise immer noch nicht ausführen, er sagt mir es gibt kein "lwjgl in java.libary.path". Desktop klappt es aber soweit.

Nun zu meinen Vergleichsdaten auf diesem Laptop - unsortiert packt er 400.000 Bilder in dieser Größe (64x64 ca, habs auch mit deiner probiert) gerade einmal bei 2 (!) FPS. Profiling hat nochmal bestätigt dass die Aufrufe der Applikation und aus meiner Engine lediglich 5% der verbrauchten Leistung ausmachen - die CPU ist in der Zeit auf ca 1-2% Auslastung Höchststand. Auch bestätigen konnte ich, dass ich tatsächlich Füllratenlimitiert bin - reduziere ich die Output-größe auf kleiner als 4x4 pixel; oder bewege ich alle sprites außerhalb des Bildschirms, dann schafft meine Applikation in etwa exakt soviele wie deine. Zu diesem Zeitpunkt sind wir wohl beide Bus-Limitiert, der Datenaustausch zwischen CPU und GPU kann je nach PC nur so viele MB/GB pro sekunde betragen.

Nun muss ich dich also nochmal explizit fragen, bist du dir absolut sicher dass keine Technik wie etwa z-buffer, stencil oder ähnliches aktiviert ist, was den Overdraw reduzieren könnte? Das ist für mich gerade die einzige logische Erklärung, gerade da unsere Performance bei von mir reduziertem Overdraw nahezu ident sind...

EDIT: ... oder OpenGL handhabt exzessiven Overdraw besser als DX?

Corvus

Nun, OpenGL könnte wohl den standard Depth-Buffer aktiviert haben. Ich kann mich nicht errinern ob ich ihn explizit in der Applikation ausgeschaltet habe. Ich kann nocheinmal eine Version mit manuell deaktiviertem Depth-Buffer hochladen wenn du die Werte vergleichen willst.

Edit: Du musst übrigens bei der Applikation ein wenig warten wenn du die Framerate beobachtest. Er berechnet die aktuelle Framerate immer direkt aus dem Zeit unterschied zwischen dem aktuellen und dem letzten Frame. Das bedeutet, dass es immer wieder kleine Fluktuationen geben kann wenn gerade das Fenster verschoben wird, neue Bilder erstellt werden oder der Garbage-Kollektor seine Arbeit erledigt.

Juliean

Zitat

Nun, OpenGL könnte wohl den standard Depth-Buffer aktiviert haben. Ich kann mich nicht errinern ob ich ihn explizit in der Applikation ausgeschaltet habe. Ich kann nocheinmal eine Version mit manuell deaktiviertem Depth-Buffer hochladen wenn du die Werte vergleichen willst.

Es wäre sehr naheliegend, habe gerade selbst z-testing implementiert, und tatsächlich sind nun die Ergebnisse in etwa ident zu den deinen - 600.000 Bilder funktionieren nun z.B. mit 30 FPS, gegebenen eine optimale, aber unrealistische front-to-back Ordnung der Zeichen-Befehle (ohne sortierung). Muss schauen wie es aussieht wenn ich die front-to-back-sortierung tatsächlich implementiere, auf was für Werte ich dann komme.

Nun, soweit scheint es ja dass wir beide ziemlich am Hardware-Limit sind und das Programm selber wenig negativen Einfluss hat (was ja gut ist). Eventuell fällt dir eine Art von Benchmark ein die etwas mehr die tatsächlichen Render-Strukuren durchleuchtet?

Zitat

Edit: Du musst übrigens bei der Applikation ein wenig warten wenn du die Framerate beobachtest. Er berechnet die aktuelle Framerate immer direkt aus dem Zeit unterschied zwischen dem aktuellen und dem letzten Frame. Das bedeutet, dass es immer wieder kleine Fluktuationen geben kann wenn gerade das Fenster verschoben wird, neue Bilder erstellt werden oder der Garbage-Kollektor seine Arbeit erledigt.

Jup, das hab ich schon beachtet, er springt immer kurz etwas stark runter, und dann pendelt er sich auf einem fixen Wert ein. Gibt es eigentlich ne Möglichkeit für GL den VSYNC zu deaktivieren? Mich würde noch interessieren wie genau die FPS-Werte bei dir sind, abgesehen von den "Caps".

Corvus

Ja natürlich, VSYNC lässt sich deaktivieren. Ich weis im Moment auch nicht ob es bei der Applikation aktiviert ist, ich kenne die Standardwerte noch nicht ganz auswendig, aber ich würde glauben, dass es standardmäßig deaktiviert sei. Ich könnte mich aber auch irren.

Die Framerate wird bei diesem Testprogramm allerdings durch eine Softwareimplementation auf 60 frames pro Sekunde limitiert.

Ich habe auch ein paar weitere Tests durchgeführt. So wie es scheint ist standardmäßig der Depth-Buffer aktiviert. Bei deaktiviertem Depth-Buffer komme ich nurnoch auf ca 250 000 Dreiecke bevor die Framerate zu fallen beginnt.
Wenn ich die Framerate nichtmehr auf einen festen Wert zu beschränken versuche verbessert sich die Performance sogar noch bei weitem (bei aktiviertem Depth-Buffer). Bei 2000 Dreiecken (zu Beginn der Benchmark-Applikation) komme ich auf 1200 frames pro Sekunde.
Die 60 frames pro Sekunde Marke wird erreicht bei 2 000 000 Dreiecken. Wieso die Performance sich so stark verbessert hat kann ich im Moment nicht wirklich sagen. Ich werde einige weitere Nachforschungen benötigen um dem Ganzen auf den Grund zu gehen.

Edit: ich weis nicht recht weshalb du das Programm nicht über die Kommandozeile starten kannst. Bei mir funktioniert es nämlich. Die Fehlermeldung, welche du bekommst, deutet jedoch darauf hin, dass die OS-spezifischen Bibliotheken nicht gefunden werden können. Du kannst den Pfad zu den Bibliotheken selbst angeben wenn du das Programm über die Kommandozeile startest. Dafür musst du den Befehl "-Djava.library.path=<PATH>" verwenden. Es sollte aber eigentlich auch ohne funktionieren.
Bei mir funktioniert der einfache Aufruf: "java -jar Exe.jar"

Juliean

Zitat

Die 60 frames pro Sekunde Marke wird erreicht bei 2 000 000 Dreiecken. Wieso die Performance sich so stark verbessert hat kann ich im Moment nicht wirklich sagen. Ich werde einige weitere Nachforschungen benötigen um dem Ganzen auf den Grund zu gehen.

Eventuell ein Fehler in deiner Software-Frameschranke, welche die Gameloop unter bestimmten vorraussetzungen stalled? Ein exzellenter Artikel zu diesem Thema mit einer guten Implemententierung ist der Artikel "Fix your timestep", falls es dich interessiert und du ihn noch nicht kennst.

Ich bin auch noch auf etwas draufgekommen, nämlich kam meine "schlechte" Performance doch nicht alleine vom fehlenden z-buffer. Bis jetzt hatte ich nämlich keine Z-Koordinate übermittelt, sondern diese im Shader lediglich einheitlich auf 0.5 gesetzt. Und da scheint DirectX tatsächlich ein Problem zu haben, das ist mir schon früher mal aufgefallen beim Partikelsystem, aber dachte nicht dass es tatsächlich um so etwas triviales handelt. Auch jetzt, wenn alle Dreiecke auf der selben Position sind, egal ob mit oder ohne Z-Buffer, sinkt die Performance rapide ab. Kannst du ein ähnliches Verhalten auch feststellen (probier mal alle dreiecke auf exakt derselben z-position zu zeichnen), oder ist das ein DX-relatives Problem?

Zitat

Edit: ich weis nicht recht weshalb du das Programm nicht über die Kommandozeile starten kannst. Bei mir funktioniert es nämlich. Die Fehlermeldung, welche du bekommst, deutet jedoch darauf hin, dass die OS-spezifischen Bibliotheken nicht gefunden werden können. Du kannst den Pfad zu den Bibliotheken selbst angeben wenn du das Programm über die Kommandozeile startest. Dafür musst du den Befehl "-Djava.library.path=<PATH>" verwenden. Es sollte aber eigentlich auch ohne funktionieren.

Ich denke das kommt eher daher weil ich deine OpenGL-libary nicht installiert habe. Was mich aber immer noch verwundert, warum er dann überhaupt danach sucht, die dlls liegen ja bei...

EDIT: Übrigens, ich weiß nicht ob das in Java auch so einfach geht, aber in c++ kannst du eine zusätzliche Konsole öffnen lassen und den output auf diese umleiten, dass macht die Handhabung IMHO etwas einfacher...

EDIT2: Wegen der plötzliche erhöhten Performance, du schiebst eh nicht aus versehen Dreiecke aus dem darstellenbaren z-bereich? Das kann einiges an anscheinlicher Leistung erzeugen, wenn du z.B. den z-Wert inkrementiert und irgendwann über 1.01f kommst...

Corvus

Zitat von The King

Ich bin auch noch auf etwas draufgekommen, nämlich kam meine "schlechte" Performance doch nicht alleine vom fehlenden z-buffer. Bis jetzt hatte ich nämlich keine Z-Koordinate übermittelt, sondern diese im Shader lediglich einheitlich auf 0.5 gesetzt. Und da scheint DirectX tatsächlich ein Problem zu haben, das ist mir schon früher mal aufgefallen beim Partikelsystem, aber dachte nicht dass es tatsächlich um so etwas triviales handelt. Auch jetzt, wenn alle Dreiecke auf der selben Position sind, egal ob mit oder ohne Z-Buffer, sinkt die Performance rapide ab. Kannst du ein ähnliches Verhalten auch feststellen (probier mal alle dreiecke auf exakt derselben z-position zu zeichnen), oder ist das ein DX-relatives Problem?

Interessanterweise, ja. Wenn ich die Z-Koordinate aller Dreiecke fest auf 0.5 setze dann sinkt die Performance sogar ein ganzes Stück. Ich komme nurnoch auf ca. 600 000 Dreiecke. (Mit Depth-Buffer Funktion GL_LESS und Framerate limitiert auf 60 FPS)

Zitat von The King

Eventuell ein Fehler in deiner Software-Frameschranke, welche die Gameloop unter bestimmten vorraussetzungen stalled? Ein exzellenter Artikel zu diesem Thema mit einer guten Implemententierung ist der Artikel "Fix your timestep", falls es dich interessiert und du ihn noch nicht kennst.

Die Framerate wird nicht von mir limitiert. Ich verwende eine Implementierung der zugrundeliegenden Bibliothek LWJGL. Das ist die selbe Bibliothek, welche auch die OpenGL- und OpenAL-Aufrufe ermöglicht. Wie genau der Code dahinter ist weis ich nur grob.
Ich werde aber einmal in dem entsprechenden Support-Forum von LWJGL danach fragen ob jemand eine Lösung zu diesem Verhalten kennt.

Zitat von The King

Ich denke das kommt eher daher weil ich deine OpenGL-libary nicht installiert habe. Was mich aber immer noch verwundert, warum er dann überhaupt danach sucht, die dlls liegen ja bei...
EDIT: Übrigens, ich weiß nicht ob das in Java auch so einfach geht, aber in c++ kannst du eine zusätzliche Konsole öffnen lassen und den output auf diese umleiten, dass macht die Handhabung IMHO etwas einfacher...

Leider geht das in Java nicht so einfach. Es ist wirklich eine ganze Schwierigkeit eine native Konsole mit java zu öffnen und den Output darauf zu verlinken. Das hat etwas mit Sicherheit und Plattformunabhängigkeit zu tun. Normalerweise sollte jedes Java-Programm generell über die Konsole gestartet werden; dass die .jar Pakete mit dem Doppelklick gestartet werden können ist ein Luxus den es erst seit kurzem gibt und auch, soweit ich weis, nur auf Windows.
Die Bibliotheken müssen nicht installiert werden. Die .dll Dateien werden direkt über JNI aufgerufen. Ich habe die Bibliothek bereits in dem Java-Code verlinkt, daher verwundert es mich, dass bei dir die Bibliotheken nicht gefunden werden können.
Du könntest auch einmal probieren, ob es funktioniert die .dll Dateien einfach in das selbe Verzeichnis wie Exe.jar zu stecken. Standardmäßig sucht Java immer zuerst im selben Verzeichnis.

Zitat von The King

EDIT2: Wegen der plötzliche erhöhten Performance, du schiebst eh nicht aus versehen Dreiecke aus dem darstellenbaren z-bereich? Das kann einiges an anscheinlicher Leistung erzeugen, wenn du z.B. den z-Wert inkrementiert und irgendwann über 1.01f kommst...

Ich bewege die Bilder in dem Benchmark überhaupt nicht. Sie befinden sich immer im Bereich zwischen -1 und 1 auf allen Achsen.

Juliean

Zitat

Ich bewege die Bilder in dem Benchmark überhaupt nicht. Sie befinden sich immer im Bereich zwischen -1 und 1 auf allen Achsen.

Ah, das ist ein potentielles "gotcha", in Standard-DX-Konfiguration (wenn man den Viewport nicht manuell ändern) sind nur die Werte von 0.0<x<1.0 gültig. Ich glaube mich zwar entfernt zu erinnern dass bei OpenGL bisschen andere Werte da sind, aber da würde ich theoretisch nochmal nachprüfen, das würde nämlich bedeuten dass ca. die Hälfte der Dreicke durch den Tiefentest von vornherein übersprungen werden...

Zitat

Du könntest auch einmal probieren, ob es funktioniert die .dll Dateien einfach in das selbe Verzeichnis wie Exe.jar zu stecken. Standardmäßig sucht Java immer zuerst im selben Verzeichnis.

Ne, das hat sich leider auch nichts gebracht, weder bei den Dlls noch bei den andern zwei Jar-Dateien...

Jetzt mitmachen!