Tender Zen Dokumentation

Juni 23, 2026 GF Daily - Transkript 00:00:00

Jorrit Posor: Also als Hollow Tast für Carol könnte sein Document Loading von Tenderdokumenten in der entweder in der DBT Pipeline oder in Verbindung mit dem Suchchaent E-Mail Agent mit der Verbindung mit E-Mail Agent so dass quasi der E-Mail Agent die Document Analysen triggert. Ein anderes Thema wären für Carola wären Evils für die Analyse und die Workspace Features, also den Chat Agent Analyse Teil, um validieren zu können, wie gut verschiedene LMs ja abschneiden in diesen Features. Genau. Was hast du noch gehabt, Fabian, für Tasks für sie? Fabian Hertwig: Ja, ansonsten gibt's noch so ein paar Customer Support Sachen. Ähm, also ein Ding ist, dass die Suche gerade verbessert werden müsste, aber da muss man irwi so einen guten Tradeoff zwischen Timeouts, Länge, die der Nutzer warten muss und Suchergebnisse finden. Jorrit Posor: Mhm. Fabian Hertwig: Ähm ja und bei also ein ein Thema ist auch der Referenzupload, wie man den irgendwie besser gestalten kann, weil irgendwie so, aber da bin ich auch schon mitten in dem Task drin. Es gibt so ein paar Task, da bin ich irgendwie so mittendrin. Ähm und die könnte ich abgeben, aber ich glaube, es macht nicht so viel Sinn, da dass sie irgendwie sich da reinfuchsen muss und dann damit loslegen

00:01:45

Jorrit Posor: stehe. Ja, ja, ja, ja. Fabian Hertwig: muss. Jorrit Posor: Ähm, was werden jetzt am aus sagen mal Wachstums sicht die beste Fabian Hertwig: Ich finde diese Evals eigentlich am coolsten, Jorrit Posor: Aktivität? Fabian Hertwig: weil also wenn wir also ein wichtiges Ding ist ja, dass die richtigen Requirements aus den Ausschreibung rausgelesen werden oder richtiges Datum rausgelesen wird und so. Jorrit Posor: Mhm. Fabian Hertwig: Ähm und wenn wir dann E-Wall haben, dann könnten wir das auch ein bisschen besser vergleichen mit irgendwie Chat GPT oder so oder einem ganz normalen Cloud Code und dann auch den Wert zeigen von Tender Send, also wenn es dann bei uns besser funktioniert und vielleicht können wir es auch optimieren dazu, dass es besser funktioniert bei uns. Jorrit Posor: Ah ja, die können wir nutzen als Marketinginstrument. Ja. Ähm und aber gut, du hast jetzt gesagt, dass do dass dass das Datum ausgelesen wird, an welcher Stelle wä der wä diese Eval zu bauen P bei Analyse, Fabian Hertwig: bei der Ja, Jorrit Posor: das dann Datum Fabian Hertwig: Analyse geht's halt drum so verschiedene Informationen richtig rauszulesen aus den Dokumenten und damit mir ein E-Ball für aufbauen. Jorrit Posor: m Ja. Fabian Hertwig: Und ich glaube beim Workspace geht's eigentlich nur drum, kann der Agent die Tools, die da sind, richtig verwenden, um bestimmte Aufgaben zu

00:03:14

Jorrit Posor: Ja, ja, ja, ja. Okay. Fabian Hertwig: erledigen. Jorrit Posor: Äh ja, dann dann lass ich sie vielleicht mal so Analyse überalls irgendwie mal spezifizieren erstmal und dann können wir mal drauf schauen, oder? Fabian Hertwig: Ja, also ich glaube eine Frage ist, wie baut man so eweils überhaupt auf? Also was ist das Tooling dafür? Wie wird die Bewertung gemacht? Jorrit Posor: Mhm. Fabian Hertwig: Ähm und dann was wären eigentlich die TAS und wie kommen wir zu den TAS oder zu den Daten für die TAS? Jorrit Posor: Verstanden. Ja, ja, ja, ja, ja, ja, ja. Okay. Ähm, dann gebe ich mal so weiter an Sie oder Fabian Hertwig: Ja. Jorrit Posor: hieß aber auch sie müsste erstmal einen Router einbauen. Das wäre erstmal eine ganz einfache Aufgabe, wenn wir jetzt verschiedene Modelle vertesten wollen. Der müssen wir gucken wir machen. Fabian Hertwig: Ich Jorrit Posor: Ich muss mal Gedanken machen, wie ich es eigentlich bauen würde. Würdest du aus technischer Sicht hast du Ideen, wie du so jeweils aufsetzen würdest? Mal ganz grob. Hast du da irgende Architektur im Kopf?

00:04:29

Jorrit Posor: Also, wo das reinkommt, bisschen Tender Ding rein oder? Fabian Hertwig: glaube, es wäre eigentlich was getrenntes. Jorrit Posor: Mhm. Fabian Hertwig: Ähm, aber die Frage ist halt dann auch, wie man eine Vergleichbarkeit hinbekommt. So, man muss ja dann die gleichen Models mit den gleichen Proms und eigentlich irgendwie so den gleichen Hannes verwenden. Jorrit Posor: könnte man so eine EV Library aufbauen und dann sagen, okay, wir haben irgendwie Die Production Daten sind ja die, also man könnte doch in eine Analyse reinschauen, wie istind das Datenschut? Also, ich habe jetzt irgendwie einen Tender gespeichert und dann hänge ich da die Analysen dran oder als ich auch egal. Fabian Hertwig: Mhm. Jorrit Posor: Und dann könnte ich das ja sagen, okay, das sind die Gemini 25 Flash Analysen und die Dokumente liegen als Strig vor und dann könnte ich eigentlich ein anderes Modell nehmen und sagen, schau mal auf die Analyse und und könnte es als Judge verwenden, oder? Fabian Hertwig: Ja. Jorrit Posor: Und die Promps sind doch auch alle im auslesbar. Also eigentlich könnte doch das Eval System sozusagen die sag mal echte Analyseergebnisse von Kunden z.B. oder von wichtigen Kunden nehmen. Also z.B. von Adasa. Die spanischen, die haben wir ganz besondere Anforderung.

00:05:48

Jorrit Posor: die Promps ja voll getuned. Eigentlich könnte man noch versuchen für für eigentlich, wenn man auf die Spitze treibt, könnte man ja pro Kunde und das wäre auch was verkaufen könnte, Fabian Hertwig: A Jorrit Posor: können man sagen, okay, pro Kunde automatisch herausfinden, welches welches LM am besten für seine Pomps performt und dann halt auch fällt. könnst halt so ein LMSer Judge nehmen und sagen, okay, führe jetzt mal weiß nicht fünf verschiedene Modelle aus und danach mache irgendwie so ein Deep Review drauf und validiere hoch und runter, welches von diesen fünf Modellen hat die besten, sag mal, One Shot Ergebnisse geliefert und dann wählst du das halt nur als du musst Beispiel, ich glaube, ich will es nicht so machen, Fabian Hertwig: อื Jorrit Posor: aber ähm die E-Wals könnten wir eigentlich auf den echten Daten auch bauen, oder? Fabian Hertwig: M. Jorrit Posor: Ähm und dann eigentlich entweder pro Kunde oder erstmal Plattform übergreifen eine Entscheidung machen, welche welche Analysen sind am besten? Fabian Hertwig: Ich glaube, das Problem bei den Evals ist, dass du irgendwie eine Metrik brauchst, die sagt, was richtig ist. Jorrit Posor: Ja. Fabian Hertwig: Und bei so einem Tender müsstest du halt, also wenn es jetzt z.B. um geht, die Requirements an Referenzen rauszufinden, dann müsstest du halt einmal irgendwie so gut wie möglich die echten Requirements rausholen und dann das zu deinem E-Wailensatz machen,

00:07:09

Jorrit Posor: Mhm. Fabian Hertwig: also quasi Ausschreibungsdokumente und die Requirements und dann kann man das vergleichen mit dem, Jorrit Posor: Mhm. Fabian Hertwig: was verschiedene Modelle rausten. Jorrit Posor: Ja, Fabian Hertwig: M. Jorrit Posor: das stimmt noch was so ein so ein Evolensatz. Okay. Ja, ich überlege mir mal was ähm in der Richtung und vielleicht verbotrappen das ja erst mal mit unseren sag mal Kunden äh Prodd Daten und irgendwie so ein Judge als Quantifizierung oder würdest du direkt sagen: Fabian Hertwig: Mm. Jorrit Posor: "Hey, nimm uns irgendwie verschiedene Ausschreibungen, zieh da alle Requirements raus und das und also würdest du erst ein Datensatz aufbauen? oder erstmal so mit so einem Judge Approach starten, der eigentlich autonom juden kann, ohne dass du ein Datenbank Datensatz bauen Fabian Hertwig: versuchen den Datensatz aufzubauen, weil ich glaube es ist wichtig, Jorrit Posor: musst. Fabian Hertwig: dass man da einen festen Datensatz hat, den man den man wieder verwenden kann. Und bei dem Judge, also der hat ja dann auch noch nichts, womit er das vergleichen kann. Also der Judge müsste ja dann selber in die Ausschreibungsdokumente gucken und schauen, stimmt es, was das Ergebnis Jorrit Posor: Ja.

00:08:26

Jorrit Posor: Ja, ich glaub, Fabian Hertwig: ist. Jorrit Posor: dass dieses Judge Konzept so ein bisschen so ein so ein so ein Floor hat, weil das halt einfach, also müss eigentlich auch den Judge juden und dann müsst du den Judge, der den Judge Judge juden und eigent irgendeiner Stelle brauchst du einmal den Menschen, der halt sagt, Fabian Hertwig: M. Jorrit Posor: okay, das ist die das ist die quasi Grundwahrheit und äh alles was davon abweicht ist falsch. Fabian Hertwig: Ich glaube, man könnte, wenn man jetzt das erste Mal die Requirements aussieht, dann könnte man da so ein bisschen mehr Computer drauf stecken, also wie Textgrad oder so, Jorrit Posor: Ja. Fabian Hertwig: damit man halt da ein möglichst gutes Ergebnis bekommt und dann vergleicht man das, Jorrit Posor: Ja, das geht. Fabian Hertwig: wie ist es mit einem Ergebnis, wo wenig Computsen Jorrit Posor: Ja, ich glaube, das geht auch. Also, ich hatte jetzt irgendwie einige, Fabian Hertwig: ist? Jorrit Posor: also Verträge auch gemacht für diese Beschlüsse z.B. auch. Und da habe ich so ein ähm habe ich auch wieder so ein Staging Multient Cycles mit Konvergenz und habe gesagt, geh so lang durch, bis du quasi konvergierst, bis du gar keine Issues mehr findest.

00:09:20

Jorrit Posor: Keine falschen Verweise, keine Isses am Anfang, ja, hier falscher Verweis, da war falsch genannt, dann cycle ist dadurch und habe ich jetzt schon erzählt, glaube ich, ne? Also das auf so auf so Dokumenten ähm konvergiert es dann halt irgendwie nach so teilweise irgendwie Fabian Hertwig: M. Jorrit Posor: acht Cycles oder so. Dann habe ich den Run danach noch mal gestartet, um zu sehen, ob es wirklich funktioniert hat. Das war dann das coole, weil es dann gesagt hat, ja, hier gerade noch mal und wir haben direkt nach dem ersten Run konvergiert, also nach dem ersten Cycle. Also hat anscheinend funktioniert, da einfach Computer drauf zu schmeißen und irgendwie Tokens zu burn, um irgendwie zu konvergieren. Das geht schon. So könnte man sich so ein Evil Set eigentlich schon aufbauen, dass man sagt, du nudelst die mit Subgents so lange diese Dokumente durch, bis sie alle sagen: "Hey, es ist vollständig und du hast keine Abweichung mehr." Und dann kannst du irgendwie sicher sein, Fabian Hertwig: Äh Jorrit Posor: dass du da hast, was irgendwie einigermaßen richtig ist und dann davon das nutzen, um es für so one shot prompts oder Two shot prompts, wie auch immer, zu evalen. Okay.

00:10:17

Jorrit Posor: Ja, Fabian Hertwig: Ja. Jorrit Posor: dann dann gebe ich das mal so an sie ab. Fabian Hertwig: Ja. Jorrit Posor: Dann würde sie ein eigenes Repo bauen. Hast du eine Sprachpräferenz? Ist ein Python Repo oder Typescript Repo ist dir Fabian Hertwig: wird's in Typescript machen. Jorrit Posor: egal. Fabian Hertwig: Also ich glaube idealerweise ist so nah wie möglich an dem, was in Tenders verwendet wird und äh am besten nutzt sie dann auch das Versell AISDK, um Dinge auszuführen. Jorrit Posor: Äh, okay. Ja, das kann ja wahrscheinlich auch so Router verwenden oder Open Router mit Sicherheit. Also AI, Fabian Hertwig: Stimmt. Jorrit Posor: also Versal AI C mit Open Router. Äh, okay. Gut. Ich ähm gib's dann so an sie weiter, Fabian Hertwig: Ja, Jorrit Posor: dass sie da mal was macht und übervalenset paar Beispielerag Referenzen wären jetzt ein Fabian Hertwig: cool. Jorrit Posor: gutes sag mal eine Sache, die man als Datenset nimmt. Ähm welche Datum waren das? die Submission Deadline Fabian Hertwig: Ja, also ähm ich glaube in dieser Summary ähm

00:11:20

Jorrit Posor: und Fabian Hertwig: Analyse, da werden so ja da wird z.B. die Submission Deadline exterhiert und sowas. Jorrit Posor: Ja. Fabian Hertwig: Ja, gibt's auch Zeitplan und Fristen und die müssten halt richtig sein, Jorrit Posor: eigentlich die Summary wäre so ein gutes Artefakt Fabian Hertwig: weil wenn du irgendwie Jorrit Posor: oder Sammel und Fabian Hertwig: Ja, also da ist halt dann auch die Frage, was ist richtig, Jorrit Posor: Referenzen. Fabian Hertwig: weil wenn du irgendwie drei Runs machst und jeder das LM outputet es in so ein bisschen anderen Format, dann ist es ja trotzdem richtig, aber es sieht halt anders aus. Jorrit Posor: M Fabian Hertwig: Aber das sind dann so die Feinheiten, Jorrit Posor: ja, du meinst du nicht, man? Fabian Hertwig: aber vielleicht, Jorrit Posor: Es gibt ja die Fabian Hertwig: also vielleicht kann man es auch einfach aufteilen in so die Unterpunkte, Jorrit Posor: Ja. Fabian Hertwig: also was hier quasi alles, also die Summary ist ja irgendwie so alle Informationen einmal zusammen und ich glaube aber die Jorrit Posor: Ja. Fabian Hertwig: requirements, das bezieht sich ja nur auf die Anforderungen und References bezieht ich nur Jorrit Posor: Mm. Fabian Hertwig: auf die Anforderung an Referenzen. Vielleicht ist es besser erstmal damit zu starten, Jorrit Posor: Ja.

00:12:46

Fabian Hertwig: weil es halt einfach genauer spezifiziert ist, würde ich mal Jorrit Posor: Ja, Fabian Hertwig: sagen. Jorrit Posor: machen wir so. Ähm, dann mache ich so. Sollte ich auch irgendwas fragen? Ach so. Ähm, es gibt ja auch so, sag mal, Tools oder so Software Open Source Projekte, die quasi so dir beim IAL helfen sollen. Willst du sowas nicht ansetzen, also willst du quasi was von Scratch selbst basteln. Fabian Hertwig: Mm. Jorrit Posor: Ich meine, das sind ja auch eigentlich simpel Sachen, ein paar Loops und ein paar Daten rausspeichern, aber es gäbe prinzipiell auch den methodischen den Ansatz da irgendein Framework zu verwenden oder irgendwie sowas. Fabian Hertwig: Ja, das würde ich schon machen. Also alles, was diesen EVAL Orchestried, also dass du ein LM über viele Tas drüberlufen lassen kannst und das dann irgendwie bewertest, dafür würde ich schon was einsetzen. Jorrit Posor: M. Fabian Hertwig: Aber also ist ja die Frage, wie gut es geht, aber damit der Task ausgeführt wird, sollte es halt möglichst äh nicht sein, wie es auch in Tendersen ist. Also quasi die Inputdaten in den Prompt oder halt der gesamte Prompt, Jorrit Posor: Mm. Fabian Hertwig: der L&M geschickt wird, sollte eigentlich genauso aussehen wie in in Tenders.

00:14:04

Fabian Hertwig: Das hängt ja, Jorrit Posor: Okay. Fabian Hertwig: glaube ich, auch so ein bisschen davon ab, wie es aufgebaut ist. Jorrit Posor: Ja, wir können mal schauen. Ich kann ja der Carolla mal sagen, die soll vielleicht sowas wie die Eval nehmen oder vielleicht was Besseres. Keine Ahnung, wie gut es ist. Fabian Hertwig: Ja, von die habe ich auch viel Gutes gehört. Hab be Wolf auch mal Jorrit Posor: Also sie kann sie mal anschauen und dann sagen: Fabian Hertwig: eingesetzt. Jorrit Posor: "Hey, mit dem Agent schm spezifizieren, wie kann ich Depp nutzen, um ähm die äh Analyse Features zu evaluieren bei Tendersen, vor allem im Bezug auf Referenzen z.B. Fabian Hertwig: Mhm. Jorrit Posor: und dann da mal einen Plan machen. Ähm ja, also ich kenn es auch nicht, aber cooler Effekt. Fabian Hertwig: Ja. Jorrit Posor: Kannst du mal schauen. Okay, cool. Ja, das ist eine geile Aufgabe. Ist auch irgendwie spannend das mal zu sehen, weil das haben wir bisher noch nicht gemacht und ähm gucken, was da so rauskommt. Fabian Hertwig: Ja. Jorrit Posor: Un Testing für LMS. Geil. Okay, noch irgendwas? Fabian Hertwig: Nee. Jorrit Posor: Okay, dann genau, dann sehen wir uns. Bis dann. Fabian Hertwig: Bis dann. Tata.

Transkription nach 00:15:29 beendet

Dieses bearbeitbare Transkript wurde von einem Computer generiert und kann Fehler enthalten. Nutzer können den Text nach der Erstellung verändern.