<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Llm on AI Prompt Toolkit</title>
    <link>/categories/llm/</link>
    <description>Recent content in Llm on AI Prompt Toolkit</description>
    <generator>Hugo</generator>
    <language>en-us</language>
    <lastBuildDate>Fri, 12 Jun 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="/categories/llm/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Gemma 4 Master Prompts (June 2026)</title>
      <link>/prompts/gemma-4-master-prompts/</link>
      <pubDate>Fri, 12 Jun 2026 00:00:00 +0000</pubDate>
      <guid>/prompts/gemma-4-master-prompts/</guid>
      <description>&lt;h2 id=&#34;gemma-4-prompt-guide&#34;&gt;Gemma 4 Prompt Guide&lt;/h2&gt;&#xA;&lt;p&gt;&lt;strong&gt;Gemma 4 12B&lt;/strong&gt; (released June 2026) is Google&amp;rsquo;s &lt;strong&gt;encoder-free any-to-any multimodal model&lt;/strong&gt; — a single unified architecture that processes text, images, audio, and video without separate modality-specific encoders. It ships with &lt;strong&gt;Apache 2.0 open weights&lt;/strong&gt;, making it the most deployable multimodal open model available.&lt;/p&gt;&#xA;&lt;h3 id=&#34;key-capabilities&#34;&gt;Key Capabilities&lt;/h3&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;Feature&lt;/th&gt;&#xA;          &lt;th&gt;Specification&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Architecture&lt;/td&gt;&#xA;          &lt;td&gt;12B encoder-free any-to-any&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Context Window&lt;/td&gt;&#xA;          &lt;td&gt;256,000 tokens&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Languages&lt;/td&gt;&#xA;          &lt;td&gt;140+ natively supported&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Modalities&lt;/td&gt;&#xA;          &lt;td&gt;Text, image, audio, video&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;License&lt;/td&gt;&#xA;          &lt;td&gt;Apache 2.0 (fully open)&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Deployment&lt;/td&gt;&#xA;          &lt;td&gt;Laptop-class (ONNX + MLX ready)&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;prompting-strategy&#34;&gt;Prompting Strategy&lt;/h3&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;Declare modalities upfront&lt;/strong&gt; — Tell Gemma 4 what types of input you&amp;rsquo;re providing&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Use the full context&lt;/strong&gt; — 256K tokens lets you include entire documents, codebases, or transcripts&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Specify output format&lt;/strong&gt; — Gemma 4 responds well to structured output format directives&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Explicit language selection&lt;/strong&gt; — For multilingual tasks, name the target language explicitly&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Sequential analysis for mixed content&lt;/strong&gt; — Break complex multi-modal tasks into ordered steps&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;h3 id=&#34;deployment&#34;&gt;Deployment&lt;/h3&gt;&#xA;&lt;p&gt;Weights available via Hugging Face. QAT (Quantization-Aware Training) enables INT4/FP8 deployment on consumer hardware. ONNX and MLX ports available for Apple Silicon.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Nemotron 3 Ultra Master Prompts (June 2026)</title>
      <link>/prompts/nemotron-3-ultra-master-prompts/</link>
      <pubDate>Fri, 12 Jun 2026 00:00:00 +0000</pubDate>
      <guid>/prompts/nemotron-3-ultra-master-prompts/</guid>
      <description>&lt;h2 id=&#34;nemotron-3-ultra-prompt-guide&#34;&gt;Nemotron 3 Ultra Prompt Guide&lt;/h2&gt;&#xA;&lt;p&gt;&lt;strong&gt;NVIDIA Nemotron 3 Ultra&lt;/strong&gt; (released June 2026) is the first open-weight &lt;strong&gt;550 billion parameter hybrid Mamba–Mixture-of-Experts model&lt;/strong&gt; — a groundbreaking architecture combining Mamba&amp;rsquo;s linear-time sequence processing with Transformer-based expert modules.&lt;/p&gt;&#xA;&lt;h3 id=&#34;architecture&#34;&gt;Architecture&lt;/h3&gt;&#xA;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;Input → [Mamba Backbone] → [MoE Router] → [Expert 1..N] → Output&#xA;         ↑ Linear time        ↑ 55B active        ↑ Sparse activation&#xA;         1M context OK        out of 550B total     ~10% active params&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;h3 id=&#34;key-specifications&#34;&gt;Key Specifications&lt;/h3&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;Metric&lt;/th&gt;&#xA;          &lt;th&gt;Value&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Total Parameters&lt;/td&gt;&#xA;          &lt;td&gt;550B&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Active Parameters&lt;/td&gt;&#xA;          &lt;td&gt;55B (~10%)&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Context Window&lt;/td&gt;&#xA;          &lt;td&gt;1,000,000 tokens&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;MMLU Score&lt;/td&gt;&#xA;          &lt;td&gt;89.1&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Architecture&lt;/td&gt;&#xA;          &lt;td&gt;Hybrid Mamba–Transformer MoE&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;License&lt;/td&gt;&#xA;          &lt;td&gt;Open weights (NVFP4 variant on Hugging Face)&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;prompting-strategy&#34;&gt;Prompting Strategy&lt;/h3&gt;&#xA;&lt;p&gt;Nemotron 3 Ultra&amp;rsquo;s unique Mamba-MoE architecture requires different prompting than pure Transformer models:&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
