From 334637e43e3a0529b4b50e2c22968b1ed1633353 Mon Sep 17 00:00:00 2001
From: Georgi Gerganov <ggerganov@gmail.com>
Date: Sat, 29 Apr 2023 09:51:06 +0300
Subject: [PATCH] common : change default parameters to pre-#1126 (#1223)

---
 examples/common.h      | 26 +++++++++++++-------------
 examples/main/main.cpp | 24 ++++++++++++------------
 2 files changed, 25 insertions(+), 25 deletions(-)

diff --git a/examples/common.h b/examples/common.h
index 14e6b1b..fce1d42 100644
--- a/examples/common.h
+++ b/examples/common.h
@@ -17,7 +17,7 @@
 struct gpt_params {
     int32_t seed          = -1;   // RNG seed
     int32_t n_threads     = std::min(4, (int32_t) std::thread::hardware_concurrency());
-    int32_t n_predict     = 128;  // new tokens to predict
+    int32_t n_predict     = -1;   // new tokens to predict
     int32_t n_parts       = -1;   // amount of model parts (-1 = determine from model dimensions)
     int32_t n_ctx         = 512;  // context size
     int32_t n_batch       = 512;  // batch size for prompt processing (must be >=32 to use BLAS)
@@ -25,18 +25,18 @@ struct gpt_params {
 
     // sampling parameters
     std::unordered_map<llama_token, float> logit_bias; // logit bias for specific tokens
-    int32_t top_k = 0;              // <= 0 to use vocab size
-    float   top_p = 1.0f;           // 1.0 = disabled
-    float   tfs_z = 1.0f;           // 1.0 = disabled
-    float   typical_p = 1.0f;       // 1.0 = disabled
-    float   temp = 1.0f;            // 1.0 = disabled
-    float   repeat_penalty  = 1.0f; // 1.0 = disabled
-    int32_t repeat_last_n = -1;     // last n tokens to penalize (0 = disable penalty, -1 = context size)
-    float   frequency_penalty = 0.0f; // 0.0 = disabled
-    float   presence_penalty = 0.0f;  // 0.0 = disabled
-    int     mirostat = 0;           // 0 = disabled, 1 = mirostat, 2 = mirostat 2.0
-    float   mirostat_tau = 5.0f;    // target entropy
-    float   mirostat_eta = 0.1f;    // learning rate
+    int32_t top_k             = 40;    // <= 0 to use vocab size
+    float   top_p             = 0.95f; // 1.0 = disabled
+    float   tfs_z             = 1.00f; // 1.0 = disabled
+    float   typical_p         = 1.00f; // 1.0 = disabled
+    float   temp              = 0.80f; // 1.0 = disabled
+    float   repeat_penalty    = 1.10f; // 1.0 = disabled
+    int32_t repeat_last_n     = 64;    // last n tokens to penalize (0 = disable penalty, -1 = context size)
+    float   frequency_penalty = 0.00f; // 0.0 = disabled
+    float   presence_penalty  = 0.00f; // 0.0 = disabled
+    int     mirostat          = 0;     // 0 = disabled, 1 = mirostat, 2 = mirostat 2.0
+    float   mirostat_tau      = 5.00f; // target entropy
+    float   mirostat_eta      = 0.10f; // learning rate
 
     std::string model  = "models/lamma-7B/ggml-model.bin"; // model path
     std::string prompt = "";
diff --git a/examples/main/main.cpp b/examples/main/main.cpp
index 674920b..990d0fa 100644
--- a/examples/main/main.cpp
+++ b/examples/main/main.cpp
@@ -387,19 +387,19 @@ int main(int argc, char ** argv) {
 
         if ((int) embd_inp.size() <= n_consumed && !is_interacting) {
             // out of user input, sample next token
-            const float   temp           = params.temp;
-            const int32_t top_k          = params.top_k <= 0 ? llama_n_vocab(ctx) : params.top_k;
-            const float   top_p          = params.top_p;
-            const float   tfs_z          = params.tfs_z;
-            const float   typical_p      = params.typical_p;
-            const int32_t repeat_last_n  = params.repeat_last_n < 0 ? n_ctx : params.repeat_last_n;
-            const float   repeat_penalty = params.repeat_penalty;
-            const float   alpha_presence = params.presence_penalty;
+            const float   temp            = params.temp;
+            const int32_t top_k           = params.top_k <= 0 ? llama_n_vocab(ctx) : params.top_k;
+            const float   top_p           = params.top_p;
+            const float   tfs_z           = params.tfs_z;
+            const float   typical_p       = params.typical_p;
+            const int32_t repeat_last_n   = params.repeat_last_n < 0 ? n_ctx : params.repeat_last_n;
+            const float   repeat_penalty  = params.repeat_penalty;
+            const float   alpha_presence  = params.presence_penalty;
             const float   alpha_frequency = params.frequency_penalty;
-            const int     mirostat       = params.mirostat;
-            const float   mirostat_tau   = params.mirostat_tau;
-            const float   mirostat_eta   = params.mirostat_eta;
-            const bool    penalize_nl   = params.penalize_nl;
+            const int     mirostat        = params.mirostat;
+            const float   mirostat_tau    = params.mirostat_tau;
+            const float   mirostat_eta    = params.mirostat_eta;
+            const bool    penalize_nl     = params.penalize_nl;
 
             // optionally save the session on first sample (for faster prompt loading next time)
             if (!path_session.empty() && need_to_save_session) {