Index A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | W A ACTOR (tunix.Role attribute) actor_optimizer (tunix.RLTrainingConfig attribute), [1] actor_trainer (tunix.RLCluster property) advantage_estimator (tunix.GRPOConfig attribute) (tunix.PPOConfig attribute) algo_variant (tunix.GRPOConfig attribute) (tunix.PPOConfig attribute) algorithm (tunix.DPOTrainingConfig attribute) B backend_factories (tunix.MetricsLoggerOptions attribute) beta (tunix.DPOTrainingConfig attribute) (tunix.GRPOConfig attribute), [1] (tunix.PPOConfig attribute), [1] buffer_metrics() (tunix.RLCluster method) buffer_metrics_async() (tunix.RLCluster method) C cache_size (tunix.CacheConfig attribute) CacheConfig (class in tunix) checkpoint_manager (tunix.PeftTrainer attribute) checkpoint_root_directory (tunix.TrainingConfig attribute) checkpointing_options (tunix.TrainingConfig attribute) clear_jit_cache() (tunix.PeftTrainer method) clip_range_value (tunix.PPOConfig attribute), [1] close() (tunix.DistillationTrainer method) (tunix.MetricsLogger method) (tunix.PeftTrainer method) (tunix.RLCluster method) ClusterConfig (class in tunix) compute_logps_micro_batch_size (tunix.RLTrainingConfig attribute), [1] config (tunix.PeftTrainer attribute) create_backends() (tunix.MetricsLoggerOptions method) create_eval_step_fn() (tunix.PeftTrainer method) create_train_step_fn() (tunix.PeftTrainer method) CRITIC (tunix.Role attribute) critic_optimizer (tunix.RLTrainingConfig attribute), [1] critic_trainer (tunix.RLCluster property) custom_checkpoint_metadata() (tunix.PeftTrainer method) D data_hooks (tunix.PeftTrainer attribute) data_parallel_size (tunix.RolloutConfig attribute) data_sharding_axis (tunix.TrainingConfig attribute) data_type (tunix.RolloutConfig attribute) DistillationTrainer (class in tunix) DistillationTrainingConfig (in module tunix) DPOTrainer (class in tunix) DPOTrainingConfig (class in tunix) dtype (tunix.Sampler property) E entropy_coef (tunix.PPOConfig attribute), [1] eos_tokens (tunix.RolloutConfig attribute) epsilon (tunix.GRPOConfig attribute), [1] (tunix.PPOConfig attribute), [1] epsilon_c (tunix.PPOConfig attribute), [1] epsilon_high (tunix.GRPOConfig attribute) (tunix.PPOConfig attribute), [1] epsilon_low (tunix.PPOConfig attribute), [1] eval_every_n_steps (tunix.TrainingConfig attribute) eval_loss_fn (tunix.PeftTrainer attribute) expert_parallel_size (tunix.RolloutConfig attribute) F flush_every_n_steps (tunix.MetricsLoggerOptions attribute) G gae_lambda (tunix.PPOConfig attribute), [1] gamma (tunix.PPOConfig attribute), [1] gen_model_input_fn (tunix.PeftTrainer attribute) generate() (tunix.RLCluster method) get_eval_loss() (tunix.DistillationTrainer method) get_metric() (tunix.MetricsLogger method) get_metric_history() (tunix.MetricsLogger method) get_old_per_token_logps() (tunix.RLCluster method) get_ref_per_token_logps() (tunix.RLCluster method) get_rewards() (tunix.RLCluster method) get_train_loss() (tunix.DistillationTrainer method) get_values() (tunix.RLCluster method) get_with_default() (tunix.TrainingConfig method) gradient_accumulation_steps (tunix.TrainingConfig attribute) GRPOConfig (class in tunix) GRPOLearner (class in tunix) H head_dim (tunix.CacheConfig attribute) I inference_worker (tunix.RLCluster property) init_sample_state() (tunix.Sampler method) is_managed_externally (tunix.PeftTrainer attribute) iter_steps (tunix.PeftTrainer property) J jit_train_and_eval_step() (tunix.PeftTrainer method) K kl_method (tunix.PPOConfig attribute), [1] kv_cache_size (tunix.RolloutConfig attribute) L label_smoothing (tunix.DPOTrainingConfig attribute) lambda_orpo (tunix.DPOTrainingConfig attribute) log() (tunix.MetricsLogger method) log_dir (tunix.MetricsLoggerOptions attribute) loss_agg_mode (tunix.GRPOConfig attribute), [1] loss_algo (tunix.GRPOConfig attribute), [1], [2] loss_fn (tunix.PeftTrainer attribute) M max_inflight_computations (tunix.TrainingConfig attribute) max_prompt_length (tunix.DPOTrainingConfig attribute) (tunix.RolloutConfig attribute) max_response_length (tunix.DPOTrainingConfig attribute) max_steps (tunix.TrainingConfig attribute) max_tokens_to_generate (tunix.RolloutConfig attribute) metric_exists() (tunix.MetricsLogger method) metrics_logger (tunix.PeftTrainer attribute) metrics_logging_options (tunix.TrainingConfig attribute) metrics_prefix (tunix.PeftTrainer attribute) (tunix.TrainingConfig attribute) MetricsLogger (class in tunix) MetricsLoggerOptions (class in tunix) mini_batch_size (tunix.PPOConfig attribute) (tunix.RLTrainingConfig attribute), [1] model (tunix.PeftTrainer attribute) model_def_and_state() (tunix.Sampler method) N num_generations (tunix.GRPOConfig attribute), [1] num_iterations (tunix.GRPOConfig attribute), [1] (tunix.PPOConfig attribute), [1] num_kv_heads (tunix.CacheConfig attribute) num_layers (tunix.CacheConfig attribute) O offload_to_cpu (tunix.ClusterConfig attribute), [1] optimizer (tunix.PeftTrainer attribute) P pbar_description (tunix.TrainingConfig attribute) PeftTrainer (class in tunix) perf (tunix.RLCluster property) perf_metrics_options (tunix.TrainingConfig attribute) perf_v2 (tunix.RLCluster property) policy_loss_fn (tunix.GRPOConfig attribute) (tunix.PPOConfig attribute) PPOConfig (class in tunix) PPOLearner (class in tunix) profiler_options (tunix.TrainingConfig attribute) project_name (tunix.MetricsLoggerOptions attribute) R REFERENCE (tunix.Role attribute) return_logprobs (tunix.RolloutConfig attribute) REWARD (tunix.Role attribute) reward_manager (tunix.GRPOConfig attribute) (tunix.PPOConfig attribute) RewardFn (in module tunix) RLCluster (class in tunix) RLTrainingConfig (class in tunix) Role (class in tunix) role_to_logical_axis_rule (tunix.ClusterConfig attribute), [1] role_to_mesh (tunix.ClusterConfig attribute), [1] rollout (tunix.RLCluster property) ROLLOUT (tunix.Role attribute) rollout_config (tunix.ClusterConfig attribute), [1] rollout_engine (tunix.ClusterConfig attribute), [1] rollout_mapping_config (tunix.RolloutConfig attribute) rollout_micro_batch_size (tunix.RLTrainingConfig attribute), [1] rollout_sglang_jax_chunked_prefill_size (tunix.RolloutConfig attribute) rollout_sglang_jax_context_length (tunix.RolloutConfig attribute) rollout_sglang_jax_disable_radix_cache (tunix.RolloutConfig attribute) rollout_sglang_jax_enable_deterministic_sampling (tunix.RolloutConfig attribute) rollout_sglang_jax_enable_single_process (tunix.RolloutConfig attribute) rollout_sglang_jax_enable_static_lora (tunix.RolloutConfig attribute) rollout_sglang_jax_init_with_random_weights (tunix.RolloutConfig attribute) rollout_sglang_jax_kwargs (tunix.RolloutConfig attribute) rollout_sglang_jax_load_format (tunix.RolloutConfig attribute) rollout_sglang_jax_log_level (tunix.RolloutConfig attribute) rollout_sglang_jax_lora_scaling (tunix.RolloutConfig attribute) rollout_sglang_jax_lora_target_modules (tunix.RolloutConfig attribute) rollout_sglang_jax_max_lora_rank (tunix.RolloutConfig attribute) rollout_sglang_jax_max_running_requests (tunix.RolloutConfig attribute) rollout_sglang_jax_mem_fraction_static (tunix.RolloutConfig attribute) rollout_sglang_jax_model_version (tunix.RolloutConfig attribute) rollout_sglang_jax_page_size (tunix.RolloutConfig attribute) rollout_sglang_jax_precompile_bs_paddings (tunix.RolloutConfig attribute) rollout_sglang_jax_precompile_token_paddings (tunix.RolloutConfig attribute) rollout_sglang_jax_use_sort_for_toppk_minp (tunix.RolloutConfig attribute) rollout_vllm_additional_config (tunix.RolloutConfig attribute) rollout_vllm_async_scheduling (tunix.RolloutConfig attribute) rollout_vllm_enable_dp_attention (tunix.RolloutConfig attribute) rollout_vllm_hbm_utilization (tunix.ClusterConfig attribute) (tunix.RolloutConfig attribute) rollout_vllm_hf_config_path (tunix.RolloutConfig attribute) rollout_vllm_init_with_random_weights (tunix.ClusterConfig attribute) (tunix.RolloutConfig attribute) rollout_vllm_kwargs (tunix.RolloutConfig attribute) rollout_vllm_lora_config (tunix.ClusterConfig attribute) (tunix.RolloutConfig attribute) rollout_vllm_max_num_batched_tokens (tunix.RolloutConfig attribute) rollout_vllm_max_num_seqs (tunix.RolloutConfig attribute) rollout_vllm_model_version (tunix.ClusterConfig attribute) (tunix.RolloutConfig attribute) rollout_vllm_sampling_kwargs (tunix.RolloutConfig attribute) rollout_vllm_server_mode (tunix.RolloutConfig attribute) rollout_vllm_swap_space_size_gb (tunix.ClusterConfig attribute) (tunix.RolloutConfig attribute) rollout_vllm_tpu_backend_type (tunix.ClusterConfig attribute) (tunix.RolloutConfig attribute) RolloutConfig (class in tunix) run_name (tunix.MetricsLoggerOptions attribute) S Sampler (class in tunix) seed (tunix.RolloutConfig attribute) sync_weights() (tunix.RLCluster method) T temperature (tunix.RolloutConfig attribute) tensor_parallel_size (tunix.RolloutConfig attribute) tokenize() (tunix.Sampler method) top_k (tunix.RolloutConfig attribute) top_p (tunix.RolloutConfig attribute) train() (tunix.GRPOLearner method) (tunix.PeftTrainer method) (tunix.PPOLearner method) train_micro_batch_size (tunix.RLTrainingConfig attribute), [1] train_steps (tunix.PeftTrainer property) training_config (tunix.ClusterConfig attribute), [1] training_hooks (tunix.PeftTrainer attribute) TrainingConfig (class in tunix) transformer (tunix.Sampler property) transformer_state (tunix.Sampler property) U update_actor() (tunix.RLCluster method) update_critic() (tunix.RLCluster method) W with_data_hooks() (tunix.PeftTrainer method) with_external_metrics_logger() (tunix.RLCluster method) with_gen_model_input_fn() (tunix.DistillationTrainer method) (tunix.PeftTrainer method) with_loss_fn() (tunix.DistillationTrainer method) (tunix.PeftTrainer method) with_training_hooks() (tunix.PeftTrainer method)