Bên mình thì đang sử dụng rancher 6..2.4 để manage cụm k8s dưới dev
Một ngày đẹp trời thì con rancher bị overload thế là spinnaker deploy đa số bị fail.
Bạn có thể tham khảo link này!
https://github.com/spinnaker/spinnaker/issues/5088#issuecomment-551194312
Do you see any warning message like Job xxx timed out (after x minutes)
in Clouddriver log? If so, well it’s a time out and it may be a capacity issue for Clouddriver or kubectl
calls may just take a lot of time for some other reason.
If not, check the command that was executed (will be at DEBUG
level) and try to execute it yourself from the Clouddriver pod.
To see the right log, add the following to clouddriver-local.yml
:
logging.level.com.netflix.spinnaker.clouddriver.jobs.local.JobExecutorLocal: DEBUG
==> khả năng cao là spinnaker.clouddriver call vào k8s(rancher) bị timeout
ngoài là còn môt các bạn tăng retry của clouddriver lên khi có error.
bash-5.0$ cat /home/spinnaker/.hal/default/profiles/clouddriver-local.yml kubernetes: client: maxErrorRetry: 2