Site Reliability Engineer (Shift-working)

ABOUT CLIENT

Our client is a global technology company that specializes in providing innovative IT solutions for the financial services industry

JOB DESCRIPTION

The Senior SRE plays a vital role in overseeing the everyday operations of the organization. It is crucial for this position to have a solid understanding of various technical aspects such as production system access and control, production deployment, Amazon Web Services, Kubernetes, continuous deployment, and systems observability.
 
Key Responsibilities
Take part in on-call rotations to provide round-the-clock support for critical systems.
Address system incidents promptly and effectively
Implement changes in staging and production environments
Collaborate with Platform Engineers to comprehend the changes
Establish deployment pipeline for changes
Comprehend the changes and build observability (monitoring and alert) as per the changes
Design and execute resiliency testing solutions
Continuously improve monitoring solutions
Create and update operational runbooks
Automate operational runbooks

JOB REQUIREMENT

Technical Skills
Proficient in Amazon Web Services
Proficient in Kubernetes system
Proficient in Python or Bash scripting
Familiarity with continuous deployment tools
Familiarity with Harness is a plus
Familiarity with infrastructure as code (IaC) tools, particularly Terraform
Experience with observability solutions like Prometheus and Grafana
Familiarity with SumoLogic is a plus
 
Soft Skills
Effective communication skills, fluent in English
Strong problem-solving abilities
Self-motivated and quick learner

WHAT'S ON OFFER

Attractive salary
13th-month salary and performance bonus
Professional English course available for all employees
Comprehensive health insurance package

CONTACT

PEGASI – IT Recruitment Consultancy | Email: recruit@pegasi.com.vn | Tel: +84 28 3622 8666
We are PEGASI – IT Recruitment Consultancy in Vietnam. If you are looking for new opportunity for your career path, kindly visit our website www.pegasi.com.vn for your reference. Thank you!

Job Summary

Company Type:

Outsource

Technical Skills:

Devops, AWS, Google Cloud

Location:

Ho Chi Minh, Ha Noi - Viet Nam

Working Policy:

Hybrid

Salary:

Negotiation

Job ID:

J01150

Status:

Close

Related Job:

Partner Implementation Engineer (Security & Digital Trust)

Ha Noi - Viet Nam


Outsource

Đóng vai trò là người thực hiện triển khai chủ chốt, chịu trách nhiệm triển khai, cấu hình và tích hợp các giải pháp Security & Digital Trust (PKI, Chữ ký số, Mã hóa, MFA) vào hệ thống thực tế của khách hàng, đảm bảo hệ thống vận hành ổn định, bảo mật và đúng thiết kế. Triển khai hệ thống (Implementation) Chuẩn bị môi trường: kiểm tra hạ tầng (Server, Hệ điều hành, Cơ sở dữ liệu, Mạng) Cài đặt & cấu hình giải pháp: PKI / CA / Chữ ký số / MFA / Mã hóa Thiết lập chính sách bảo mật, quy trình nghiệp vụ Kết nối với thiết bị bảo mật (HSM, Quản lý Khóa) Triển khai trên nền tảng Cloud / Container (nếu có) Triển khai hệ thống trên Kubernetes / OpenShift Cấu hình tài nguyên (YAML: Pod, Dịch vụ, Ingress, Bản đồ Cấu hình, Bí mật) Thiết lập lưu trữ (Khối Lưu trữ Không gian); mạng nội bộ Áp dụng các chính sách bảo mật cho container Tích hợp hệ thống (Integration) Hỗ trợ tích hợp với: Trang web/ Ứng dụng/ Giao diện lập trình ứng dụng và IAM / SSO / AD / LDAP Hướng dẫn sử dụng API/SDK Kiểm tra luồng dữ liệu & bảo mật giao tiếp Phối hợp với nhóm khách hàng (Phát triển / Cơ sở hạ tầng / Bảo mật) Kiểm thử & nghiệm thu (QA/UAT) Thực hiện kiểm thử kỹ thuật & kịch bản vận hành Hỗ trợ UAT với khách hàng Kiểm tra tính đúng đắn của: Chữ ký số; Chứng thư và Luồng xác thực Vận hành & hỗ trợ Giám sát hệ thống, phân tích log, xử lý sự cố Hỗ trợ sau triển khai (L2/L3) Đảm bảo hệ thống hoạt động ổn định & HA Tài liệu & chuyển giao Xây dựng tài liệu triển khai (cấu trúc, cấu hình) Hướng dẫn vận hành cho khách hàng Đào tạo kỹ thuật cơ bản

Negotiation

View details

AI Product Builder

Ha Noi - Viet Nam


Product

  • AI
  • Backend
  • Frontend
  • Devops
  • Java
  • Golang
  • Product Management

Collaborate with domain experts to develop business requirements and constraints for designing prompt AI-assisted workflows and system specifications. Utilize AI tools, no-code/low-code, and coding to rapidly prototype UI/UX mockups and foundational implementations. Test prototypes through hypothesis validation cycles and provide detailed handovers to engineering teams. Decode legacy specifications and enhance existing products with AI-assisted analysis and implementation. Constantly enhance the product team's building-tooling, templates, and practices to adapt to changes in models and platforms.

Negotiation

View details

DevOps Engineer

Others - Viet Nam


Product

  • Devops
  • Kubernetes
  • Network

Managing and developing our Kubernetes platform across multiple clusters and environments including production, development, on-premises and public cloud. Designing and overseeing hybrid cloud infrastructure across on-premises and public clouds (such as GCP, AWS), including workload placement, cross-cloud networking, and unified resource management. Taking responsibility for the end-to-end CI/CD and GitOps process, including container build pipelines, image optimization, and progressive delivery using tools like ArgoCD/FluxCD. Taking charge of the observability stack to provide a comprehensive view across all clusters using tools like Grafana, Mimir, Tempo, Loki, Pyroscope, OnCall, Prometheus, and supporting agent-assisted SRE workflows. Managing and enhancing our inference platform, including vLLM serving and AIBrix for multi-model orchestration and autoscaling with a fleet of NVIDIA GPUs. Operating platform services such as Kafka, Redis, PostgreSQL, OpenSearch. Managing identity and access management with Keycloak integrated with Google Workspace, strengthening SSO, RBAC, and secrets management across the platform. Strengthening network security across private load balancers, firewalls, and VPC segmentation and designing and maintaining hub-and-spoke/multi-AZ topologies. Supporting training infrastructure with self-service VM provisioning, RunPod burst capacity, and Weights and Biases integration. Driving infrastructure reliability, cost efficiency, and capacity planning as the platform scales.

Negotiation

View details