Head Of System Infrastructure

JOB DESCRIPTION

1. Storage: vận hành hệ thống high availability master-slave multipath redundant storage server với filesystem ZFS.
Đảm bảo thời gian gián đoạn dịch vụ ngoài mong muốn ở mức thấp nhất do cơ chế auto failover.
Định kì kiểm tra khả năng auto failover.
Định kì vá các lỗi phát sinh và cập nhật các cải tiến tốc độ.
Đảm bảo vận hành tốc độ và ổn định như giới hạn phần cứng (băng thông 1.5-2 GByte/s và >200.000 IOPS) 
Tư vấn khi cần mở rộng hoặc thay thế thiết bị
Giải quyết các sự cố storage server: hardware failure (L1), system crash (L1), performance (L2)
Chạy incremental instant backup và full backup định kỳ tuỳ mức độ quan trọng của các volume dữ liệu.
 
2. Server và docker swarm: đa phần các app của fahasa chạy trên môi trường docker swarm.
Quản lý lượng tải vả tài nguyên server
Hỗ trợ cài đặt khi có phát sinh thay thế, thêm mới server mới.
Tư vấn cấu hình, phối hợp nhà cung cấp
Giải quyết các sự cố server và docker
Tư vấn lộ trình nâng cấp OS khi hết vòng đời OS.
 
3. Xây Dựng và Bảo trì hệ thống: Linux OS và các phần mềm quan trọng sau: nginx (web server), php, mariadb, magento và salt. 
Cần có kiến thức chuyên sau về việc setup các hệ thống có chịu tải lớn sử dụng: Nginx, Redis và Docker Swarm, Mariadb, Php và phpfpm …
Có kiến thức về xây dựng hệ thống sử dụng Kubernetes.
Một số phần mềm fahasa sử dụng đã hết được hỗ trợ chính thức từ nhà phát triển phần mềm. Các lỗi security cần được tự sửa hoặc lấy từ các bản vá lỗi ở các phiên bản mới hơn. Đây là những phần mềm trọng yếu, lỗi security sẽ gây ra tổn thất rất lớn. (L2)
Đảm bảo tương thích giữa hệ thống phần mềm hiện tại với các phần cứng POS server mới.
 
4. Troubleshoot các vấn đề gây gián đoạn dịch vụ hệ thống: hệ thống hoặc lỗi performance và security của web, idempiere và POS server
Nền tảng TMĐT chịu 1 lượng traffic rất lớn tại các kỳ Flashsale, cần các kiến thức chuyên sâu về performance, load balancing và scalability để hỗ trợ, troubleshoot và đưa ra hướng giải quyết cho vấn đề.
Phản ứng nhanh, xử lý các lỗi xảy ra bất ngờ này. Hỗ trợ xác định nguyên nhân và tư vấn giải pháp. L1 cho web và idempiere. L2 cho POS server nhà sách. Riêng pos server nhà sách chỉ xử lý các vấn đề mà phòng IT chưa được hướng dẫn xử lý.
Cung cấp giải pháp load balancing và chống DOS

JOB REQUIREMENT

Tốt nghiệp Đại học hoặc sau Đại học chuyên ngành Công nghệ thông tin
Có kỹ năng quản lý đội nhóm, phản ứng nhanh với sự cố của hệ thống
Tư duy tốt trong làm việc độc lập lẫn làm việc nhóm
Có kinh nghiệm trong lĩnh vực Thương Mại Điện Tử
Kinh nghiệm làm việc ở vị trí tương tự: 3 – 7 năm
Ngoại ngữ: tiếng Anh
Năng động, nhạy bén, có tinh thần trách nhiệm cao

WHAT'S ON OFFER

Chế độ bảo hiểm y tế, bảo hiểm xã hội
Lương thưởng theo quy định nhà nước
Chăm sóc sức khỏe hàng năm
Du lịch mỗi năm 1 lần
Môi trường làm việc trẻ trung, thân thiện

CONTACT

PEGASI – IT Recruitment Consultancy | Email: recruit@pegasi.com.vn | Tel: +84 28 3622 8666
We are PEGASI – IT Recruitment Consultancy in Vietnam. If you are looking for new opportunity for your career path, kindly visit our website www.pegasi.com.vn for your reference. Thank you!

Job Summary

Company Type:

Product, Book

Technical Skills:

Devops, System

Location:

Ho Chi Minh - Viet Nam

Working Policy:

Salary:

$ 3,000 - $ 5,000

Job ID:

J00820

Status:

Close

Related Job:

Principal Engineer, System Software Platform Engineering

Ho Chi Minh, Ha Noi - Viet Nam


Product

  • Devops
  • Backend
  • AI

Create and manage a platform for AI that provides services for multiple users, handles identity and policy management, configures quotas, and controls costs. Additionally, this platform should offer easy paths for teams to work on AI projects. Oversee the deployment of AI models at scale, including routing, autoscaling, and implementing safety measures to ensure reliability and observability. Manage GPU resources in a Kubernetes environment, including device plugins, feature discovery, and scheduling strategies, among other responsibilities. Take charge of the entire lifecycle of GPUs, ensuring that driver, firmware, and runtime updates are implemented safely and consistently. Implement virtualization strategies for GPU resources, such as vGPU and PCIe passthrough, while defining policies for resource placement, isolation, and preemptive actions. Establish secure traffic and networking protocols, including gateways, service mesh, and authentication/authorization measures. Enhance observability and operational efficiency through monitoring tools for GPUs, response protocols for incidents, and optimization of costs. Develop reusable templates, integrate SDKs and CLIs, and implement infrastructure-as-code standards for the platform. Influence the platform's direction by creating design documents, mentoring engineers, and aligning platform development with the needs of AI products.

Negotiation

View details

Senior Manager, System Software Platform Engineering

Ho Chi Minh, Ha Noi - Viet Nam


Product

  • Devops
  • AI

Take on the responsibility of creating a highly reliable, efficient system software platform for AI products and services. Create and oversee processes for developing and managing teams of system SW engineers. Collaborate with different teams and stakeholders across various time zones for continuous integration and delivery of system software. Focus on enhancing Our Client's AI software and services to impress customers.

Negotiation

View details

Senior Systems Software Engineer

Ho Chi Minh, Ha Noi - Viet Nam


Product

  • Devops

Contribute to the development and maintenance of advanced machine learning software and frameworks with a focus on performance and scalability. Improve CI/CD pipelines to make the development, testing, and deployment of large-scale machine learning models more efficient. Set up and manage cloud infrastructure for continuous integration, delivery, and deployment, ensuring high availability and scalability. Work closely with teams from various departments to enhance development workflows and software delivery speed and quality. Address and resolve complex issues related to software development, containerization, and cloud infrastructure in production environments. Create and update detailed documentation for development and deployment processes. Effectively communicate with both technical and non-technical stakeholders to align expectations and provide transparency throughout the release and deployment process. Oversee code reviews, testing, and debugging to maintain high-quality code and streamline workflows. Provide mentorship and guidance to junior engineers to support their professional growth and improve team capabilities.

Negotiation

View details