Position Overview (Job Summary):

The role is for an HPC Engineer responsible for designing, deploying, managing, and optimizing an on-premises High Performance Computing (HPC) environment.
The environment includes SLURM-managed CPU and GPU clusters .
Strong emphasis on HPC architecture, Linux administration, job scheduling, and cluster operations .
Experience with parallel/distributed storage (WekaFS, Scality) is preferred but optional .

Primary Skills:

SLURM Workload Manager (Mandatory) Install/configure/manage SLURM across multiple clusters
Partitions/queues, fairshare, job priority, scheduling policies
Upgrades, migrations, automation via API/integrations
Linux System Administration (RHEL focus) OS patching, hardening, tuning, package management
Troubleshooting & Performance Optimization Cluster health, node/job failures, bottlenecks, utilization optimization
Parallel Computing Knowledge MPI, OpenMP, distributed execution fundamentals

Secondary Skills (Preferred / Optional):

Storage / Parallel File SystemsWekaFS (preferred optional)
Scality RING / ARTESCA (preferred optional)
GPU Computing Exposure NVIDIA drivers, CUDA familiarity, GPU scheduling concepts
Monitoring Tools Grafana, Prometheus
Automation / Scripting Bash/Python for workflows, tooling, ops automation
HPC Ecosystem Components InfiniBand/100G networking, monitoring tools, storage tiering concepts
SLURM-based HPC clusters
Linux (RHEL) administration
Multi-node distributed systems
(Optional) Storage platforms like WekaFS / Scality

Role and Responsibilities:

A. Key Responsibilities

1) HPC Infrastructure & Operations

Manage day-to-day operations of on-prem CPU & GPU clusters
Monitor health, performance, utilization ; ensure availability & efficiency
Implement best practices for:
HPC operations
user management
resource administration
Troubleshoot:
networking issues
node failures
job failures
performance bottlenecks
User support:
job submissions
resource usage
HPC workflows

2) SLURM Workload Manager (Mandatory)

3) Linux System Administration

4) Parallel Computing & Cluster Architecture

B. Additional Responsibilities (Optional / Preferred Area)

5) Storage (Optional but Preferred)

A. WEKA (WekaFS)

B. Scality

HPC Engineer