Search

Saurabh Jha

INDIGO: Page Migration for Hardware Memory Disaggregation Across a Network
Power-aware Deep Learning Model Serving with µ-Serve
QLM: Queue Management for Large Language Model Serving
When Green Computing Meets Performance and Resilience SLOs
Efficient Interactive LLM Serving with Proxy Model-based Sequence Length Prediction
QLM: Queue Management for Large Language Model Serving
Evaluating Hardware Memory Disaggregation under Delay and Contention
Is Function-as-a-Service a Good Fit for Latency-Critical Services?
Delay Sensitivity-driven Congestion Mitigation for HPC Systems
FIRM: An Intelligent Fine-Grained Resource Management Frameworkfor SLO-Oriented Microservices