Parafuzz: An interpretability-driven technique for detecting poisoned samples in nlp

Published in Advances in Neural Information Processing Systems (NeurIPS 2023), 2023