Skip to content

NeuRepTrace

Benchmark

IPS-Stuttgart/NeuRepTrace

Benchmark

`neureptrace.benchmark`

`BenchmarkRun` `dataclass`

Paths created by a benchmark manifest run.

Source code in src/neureptrace/benchmark.py

@dataclass(frozen=True)
class BenchmarkRun:
    """Paths created by a benchmark manifest run."""

    result_csvs: list[Path]
    aggregate_csv: Path | None
    plot_path: Path | None
    calibration_csvs: list[Path]
    observation_csvs: list[Path]
    provenance_csv: Path | None = None
    skipped_existing: int = 0
    smoothed_observation_csv: Path | None = None
    smoothed_metric_csv: Path | None = None
    ensemble_observation_csv: Path | None = None
    ensemble_metric_csv: Path | None = None

run_benchmark_manifest(manifest_csv, *, out_dir, aggregate_out=None, provenance_out=None, plot_out=None, chance=None, default_label_column=None, default_group_column=None, default_picks='data', default_tmin=None, default_tmax=None, default_window_ms=20.0, default_step_ms=10.0, default_n_splits=5, default_max_iter=1000, default_decoder='logistic', default_emission_mode='calibrated', default_feature_preprocessor='none', default_pca_components=None, default_normalization='none', default_baseline_window=DEFAULT_DECODE_BASELINE_WINDOW, default_tune_hyperparameters=False, default_tuning_cv_splits=3, default_tuning_scoring='accuracy', default_tuning_c_grid=None, default_temporal_train_window=None, calibration_dir=None, calibration_bins=10, observation_dir=None, observation_ensemble_dir=None, observation_ensemble_source_decoders=DEFAULT_ENSEMBLE_SOURCE_DECODERS, observation_ensemble_weights=None, observation_ensemble_source_emission_mode='calibrated', observation_ensemble_baseline_window=DEFAULT_ENSEMBLE_BASELINE_WINDOW, observation_ensemble_baseline_group_columns=DEFAULT_ENSEMBLE_BASELINE_GROUP_COLUMNS, temporal_smoothing_dir=None, temporal_smoothing_fit_window=DEFAULT_FIT_WINDOW, temporal_smoothing_stay_grid_size=200, temporal_smoothing_emission_suffix=DEFAULT_EMISSION_SUFFIX, resume=False)

Run a manifest-defined benchmark and optionally aggregate and plot results.

Source code in src/neureptrace/benchmark.py

def run_benchmark_manifest(
    manifest_csv: Path,
    *,
    out_dir: Path,
    aggregate_out: Path | None = None,
    provenance_out: Path | None = None,
    plot_out: Path | None = None,
    chance: float | None = None,
    default_label_column: str | None = None,
    default_group_column: str | None = None,
    default_picks: str = "data",
    default_tmin: float | None = None,
    default_tmax: float | None = None,
    default_window_ms: float = 20.0,
    default_step_ms: float = 10.0,
    default_n_splits: int = 5,
    default_max_iter: int = 1000,
    default_decoder: str = "logistic",
    default_emission_mode: str = "calibrated",
    default_feature_preprocessor: str = "none",
    default_pca_components: str | None = None,
    default_normalization: str = "none",
    default_baseline_window: tuple[float, float] | None = DEFAULT_DECODE_BASELINE_WINDOW,
    default_tune_hyperparameters: bool = False,
    default_tuning_cv_splits: int = 3,
    default_tuning_scoring: str = "accuracy",
    default_tuning_c_grid: str | None = None,
    default_temporal_train_window: TemporalTrainWindow | None = None,
    calibration_dir: Path | None = None,
    calibration_bins: int = 10,
    observation_dir: Path | None = None,
    observation_ensemble_dir: Path | None = None,
    observation_ensemble_source_decoders: tuple[str, ...] = DEFAULT_ENSEMBLE_SOURCE_DECODERS,
    observation_ensemble_weights: tuple[float, ...] | None = None,
    observation_ensemble_source_emission_mode: str | None = "calibrated",
    observation_ensemble_baseline_window: tuple[float, float] | None = DEFAULT_ENSEMBLE_BASELINE_WINDOW,
    observation_ensemble_baseline_group_columns: tuple[str, ...] = DEFAULT_ENSEMBLE_BASELINE_GROUP_COLUMNS,
    temporal_smoothing_dir: Path | None = None,
    temporal_smoothing_fit_window: tuple[float, float] | None = DEFAULT_FIT_WINDOW,
    temporal_smoothing_stay_grid_size: int = 200,
    temporal_smoothing_emission_suffix: str = DEFAULT_EMISSION_SUFFIX,
    resume: bool = False,
) -> BenchmarkRun:
    """Run a manifest-defined benchmark and optionally aggregate and plot results."""
    manifest = pd.read_csv(manifest_csv)
    if "subject" not in manifest.columns or "epochs" not in manifest.columns:
        raise ValueError("Manifest must contain 'subject' and 'epochs' columns.")

    manifest_dir = manifest_csv.parent
    out_dir.mkdir(parents=True, exist_ok=True)
    if temporal_smoothing_dir is not None and observation_dir is None:
        observation_dir = out_dir / "observations"
    if observation_ensemble_dir is not None and observation_dir is None:
        observation_dir = out_dir / "observations"
    result_csvs: list[Path] = []
    calibration_csvs: list[Path] = []
    observation_csvs: list[Path] = []
    skipped_existing = 0

    for _, row in manifest.iterrows():
        subject = _string_value(row, "subject")
        if subject is None:
            raise ValueError("Manifest contains a row with an empty subject.")

        label_column = _string_value(row, "label_column", default_label_column)
        if label_column is None:
            raise ValueError(f"Subject '{subject}' has no label column.")
        decoder = normalize_decoder_name(_string_value(row, "decoder", default_decoder) or default_decoder)
        emission_mode = _string_value(row, "emission_mode", default_emission_mode) or default_emission_mode
        if emission_mode != "both":
            emission_mode = normalize_emission_mode(emission_mode)
        feature_preprocessor = normalize_feature_preprocessor(
            _string_value(row, "feature_preprocessor", default_feature_preprocessor) or default_feature_preprocessor
        )
        pca_components = _string_value(row, "pca_components", default_pca_components)
        tune_hyperparameters = _bool_value(row, "tune_hyperparameters", default_tune_hyperparameters)
        normalization = normalize_epoch_normalization(_string_value(row, "normalization", default_normalization) or default_normalization)
        baseline_window = _baseline_window_value(row, default_baseline_window)
        tuning_cv_splits = _int_value(row, "tuning_cv_splits", default_tuning_cv_splits)
        tuning_scoring = normalize_tuning_scoring(
            _string_value(row, "tuning_scoring", default_tuning_scoring) or default_tuning_scoring
        )
        tuning_c_grid = _string_value(row, "tuning_c_grid", default_tuning_c_grid)
        temporal_train_window = _temporal_train_window_value(row, default_temporal_train_window)
        output_stem = _output_stem(
            subject,
            decoder,
            emission_mode,
            has_decoder_column="decoder" in manifest.columns,
            has_emission_mode_column="emission_mode" in manifest.columns,
            variant=_string_value(row, "variant"),
            feature_preprocessor=feature_preprocessor,
            pca_components=pca_components,
            tune_hyperparameters=tune_hyperparameters,
            tuning_scoring=tuning_scoring,
            temporal_train_window=temporal_train_window,
            normalization=normalization,
            baseline_window=baseline_window,
            has_feature_preprocessor_column="feature_preprocessor" in manifest.columns,
            has_pca_components_column="pca_components" in manifest.columns,
            has_tune_hyperparameters_column="tune_hyperparameters" in manifest.columns,
            has_tuning_scoring_column="tuning_scoring" in manifest.columns,
            has_normalization_column="normalization" in manifest.columns,
            has_baseline_window_column=bool(
                {"baseline_window", "baseline_window_start", "baseline_window_stop"}.intersection(
                    manifest.columns
                )
            ),
            has_temporal_train_window_column=bool(
                {"temporal_train_window", "temporal_train_window_start", "temporal_train_window_stop"}.intersection(
                    manifest.columns
                )
            ),
        )

        output_csv = _resolve_path(_string_value(row, "out_csv"), manifest_dir)
        if output_csv is None:
            output_csv = out_dir / f"{output_stem}_time_decode.csv"
        calibration_out_csv = _resolve_path(_string_value(row, "calibration_out_csv"), manifest_dir)
        if calibration_out_csv is None and calibration_dir is not None:
            calibration_out_csv = calibration_dir / f"{output_stem}_calibration_bins.csv"
        observation_out_csv = _resolve_path(_string_value(row, "observation_out_csv"), manifest_dir)
        if observation_out_csv is None and observation_dir is not None:
            observation_out_csv = observation_dir / f"{output_stem}_observations.csv"

        if (
            resume
            and _usable_file(output_csv)
            and (calibration_out_csv is None or _usable_file(calibration_out_csv))
            and (observation_out_csv is None or _usable_file(observation_out_csv))
        ):
            result_csvs.append(output_csv)
            if calibration_out_csv is not None:
                calibration_csvs.append(calibration_out_csv)
            if observation_out_csv is not None:
                observation_csvs.append(observation_out_csv)
            skipped_existing += 1
            continue

        metadata_csv = _prepare_or_resolve_metadata(row, manifest_dir, out_dir, subject)
        results = run_time_resolved_decode(
            epochs_path=_required_path(row, "epochs", manifest_dir),
            metadata_csv=metadata_csv,
            label_column=label_column,
            group_column=_string_value(row, "group_column", default_group_column),
            out_path=output_csv,
            picks=_string_value(row, "picks", default_picks) or default_picks,
            tmin=_float_value(row, "tmin", default_tmin),
            tmax=_float_value(row, "tmax", default_tmax),
            window_ms=_float_value(row, "window_ms", default_window_ms) or default_window_ms,
            step_ms=_float_value(row, "step_ms", default_step_ms) or default_step_ms,
            n_splits=_int_value(row, "n_splits", default_n_splits),
            max_iter=_int_value(row, "max_iter", default_max_iter),
            decoder=decoder,
            emission_mode=emission_mode,
            feature_preprocessor=feature_preprocessor,
            pca_components=pca_components,
            normalization=normalization,
            baseline_window=baseline_window,
            tune_hyperparameters=tune_hyperparameters,
            tuning_cv_splits=tuning_cv_splits,
            tuning_scoring=tuning_scoring,
            tuning_c_grid=tuning_c_grid,
            temporal_train_window=temporal_train_window,
            calibration_out_path=calibration_out_csv,
            calibration_bins=_int_value(row, "calibration_bins", calibration_bins),
            observation_out_path=observation_out_csv,
            subject=subject,
        )
        if calibration_out_csv is not None:
            calibration_csvs.append(calibration_out_csv)
        if observation_out_csv is not None:
            observation_csvs.append(observation_out_csv)
        if "subject" not in results.columns:
            results.insert(0, "subject", subject)
        else:
            results["subject"] = subject
        output_csv.parent.mkdir(parents=True, exist_ok=True)
        results.to_csv(output_csv, index=False)
        result_csvs.append(output_csv)

    aggregate_result_csvs = list(result_csvs)
    aggregate_observation_csvs = list(observation_csvs)
    ensemble_observation_csv: Path | None = None
    ensemble_metric_csv: Path | None = None
    if observation_ensemble_dir is not None:
        ensemble_observation_csv, ensemble_metric_csv = _write_observation_ensemble(
            observation_csvs,
            out_dir=observation_ensemble_dir,
            resume=resume,
            source_decoders=tuple(normalize_decoder_name(decoder) for decoder in observation_ensemble_source_decoders),
            weights=observation_ensemble_weights,
            source_emission_mode=observation_ensemble_source_emission_mode,
            baseline_window=observation_ensemble_baseline_window,
            baseline_group_columns=observation_ensemble_baseline_group_columns,
            calibration_bins=calibration_bins,
        )
        aggregate_result_csvs.append(ensemble_metric_csv)
        aggregate_observation_csvs.append(ensemble_observation_csv)
    smoothed_observation_csv: Path | None = None
    smoothed_metric_csv: Path | None = None
    if temporal_smoothing_dir is not None:
        if not observation_csvs:
            raise ValueError("Temporal smoothing requires probability observations; pass --observation-dir.")
        smoothed_observation_csv = temporal_smoothing_dir / "smoothed_observations.csv"
        smoothed_metric_csv = temporal_smoothing_dir / "smoothed_metrics.csv"
        if not (resume and _usable_file(smoothed_observation_csv) and _usable_file(smoothed_metric_csv)):
            smooth_probability_observations(
                observation_csvs,
                fit_window=temporal_smoothing_fit_window,
                stay_grid_size=temporal_smoothing_stay_grid_size,
                emission_suffix=temporal_smoothing_emission_suffix,
                ece_bins=calibration_bins,
                out_observations=smoothed_observation_csv,
                out_metrics=smoothed_metric_csv,
            )
        aggregate_result_csvs.append(smoothed_metric_csv)
        aggregate_observation_csvs.append(smoothed_observation_csv)

    if aggregate_out is None:
        aggregate_out = out_dir / "summary.csv"
    aggregate = aggregate_time_decode_csvs(
        aggregate_result_csvs,
        out_path=aggregate_out,
        observation_csv_paths=aggregate_observation_csvs or None,
    )
    aggregate_path: Path | None = aggregate_out
    if provenance_out is None:
        provenance_out = out_dir / "provenance.csv"
    provenance = write_provenance_table(
        aggregate,
        aggregate_result_csvs,
        provenance_out,
    )
    provenance_path: Path | None = provenance_out

    plot_path: Path | None = None
    if plot_out is not None:
        plot_time_decode_results(
            aggregate_out,
            out_path=plot_out,
            chance=chance,
            title=f"NeuRepTrace benchmark ({int(provenance['n_subjects'].max())} subject(s))",
        )
        plot_path = plot_out

    return BenchmarkRun(
        result_csvs=result_csvs,
        aggregate_csv=aggregate_path,
        provenance_csv=provenance_path,
        plot_path=plot_path,
        calibration_csvs=calibration_csvs,
        observation_csvs=observation_csvs,
        skipped_existing=skipped_existing,
        smoothed_observation_csv=smoothed_observation_csv,
        smoothed_metric_csv=smoothed_metric_csv,
        ensemble_observation_csv=ensemble_observation_csv,
        ensemble_metric_csv=ensemble_metric_csv,
    )