标题:Java 实习题解析:如何正确理解并实现“平衡子串计数”

本文详解“balanced words counter”面试题的核心难点——明确“subword”即连续子字符串(而非子序列或重排组合),并通过逻辑拆解与代码结构设计,帮助开发者准确统计所有满足“各字符出现频次完全相等”的非空连续子串数量。

该题的关键在于精准理解 “balanced subword” 的定义:

  • Subword = 连续子字符串(contiguous substring),即从原字符串中截取的一段连续字符(如 "aabbabcccba" 中的 "abba"、"ccc"、"aabb" 等);
  • Balanced = 该子串中 所有出现的字符 频次严格相等(不能忽略未出现的字母,只看实际出现的字符);
  • 非空:空字符串不计入;
  • ❌ 不是字符重排(如 "abcba" 含 3 个 a/b/c?错,它含 a:2, b:2, c:1 → 不平衡);
  • ❌ 不是子序列(如跳着选 a, a, b, b 得 "aabb"?不行,必须连续)。

以测试用例 input = "aabbabcccba"(长度 11)为例:
总共有 n × (n+1) / 2 = 66 个非空连续子串。但只有其中 28 个满足平衡条件。例如:

  • 单字符子串(如 "a", "b", "c")→ 自然平衡(1 个字符,频次=1)✅ 共 11 个;
  • 双字符子串:仅当两字符相同(如 "aa", "bb", "cc")才平衡(频次均为 2)✅ 如 "aa"(位置 0–1)、"bb"(2–3)、"cc"(7–8)、"cc"(8–9)等;
  • 三字符子串:需三字符频次全为 1(如 "abc"、"bca")或全为 3(不可能,长度仅 3)→ 所以只接受 a:1,b:1,c:1 形式 ✅ 如 "abc"(索引 4–6)、"cba"(8–10);
  • 四字符子串:可能为 a:2,b:2(如 "aabb"、"abba")✅ 或 c:2,b:2?但 "cbcb" 不存在;注意 "abba" 中 a:2,b:2 → 平衡;
  • 更长子串如 "aabbabccc"(0–8):a:3, b:3, c:3 → ✅ 平衡;而全串 "aabbabcccba"(0–10):a:4, b:4, c:3 → ❌ 不平衡(c 少 1)。
? 关键洞察:“28”不是凭空构造的组合数,而是对全部 66 个子串逐一枚举 + 频次校验后的精确计数结果。 你无需手动列全,但需确保算法能无遗漏地遍历所有 [i, j](0 ≤ i ≤ j 0(即所有出现字符的频次一致且大于 0)。

以下是 BalancedWordsCounter 的核心实现思路(不含完整代码,聚焦逻辑):

public class BalancedWordsCounter {
    public Integer count(String input) {
        if (input == null) throw new RuntimeException("Input cannot be null");
        if (!input.chars().allMatch(Character::isLetter)) 
            throw new RuntimeException("Input must contain letters only");

        int n = input.length();
        int balancedCount = 0;

        // 枚举所有连续子串 [i, j]
        for (int i = 0; i < n; i++) {
            int[] freq = new int[26]; // 假设仅小写英文字母
            for (int j = i; j < n; j++) {
                char c = input.charAt(j);
                freq[c - 'a']++;

                if (isBalanced(freq)) {
                    balancedCount++;
                }
            }
        }
        return balancedCount;
    }

    private boolean isBalanced(int[] freq) {
        int min = Integer.MAX_VALUE, max = 0;
        int nonZeroCount = 0;
        for (int f : freq) {
            if (f > 0) {
                nonZeroCount++;
                min = Math.min(min, f);
                max = Math.max(max, f);
            }
        }
        return nonZeroCount > 0 && min == max; // 非空且所有出现字符频次相等
    }
}

⚠️ 注意事项

  • 测试 "" 应返回 0(无子串);
  • 字符校验需覆盖大小写(题干说“letters only”,建议用 Character.isLetter(c));
  • 性能非重点(输入短),但时间复杂度为 O(n² × 26),对长度 ≤ 100 完全可行;
  • 单元测试必须覆盖边界:空串、单字符、含非法字符、null、以及给定的 28 样例。

总结:破解本题的核心不是数学建模,而是回归定义、厘清“subword = contiguous substring”、并严格执行频次一致性判定。一旦理解这点,编码即水到渠成——枚举、统计、验证,三步闭环。