Go 示例: 字符串和符文

Go 字符串是只读的字节切片。语言和标准库对字符串进行了特殊处理 - 作为以 UTF-8 编码的文本容器。在其他语言中,字符串由“字符”组成。在 Go 中,字符的概念称为 rune - 它是一个表示 Unicode 代码点的整数。 这篇 Go 博客文章 是一个很好的入门介绍。

package main
import (
    "fmt"
    "unicode/utf8"
)
func main() {

s 是一个 string,它被分配了一个表示泰语单词“hello”的字面值。Go 字符串字面值是 UTF-8 编码的文本。

    const s = "สวัสดี"

由于字符串等效于 []byte,因此这将生成存储在其中的原始字节的长度。

    fmt.Println("Len:", len(s))

索引到字符串中会生成每个索引处的原始字节值。此循环生成构成 s 中代码点的所有字节的十六进制值。

    for i := 0; i < len(s); i++ {
        fmt.Printf("%x ", s[i])
    }
    fmt.Println()

要计算字符串中包含多少个符文,我们可以使用 utf8 包。请注意,RuneCountInString 的运行时间取决于字符串的大小,因为它必须依次解码每个 UTF-8 符文。一些泰文字符由跨越多个字节的 UTF-8 代码点表示,因此此计数的结果可能令人惊讶。

    fmt.Println("Rune count:", utf8.RuneCountInString(s))

range 循环对字符串进行特殊处理,并解码每个 rune 及其在字符串中的偏移量。

    for idx, runeValue := range s {
        fmt.Printf("%#U starts at %d\n", runeValue, idx)
    }

我们可以通过显式使用 utf8.DecodeRuneInString 函数来实现相同的迭代。

    fmt.Println("\nUsing DecodeRuneInString")
    for i, w := 0, 0; i < len(s); i += w {
        runeValue, width := utf8.DecodeRuneInString(s[i:])
        fmt.Printf("%#U starts at %d\n", runeValue, i)
        w = width

这演示了将 rune 值传递给函数。

        examineRune(runeValue)
    }
}
func examineRune(r rune) {

用单引号括起来的 value 是符文字面值。我们可以直接将 rune 值与符文字面值进行比较。

    if r == 't' {
        fmt.Println("found tee")
    } else if r == 'ส' {
        fmt.Println("found so sua")
    }
}
$ go run strings-and-runes.go
Len: 18
e0 b8 aa e0 b8 a7 e0 b8 b1 e0 b8 aa e0 b8 94 e0 b8 b5 
Rune count: 6
U+0E2A 'ส' starts at 0
U+0E27 'ว' starts at 3
U+0E31 'ั' starts at 6
U+0E2A 'ส' starts at 9
U+0E14 'ด' starts at 12
U+0E35 'ี' starts at 15
Using DecodeRuneInString
U+0E2A 'ส' starts at 0
found so sua
U+0E27 'ว' starts at 3
U+0E31 'ั' starts at 6
U+0E2A 'ส' starts at 9
found so sua
U+0E14 'ด' starts at 12
U+0E35 'ี' starts at 15

下一个示例:结构体.