Speak.Me Учить иностранные слова

C#: строки (Strings)

Тип string (синоним System.String) представляет беспрерывную последовательность юникод символов. Строковые литералы указываются внутри двойных кавычек.

String — ссылочный тип, однако операторы отношений взаимодействуют со строками как со значимыми типами:

Управляющие последовательности, применимые к типу char, могут использоваться и внутри строк:

Недостаток этого в том, что если нужно использовать символ обратного слэша \, его нужно писать дважды (экранировать):

Чтобы избежать этой проблемы можно использовать дословные (буквальные, verbatim) строковые литералы. Эти литералы начинаются с символа @ и не поддерживают управляющих последовательностей. Они могут занимать несколько строк. Чтобы использовать внутри дословных литералов двойные кавычки их нужно писать дважды.

Объединение (concatenation) строк

Оператор + объединяет две строки:

Один из операндов может быть и не строкой. В этом случает для него скрыто будет вызван метод ToString:

Многократное использование оператора + для построения большой составной строки может быть не эффективным. Для этой цели лучше использовать тип System.Text.StringBuilder, который представляет динамически изменяющуюся строку и включает методы Append, Insert, Remove, и Replace.

Сравнение строк

Строки не поддерживают операторы < и >. Вместо них для сравнения строк нужно использовать строковой метод CompareTo, который возвращает 1 если первая строка предшествует второй, -1  если вторая строка предшествует первой и 0 если строки равны:

Поиск в строке и перечисление

Строковой индексатор возвращает символ с указанной позицией:

string реализует интерфейс IEnumerable<char>, поэтому по символам строки можно проходить с помощью foreach:

Простейшими методами для выполнения поиска в строке являются ContainsStartsWith, и EndsWith, все они возвращают true или false:

Метод IndexOf возвращает позицию первого вхождения заданного символа или подстроки (или -1 если символ или подстрока не найдены):

Методы StartsWith, EndsWith и IndexOf перегружены и могут принимать enum StringComparison или объект CultureInfo, чтобы управлять чувствительность к регистру и культуре:

Метод IndexOf также может принимать startPosition — индекс, с которого должен начинаться поиск.

Метод LastIndexOf похож на IndexOf, но ищет начиная с конца строки.

Метод IndexOfAny возвращает позицию первого вхождения любого символа из набора, а метод LastIndexOfAny делает тоже самое в обратном направлении:

Строковые операции

Поскольку строка является неизменной, все ее методы возвращают новое значения, оставляя исходную строку нетронутой. Помимо указанных выше строка имеет следующие методы:

  • Substring — извлекает часть строки
  • Insert и Remove — вставляют и удаляют символы в указанную позицию
  • PadLeft и PadRight — добавляют пробелы в начали и конце строки
  • TrimStart, TrimEnd, и Trim удаляют пробелы
  • ToUpper и ToLower — преобразуют строку в верхний или нижний регистр
  • Split — разбивает строку на подстроки по переданному разделителю
  • Join — объединяет подстроки в строку

Конструирование строк

Простейший способ создать строку — это присвоение литерала:

Чтобы создать строку из повторяющейся последовательности символов можно использовать конструктор string:

Строку можно сконструировать из массива char. Метод ToCharArray делает обратное:

null и пустые строки

Чтобы создать пустую строку можно использовать литерал, либо статическое поле string.Empty. Пустая строка имеет нулевую длину и ее свойство Length равно нулю:

Поскольку строки являются ссылочными типами они могут принимать значение null:

Статический метод string.IsNullOrEmpty позволяет проверить является ли строка null или пустой.

Методы манипулирования строками

Поскольку строка является неизменяемой, все методы манипулирующие строкой возвращают новую строку, оставляя исходную незатронутой.

Метод Substring извлекает часть строки:

Методы Insert и Remove вставляют либо удаляют символы в указанной позиции:

Методы PadLeft и PadRight дополняют строку до заданной длины слева или справа указанным символом или пробелом если символ не указан. Если входная строка длиннее заданной длины для дополнения, исходная строка возвращается неизмененной:

Методы TrimStart и TrimEnd удаляют указанные символы с начала или конца строки, а метод Trim с двух сторон. Если символ для удаления не указан, удаляется пробельные символы:

Метод Replace заменяет все непересекающиеся вхождения заданного символа или подстроки на другой символ или строку:

Методы ToUpper и ToLower возвращают версию входной строки в верхнем или нижнем регистре с учетом языковых настроек пользователя, а методы ToUpperInvariant и ToLowerInvariant без их учета.

Объединение и разбиение строк

Метод Split принимает предложение и возвращает массив слов. По умолчанию в качестве разделителей метод использует пробельные символы. Перегруженная версия может принимать массив разделителей char или string. Также метод может принимать enum StringSplitOptions, который имеет опцию для удаления пустых элементов.

Статический метод Join выполняет действие противоположное методу Split. Он требует указания разделителя и строкового массива.

Статический метод Concat похож на Join, но принимает только строковой массив без разделителя. Он полностью эквивалентен операции +:

Сравнение строк

При сравнении строк применяются два базовых алгоритма:

  • ординальное сравнение — символы интерпретируются как числа согласно их числовым кодам в Unicode
  • сравнение чувствительно к культуре — символы интерпретируются со ссылкой на конкретный язык. Существует две специальные культуры: текущая культура — культура заданная в настройках конкретной машины; инвариантная культура — одинакова для всех компьютеров (американская культура)

Для сравнения эквивалентности строк можно использовать оператор == или один из методов Equals типа string. Последний существует в двух вариантах: статический и экземплярный. Статически метод полезен тем, что он работает, когда одна или обе строки равны null:

Оператор == и метод string.Equals вызванный без параметров всегда выполняют ординальное сравнение, чувствительное к регистру. Метод string.Equals вызванный с дополнительным параметром StringComparison comparisonType может выполнять сравнение с учетом культуры и нечувствиетльное к регистру. StringComparison определен следующим образом:

Пример:

Для сравнения порядка могут быть использованы либо экземплярный метод CompareTo, либо статические Compare и CompareOrdinal. Они возвращают положительное, отрицательное число либо ноль в зависимости от того находится ли первое значение до, после или рядом со вторым.

Метод CompareTo выполняет чувствительное к культуре и регистру сравнение. Методы Compare и CompareOrdinal в зависимости от переданных аргументов могут выполнять разные виды сравнения:

Примеры:

StringBuilder

Класс System.Text.StringBuilder представляет изменяемую (редактируемую) строку. С его помощью можно добавлять (метод Append), вставлять (Insert), удалять (Remove) и заменять (Replace) подстроки, не заменяя целиком StringBuilder. Конструктор StringBuilder дополнительно может принимать начальное значение строки, а также стартовую длину строки (по умолчанию 16 символов). Использование класса StringBuilder для построения строк более эффективно, чем выполнение множества конкатенаций строк.

Метод AppendLine добавляет подстроку и завершает ее символами новой строки (\r\n). Метод AppendFormat принимает смешанную форматную строку точно как String.Format. Класс StringBuilder также содержит свойство Length и индексатор для получения и  установки отдельных символов.

Для очистки содержимого StringBuilder нужно либо создать новый экземпляр, либо установить его свойство Length равным 0 (последний вариант не уменьшит объем занимаемой памяти).

Кодировка

Стандартной кодировкой .NET для символов и строк является UTF-16, а для потокового ввода-вывода — UTF-8.

Класс System.Text.Encoding является базовым классом для типов, инкапсулирующих кодировки текста. Создать экземпляр Encoding можно с помощью статического метода Encoding.GetEncoding, передав ему стандартное имя IANA:

Экземпляры наиболее распространенных кодировок также могут быть получены через статические свойства Encoding:

Статический метод GetEncodings возвращает список всех поддерживаемых кодировок:

Также экземпляр Encoding можно создать с помощью конструктора. В этом случае можно задать дополнительные параметры, передав необходимые аргументы.

Форматирование и разбор (Formatting and Parsing)

Форматирование — преобразование в строку, разбор (парсинг) — преобразование из строки.

Методы ToString и Parse

Методы ToString и Parse являются стандартным механизмом для форматирования и разбора строк. ToString обеспечивает осмысленный вывод для всех простых значимых типов (bool, DateTime, DateTimeOffset, TimeSpan, Guid и всех числовых типов). Для обратной операции в каждом из указанных типов определен статический метод Parse:

Метод Parse генерирует исключение FormatException в случае неудачной попытки разбора. Многие типы также определяют метод TryParse, который в случае неудачной попытки разбора возвращает false вместо генерации исключения.

Методы ToString, Parse и TryParse для числовых типов и классов DateTime и DateTimeOffset учитывают местные настройки культуры. Также им можно передать объект CultureInfo, содержащий иные настройки культуры, которые будут использованы вместо местных:

Интерфейс IFormattable

Метод ToString числовых типов и типов DateTime/DateTimeOffset реализует интерфейс IFormattable — стандартный интерфейс для поддержки форматных строк и поставщиков форматов:

В связи с этим метод ToString указанных типов может принимать в качестве дополнительных аргументов форматную строку и/или поставщиков форматов. Форматная строка предоставляет инструкции, поставщик формата определяет, как эти инструкции должны применяться:

В примере "C" — форматная строка, которая означает денежное значение (currency), а объект NumberFormatInfo — поставщик формата, определяющий, как должно визуализироваться денежное значение.

Если для форматной строки и поставщика указать null, будут использованы стандартные варианты. Стандартный поставщик формата — CultureInfo.CurrentCulture, который отражает настройки панели управления компьютера во время выполнения:

Для удобства большинство типов перегружаю метод ToString, чтобы null для поставщика можно было не указывать:

Вызов ToString без аргументов эквивалентен использованию стандартного поставщика формата с пустой форматной строкой.

Форматная строка

Существует два вида форматных строк:

  • стандартные форматные строки — обеспечивают общее управление форматированием при преобразовании числа или даты/времени в строку; состоят из одной буквы, за которой может следовать цифра
  • специальные форматные строки — позволяют контролировать при форматировании каждый символ с помощью шаблона, сотоящего из произвольного количества предопределенных символов

Подробно форматные строки для чисел и даты/времени рассматриваются в разделах, посвященных этим типам.

Поставщики форматов (Format Providers)

Поставщики форматов дают большую гибкость при форматировании и разборе строки, а также чувствительны к культуре. В .NET определены три поставщика формата (все реализуют интерфейс IFormatProvider):

  • NumberFormatInfo
  • DateTimeFormatInfo
  • CultureInfo

Все типы enum также поддерживают форматирование, но специальный поставщик формата для них не предусмотрен.

В контексте поставщиков формата CultureInfo представляет собой механизм косвенного обращения к двум другим поставщикам формата — NumberFormatInfo или DateTimeFormatInfo. Он возвращает NumberFormatInfo или DateTimeFormatInfo применимый к региональным настройкам культуры:

В следующем примере показано как можно использовать поставщик формата NumberFormatInfo. В примере создается экземпляр поставщика и изменяется разделитель групп с запятой на пробел:

Начальные настройки поставщиков NumberFormatInfo и DateTimeFormatInfo основаны на инвариантной культуре.

Все поставщики форматов реализуют интерфейс IFormatProvider:

За счет реализации этого интерфейса, а также интерфейса ICustomFormatter, можно создавать собственные поставщики формата. Их можно использовать только в смешанных форматных строках. Интерфейс ICustomFormatter определен следующим образом:

String.Format и смешанная форматная строка

Статический метод Format предоставляет удобный способ построения строк путем внедрения в нее значений переменных. Внедряемые переменные могут быть любого типа, метод Format просто вызывает на них ToString. Первым аргументом методу передается смешанная форматная строка (строка в которую внедряются переменные), а за ней по очереди все внедряемые переменные:

Числа в фигурных скобках называются форматными переменными. Число соответствует позиции аргумента, а за ним может дополнительно следовать запятая и минимальная ширина и/или двоеточие и форматная строка. Минимальная ширина предназначена для выравнивания колонок (отрицательные значения выравнивают влево, положительные — вправо):

Смешанную форматную строку также можно добавлять к StringBuilder (через метод AppendFormat) и к TextWriter для ввода-вывода.

Метод string.Format может также принимать необязательный поставщик формата:

Интернирование строк

Интернирование строк — это механизм, при котором одинаковые литералы представляют собой один объект в памяти.  В рамках процесса существует одна внутренняя хеш-таблица, ключами которой являются строки, а значениями — ссылки на них. Во время компиляции литеральные строки последовательно заносятся в эту таблицу. Каждая строка в таблице встречается только один раз. На этапе выполнения ссылки на литеральные строки присваиваются из этой таблицы. Можно поместить строку во внутреннюю таблицу во время выполнения с помощью метода String.Intern. Также можно проверить, содержится ли строка во внутренней таблице с помощью метода String.IsInterned.

Например, следующий код вернет true, т.к. оба параметра ссылаются на один объект из внутренней хэш-таблицы:

Строки, формирующиеся динамически, во внутреннюю хэш-таблицу не заносятся. Чтобы механизм интернирования заработал для них, их нужно вручную добавить в хэш-таблицу с помощью метода String.Intern:

Интернирование позволяет сэкономить память и ускорить сравнение строк. Однако сам процесс добавления строк в хэш-таблицу может быть весьма ресурсоемким.