Аналитик Программы для психодиагностики и оценки функционального состоянияональных возможностей

Главная

Услуги

Прайс лист

Продукция

Научная работа

Сотрудники

Литература

Доставка и оплата

УДК 519.68

ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ ВСТРОЕННЫХ ЗВУКОВЫХ КОДЕКОВ ОПЕРАЦИОННОЙ СИСТЕМЫ (ОС)  WINDOWS В СИСТЕМАХ IP-ТЕЛЕФОНИИ

С.В. Нопин, В.Г.Шахов

Омский государственный технический университет

Омский государственный  университет путей сообщения

Омск, Россия

В статье рассматриваются возможности реализации компрессии/декомпрессии звука с помощью встроенных в ОС Windows звуковых кодеков при разработке систем передачи речи через сеть Internet/Ethernet.

По прогнозам западных консалтинговых компаний, например, Frost & Sullivan [8] объем рынка IP-телефонии (Internet Protocol) в среднем будет возрастать на 130-140 % ежегодно. В 2005 году предполагается рост трафика IP-телефонии до 33%, особенно возрастет число звонков на дальние расстояния (около 70% трафика междугородних и международных переговоров). По данным Frost & Sullivan, в 2003 г. совокупный объем мирового трафика VoIP (Voice IP) составил 75 млрд мин, в 2004 г. он вырос до 160 млрд мин, а в 2005 г. прогнозируется его увеличение до 265 млрд мин. Если в 2000 г. доходы от услуг Интернет-телефонии в мире составили 74 млн. долларов, то по прогнозам к 2006 году они достигнут почти 40 млрд. долл.

Компрессия звука в IP-телефонии является необходимой при передаче речи в реальном времени по каналам связи с ограниченной пропускной способностью и желательной при передаче речи в реальном времени по высокоскоростным каналам связи. В первом случае сжатие обеспечивает устойчивую связь без искажений и потерь полезного речевого сигнала, во втором – существенно сокращает объем передаваемых данных, затраты и, благодаря этому, позволяет снижать цены на услуги IP-телефонии и привлекать новых пользователей цифровой телефонии.

Современные IBM-совместимые компьютеры, как правило, обладают аппаратной возможностью вводить-выводить звук с помощью стандартной звуковой карты [3]. Во всех версиях ОС Windows (начиная с Windows 95) присутствует специальный интерфейс, предназначенный для преобразования форматов звуковых данных. Он называется (ACM) Audio Compression Manager (диспетчер сжатия звука) [4]. Интерфейс позволяет изменять частоту, разрядность, количество каналов, а также тип сжатия звуковых данных (format tag). При достаточной мощности процессора преобразование может выполняться в реальном времени.

ACM включает в себя набор кодеков, выполняющих необходимые преобразования. Кодеки, компрессоры/декомпрессоры, представляют собой исполняемые файлы с расширением *.acm. Они находятся в системной папке С:\Windows\system. Как правило, кодек позволяет осуществить не только сжатие, но и распаковку звуковых данных, то есть восстановление исходного сигнала. Пользователь может самостоятельно удалять ненужные ему кодеки и устанавливать новые, что придает системе гибкость. После установки кодека все программы, пользующиеся системой ACM, получают возможность работать с этим форматом звуковых данных. Оцифровка, компрессия / декомпрессия, реализация сетевых протоколов TCP/IP, UDP  и воспроизведение звука на уровне функций и процедур управляется с помощью средств application programming interface (API) ОС Windows либо другой альтернативной ОС. Современные среды программирования С++Builder, Delphi, Visual C++, и др. обладают возможностью использования интерфейса API и, соответственно, могут применяться для создания программ ввода, компрессии/декомпрессии, воспроизведения звука и передачи потока сжатой речи по IP сети.

Целью исследования явилось выявление возможностей управления встроенными звуковыми кодеками операционной системы (ОС)  Windows с помощью средств API для компрессии-декомпрессии звука при разработке программного обеспечения для передачи речи в IP сетях.

Для исследования возможностей ACM ОС Windows в среде С++Builder  5.0 [1], [2] разработана программа CONVERTER (рис.1).

Она функционирует следующим образом. Открывается файл с записанной ранее речью, например, со следующими характеристиками: формат PCM (Pulse-Code Modulation - импульсно-кодовая модуляции) моно, 8000 Гц, 8 бит. Далее пользователь выбирает формат преобразования звука, например,  GSM 6.10,  моно, 8000 Гц и указывает новое имя файла, который будет получен в результате преобразования. После этого нажимается клавиша “Начать”. Программа CONVERTER пытается с помощью звукового кодека преобразовать звуковые данные из исходного формата в требуемый, в данном случае из формата PCM в формат GSM 6.10. Если преобразование было успешным, то программа предлагает преобразовать еще один файл.

Исследование возможности применения встроенных кодеков ОС  Windows для компрессии-декомпрессии звука проводилось в следующем порядке: 1) В ОС Windows XP (сборка 2600) c помощью ранее разработанной программы ШИФРАТОР[5] была записана речь (фразы, команды по  ГОСТ 16600-72 [3]) в файлы формата wav (формат для хранения несжатого оцифрованного звука) [2]); 2)  Полученные 10 файлов общей длительностью 356 секунд и объемом 2846452 байта с помощью программы Converter были преобразованы кодеками ОС  Windows во все доступные для преобразования форматы. 3) Для сжатых файлов  вычислялся средний коэффициент сжатия и битрейт (bitrate) - количество единиц информации, необходимых для хранения (передачи) одной секунды потока звуковых данных. Исходный формат звука: формат PCM, моно, частота дискретизации 8000 Гц, 8 двоичных разрядов на отсчет,  битрейт 64000 бит/cек,  – был выбран исходя из минимальной достаточности динамического диапазона и полосы частот необходимых для передачи человеческой речи [9].

 

Рис. 1. Главное окно программы CONVERTER

Апробация разработанной программы CONVERTER показала эффективность ее применения для управления кодеками при компрессии/декомпрессии речи. В таблице 1 представлены результаты проведенных экспериментов.

Из приведенной таблицы видно, что часть кодеков ОС  Windows с указанными атрибутами не смогла выполнить преобразования форматов. Это означает, что они имеют либо нестандартные алгоритмы управления, либо несовместимы с установленной операционной системой. Анализ работоспособных кодеков показывает, что оптимальным по критерию качество[6,7]-битрейт среди встроенных звуковых кодеков является кодек DSP Group TrueSpeech™ (8529 бит/сек), а по критерию оптимальный битрейт - Alex AC3 Audio(4996 бит/сек).

Таким образом, разработанная программа CONVERTER и исходные коды к ней могут быть использованы при компьютерном моделировании передачи речевой информации по IP-каналам связи. С помощью программы можно исследовать эффективность реализации различных цифровых алгоритмов компрессии/декомпрессии речи (в составе кодеков) в режиме реального времени. На практике используемые алгоритмы управления кодеками могут применяться при разработке программного обеспечения для дуплексной передачи речи по IP-каналам связи.

Таблица 1

Тип кодека

Атрибуты

Работоспособ-ность

Средний коэффициент сжатия

Bitrate, бит/с

Субъектив-ное качество

PCM

8,000 кГц; 1 бит; Моно

Да

1

64000

4,1

DSP Group TrueSpeech

8,000 кГц; 1 бит; Моно

Да

7,50

8529

3,5 – 4,0

GSM 6.10

8,000 кГц; Моно

Да

4,92

13008

3,7

IMA ADPCM

8,000 кГц; 4 бит; Моно

Да

1,97

32428

3,8

Microsoft ADPCM

8,000 кГц; 4 бит; Моно

Да

1,95

32769

3,8

MPEG Layer-3

8kBit/s; 8,000 кГц;Моно

Да

8,06

7940

2,5 – 3,0

16kBit/s; 8,000 кГц;Моно

4,02

15939

2,5 – 3,0

CCIT A-Law

8,000 кГц; 8 бит; Моно

Да

1

64000

4,1

CCIT u-Law

8,000 кГц; 8 бит; Моно

Да

1

64000

4,1

Alex AC3 Audio

5 kbps; 8kHz; mono

Да

12,81

4996

2,5 – 3,0

6 kbps; 8kHz; mono

10,68

5995

2,5 – 3,0

8 kbps; 8kHz; mono

8,01

7993

2,5 – 3,0

ACELP.net

5 kbps; 8kHz; mono

Нет

-

-

 

6,5 kbps; 8kHz; mono

 

8,5 kbps; 8kHz; mono

 

Microsoft G723.1

8 кГц; Моно; 6400 бит/с

Нет

-

-

 

8 кГц; Моно; 5333 бит/с

 

Windows Media Audio V1

5 kbps; 8kHz; mono

Нет

-

-

 

6 kbps; 8kHz; mono

 

8 kbps; 8kHz; mono

 

Windows Media Audio V2

5 kbps; 8kHz; mono

Нет

-

-

 

6 kbps; 8kHz; mono

 

8 kbps; 8kHz; mono

 

 

Библиографический список

1.           Архангельский, А.Я. C++Builder 6. Справочное пособие. Книга 1. Язык С++. / А.Я. Архангельский – М.: Бином-Пресс, 2002. – 544 с.

2.           Гордеев, О. Программирование звука в Windows. Руководство для профессионалов./ О. Гордеев – СПб.: BHV - Санкт - Петербург, 1999. – 364 c.

3.           ГОСТ 16600-72. М.: Издательство стандартов, 1972.

4.           Гук, М. Аппаратные средства IBM PC. Энциклопедия. / М.Гук – СПб.: Питер, 2000. – 816 с.

5.           Нопин, С.В. Моделирование защиты речевой информации с помощью персонального компьютера. / С.В. Нопин, В.Г. Шахов.// Омский научный вестник.  2004. – №4(29). – С. 124-126.

6.           http://arcw.comptek.ru/telephony/tnotes/tt1-12.html

7.           http://framerelay.nm.ru/liter/voip.htm

8.           http://www.frost.com

9.           ITU-T Recommendation G.711. Pulse Code Modulation of 3kHz Audio Channel.-1988