Полученные границы разбиения на массив первой координаты двумерной выборки нанесем на ось OX диаграммы рассеивания, а границы разбиения массива второй координаты — на ось OY. Затем через нанесенные точки проведем прямые, параллельные осям координат. Таким образом, диаграмма рассеивания разобьется на прямоугольники.
Число точек, попавших в прямоугольник, полученный пересечением прямых, проходящих через точки xi и xi+1 параллельно оси OY и точки y и yi+1 параллельно оси ОХ, называется частотой (обозначение: nj) попадания элементов выборки в этот двумерный разряд. Таблицей частот называется таблица, строки и столбцы которой соответствует серединам интервалов группировки массивов X и Y, а элементами являются частоты попадания элементов выборки в данный двумерный разряд.
Для рассматриваемого примера значения первой координаты X случайного вектора в выборке принадлежат отрезку [0,23; 16,06], а второй координаты Y- отрезку [-1,94; 16,35]. Для упрощения вычислений рассмотрим отрезки с целочисленными границами: [0;18] и [-2; 16], которые целиком содержат все значения выборки из Хи Y соответственно. Разобьем каждый из них на 10 равных интервалов длиной 2. На рисунке 2.1 пунктирными линиями обозначены границы двумерных разрядов разбиения для рассматриваемой парной выборки. Частоты попадания элементов рассматриваемой парной выборки в соответствующие двумерные разряды приведены в таблице 2.1, где xi и y — середины интервалов группировки.
Таблица 2.1
Таблица частот

xi

0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 S
-2,0 0 0 0 0 0 0 0 1 0 1
0 0 0 0 0 0 0 0 1 0 1
2,0 0 0 0 0 0 1 0 2 1 4
4,0 0 0 0 0 1 1 1 3 0 6
6,0 0 0 0 0 0 2 1 1 0 4
8,0 0 0 0 2 4 3 0 3 0 12
10,0 0 2 4 2 1 0 0 0 0 9
12,0 1 0 0 2 2 0 0 0 0 5
14,0 1 1 2 1 0 0 0 0 0 5
16,0 2 1 1 0 0 0 0 0 0 4
S 4 4 7 7 8 7 2 10 1 50

2.4.3. Оценки медиан и квадрантной корреляции по диаграмме рассеивания
В качестве оценки медианы случайной величины X берется такое значение А0 на оси OX диаграммы рассеивания, при котором прямая, проходящая через точку x0 параллельно оси OY, делит диаграмму рассеивания на две части с одинаковым числом точек. Аналогично оценивается медиана случайной величины Y.
Прямые, проходящие через точки, равные оценкам медианы параллельно осям координат, делят диаграмму рассеивания на четыре квадранта так, что каждая полуплоскость, а также противоположные квадранты содержат одинаковое число точек (если парная выборка содержит нечетное число пар, то из подсчета исключается точка, лежащая на прямой y = a, где а — оценка медианы случайной величины Y). О наличии зависимости между X и Y судят по числу точек, попавших в каждый квадрант.
Пусть т — число точек, лежащих в I (III) квадранте, k — число точек выборки во II (IV) квадранте (см. рис. 2.2).

Заметим, что
m+k=n2
где [ ] — целая часть числа. Взаимозависимость (квадрантная корреляция) с достоверностью р = 1 — а имеет место, если max{m/k} > п0, где п0 — критическое число, указанное в таблице 12 Приложения. Критерий квадрантной корреляции обладает малой мощностью (то есть при его использовании велика вероятность ошибки второго рода). Поэтому его используют в основном для отбрасывания гипотез.
Результаты оценки медиан и число точек в каждом квадранте (указаны в кружочках) для исходной парной выборки приведены на диаграмме рассеивания (см. рис. 2.1).
С помощью таблицы 12 Приложения с достоверностью р = 0,95 делаем вывод о том, что имеется положительная корреляция между X и Y.

2.4.4. Оценка параметров двумерного нормально распределенного вектора

Оценим математические ожидания mx и my, дисперсии Dx и Dy случайных величин X и Y, а также коэффициент корреляции р. В качестве оценок для математических ожиданий и дисперсий используем следующие величины:
mx=x my=y Dx=sx2 Dy=sy2
Коэффициент корреляции р является мерой линейной зависимости случайных величин X и Y, и для него справедливы следующие свойства:
|p| ≤ 1;
при р = ± 1 между случайными переменными имеется линейная зависимость;
при р = 0 случайные величины X и Y называются некоррелированными (независимые случайные величины некоррелированы; две величины тем сильнее коррелированы, чем ближе значение |p| к 1);
для двумерного нормального вектора из равенства р = 0 следует независимость компонент X и Y.
Параметр р оценивается с помощью выборочного коэффициента корреляции г. Формулы для вычисления выборочного коэффициента r приведены в Приложении 2. При вычислении по группированным данным необходимо использовать формулу (см. п. 2.3).
r=0,84
При малом объеме выборки n значение r несколько ниже, чем параметр р. Лучшая оценка р вычисляется по следующей формуле:
p=r1+1+r2n-3=0,84*1+1+0,705550-3=0,87
Оценки параметров исследуемого нормально распределенного случайного вектора приведены в таблице 2.2.
Таблица 2.2
Числовые характеристики вектора (x, y)

x
y
sx2
sy2
sx
sy
р
8,702 7,832 20,078 17,72 4,481 4,21 0,87

2.4.5. Доверительный интервал для коэффициента корреляции р
Доверительный интервал для р с уровнем значимости а = 0,01 определяется по рисунку 2.3 как расстояние между точками пересечения вертикали, соответствующей значению р, с кривыми, соответствующими значению n.
Если доверительный интервал не включает значение р = 0, то можно говорить о наличии корреляции (р ≠ 0).
По рисунку 2.3 находим доверительный интервал для р, который не содержит нуля:
0,3 < р < 0,9.
Следовательно, с доверительной вероятностью
P = 1 — а = 0,99
существует линейная положительная корреляция между X и Y.
Для проверки с Р = 0,99 того, что коэффициент корреляции исследуемого случайного вектора равен а, достаточно убедиться, что а лежит в доверительном интервале для р. Если а не лежит внутри доверительного интервала для р, то гипотезу о равенстве р = а отвергаем на а = 100% уровне значимости.
5422900-1 -0,9 -0,7 -0,5 -0,3 -0,1 0 0,1 0,3 0,5 0,7 0,9 1

Рис. 2.3. Доверительные границы для коэффициента корреляции: 99%-ный доверительный интервал для р; числа на кривых соответствуют объему выборки
00-1 -0,9 -0,7 -0,5 -0,3 -0,1 0 0,1 0,3 0,5 0,7 0,9 1

Рис. 2.3. Доверительные границы для коэффициента корреляции: 99%-ный доверительный интервал для р; числа на кривых соответствуют объему выборки
2.4.6. Оценка коэффициентов уравнений линейной регрессии x по y и y по x
Формулы, по которым производится оценка коэффициентов уравнений линейной регрессии

имеют следующий вид:
β1=rsysx β0=y-β1x
β1⋰=rsxsy β0⋰=x-β1⋰y

Для рассматриваемой парной выборки имеем:
β1=rsysx=0,84*4,214,481=0,79 β0=y-β1x=7,832-0,79*8,702=0,96
β1⋰=rsxsy=0,84*4,4814,21=0,89 β0⋰=8,702-0,89*7,832=1,73
уравнения линейной регрессии имеют вид:
y (x) = 0,96 + 0,79x;
x (y) = 1,73 + 0,89y.
График этих уравнений регрессии нанесем на диаграмму рассеивания (см. рис. 2.1).

Полученные границы разбиения на массив первой координаты двумерной выборки нанесем на ось OX диаграммы рассеивания