ВАРИАЦИОННАЯ СТАТИСТИКА

ВАРИАЦИОННАЯ СТАТИСТИКА, термин, объединяющий группу приемов статистического анализа, применяющихся преимущественно в естественных науках. Во второй половине XIX в. Кетле (Quetelet, «Anthro-pometrie ou mesure des differentes facultes de 1 'hornme», 1871), а затем Гальтон (Galton, «Natural inheritance», 1889) воспользовались статистическими приемами исследования для решения естественно-научных проблем; к концу XIX в. применение статистического метода в естествознании получило уже широкое распространение. Это вызвало необходимость уточнения старых и создания новых приемов статистического анализа в связи с особенностями исследовательского материала в естествознании. Появился термин «математическая статистика» для обозначения той ветви статистики, в к-рой широко используются методы и приемы математич. анализа, преимущественно теории вероятностей. Рядом с этим, на пороге XX века получил распространение и термин В. статистика, подчеркивая своим названием преобладание вопросов изменчивости в тех областях, где применяются статистические приемы, объединяемые этим термином. Слово «вариационная» обычно производят от—вариация, вариант и вариирование (т. е. изменение, изменяющийся объект, факт изменяемости). Провести строго разграничение между математической статистикой и В. с. нельзя: и в той и в другой трактуются одни и те же методы исследования и рассматриваются одни и те же приемы. Термин В. с. распространился по преимуществу в Центральной Европе и оттуда, проник к нам. Однако, основателем ее, по справедливости, считается англ.ученый К. Пирсон (Pearson), опубликовавший, начиная с 1894 г. («Contribution to the mathematical theory of evolution»), много работ, касающихся теоретического обоснования методов статистического исследования применительно к вопросам естествознания (см. также Биометрия). За последнее 25-летие В. с. быстро развивается, и методы ее применяются в самых разнообразных областях знания; в медицине применение В. с. получило распространение преимущественно в антропометрии, физио-метрии и психометрии, в учении о конституциях. В наст.время В. с. преподается на мед. факультетах по кафедре соц. гигиены; на биол. отделениях физ.-мат. факультетов введен специальный курс биометрики и В. с, а на математических отделениях существует специальный уклон математической статистики. В.с. применяется во многих научно-исследовательских учреждениях (Ин-т соц. гигиены,антропологические институтыи др.), широко используется в педологии; многие вопросы в специальных мед. работах, имеющие дело с массовым изменчивым материалом, решаются при помощи В. с, так что для медика В.с. становится одним из рабочих инструментов. Объяснения развитию В. с. за последние годы и широкому проникновению ее в различные науки надо искать 1) в необходимости систематизации обильного исследоват. материала, накопленного за последние годы, 2) в уточнении методов (техники) научной работы и 3) в общей тенденции научной мысли заменить качественные формулировки количественными выражениями. Изучение массового явления ведется в форме исследования статистической совокупности, которая и является основным предметом статистики. В В. с. разбираются по преимуществу вопросы изучения статистической совокупности в части количественно вариирующих признаков, и даются некоторые общие указания об оценке результатов исследования. Признаки, подвергающиеся статистическому анализу, могут быть качественными (пол, цвет, болезнь и пр.) или количественными (вес, размеры, % гемоглобина и пр.), при чем изучение статистической совокупности может вестись либо по каждому признаку в отдельности, либо одновременно по двум, трем и более признакам; в последнем случае возникает вопрос о взаимосоответствии, взаимообусловленности признаков, ставится вопрос о корреляции (см.). Исследование совокупности по одному признаку, в случае качественного характера его, часто ограничивается простым указанием доли той или иной категории признака в обследованной совокупности (% мужчин, % лимфоцитов в крови); в случае количественного признака даются сводные характеристики всей совокупности, т. е. определяются некоторые числа, • суммарно характеризующие эту совокупность по изучаемому признаку (% объектов с определенной категорией качествен, признака также может считаться сводной характеристикой совокупности). Подлежащая изучению статистическая совокупность может быть задана в двух видах: 1. Непосредственно указываются значения признака у всех объектов совокупности: где различные х—вариирующие значения признака, а N—общее число объектов в совокупности, называемое объемом совокупности. Объем—основная характеристика исследуемой совокупности. Пример: х= % лимфоцитов у московских школьниц в возрасте от 9 лет до 9 лет 11 мес. (по материалам Кабинета школьной педологии Академии коммунистического воспитания, работа д-ра Четунова); а: : 23 25 26 27 27 28 28 30 30 30 31 32 32 ) 33 35 37 38 40;                                               > (1а). объем N= 18.                                                        I Так, заданной может быть совокупность небольшого объема (N—не больше 40—50). 2.   Совокупность большего объема задается в виде двойного ряда: а) значений признака и б) соответствующих каждому значению чисел наблюдений, называемых частотами Xi, х,, х:,-",хъ I П,, П,, П„'--,ПЦ Г (II), где зс{—значения признака, а щ—соответствующие частоты. Очевидно, что n,+n2+n,+-----hnt=N; короче это может быть записано так: 2тц-Л                                    (1).* Значения признака во втором случае обычно даются в виде интервалов, иначе называемых классовыми промежутками. Пример: ж=вес новорожденных, по исключении недоношенных и мацерированных, в кг. х: 1,5 — 2 — 2,5 — 3—3,5 — 4 — 4,5 — 5 — 5,5 п:         5 53 254 558 487 127 19 2 JV-Snj= 1.505                            (Иа). Ряды, подобные рядам (I) и (II), называются вариационными рядами. Вопрос о величине интервала для вариационного ряда (II) решается в зависимости от особенностей исследуемого материала. Можно только рекомендовать первичные наблюдения (измерения) вести по возможно мелким интервалам, затем, при табуляции (изображении полученных наблюдений в виде таблицы, в виде вариационного ряда), их редуцировать (из мелких интервалов образовывать более крупные). Удачное редуцирование облегчает изучение совокупности, при чем следует иметь в виду, что слишком мелкие интервалы затрудняют исследование статистической совокупности (вычисления и установление закономерности изменения частот при изменении значений признака), а слишком крупные огрубляют исследовательский материал. Для большей наглядности и более детального изучения вариационные ряды, подобные ряду (II), изображаются графически а) либо в виде ряда прямоугольников с высотами, пропорциональными частотам (гистограмма по Пирсону, см. рисунок 1), б) либо в виде многоугольника (полигон распределения частот),

1500-2000 2500-3000-3500 4000—4500—5000—5500

Рисунок 1. Гистограмма. получаемого после соединения прямыми верхних концов перпендикуляров, пропорциональных частотам и восстановленных из середин соответствующих интервалов (см. рисунок 2**). В тех случаях, когда ломаная * 2—знак суммирования. ** Оба рисунка выполнены применительно к данным вариационного ряда (На). линия вариационного многоугольника заменяется плавной кривой, последняя носит название вариационной кривой или кривой распределения. Первым шагом в изучении статистической совокупности является установление сводной характеристики типичной, вообще средней, величины признака в совокупности. Средняя величина конструируется различно, в зависимости от тех свойств, какие ей приписывать.

1500 — 2000 — 2500 — 3000 — 3500 — 4000 — 4500 — 5000 —5500 Рисунок 2. Политой.

1. Если считать типичным, характерным то, что чаще всего встречается, то в качестве средней надо принять «моду» (der dichteste Wert, обозначение: Mo)—величину признака, имеющую наибольшую частоту [таким грубо приближен, значением моды для примера (Па) будет середина интервала от 3.000 до 3.500, т. е. Жо=3.250 г]. При этой элементарной конструкции средней не учитываются значения признака у объектов, не принадлежащих к модальной группе. Для вариационного ряда с небольшим N [пример (1а)] моду установить трудно; иногда удается выявить моду путем повторного редуцирования, меняя границы интервалов. Точное вычисление моды связано с определением уравнения теоретической кривой распределения, соответствующей данному вариационному ряду. Геометрическое определение: мода—абсцисса наибольшей ординаты вариационной кривой. Вычисление моды может быть несколько уточнено, если принять во внимание частоты двух интервалов, смежных с модальным. Чубер (Е. Czuber) предлагает такую приближенную формулу для моды: п.- п. Но' = Ж|_ j + Д- 2nf где acj_j обозначает нижнюю (в сторону меньших аначений) границу модального интервала, Д —величину интервала; "(_, , п{ и nf, —соответственно частоты интервалов: соседнего перед модальным, модального и соседнего после него. Для примера (На) Мо' = 3.000 + 500--7-г-;,4!^71Т¥т4-7тт^ =3.414 г. 1.116—(254 + 487) 2. Если считать характерным и типичным для данной совокупности то, что дальше всего отстоит от крайних (нетипичных) значений, то в качестве характеристики «средней» надо принять значение признака у серединного, центрального объекта в ранжированной (объекты расположены в порядке возрастания или убывания значений признака) совокупности, называемой «медиана» (der Zentralwert, обозначение: Же). Me рассекает совокупность на две равные половины: •14 нижнюю, со значениями меньшими Же, и верхнюю, со значениями большими Me. В качестве сводной характеристики Me чаще всего применяется при обработке результатов тестирования. Определение Me для совокупности с небольшими N сводится к непосредственному указанию значения ДЧ-1               , признака у —j— -го объекта в ранжированной совокупности при N нечетном, при четном N берется среднее между значения- N                              (N         \ ми признака у -о—го объекта и I— + 11-го (в примере (1а) Же=30]. В случаях совокупностей с большим N для элементарного вычисления Me из ряда частот составляют ряд начетных сумм (к частоте первого интервала прибавляется частота второго, к полученной сумме—частота третьего и т. д.; обозначив начетные суммы через S, имеем: S1=n1; Sa=Sl+n1; S3 = S2+ni=nt+ni+n^, и «т. д.) и, сравнивая начетные суммы с -у. определяем, в каком из интервалов находится Me; к его нижней границе прибавляется часть интервала, равная отношению разности между N и начетной суммой предыдущего интервала к частоте медиа-нального интервала: ■■ *i-i+4 N—s где xi_,—-нижняя граница интервала, в котором лежит медиана, Д—величина интервала, S —начетная сумма предыдущего интервала, %—частота медианаль-ного интервала. Для примера (Па) х: 1,5—2—2,5 — 3 — 3,5 — 4—4,5 — 5 — 5,5 кг п:        5 53 254 558 487 127 19 2 S: 5 58 312 870 1357 1484 1503 1505 ~- 752.5; Д = 500; 2 ' Ме = 3.000 + 500-^Ь^3—== 3.396г. При таком вычислении Me допускается, что внутри медиана1ьного интервала значения признака распределены равномерно. Более точные вычисления Же, как и Мо, связаны с определением теоретической вариационной кривой. Геометрическое определение: Же—абсцисса той ординаты вариационной кривой, к-рая делит площадь кривой пополам. Me, учитывая значения признака у объектов в порядке их последовательности, не учитывает величин значений признака: можно как угодно вариировать значения признака в нижней половине, лишь бы они не превосходили Me, и как угодно—в верхней, лишь бы все были больше Же; к таким вариациям Же будет нечувствительна, останется неизменной. 3. Наиболее простой и общепризнанной сводной характеристикой «средней» величины, учитывающей и самые значения признака, является средне-арифметическое М (das arithmetische Mittel), определяемое формулой: Xt+Xt+X,+ ---+XN м- О), М~ (2). что короче записывается: Если каждому значению признака соответствует определенная частота (п), то "Znx дг= (3), т.е. сумме произведений каждого х на соответствующее п, деленной на N. Ж указывает ту величину признака, какая была бы у всех объектов, если значения признака распределить поровну между всеми объектами (средняя заработная плата, средний рост и т. п.). Если изменится значение хотя бы у одного из объектов, то изменится и Ж, 1 правда, всего только на js-ю изменения признака у отдельного объекта. Кроме указанных средних Мо, Же и Ж, в В. с. иногда (сравнительно редко) применяются средне-геометрическое Мд и средне-гармоническое Mh. Средне-геометрическим из N каких-либо величин называется корень JV-й степени из произведения этих величин Mg=NyJx1.xi.x3...xN и вычисляется по формуле: \а%Мд = ~ s log х{; средне-гармоническое из N чисел есть величина обратная средне-арифметической обратных величин этих чисел: Mh = t t ■ В специаль- ~й2-1~~х ных случаях возможны сводные характеристики средней и других конструкций. При помощи той или иной средней выявляется характерное значение признака в данной совокупности; однако, одной такой сводной характеристики недостаточно: у двух совокупностей, с различными значениями признака у объектов, средние могут быть одинаковыми (9, 10, 11, 12, 13, 14, 15—их Ж=Же = 12 и 3, 5, 9, 12, 15, 18, 22—также Ж=Же = 12). Это различие в общей форме выражается различием рассеяния значений признака. Большее или меньшее рассеяние в известной мере обусловливает надежность, значимость средней как характерной величины: чем больше рассеяны значения, тем менее надежна «средняя». Поэтому обычно вместе со средней величиной указывается и сводная характеристика рассеяния; это—второй шаг в изучении статистической совокупности. 1.  Самый элементарный способ определения рассеяния—указание пределов вариации, maximum'а и minimum'а значений признака (иногда используют амплитуду, разность между maximum'оми minimum'oM). Однако, это нельзя считать сводной характеристикой рассеяния, так как maximum и minimum определяют собой только два крайних значения, наименее характерных для всей совокупности в целом. Maximum и minimum применяются только в тех случаях, когда особенно важно знать пределы вариации признака. 2.  В качестве других показателей рассеяния, по аналогии с Же, принимаются значения признака у серединных объектов в нижней и верхней половинах сово- 4SS купности, рассеченной Же. Нижняя (первая) квартиль (Qt)—такое значение признака, меньше к-рого имеет значения признака '/* всех объектов, а, значит, больше которого—3/4 всех объектов; верхняя (третья) квартиль (фз)—такое значение признака, меньше которого имеют значения признака 3/л всех объектов, а, значит, больше—г/4 (очевидно, что Q2—Me). Указав Qt и Qs, определяют этим самым пределы вариации признака у центральной (внутренней) половины совокупности. Иногда в качестве мер рассеяния пользуются величинами: «i-Afe-Q,, g'=Q,-Me и g„= «i+e' Qi-Qi которые можно назвать нижним, верхним и средним квартильными отклонениями (в терминологии, касающейся квартилей,нет единства; в некоторых немецких руководствах нижней и верхней квартилями называют 3i и q'\ в настоящей статье указана первоначальная , более распространенная английская терминология). В некоторых случаях пользуются также и дециля-ми и даже перцентилями. Первая дециль—такое значение признака, меньше к-poro имеет значение признака 1/ю всех объектов; перцентили—то же самое о сотых долях всех объектов. Квартили вычисляются так же, как и медиана; только Va N должно быть заменено V* Л''для Qt и 3/4 Л" для Q3. Квартили так же, как и Же, не учитывают самых величин значений признака, имея дело только с упорядоченной последовательностью их. 3. Чтобы учесть самые величины значений признака, иногда в качестве меры рассеяния применяют средне-арифметическое абсолютных (не считаясь со знаком + или —) отклонений от средней, называемое средним отклонением (die durchschnitt- liche Abweichung), # = -•-*■- — [прямые черточки указывают, что суммируются только абсолютные значения разностей (х—М)]. Для любого ряда чисел (ж) можно указать другое, отличное от Ж, значение, среднеарифметическое абсолютных отклонений от которого также равно #; поэтому пользуются иногда формулой #'= -^f-K т. к. Же для любого ряда чисел будет единственным значением, наименьшим по отношению к абсолютным отклонениям от него. из средне-арифметического квадратов отклонений от М. Обозначение и формула а=т/ £<*~м>? (4а), или, если даны частоты, (по отношению к а средне-арифметическая величина единственная, т. к. сумма квадратов отклонений от М для любого ряда значений меньше суммы квадратов отклонений от всякой другой, отличной от М,величины). При посредстве с решается вопрос о пределах типического и нормального. Меры рассеяния являются также и абсолютными мерами изменчивости признака, выраженными в тех же единицах (кг, ел» и т. д.), что и значения признака. Часто определением средней характеристики и соответствующей меры рассеяния и ограничивается изучение статистич. совокупности по одному признаку. 5. Если оказывается нужным сравнить изменчивость (рассеяние) двух различных признаков, то из Ж и а получают относит. меру изменчивости, коэфициент вариации, определяемый как выраженное в % отношение а к М. м •100% (5). [Аналогично для медианы и средне-квартильното 2М 100% , послед- отклонения V—Sff- • юо%= Me няя величина в случаях, близких к нормальному распределению (см. нише), в 1 у2 раза меньше V]. Вычисления М и в как для больших по объему совокупностей, так и для совокупностей с небольшим N лучше вести при помощи произвольно среднего (А). Какое-либо число (все равно какое, для удобства вычислений лучше ближе к средним значениям) принимается за А, затем при малом N весь ряд ж'ов переписывается в виде ряда отклонений от А, получается ряд а, причем каждое а—хА; последний ряд суммирует- га ся, и определяется поправка: v = -^-; среднеарифметическое определяется по формуле: М = А + v                      (6), для вычисления а составляется ряд а*— квадратов отклонений от А, я пользуются формулой:           _______ (7)- ■УТ^> Для примера (1а) запись вычислений М я и + 1 + 2 + 2 + 3 + 5 + 7 + 8 40 + 10 100 N =• 18; А = 30; So = + 12; ч = + 0,67; М = 30 + ( + 0,67) = 30,67% лимфоц.; So' = 372; = 20,6667; •-»= 0,4444; я = l/20,6667 - 0,4444 = 4,50% лимфоц. 4. Однако, наиболее распространенной и общепризнанной мерой рассеяния, учитывающей и самые величины значений, является стандартное отклонение, иначе называемое средне-квадратическим отклонением, определяемое как корень квадратный В случае большого N, когда совокупность распределена по интервалам, частоты приводятся в соответствие с серединами интервалов («метод нагруженных ординат», по Пирсону), и вычисления Ж,и в ведутся также при помощи произвольного среднего; за '427 произвольное среднее (Л) принимается середина какого-нибудь интервала, и под а подразумеваются отклонения от произвольного среднего, выраженные в числах интервалов (отклонение в один интервал, отклонение в два интервала и т. д.). Обозначив по прежнему величину интервала Д, для вычисления М и о получают такие формулы: М = A+v.i, где •<=-^'Х                    (8). «-^}/"^--V                           (9). Вычисления располагаются так (пример На): х (в кг) n a па па* 1.5—2,0 —3 —15 г,0—2,5 —2 —106 2,5—3,0 —1 —254 3,0—3,5 3,5—4,0 + 1 + 487 4,0—4,5 + 2 + 254 4,5—5,0 + 3 + 57 5,0—5,5 + 4 + 8 N => 1.505; ina = + 431; Ъпа? = 1.709; А = 3.250: A = 500;v= + 0,287;Af=.3.250+( + 0,287).500 = = 3.394 г; -^1 = 1.1355: vs= 0.0825; ч = 500 У 1,0530 = 51 3 г. Кроме указанных простых сводных характеристик (средней и рассеяния), при изучении вариационного ряда (типа Па) иногда используются высшие-' сводные характеристики, связанные с проблемой распределения частот данной совокупности по соответствующим значениям признака. По отношению к распределению рассеяние является частным свойством; кроме рассеяния, изучаются асимметрия распределения и его большая или меньшая уплощенность или крутовершинность. Дальнейшее углубление: изучения совокупности, распределенной по одному признаку, достигается более сложным математическим анализом распределения, основанным преимущественно на теории вероятностей. Приемы изучения совокупности, распределенной по двум, трем и более признакам, составляют предмет теории корреляции (см.), которая также является одним из отделов В. статистики. Результаты изучения статистических совокупностей сопоставляют друг с другом, и при сопоставлении намечаются и определяются те или иные выводы. Умелое и правильное сопоставление результатов изучения является делом не только статистической техники и, в известном смысле, статистического искусства, но также в большой мере обусловливается ориентировкой исследователя В области изучаемых явлений и полнотой сведений об изучаемом материале. Используя результаты изучения в выводах, следует помнить, что статистические числа по своей природе отличны от чисел арифметических, статистические числа не обладают той абсолютной значимостью (достоверностью), к-рая присуща числам в арифметике, статистические числа почти все связаны с большей или меньшей вероятностью, к-рая в конечном счете определяется делаемым вы- водом. Вместе со сводными характеристиками обычно указываются и их средние ошибки, определяемые формулами: средняя ошибка средне-арифметического sM — —,~ > средняя ошибка стандартного отклонения г я = /-~-д' иногда применяются вероятные ошибки Рл/=0,67449 ^=. р,=0,67449 ^=- Вероятные ошибки для медианы и квартилей Рме = 0,8454 ~ Рь= 0,9191 ~ Средние и вероятные ошибки обычно приписываются со знаком ( + , —) к соответствующим характеристикам и показывают пределы возможных вариаций характеристики: средние ошибки—в пределах 0,67449 (около 2/з) в°ех теоретически допускаемых вариаций для данной характеристики, вероятные ошибки—в пределах 0,5 всех вариаций. 513 Для примера (На): ем = T/Jjjfjf = 13'2 г; s<* = = .~~7=^= = 9,6 а, т. е. средне-арифметическое веса 1/2.1505 для новорожденных в условиях старого Петербурга лежит, примерно (два шанса против одного), в пределах 3380,2—3407,2 г, а стандартное отклонение— в пределах 503,4—522,6 г. Средние и вероятные ошибки прежде всего позволяют сравнивать относительную значимость одних и тех же характеристик нескольких совокупностей, а также могут быть использованы для оценки результатов сопоставлений; напр., для установления достоверности разности между двумя статистическими характеристиками иногда используется тройная средняя ошибка (+3 г) или 4Va вероятных ошибок (+4'/аР). Средние и вероятные ошибки вначале были введены для Гауссова закона случайных ошибок, а затем уже получили распространение в качестве оценок сводных характеристик статистической совокупности, поэтому применение их. связано с допущением в той или иной форме элемента случайности в полученных характеристиках, и при отсутствии его ошибки являются только как бы новыми выражениями рассеяния. Конкретное истолкование ошибок, связанное с теоретически допускаемыми вариациями сводных характеристик,в большой мере обусловлено своеобразием изучаемого явления и особенностями подвергающегося статистической обработке материала. В более общей форме ошибки, как и многие другие результаты статистической обработки, связаны с нек-рыми проблемами теории вероятностей. Вообще, вступая на путь статистической обработки, исследователь постоянно будет иметь дело с вероятностными суждениями, и его преимущество перед лицом, не пользующимся статистическим методом, будет также и в знании величины вероятности своих суждений, не считая ос^ новного назначения приложений статистич. метода—усмотреть в массе такие количеств. детали изучаемого явления, которые недоступны наблюдению в единичных случаях. Лит.: Филипченко Ю.А., Изменчивость и методы ее изучения, Основы биологической вариационной статистики,М.—Л., 1926; Романовский варикозное: расширение вен В. И., Элементарный курс математической статистики, М.—Л., 1924; Johannsen W., Elemente der exakten Erblichkeitslehre, Jena, 1926; Czuber E., Die statistische Forschungsmethode, Wien, 1927; U d n у 'Yale G-.. An introduction to the theory of statistics, London, 1924.                                         В. Лошшский.
Смотрите также:
  • ВАРИЕТЕТ, см. Разновидность.
  • ВАРИКОЗНОЕ РАСШИРЕНИЕ ВЕН (vari-ces venarum), самостоятельная, своеобразная форма заболевания периферических вен, гл. образ, нижних конечностей, семенного канатика (см. Varicocele) и прямой кишки (см. Геморрои). Эта б-нь встречается часто неизвестна с древних времен; ей ...
  • ВАРИКОЗНЫЕ ЯЗВЫ, осложнение венозных расширений на нижней конечности, относятся к классу идиопатических язв, в происхождении которых принимают участие местные причины. Поводом к образованию язв служат расстройства крово- и лимфообращения в конечности, ...
  • ВАРИО ГЕМИСПАЗМ (Variot) нижней губы, чаще всего наследственная аномалия, заключающаяся в том, что у ребенка при крике один угол рта оттягивается вниз и соответствующая половина нижней губы кнаружи, при полном отсутствии паралича ...
  • VARIOLA VERA, VARIOLOID, см. Оспа натуральная.