Рефераты. Регрессионный анализ в моделировании систем. Исследование посещаемости WEB сайта

При адекватности уравнения регрессии исследуемому процессу воз­можны следующие варианты.

1. Построенная модель на основе ее проверки по F-критерию Фишера в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений к осуществлению про­гнозов.

2. Модель по F-критерию Фишера адекватна, но часть коэффициентов регрессии незначима. В этом случае модель пригодна для принятия неко­торых решений, но не для производства прогнозов.

3. Модель по F-критерию Фишера адекватна, но все коэффициенты рег­рессии незначимы. Поэтому модель полностью считается неадекватной. на ее основе не принимаются решения и не осуществляются прогнозы.




Практическая часть работы

1. Описание объекта

          В нашем случае объектом исследования является совокупность наблюдений за посещаемостью WEB сайта Комитета по делам семъи и молодежи Правительства г. Москвы www.telekurs.ru/ismm. Тематика сайта – это предоставление  социально незащищенным слоям населения: молодежи, студентам информации о трудоустройстве в Москве. Информация ежедневно обновляется, приблизительно 200 новых вакансий в день. Также на сайте содержится информация о текущих программах правительства г. Москвы направленных на поддержку указанных выше категорий населения. Моделируемым показателем является N- количество   человек в день посетивших сайт.



2. Факторы формирующие  моделируемое явление

Отбор  факторов для модели осуществляется в два этапа. На первом  идет анализ, по результатам которого исследователь делает вывод о необходимости рассмотрения тех или иных явлений в качестве переменных, определяющих закономерности развития исследуемого процесса, на втором – состав предварительно отобранных факторов уточняется непосредственно по результатам статистического анализа.  

Полученные данные с помощью программы наблюдения за компьютерной сетью (Net Medic, Net lab) являются не совсем точными, но довольно близки к реальным и по этому будем считать, что они дают представление о характере процесса. (получение более точных данных было для автора невозможно в связи с недостаточной технической базой) Из совокупности этих факторов я отобрал следующие :

Зависимый фактор:

N- количество   человек в день посетивших сайт.


Для модели в абсолютных показателях

Независимые факторы:

P - Загруженность внутренней сети (чел/день)

S – Cкорость обмена данными в сети Кбит/сек

V – Кол-во вакансий на текущий день

B – Количество «Баннеров» – рекламных ссылок на исследуемый сайт.

Данные представлены в таблице 1.

 
 
 
 
 
 
Таблица 1

№ Объекта

наблюдения

N

Кол-во человек в день

P

Загруженность внутренней сети

(чел/ден)

S

Скорость обмена данными в сети Кбит/сек

V

Кол-во вакансий на текущий день.

 

B

Кол-во баннеров

 

1

11

651

2627

165

4

2

18

1046

3045

400

4

3

19

944

2554

312

5

4

11

1084

4089

341

4

5

15

1260

6417

496

7

6

10

1212

4845

264

8

7

12

254

923

78

1

8

14

1795

9602

599

13

9

9

2851

12542

622

12

10

15

1156

6718

461

9





3. Анализ матрицы коэффициентов парных корреляций

Таблица 2

№ фактора

N

P

S

V

B

N

1.00

-0.22

-0.06

0.44

0.12

P

-0.22

1.00

0.91

0.68

0.74

S

-0.06

0.91

1.00

0.86

0.91

V

0.44

0.68

0.86

1.00

0.85

B

0.12

0.74

0.91

0.85

1.00


          Из таблицы 2 находим тесно коррелирующие факторы. Налицо мультиколлениарность факторов P и S ( 0.91 ). Оставим только один фактор P .  И действительно если скорость в сети высокая то она может без значительных задержек во времени обработать значительное кол-во запросов от пользователей, значит чем больше скорость в сети тем больше в ней пользователей. Тем загруженее сеть.

4. Построение уравнения регрессии


Используя программное обеспечение «ОЛИМП» (которое в свою очередь использует для расчетов указанные выше принципы  и формулы чем значительно облегчает нам жизнь), найдем искомое уравнение множественной регрессии, исключив из расчетов, как указывалось выше, факторы S – скорость сети (чел/день ) 

 Путем перебора возможных комбинаций оставшихся факторных признаков получим следующую модель:



 Функция N = +12.567-0.005*P+0.018*V


Оценки коэффициентов линейной регрессии



Значение

Дисперсия

Среднеквадратическое отклонение

Значение tрасч

1

12.57

2.54

1.59

7.88

2

-0.01

0

0

-3.60

3

0.02

0

0

4.07



Кpитические значения t-pаспpеделения

пpи 8 степенях свободы

 имеют следующие значения:

        веpоятность      t-значение

         0.900         1.400

         0.950         1.863

         0.990         2.887

В нашей модели |tрасч |> tкритич  у всех коэффициентов регрессии значит можно утверждать, что модель является адекватной моделируемому явлению, т.е. гипотеза о значимости уравнения не отвергается, о чем говорят также данные выдаваемые компьютером:


Характеристики остатков

     Среднее значение...................………….. -0.000

     Оценка дисперсии...................………….   3.6

     Оценка  приведенной дисперсии......….   4.95

     Средний модуль остатков...........………  1.391

     Относительная ошибка аппроксимации.  9.898

     Критерий Дарбина-Уотсона...........…….  1.536

     Коэффициент детерминации...........……  0.690

     F - значение ( n1 =   3, n2 =   8).……….    143

      Гипотеза о значимости уравнения не отвергается с вероятностью  0.950




5. Смысл модели

 

            При увеличении количества вакансий в день, количество  посетивших сайт людей будет увеличиваться . Это означает что в настоящий момент сайт не полностью удовлетворяет запросы пользователей, что необходимо увеличить количество вакансий, но в связи со сложившимся  в экономике России положением это представляется проблематичным.

          При увеличении загруженности внутренней сети в которой расположен сервер содержащий исследуемый сайт  количество людей посетивших сайт будет уменьшатся из-за снижения скорости доступа к нему а также из-за возможных перегрузках в узлах сети, в связи с чем сервер содержащий сайт может не отвечать на запросы пользователей. Также с перегрузкой связаны различные сбои в работе системы, что отрицательно сказывается на работе сайта. Коэффициент детерминации у  линейной модели - 0.69. Это означает , что факторы , вошедшие в модель объясняют изменение количества посетивших сайт людей  на 69%. Следовательно значения полученные с помощью линейной модели близки к фактическим.



Литература


«Теория статистики» учебник под редакцией проф. Р.А.Шмойловой   Издательство «Финансы и статистика» 1996 г.
















Страницы: 1, 2, 3



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.