Hoe te Linear evalueren van gegevens met R

04/20/2010 by admin

Uiteraard R biedt een hele reeks van verschillende tests en maatregelen om te evalueren hoe goed uw model past bij uw gegevens en kijken naar het model aannames. Nogmaals, het overzicht hier gepresenteerde is verre van compleet, maar het geeft je een idee van wat er mogelijk is en een startpunt om dieper kijken naar de kwestie.

Hoe om het model te vatten

De samenvatting () functie onmiddellijk terug u de F-test voor de modellen gebouwd met AOV (). Voor lm () modellen, dit is iets anders. Neem een ​​kijkje op de output:

> Model.summary <- samenvatting (Model)
> Model.summary
Bel:
lm (formule = mpg ~ wt, data = mtcars)
Residuen:
Min 1Q Median 3Q Max
-4,5432 -2,3647 -0,1252 1,4096 6,8727
Coëfficiënten:
Schatting Std. Fout t-waarde Pr (> | t |)
(Intercept) 37,2851 1,8776 19,858 <2e-16 ***
gew -5,3445 0,5591 -9,559 1.29e-10 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0,05 '.' 0.1 '' 1
Residuele standaardfout: 3,046 op 30 graden van vrijheid
Multiple-R kwadraat: 0,7528, Adjusted R-kwadraat: 0,7446
F-statistiek: 91,38 op 1 en 30 DF, p-waarde: 1.294e-10

Dat is een heel veel nuttige informatie. Hier zie je het volgende:

  • De verdeling van de residuen, die u een eerste idee over hoe goed de veronderstellingen van een lineair model hold geeft
  • De coëfficiënten vergezeld van een t-test, vertellen in hoeverre elke coëfficiënt significant verschilt van nul
  • De goodness-of-fit maatregelen R2 en de aangepaste R2
  • De F-test die geeft je een idee over de vraag of uw model verklaart een aanzienlijk deel van de variantie in uw gegevens

U kunt de coef () functie gebruiken om een ​​matrix met de schattingen, standaardfouten, en t-waarde en de p-waarde voor de coëfficiënten uit de samenvatting voorwerp, zoals deze uit te pakken:

> Coef (Model.summary)
Schatting Std. Fout t-waarde Pr (> | t |)
(Intercept) 37,285126 1,877627 19,857575 8.241799e-19
gew -5,344472 0,559101 -9,559044 1.293959e-10

Indien deze voorwaarden niet vertellen iets, zoek ze op in een goede bron over het modelleren. Voor een uitgebreide introductie tot het toepassen en interpreteren van lineaire modellen correct, check out Applied Linear statistische modellen, 5e editie, door Michael Kutner et al (McGraw-Hill / Irwin).

Hoe om de impact van het model termen te testen

Om een ​​analyse van variantie tafel te krijgen - zoals de samenvatting () functie zorgt voor een ANOVA-model - u gewoon gebruik maken van de ANOVA () functie en doorgeven van de lm () object model als argument, zoals deze:

> Model.anova <- ANOVA (Model)
> Model.anova
Variantieanalyse tabel
Reactie: mpg
Df Sum Sq Mean Sq F-waarde Pr (> F)
wt 1 847,73 847,73 91,375 1.294e-10 ***
Residuen 30 278,32 9,28
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0,05 '.' 0.1 '' 1

Hier, de resulterende object is een data-frame die u toelaat om op elke waarde van die tafel met behulp van de subsetting en indexeren gereedschappen te halen. Bijvoorbeeld, om de p-waarde te krijgen, kunt u het volgende doen:

> Model.anova ['wt', 'Pr (> F)']
[1] 1.293959e-10

U kunt deze waarde als de waarschijnlijkheid dat het toevoegen van de variabele wt aan het model niet het verschil maken interpreteren. De lage p-waarde hier betekent dat het gewicht van een auto (wt) verklaart een aanzienlijk deel van het verschil in kilometerstand (MPG) tussen auto. Dit moet niet als een verrassing; een zwaardere auto heeft, inderdaad, hebben meer macht om zijn eigen gewicht slepen rond.

U kunt de ANOVA () functie gebruiken om verschillende modellen te vergelijken als goed, en vele modellering pakketten bieden die functionaliteit. U vindt voorbeelden van de meeste van de Help-pagina's zoals? Anova.lm en? Anova.glm.

Related Posts