You are in browse mode. You must login to use MEMORY

level: Level 1 of Regression

Questions and Answers List

level questions: Level 1 of Regression

Question	Answer
Hvad er residualet?	Forskellen mellem det observerede punkt og regressionslinjen
Hvad er parametrene β0 og β1 i den lineære regressionsmodel og hvordan fortolkes de?	β0 er en konstant, som er skæringspunktet i y-aksen. β1 er hældningskoefficienten og hvis antagelsen om fravær af selektionsbias holder, så er β1 vores kausal effekt.
Hvordan estimeres parametrene β0 og β1?	reg yvar xvar (i Stata)
Hvad er R^2 og fortæller den noget om intern validitet?	Den del af variationen i Y, som er forklaret af X i procent. Det er målet for modellens "fit". Den fortæller ikke noget om intern validitet, da den ikke siger noget om selektionsbias og dermed kausalitet.
Hvad betyder antagelsen om, at E(u\|x) = 0 og hvilket forhold har antagelsen til selektionsbias?	At fejlleddet er ukorreleret med x. At der er kausal inferens eller fravær af selektionsbias. Enheder med forskellige niveauer af x skal have ens potentielle outcomes. Hvis x er korreleret med faktorer (under fejlleddet), så er x korreleret med fejlleddet. Evt. se slides 5-9 på forelæsning 9
Hvad er fejlledet?	Det uforklarede i Y ud fra X. Eller alle de faktorer, der forklarer Y, men som ikke er inkluderet i regressionsmodellen som variable.
Hvordan fungerer statistisk kontrol i den multiple regressionsmodel? Bruges dette til at styrke eller teste den interne validitet?	Man fjerner den variation af X, som kan forklares af kontrolvariablen, ved at holde kontrolvariablen konstant. Dette gøres for at styrke den interne validitet.
Hvad er udeladt variabel bias (UVB)?	Bias i den observerede sammenhæng, som skyldes, at vi ikke har inddraget nogle variable som kontrolvariable. Det sker hvis den udeladte variable korellerer med regressoren (X) og hvis den udeladte variable er afhængig af den afhængige variabel (Y).
Hvordan hænger UVB sammen med selektionsbias og E(u\|x) = 0?	UVB svarer til selektionsbias. Når der er selektionsbias, så er fejlleddet korreleret med x, altså ikke E(u\|x)=0.
Hvordan kan vi vide om UVB forårsager, at vi under- eller overestimerer effekten af X?	Hvis Z korrelerer positivt eller negativt med både X og Y, så er der positiv bias, hvor man vil overestimere ved en positiv sammenhæng ml. X og Y og underestimere ved en negativ sammenhæng ml. X og Y. // Hvis Z korrelerer positivt med enten X og Y og negativt med den anden, så er der negativ bias, hvor man vil underestimere ved en positiv sammenhæng ml. X og Y og overrestimere ved en negativ sammenhæng ml. X og Y.
Hvad definerer en god og en dårlig kontrolvariabel?	Dårlige kontrolvariable: Post-treatment bias, hvor variable ligger efter X i tid. Problemet er nemlig, at den vil tage noget af "effekten" ud af X (den uafhængige variable) Gode kontrolvariable: Variable, som påvirker X og Y og ligger før i tid
Hvad vil det sige, at en kontrolvariabel skaber post-treatment bias?	At en baggrundsvariable er efter den uafhængige variabel (X) i tid, så at den ikke påvirker X, men er påvirket af X. Dette giver bias.
Hvad er multikollinearitet?	Når to regressor er perfekt multikollineare, så betyder det, at en af regressorne er en perfekt lineær funktion af en af de andre regressorer. At der skal være selvstændig variation i X (uafhængige variable) efter vi har kontrolleret for kontrolvariablen. Stata fortæller, hvis der er perfekt multikollinearitet ved at fjerne den ene koefficient. Hvis der er næsten perfekt multikollinearitet, så kan man estimere med og uden Z og kigge på standardfejlen.
Hvordan foretages en regressionsanalyse med en kategorisk uafhængig variabel (i stata)?	med i. foran variablen, hvor stata tager den første kategori som referencekategori, hvor effekten på de andre er i forhold til referencekategorien.
Hvad er linearitetsantagelsen?	Effekten af X på Y er "beta 1" på tværs af X. Hvis sammenhængen ikke er lineær, men at vi kontrollerer lineært, så er det et problem. Skal undersøges grafisk i et acpr-plot.
Hvad gør at standardfejlen er mindre?	Mindre residualer, større stikprøve og mere variation i X.
Hvordan fortolkes "beta hat 1" i den multiple regressionsmodel?	Hældningskoefficienten, når der kontrolleres for kontrolvariable.
Hvad indebærer en statistisk hypotesetest i en regressionsanalyse?	Tester hvad sandsynligheden er for at hældningskoefficienten er lig det estimerede eller mere ekstrem givet at hældningskoefficienten er nul (nulhypotese).
Hvad er standardfejlen for hældningskoefficienten "beta hat 1", et estimat af?	Standardafvigelsen i stikprøvemålsfordelingen for vores hældningskoefficient. Så den typiske afstand mellem den sande og estimerede hældningskoefficient.
Hvad udtrykker p-værdien for hældningskoefficienten?	Sandsynligheden for at få den aktuelle eller en mere ekstrem t-værdi/koefficient hvis den sande koefficient er lig 0 (nulhypotesen er sand)
Hvad er forskellen på homo- og hetereoskedasticitet?	Fejlleddet er homoskedastisk, hvis den ikke afhænger af den uafhængige variabel (x), mens den er heteroskedastisk, hvis den afhænger af den uafhængige variabel (x). Dvs. at residualerne er lige store og har samme retning for alle niveauer af X. Brug robuste standardfejl (robust), hvis uheldet er ude.
Hvad vil det sige, at en observation er indflydelsesrig?	At den både har en høj leverage (x-værdiens afstand til gns) og en høj residual (y-værdiens afstand til tendenslinjen)
Hvilke 5 antagelser skal være opfyldt, hvis hældningskoefficienten "beta hat 1" er et unbiased estimat af "beta 1"?	1. E(U\|X) = 0 2. Linearitet (med mindre vi har et kategorisk X) 3. Observation er I.I.D. – identisk og uafhængigt fordelte 4. ‘Fravær af outliers’ -> opmærksomhed på indflydelsesrige outliers 5. Homoskedasticitet
Hvad er RMSE?	Den typiske afvigelse fra regressionslinjen. Hvor meget vi typisk gætter forkert ved at bruge vores model.
Hvad vil det sige, at en observation IKKE er uafhængig?	Hvis observationerne er korreleret med hinanden. Eksempelvis et lands BNP pr. år. Her vil observation "2009" være påvirket af "2008"
Hvad gør ACPR-plots og hvad er formålet?	Tester den partielle sammenhæng mellem X og Y efter kontrol. Så man skal lave ACPR-plot på X.
Kan det være relevant at lave et scatterplot med lfit og lowess for sammenhængen mellem X og Z?	Ja, det kan være nyttigt, hvis det evt. er relevant at skulle logaritmetransformere Z
Hvornår skal ACPR-plots bruges overfor scatterplot?	ACPR: Hvis vi har kontrolvariable med Scatterplot: Hvis vi ikke har kontrolvariable
Hvad ligger i antagelsen om I.I.D?	At Y-værdierne ikke afhænger af hinanden (uafhængige) og at observationerne er trukket fra samme population (identisk fordelte). Testes ved at se om det er grupperet data.
Hvordan forklares E(U\|X)=0	Det er opfyldt, hvis alle grupper på X-variablen (lad os sige, den er skaleret fra 1-10) ville score samme Y-værdi, hvis de ikke scorede den X-værdi. Altså ville fx respondenter, der scorer 3 på X, have haft samme potentielle outcome på Y, som de respondenter, der scorer 8 på X, hvis ikke de to havde forskellige X-værdier.