More guns, less crime

Öffnen Sie den Datensatz http://www.farys.org/daten/guns.dta. Er enthält Kriminalitätsstatistiken von 50 US-amerikanischen Bundesstaaten plus Washington DC von 1977 bis 1999 (etwas Background: http://www.nber.org/papers/w9336.pdf). Die Variable law gibt für jeden Bundesstaat und Jahr an, ob das Tragen von Waffen per Gesetz erlaubt ist. Im Folgenden untersuchen Sie den Einfluss von law auf die Häufigkeit von Gewaltverbrechen (violent).

Die Variablen sind:

Untersuchen Sie die Wirkung von law (Erlaubnis, Waffen zu tragen) auf die Kriminalität violent. Bauen Sie hierfür schrittweise geeignete Modelle.

Einige grundlegende Dinge sollten beachtet werden:

Was lässt sich nun über die Wirkung von law sagen?

Betrachten wir die Datenlage:

. use http://www.farys.org/daten/guns.dta, clear
(Written by R.              )

. hist violent, name(violent, replace)
(bin=30, start=47, width=95.826667)

. graph export histogram.png, replace
(file histogram.png written in PNG format)

Man sieht, dass die Variable rechtsschief verteilt ist. Vorschlag: Es wird log(Y) analysiert.

. gen lnviolent = ln(violent)

. twoway connected lnviolent year, by(state)

. graph export violent.png, replace
(file violent.png written in PNG format)

Die Levels der Gewaltverbrechen unterscheiden sich relativ stark (North Dakota/District of Columbia). Die Staaten weisen keine einheitlichen zeitlichen Trends auf. Allerdings fallen vermehrt Staaten mit grossen Städten durch hohe Kriminalität auf, ländliche Staaten durch niedrige. Ein Blick in die Daten zeigt zudem, dass einige ländliche Staaten (z.B. Virginia, New Hampshire) eine lange Tradition für das Tragen von Waffen haben, District of Columbia dagegen hatte in allen Jahren kein Gesetz welches das Tragen von Waffen gestattet.

Vergleichen wir die Modelle POLS/FE/RE:

. reg lnviolent law

      Source |       SS       df       MS              Number of obs =    1173
-------------+------------------------------           F(  1,  1171) =  111.08
       Model |  42.3348301     1  42.3348301           Prob > F      =  0.0000
    Residual |  446.296733  1171  .381124452           R-squared     =  0.0866
-------------+------------------------------           Adj R-squared =  0.0859
       Total |  488.631563  1172  .416921129           Root MSE      =  .61735

------------------------------------------------------------------------------
   lnviolent |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         law |  -.4429646   .0420294   -10.54   0.000     -.525426   -.3605032
       _cons |   6.577884   .0552635   119.03   0.000     6.469457     6.68631
------------------------------------------------------------------------------

. xtset state year
       panel variable:  state (strongly balanced)
        time variable:  year, 1 to 23
                delta:  1 unit

RE

. xtreg lnviolent law, re

Random-effects GLS regression                   Number of obs      =      1173
Group variable: state                           Number of groups   =        51

R-sq:  within  = 0.0387                         Obs per group: min =        23
       between = 0.2447                                        avg =      23.0
       overall = 0.0866                                        max =        23

                                                Wald chi2(1)       =     40.80
corr(u_i, X)   = 0 (assumed)                    Prob > chi2        =    0.0000

------------------------------------------------------------------------------
   lnviolent |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         law |   .1087428   .0170251     6.39   0.000     .0753741    .1421115
       _cons |    5.89213   .0804952    73.20   0.000     5.734362    6.049897
-------------+----------------------------------------------------------------
     sigma_u |  .54904945
     sigma_e |  .17762117
         rho |  .90525872   (fraction of variance due to u_i)
------------------------------------------------------------------------------

. eststo re

FE

. xtreg lnviolent law, fe

Fixed-effects (within) regression               Number of obs      =      1173
Group variable: state                           Number of groups   =        51

R-sq:  within  = 0.0387                         Obs per group: min =        23
       between = 0.2447                                        avg =      23.0
       overall = 0.0866                                        max =        23

                                                F(1,1121)          =     45.08
corr(u_i, Xb)  = -0.3741                        Prob > F           =    0.0000

------------------------------------------------------------------------------
   lnviolent |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         law |   .1136629   .0169288     6.71   0.000     .0804471    .1468786
       _cons |   5.886014   .0216717   271.60   0.000     5.843493    5.928536
-------------+----------------------------------------------------------------
     sigma_u |  .64456125
     sigma_e |  .17762117
         rho |  .92942129   (fraction of variance due to u_i)
------------------------------------------------------------------------------
F test that all u_i=0:     F(50, 1121) =   260.50            Prob > F = 0.0000

. eststo fe

. hausman re fe

                 ---- Coefficients ----
             |      (b)          (B)            (b-B)     sqrt(diag(V_b-V_B))
             |       re           fe         Difference          S.E.
-------------+----------------------------------------------------------------
         law |    .1087428     .1136629       -.0049201        .0018084
------------------------------------------------------------------------------
                           b = consistent under Ho and Ha; obtained from xtreg
            B = inconsistent under Ha, efficient under Ho; obtained from xtreg

    Test:  Ho:  difference in coefficients not systematic

                  chi2(1) = (b-B)'[(V_b-V_B)^(-1)](b-B)
                          =        7.40
                Prob>chi2 =      0.0065

Das OLS-Modell zeigt einen starken negativen Effekt: Staaten in denen Waffen getragen werden dürfen weisen ein niedrigeres Niveau an Gewaltverbrechen auf. Das OLS-Modell lässt allerdings die Korrelation (siehe Plot) der Datenpunkte innerhalb der Staaten ausser acht - ist also nicht effizient - und Staaten könnten sich in beliebigen anderen Charakteristiken unterscheiden (unbeobachtete Heterogenität), die diesen Zusammenhang herbeiführen. Der Hausman-Test gibt Auskunft, ob FE- oder RE-Modell herangezogen werden sollte. Er prüft, ob sich die beiden Schätzer systematisch unterscheiden. In diesem Fall muss H0 verworfen werden: Das Fixed-Effects-Modell ist angemessen. Inhaltlich bedeutet dies, dass die Achsenabschnitte der Staaten nicht zufällig sind sondern von X abhängen. Im Output ist ersichtlich das corr(ui, Xb) =  − 0.3741, d.h. Staaten mit shall carry law verfügen über ein niedrigeres Niveau, was sich auch in den OLS-Ergebnissen widerspiegelt (ein Indiz auf einen Selektionseffekt, evtl. verbieten Staaten mit hoher Kriminalität das Tragen von Waffen). Im FE-Modell ist ein signifikant positiver Zusammenhang zu erkennen: Mehr Waffen, mehr Kriminalität.

Drittvariablen

Periodendummies machen in Panelmodellen fast immer Sinn. Hierdurch lässt sich sehr viel Heterogenität durch zeitvariante Drittvariablen abschöpfen, die ansonsten die Resultate verzerren können. Zudem kann auch die Information von Staaten genutzt werden, die keine Veränderung auf der law-Variable aufweisen.

Weitere denkbare Variablen wären vielleicht male, cauc, afam, density, income. Männer sind bekanntermassen krimineller. Mit cauc, afam, kann geprüft werden, ob die ethnische Zusammensetzung eine Rolle spielt (vorsicht vor ökologischen Fehlschlüssen!). Weiter könnten density und income spielen. Gut wäre, hier noch genauer theoretisch zu begründen.

. xtreg lnviolent law male afam cauc density income i.year, fe

Fixed-effects (within) regression               Number of obs      =      1173
Group variable: state                           Number of groups   =        51

R-sq:  within  = 0.4175                         Obs per group: min =        23
       between = 0.0698                                        avg =      23.0
       overall = 0.0146                                        max =        23

                                                F(28,1094)         =     28.00
corr(u_i, Xb)  = -0.4242                        Prob > F           =    0.0000

------------------------------------------------------------------------------
   lnviolent |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         law |  -.0280719   .0171288    -1.64   0.102     -.061681    .0055371
        male |   .0729487   .0148727     4.90   0.000     .0437664     .102131
        afam |   .0273128   .0221025     1.24   0.217    -.0160552    .0706808
        cauc |   .0088439   .0070527     1.25   0.210    -.0049944    .0226822
     density |  -.1341626   .0565241    -2.37   0.018    -.2450705   -.0232547
      income |   1.22e-06   6.39e-06     0.19   0.849    -.0000113    .0000138
             |
        year |
          2  |   .0584104   .0280825     2.08   0.038     .0033089     .113512
          3  |   .1641065   .0284552     5.77   0.000     .1082735    .2199395
          4  |   .2170022   .0289105     7.51   0.000      .160276    .2737285
          5  |   .2172036   .0297698     7.30   0.000     .1587912     .275616
          6  |   .1953222   .0311315     6.27   0.000      .134238    .2564065
          7  |   .1602212   .0330345     4.85   0.000     .0954032    .2250393
          8  |   .1947999   .0361892     5.38   0.000     .1237919     .265808
          9  |   .2466096   .0393456     6.27   0.000     .1694083     .323811
         10  |   .3267022   .0429734     7.60   0.000     .2423825    .4110219
         11  |   .3275129   .0467075     7.01   0.000     .2358664    .4191594
         12  |   .3904447   .0508743     7.67   0.000     .2906224     .490267
         13  |   .4465946   .0546997     8.16   0.000     .3392664    .5539227
         14  |   .5495723   .0653164     8.41   0.000     .4214127     .677732
         15  |   .6031831   .0683115     8.83   0.000     .4691467    .7372195
         16  |   .6354595   .0719829     8.83   0.000     .4942194    .7766996
         17  |   .6582886   .0745899     8.83   0.000     .5119332    .8046441
         18  |   .6449291   .0777561     8.29   0.000     .4923612     .797497
         19  |    .638627   .0806825     7.92   0.000     .4803171    .7969369
         20  |   .5831331   .0836207     6.97   0.000      .419058    .7472082
         21  |   .5626654   .0864558     6.51   0.000     .3930274    .7323033
         22  |   .5069875   .0896488     5.66   0.000     .3310846    .6828905
         23  |   .4477977   .0924436     4.84   0.000     .2664109    .6291845
             |
       _cons |   3.835625   .4203375     9.13   0.000     3.010866    4.660384
-------------+----------------------------------------------------------------
     sigma_u |  .69845253
     sigma_e |  .13995877
         rho |  .96139631   (fraction of variance due to u_i)
------------------------------------------------------------------------------
F test that all u_i=0:     F(50, 1094) =   291.71            Prob > F = 0.0000

Es ist zunächst ersichtlich, dass die Periodendummies sehr viel Varianz auffangen und daher eig. unverzichtbar sind. Es lässt sich ein Einfluss des Männeranteils erkennen. Ausserdem zeigt sich ein präventiver Effekt der Bevölkerungsdichte. Eine mögliche Erklärung wäre die bessere Verfügbarkeit von Überwachung und Sicherheit in dicht besiedelten Gebieten. Für law lässt sich in keinem Modell ein Effekt finden.

Cluster robuste Fehler

. xtreg lnviolent law male afam cauc density income i.year, fe cluster(state)

Fixed-effects (within) regression               Number of obs      =      1173
Group variable: state                           Number of groups   =        51

R-sq:  within  = 0.4175                         Obs per group: min =        23
       between = 0.0698                                        avg =      23.0
       overall = 0.0146                                        max =        23

                                                F(28,50)           =     61.51
corr(u_i, Xb)  = -0.4242                        Prob > F           =    0.0000

                                 (Std. Err. adjusted for 51 clusters in state)
------------------------------------------------------------------------------
             |               Robust
   lnviolent |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         law |  -.0280719   .0408799    -0.69   0.495    -.1101817    .0540379
        male |   .0729487   .0506796     1.44   0.156    -.0288442    .1747416
        afam |   .0273128   .0502536     0.54   0.589    -.0736246    .1282502
        cauc |   .0088439   .0230586     0.38   0.703    -.0374706    .0551584
     density |  -.1341626   .0826305    -1.62   0.111    -.3001309    .0318057
      income |   1.22e-06   .0000162     0.08   0.940    -.0000314    .0000338
             |
        year |
          2  |   .0584104   .0156748     3.73   0.000     .0269267    .0898942
          3  |   .1641065   .0232268     7.07   0.000      .117454    .2107589
          4  |   .2170022   .0322172     6.74   0.000     .1522921    .2817123
          5  |   .2172036   .0377298     5.76   0.000     .1414212    .2929861
          6  |   .1953222   .0436015     4.48   0.000     .1077461    .2828984
          7  |   .1602212   .0554268     2.89   0.006     .0488933    .2715491
          8  |   .1947999    .072465     2.69   0.010     .0492498    .3403501
          9  |   .2466096   .0870456     2.83   0.007     .0717735    .4214458
         10  |   .3267022   .1017804     3.21   0.002     .1222702    .5311342
         11  |   .3275129    .117431     2.79   0.007     .0916459    .5633799
         12  |   .3904447   .1313737     2.97   0.005     .1265727    .6543166
         13  |   .4465946   .1439518     3.10   0.003     .1574588    .7357303
         14  |   .5495723   .1834002     3.00   0.004     .1812022    .9179424
         15  |   .6031831   .1902329     3.17   0.003     .2210891    .9852771
         16  |   .6354595   .2023029     3.14   0.003     .2291223    1.041797
         17  |   .6582886   .2089298     3.15   0.003     .2386407    1.077937
         18  |   .6449291   .2166354     2.98   0.004     .2098042    1.080054
         19  |    .638627   .2248539     2.84   0.007     .1869947    1.090259
         20  |   .5831331   .2349908     2.48   0.016     .1111402    1.055126
         21  |   .5626654    .241618     2.33   0.024     .0773613    1.047969
         22  |   .5069875    .253778     2.00   0.051    -.0027405    1.016716
         23  |   .4477977    .265724     1.69   0.098    -.0859248    .9815202
             |
       _cons |   3.835625   1.155058     3.32   0.002     1.515622    6.155627
-------------+----------------------------------------------------------------
     sigma_u |  .69845253
     sigma_e |  .13995877
         rho |  .96139631   (fraction of variance due to u_i)
------------------------------------------------------------------------------

Mit cluster robusten Fehlern sieht man zudem, dass der Effekt von male ein Artefakt von Autokorrelation war. Abschliessend kann man sagen, dass die Modelle leicht fehlspezifiziert werden können. Die Aufnahme von Periodendummies (und State-dummies, d.h. FE) ist immer ein gutes Vorgehen. Es können aber immer noch zeitvariante Drittvariablen auf Bundesstaatebene vorliegen, die wir hier nicht kontrollieren können.

Paneldatenmodelle für dichotome abhängige Variablen

Öffnen Sie den Datensatz http://www.farys.org/daten/shp.dta. Es handelt sich um einen Auszug aus dem Schweizer Haushaltspanel. Im Folgenden untersuchen Sie die dichotome Variable gesund, die angibt, ob der Befragte seinen Gesundheitszustand selbst als “gesund oder sehr gesund” oder “nicht gesund bis mittelmässig” einschätzt.

  1. Schätzen Sie folgende Modelle unter Verwendung von Alter, Geschlecht, Arbeitsstunden und Einkommen (jährlicher netto Arbeitslohn) als Prädiktoren. Interpretieren Sie jeweils die Schätzer und diskutieren Sie, wie weit und warum sich die Schätzer der unterschiedlichen Modelle unterscheiden.
  2. Bonus: Schätzen Sie Marginaleffekte für das Random Effects Modell und das Hybride Modell
  3. . qui xtlogit gesund alter einkommen geschlecht arbeitsstunden , re
    
    . margins, dydx(*) predict(pu0)
    
    Average marginal effects                          Number of obs   =       5327
    Model VCE    : OIM
    
    Expression   : Pr(gesund=1 assuming u_i=0), predict(pu0)
    dy/dx w.r.t. : alter einkommen geschlecht arbeitsstunden
    
    --------------------------------------------------------------------------------
                   |            Delta-method
                   |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
    ---------------+----------------------------------------------------------------
             alter |  -.0017808    .000405    -4.40   0.000    -.0025745    -.000987
         einkommen |   3.26e-07   1.15e-07     2.84   0.005     1.01e-07    5.51e-07
        geschlecht |  -.0121593   .0093851    -1.30   0.195    -.0305538    .0062352
    arbeitsstunden |  -.0005541   .0002739    -2.02   0.043    -.0010908   -.0000173
    --------------------------------------------------------------------------------
    
    . qui xtlogit gesund geschlecht c_alter m_alter c_einkommen m_einkommen c_arbeitsstunden m_arbeitsstunden, re
    
    . margins, dydx(*) predict(pu0)
    
    Average marginal effects                          Number of obs   =       1997
    Model VCE    : OIM
    
    Expression   : Pr(gesund=1 assuming u_i=0), predict(pu0)
    dy/dx w.r.t. : geschlecht c_alter m_alter c_einkommen m_einkommen c_arbeitsstunden m_arbeitsstunden
    
    ----------------------------------------------------------------------------------
                     |            Delta-method
                     |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
    -----------------+----------------------------------------------------------------
          geschlecht |  -.0312734   .0243532    -1.28   0.199    -.0790047    .0164579
             c_alter |  -.0054046   .0035474    -1.52   0.128    -.0123574    .0015482
             m_alter |  -.0028456   .0010544    -2.70   0.007    -.0049123    -.000779
         c_einkommen |   1.52e-06   7.02e-07     2.17   0.030     1.48e-07    2.90e-06
         m_einkommen |  -9.37e-09   4.09e-07    -0.02   0.982    -8.11e-07    7.92e-07
    c_arbeitsstunden |  -.0015287   .0014942    -1.02   0.306    -.0044573    .0013998
    m_arbeitsstunden |   .0011113   .0010721     1.04   0.300    -.0009899    .0032126
    ----------------------------------------------------------------------------------
  4. Bonus: Schätzen Sie ein FE-Modell, aber weisen Sie die Effekte für Alter, Arbeitsstunden und Einkommen separat nach Geschlecht aus. Unterscheiden sich die Effekte für Männer und Frauen? Quizfrage: Warum ist der Schätzer des Einkommens für Männer präziser als für Frauen?
  5. . xtlogit gesund i.geschlecht#(c.alter c.einkommen c.arbeitsstunden), fe nolog
    note: multiple positive outcomes within groups encountered.
    note: 521 groups (3330 obs) dropped because of all positive or
          all negative outcomes.
    
    Conditional fixed-effects logistic regression   Number of obs      =      1997
    Group variable: idpers                          Number of groups   =       267
    
                                                    Obs per group: min =         2
                                                                   avg =       7.5
                                                                   max =        10
    
                                                    LR chi2(6)         =     11.48
    Log likelihood  = -674.42212                    Prob > chi2        =    0.0747
    
    ---------------------------------------------------------------------------------------------
                         gesund |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
    ----------------------------+----------------------------------------------------------------
             geschlecht#c.alter |
                             1  |  -.0552563   .0288969    -1.91   0.056    -.1118933    .0013806
                             2  |  -.0076568   .0285669    -0.27   0.789    -.0636469    .0483333
                                |
         geschlecht#c.einkommen |
                             1  |   8.48e-06   5.05e-06     1.68   0.093    -1.41e-06    .0000184
                             2  |   6.28e-06   6.00e-06     1.05   0.295    -5.48e-06     .000018
                                |
    geschlecht#c.arbeitsstunden |
                             1  |    -.02841   .0128364    -2.21   0.027    -.0535689   -.0032511
                             2  |    .007495   .0110999     0.68   0.500    -.0142605    .0292504
    ---------------------------------------------------------------------------------------------
    
    . lincom 1b.geschlecht#c.alter - 2.geschlecht#c.alter
    
     ( 1)  [gesund]1b.geschlecht#c.alter - [gesund]2.geschlecht#c.alter = 0
    
    ------------------------------------------------------------------------------
          gesund |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
    -------------+----------------------------------------------------------------
             (1) |  -.0475995   .0406337    -1.17   0.241    -.1272402    .0320411
    ------------------------------------------------------------------------------
    
    . lincom 1b.geschlecht#c.einkommen - 2.geschlecht#c.einkommen
    
     ( 1)  [gesund]1b.geschlecht#c.einkommen - [gesund]2.geschlecht#c.einkommen = 0
    
    ------------------------------------------------------------------------------
          gesund |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
    -------------+----------------------------------------------------------------
             (1) |   2.20e-06   7.84e-06     0.28   0.779    -.0000132    .0000176
    ------------------------------------------------------------------------------
    
    . lincom 1b.geschlecht#c.arbeitsstunden - 2.geschlecht#c.arbeitsstunden
    
     ( 1)  [gesund]1b.geschlecht#c.arbeitsstunden - [gesund]2.geschlecht#c.arbeitsstunden = 0
    
    ------------------------------------------------------------------------------
          gesund |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
    -------------+----------------------------------------------------------------
             (1) |  -.0359049     .01697    -2.12   0.034    -.0691656   -.0026443
    ------------------------------------------------------------------------------

    Der Alterseffekt ist für Männer stärker und nahezu signifikant. Die beiden Steigungen unterscheiden sich allerdings nicht signifikant voneinander. Das Einkommen hat ähnlich grosse Effekte. Der Effekt für Männer ist etwas grösser und zudem etwas präziser geschätzt (das liegt daran, dass die Varianz der Einkommen für Männer grösser ist als für Frauen). Bzgl. der Arbeitsstunden gibt es nur einen Effekt für Männer, der sich zudem signifikant vom Effekt für Frauen unterscheidet. Mit mehr Arbeitsstunden beklagen Männer tendenziell einen schlechteren Gesundheitszustand.

    . table geschlecht, c(sd einkommen mean einkommen count einkommen)
    
    ----------------------------------------------------------
    geschlech |
    t         |   sd(einkom~n)  mean(einkom~n)     N(einkom~n)
    ----------+-----------------------------------------------
          man |       40604.51     78286.87521           2,973
        woman |       28179.79     37422.40511           2,977
    ----------------------------------------------------------

    Man sieht, dass die Fallzahl etwa gleich ist, die Streuung der Einkommen aber wesentlich grösser für Männer ist. Daher gibt es mehr Information und präzisere Schätzer. Genaugenommen müsste hier die within-Varianz angeschaut werden, nicht das Total:

    . bysort geschlecht: xtsum einkommen
    
    ------------------------------------------------------------------------------------------------------------------------
    -> geschlecht = man
    
    Variable         |      Mean   Std. Dev.       Min        Max |    Observations
    -----------------+--------------------------------------------+----------------
    einkom~n overall |  78286.88   40604.51         50     490600 |     N =    2973
             between |             37247.34        425     270920 |     n =     386
             within  |             20084.92  -61336.46   442478.3 | T-bar = 7.70207
    
    ------------------------------------------------------------------------------------------------------------------------
    -> geschlecht = woman
    
    Variable         |      Mean   Std. Dev.       Min        Max |    Observations
    -----------------+--------------------------------------------+----------------
    einkom~n overall |  37422.41   28179.79        100     260000 |     N =    2977
             between |             25612.94        200   167417.8 |     n =     426
             within  |             12802.61  -36916.48   190054.4 | T-bar = 6.98826
    Sowohl die within- als auch die between-Varianz ist für Männer grösser.