Questão:
Estatística de qui quadrado e coeficientes de contingência
Markus Loecher
2011-10-20 12:10:21 UTC
view on stackexchange narkive permalink

Preciso de alguns conselhos sobre como explicar $ \ chi ^ 2 $ como uma medida de contingência de uma perspectiva pedagógica.

Normalmente, apresento os termos individuais na soma de $ \ chi ^ 2 $ como desvios em escala de independência; meu argumento afirma que $ d_ {ij} = (n_ {ij} - E_ {ij}) ^ 2 $ é uma medida absoluta , mas queremos medidas relativas que são independentes das unidades, então devemos dividir por $ E_ {ij} $. No entanto, a questão natural levantada é por que não dividimos por $ E_ {ij} ^ 2 $, o que realmente normalizaria as contagens no numerador.

Além disso, é difícil encontrar explicações boas e intuitivas para a forma final do coeficiente de contingência que é $ \ sqrt {\ chi ^ 2 / (\ chi ^ 2 + N)} $

Você está lidando com contagens - que já são adimensionais.O objetivo de dividir por $ E_ {ij} $ é corrigir a variância.
Quatro respostas:
whuber
2011-10-20 13:19:03 UTC
view on stackexchange narkive permalink

Existem duas contas padrão de $ \ chi ^ 2 $ aplicadas a uma distribuição multinomial, ambas mostrando por que o denominador não deve ser elevado ao quadrado:

  1. Depois de expandir o logaritmo por meio de segunda ordem e fazer alguma álgebra, a estatística da razão de verossimilhança para a distribuição multinomial, $ -2 \ log (l) = 2 \ sum_ {i = 1} ^ k n_i \ log (n_i / e_i) $, é igual a $ \ chi ^ 2 (1 + O (n ^ {- 1/2})) $, então pelo menos assintoticamente, $ \ chi ^ 2 $ dá um teste de razão de verossimilhança . (Substituí a indexação dupla por um único índice, sem qualquer perda de generalidade.)

  2. Fisher mostrou que a distribuição multinomial surge como a distribuição condicional de $ k $ Poisson independente variáveis ​​de intensidades $ e_ {i} $, condicionadas à sua soma, $ n $. Como as variações são $ e_ {i} $, os valores padronizados $ (n_i - e_i) / \ sqrt {e_i} $ são assintoticamente normais para $ n $ grande, de onde $ \ chi ^ 2 $ aproxima-se da soma dos quadrados de $ k $ normais independentes, sujeitos à única condição $ n_1 + \ cdots + n_k = n $, dando-lhe $ k-1 $ graus de liberdade.

  3. ol >

    Ambos os argumentos mostram claramente o sentido em que $ \ chi ^ 2 $ é válido apenas assintoticamente.

    Relatos desses dois pontos de vista são encontrados no capítulo 30 de Stuart & Ord, Teoria Avançada de Estatística de Kendall, Quinta Edição (1987).

    Não sei a resposta histórica para a segunda pergunta - o coeficiente de contingência $ C $ remonta a Pearson há mais de 100 anos --mas claramente $ C $ é um análogo de um coeficiente de correlação absoluto , calculado como a raiz de (variância residual / variância total). De fato,

    $$ \ chi ^ 2 + n = \ sum \ frac {(n_i-e_i) ^ 2 + e_i ^ 2} {e_i} = \ sum \ frac {n_i ^ 2} {e_i }, $$

    que se parece exatamente com uma soma total de quadrados ponderada pela variação inversa. Com efeito, $ n $ é a variância "explicada" pelo ajuste e $ \ chi ^ 2 $ é a variância residual. Observe que $ \ chi ^ 2 $ pequeno implica que o ajuste é bom com $ C \ approx 0 $, correspondendo a quase nenhuma associação em uma tabela de contingência, enquanto $ \ chi ^ 2 $ grande implica o ajuste é terrível, correspondendo a uma associação quase perfeita com $ C \ approx 1 $.

Comentários sobre como melhorar esta resposta seriam apreciados.
ttnphns
2011-10-20 13:23:00 UTC
view on stackexchange narkive permalink

Não sei o que é a forma de normalização "mais verdadeira" ou "menos verdadeira". Qualquer normalização que faça um sentido específico servirá. A quantidade $ (n_ {ij} -E_ {ij}) ^ 2 / E_ {ij} $ é chamada de resíduo padronizado ao quadrado em uma célula, e o qui-quadrado geral de uma tabela é a soma dessas em todas as células. Qui-quadrado pode ser visto, portanto, como a distância euclidiana ponderada (peso $ = 1 / E_ {ij} $) entre as frequências observadas e esperadas [esta noção de qui-quadrado como a distância é realizada em análise de correspondência ].

Além disso, o resíduo padronizado segue a distribuição de Poisson, e com $ E_ {ij} $ grande se aproxima da distribuição normal. Isso abre a possibilidade de inferir se o residual em uma célula é significativamente grande.

O residual padronizado não é a única maneira de normalizar o residual em uma célula. Resíduo ajustado é outra forma útil.

DavidR
2011-10-20 19:46:39 UTC
view on stackexchange narkive permalink

Uma explicação intuitiva de por que $$ d_ {ij} = (n_ {ij} −E_ {ij}) ^ 2 / E_ {ij} ^ 2 $$ não seria um bom teste A estatística é perceber que ela não se ajusta ao tamanho da amostra: suponha que aumentemos nossa amostra em 10 vezes. Então, se a hipótese nula for falsa, devemos estar muito mais propensos a rejeitar - isto é, a estatística de teste $ d_ {ij} $ deve ser muito maior. No entanto, se multiplicarmos $ n_ {ij} $ e $ E_ {ij} $ por 10 (para ter uma ideia da escala do novo $ d_ {ij} $), vemos que o valor de $ d_ {ij} $ não muda.

Para resumir, embora $ d_ {ij} $ seja uma medida muito fina e intuitiva da diferença entre duas distribuições de probabilidade, não reflete nada sobre o quão confiantes estamos de que a distribuição da amostra é diferente da hipótese nula.

Stéphane Laurent
2015-08-08 02:44:33 UTC
view on stackexchange narkive permalink

Sobre o coeficiente de contingência , gostaria de aproveitar a oportunidade para deixar um comentário.

Considere a "estatística qui-quadrado teórica" ​​$$ v = \ sum_ {i, j} \ frac {(p_ {i, j} -p_ip_j) ^ 2} {p_ip_j} $$ e o coeficiente de contingência teórico $$ C_0 = \ sqrt {\ frac {v} {v + n}}. $$ É chamado de tamanho do efeito nos cálculos de poder. Pelo que eu sei, não há uma definição geral e precisa do tamanho do efeito. No entanto, considerando $ C_0 $ como o tamanho do efeito produz algo semelhante ao poder de $ F $ -testes em modelos lineares, que são testes exatos (não assintóticos) de razão de verossimilhança até uma transformação elementar.

De fato, denotando por $ E $ o tamanho do efeito para tal teste (por exemplo $ E = \ mu / \ sigma $ no caso de um gaussiano simples $ {\ cal N} (\ mu, \ sigma ^ 2) $ sample e $ H_0 \ colon \ {\ mu = 0 \} $), a estatística de teste em $ H_1 $ é uma distribuição $ F $ não central com parâmetro de não centralidade $ \ boxed {\ lambda = nE ^ 2} $. Nesta situação, não realizamos um teste assintótico porque é possível obter a lei exata da estatística de teste $ F $. Assintoticamente, $ F \ approx df_1 \ times \ chi ^ 2 $ onde $ \ chi ^ 2 $ é a estatística de teste do teste de razão de verossimilhança assintótica. Se usássemos a razão de verossimilhança assintótica em vez do teste $ F $ exato, obteríamos um qui-quadrado não central em $ H_1 $ em vez de uma distribuição $ F $ não central: $ F_ {df_1, df_2} ( \ lambda) \ approx \ frac {1} {df_1} \ chi ^ 2_ {df_1} (\ lambda) $ quando $ df_2 $ é grande.

Da mesma forma, no contexto das tabelas de contingência, quando $ n $ é grande, a estatística de teste $ \ chi ^ 2 $ em $ H_1 $ é aproximada por uma distribuição não central $ \ chi ^ 2 $ com parâmetro de não centralidade $ \ boxed {\ lambda = n C_0 ^ 2} $, como podemos verificar por este exemplo de cálculo de potência:

  C0 <- 0.3 # teórico efeito sizen <- 100 # total countalpha <- 0.05 # erro tipo I # --- Cálculo de poder com o pacote pwr --- # library (pwr); pwr.chisq.test (C0, N = n, df = 1, sig.level = alfa) ##
## Qui ao quadrado cálculo da potência ## ## w = 0,3 ## N = 100 ## df = 1 ## sig.level = 0,05 ## power = 0,8508388 # --- Cálculo da potência direta --- # threshold <- qchisq (1-alfa, df = 1) # o valor crítico do teste statisticlambda <- n * C0 ^ 2 # parâmetro de não centralidade1 - pchisq (limiar, df = 1, ncp = lambda) # obtemos o mesmo resultado ## [1] 0,8508388  

Assim, cada um desses exemplos ($ F $ -testes em modelos lineares gaussianos e $ \ chi ^ 2 $ testes para tabelas de contingência) fornece assintoticamente um teste de razão de verossimilhança (ver a resposta de @whuber sobre a Pearson $ \ chi ^ 2 $), e sua estatística de teste em $ H_1 $ é aproximada, para $ n $ grande, por uma distribuição $ \ chi ^ 2 $ não central com parâmetro de não centralidade $ \ encaixotado {\ lambda = n \ times \ text {tamanho do efeito} ^ 2} $.



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...