Questão:
Regressão linear de amostra pequena: por onde começar
Brandon Bertelsen
2010-11-11 10:33:28 UTC
view on stackexchange narkive permalink

DIVULGAÇÃO COMPLETA: Este é o dever de casa.

Recebi um pequeno conjunto de dados (n = 21) os dados são confusos, olhar para eles em uma matriz de gráfico de dispersão me fornece pouco ou nenhum insight . Recebi 8 variáveis ​​que são métricas criadas a partir de um estudo longitudinal (BI, CONS, CL, CR, ..., VOBI). As outras medidas são de vendas de fundos mútuos, retornos, níveis de ativos, participação de mercado, participação de vendas e proporção de vendas para ativos

alt text

Correlações estão em toda parte.

  BI CONS CL CR QT COM CONV VOBI ms ALS ss share share2BI 1,0000000 0,7620445 0,639830594 0,70384322 0,7741463 0,8451500 0,84704440 0,85003686 0,2106773 -0,238431047 0,36184548 0,40007830 0,4076563 0,31643802 -0.28283564CONS 0,7620445 1,0000000 0,933595967 0,96979599 0,9892533 0,9069803 0,96781703 0,93416972 0,2316209 -0,074351798 0,31952292 0,40259511 0,4442877 0,24783884 0,9335960 -0.14788906CL 1,000000000 0,88297431 0,6398306 0,8993748 0,8133169 0,1200420 0,89922684 0,81132166 0,22132116 0,26729067 0,3033221 -,001107093 0,07650924 0,9697960 -0.25595278CR 0,882974312 1,00000000 0,7038432 0,9788150 0,8965754 0,2934774 0,92335363 0,90848199 0,35973640 0,46409570 0,5012178 -,119340914 0,32832247 0,899374782 -0.09005985QT 0,9892533 0,7741463 1,0000000 0,97881497 0,9216887 0.95458369 0.94848419 0.2826278 -0,108430256 0,35520090 0,43290221 0,4823314 0,31761015 0,9069803 -0.12903075COM 0,813316918 0,89657544 0,8451500 0,9216887 1,0000000 0,4305866 0,90302002 0,89682825 0,50724121 0,55718441 0,5773171 -,255581594 0,40378679 0,9678170 -0.12085524CONV 0,899226843 0,92335363 0,8470444 0,9545837 0,9030200 0,1993837 1,00000000 0,96097892 0,32010735 0,41843335 0,4531298 -,065237725 0,28873934 -0,19668858
I 0.8500369 0.9341697 0,811321664 0,90848199 0,9484842 0,8968283 0,96097892 1,00000000 0,2424889 -0,087126942 0,30390489 0,40390750 0,4845432 0,36588655 -0.07137107s 0,2106773 0,2316209 0,120041993 0,29347742 0,2826278 0,4305866 0,19938371 0,24248894 1,0000000 -0,173034217 0,91766914 0,84673519 0,8596887 0,61299987 0.32072790r -0,2384310 -0,0743518 -0,001107093 -0,11934091 -0,1084303 -0,2555816 -0,06523773 -0,08712694 -0,22512978 -0,18337773 -0,1730342 1,000000000 -0,1030943 -0,17650579 0.51768144a 0,221321163 0,35973640 0,3195229 0,3618455 0,3552009 0,5072412 0,9176691 0,32010735 0,30390489 1,00000000 0,92445370 0,8656139 -,225129778 0,63049461 0,4025951 0.03876774ms 0,267290668 0,46409570 0,4000783 0,4329022 0,5571844 0,8467352 0,41843335 0,40390750 0,92445370 1,00000000 0,9572730 -,183377734 0,77582501 0,4076563 0.08435813ss 0,4442877 0,303322147 0,50121775 0,4823314 0,5773171 0,45312978 0 0.86561394 0.95727301 0.83931302 1.0000000 0.8596887 .48454322 0,24371447 partes 0,3164380 0,2478388 0,076509240 -,103094325 0,32832247 0,3176102 0,4037868 0,28873934 0,36588655 0,6129999 0,63049461 0,77582501 -,176505786 0,8393130 1,00000000 0.20313930share2 -0,1478891 -,255952782 -0,09005985 -0,2828356 -0,1290307 -0,1208552 -0,19668858 -0,07137107 0,03876774 0,08435813 0,3207279 0,517681444 0,20313930 0,2437145 1.00000000  

Agora, tentei executar vários "testes", por exemplo:

  summary.lm (share2 ~ bi + ... )  

No entanto, nenhum deles fornece qualquer resultado razoável (principalmente R ^ 2 ajustado negativamente).

1 m me perguntando, se você tivesse dado onde parecia que não havia relacionamento (linear pelo menos).

Qual seria sua próxima etapa?

P.S: tentei várias fórmulas de modelo que continham efeitos de interação e recebi resultados muito melhores (R ^ 2 Ra ^ 2> 80% e testes f significativos), mas nem todos os efeitos de interação foram significativos.

Qual é o objetivo de suas análises?
Sim, eu deixei isso de fora, não eu. O objetivo é encontrar uma equação preditiva para share2 a partir das variáveis ​​fornecidas.
Quatro respostas:
Gavin Simpson
2010-11-11 15:20:18 UTC
view on stackexchange narkive permalink

Eu provavelmente daria uma olhada em uma regressão de cume ou, melhor, o laço. Essas técnicas são frequentemente utilizadas quando há multicolinearidade. Existem várias opções para fazer isso no R: consulte a seção Métodos regularizados e de redução da visualização de tarefas do Aprendizado de máquina & Statistical Learning no CRAN.

Você não tem dados suficientes para começar a pensar sobre algumas das técnicas listadas em outras seções dessa Visualização de Tarefas.

Com 21 sujeitos e 8 variáveis, e sem qualquer pergunta, hipótese ou modelo declarado ... que pergunta a regressão de crista responderia?
@Harvey - Brandon afirmou em um comentário ao seu Q que queria um modelo para fins de previsão.
Harvey Motulsky
2010-11-12 00:07:37 UTC
view on stackexchange narkive permalink

Parece-me que a única coisa que vale a pena fazer aqui é testar uma hipótese bem focada, se você tiver uma. Mas parece que não.

Com tão poucos casos e tantas variáveis, qualquer outra coisa seria (na minha opinião) uma expedição de pesca. Isso poderia ser um pouco útil, talvez, para gerar uma hipótese para testar com novos dados. Mas qualquer resultado de uma análise multivariada sem foco desses dados provavelmente será um achado coincidente falso positivo que provavelmente não se sustentará com novos dados.

chl
2010-11-11 16:40:29 UTC
view on stackexchange narkive permalink

Acho a ideia de @ ucfagls mais apropriada aqui, já que você tem muito poucas observações e muitas variáveis. A regressão de cume deve fazer seu trabalho para fins de previsão.

Outra maneira de analisar os dados seria confiar na regressão PLS (neste caso, PLS1), que tem alguma ideia com regressão nas pontuações do PCA, mas parece mais interessante no seu caso. Como a multicolinearidade pode ser um problema, você pode olhar para a solução esparsa (consulte, por exemplo, os pacotes spls ou mixOmics R).

Steven Noble
2010-11-11 11:35:52 UTC
view on stackexchange narkive permalink

Se você está frustrado com muitas correlações e já tem sua matriz de covariância (bem, quase), você pode fazer uma análise de componentes principais. Você acabará com menos dimensões, o que provavelmente é bom considerando o tamanho do conjunto de dados, e o que você acaba com não será mais correlacionado.

Hrmmm, prcomp retorna resultados ridículos. PC1 é responsável por 100% da variação com um SD de 20800! Sem rotação, lembre-se. Deixe-me tentar novamente
Eh? PCA ** é ** uma rotação.
Um problema com o PCA é a interpretação do modelo final. Digamos que PC1 e PC2 são termos significativos no modelo. Para explicar a relação entre share2 e os dados originais para obter compreensão sobre eles, você precisa separar os carregamentos das variáveis ​​em PC1 e PC2. Isso provavelmente não importará muito se a previsão é tudo em que Brandon está interessado.
Não posso editar esse comentário agora, mas quis dizer escala, não rotação.
@Brandon - então esse seria meu outro comentário sobre o PCA que você fez - acho que você deve padronizar (`escala = VERDADEIRO`) se as variáveis ​​estão em unidades diferentes ou têm intervalos diferentes.


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 2.0 sob a qual é distribuído.
Loading...