top of page

Análise de correlação

Se algum dos seus objetivos de pesquisa é a avaliar como uma variável numérica se associa com uma outra variável numérica, o que você precisa é uma ANÁLISE DE CORRELAÇÃO.


Aqui está um exemplo de como a ICIC - Consultoria Estatística realiza essa análise:


Supondo que temos como população os 100 concluintes do curso de Estatística do ano de 2015 e buscamos entender a dinâmica dos seus salários com relação à idade dos indivíduos na formatura:

T: TABELA



I: INTERPRETAÇÃO


Não encontramos evidências através do teste de correlação de spearman para rejeitar a hipótese de nulidade de correlação (=0.04, p-valor=0.702). De fato, Cohen(1992) propõe esta magnitude de correlação como insignificante ou irrisória. Calculamos também o coeficiente de determinação, dado pelo quadrado da correlação ==0.0015, que indica 0.15% de variância compartilhada entre os postos (também chamados ‘ranks’) das duas variáveis. O intervalo de confiança (-0.16 ,0.23) (calculado via bootstrap - BCa - adjusted bootstrap percentile, com 1000 reamostragens) inclui o valor ‘0,’ indicando ausência de correlação. Reiteramos a importância de avaliar o significado deste resultado na prática.


A suposição de normalidade das amostras foi verificada através do teste de Shapiro-Wilk, que com p-valor menor que 0.05 rejeitou a normalidade da distribuição de Idade na data da formatura - W=0.97, p-valor=0.048*, mas não de Salário após 5 anos de formado - W=1, p-valor=0.988. Como a suposição de normalidade foi violada, justificamos a utilização do teste não paramétrico de correlação de spearman ao invés da correlação de pearson.


R: REFERÊNCIAS


Teste representado de duas formas:

• pela letra ‘h’ ao lado do p-valor e pela letra r, se correlação de Pearson;

• pela letra ‘g’ e a letra grega (pronuncia=se ‘rô”) se correlação de spearman.


Estas estatísticas medem o grau da correlação (e a direção dessa correlação - se positiva ou negativa) entre duas variáveis de escala métrica (intervalar ou de razão). Elas assumem apenas valores entre -1 e 1, em que se o sinal da correlação for negativa, isso indica uma associação indireta entre as variáveis (Os indivíduos com maiores valores em uma variável possuem menores valores na outra) enquanto um sinal positivo indica uma relação direta (Os indivíduos com maiores valores em uma variável possuem também maiores valores na outra). Quanto mais distante de 0, mais forte é a correlação.


A hipótese nula do teste é que a correlação é igual a 0 (Não existe nenhum tipo de correlação), testado contra a hipótese de que ela é diferente de 0. P-valores menores que 0,05 indicam que a correlação encontrada é de fato distante o suficiente do 0. A diferença entre esses dois tipos de correlação é que a correlação de Spearman é um teste não paramétrico, que não depende da magnitude dos números, e sim somente da ordem (rank) em que elas ocorrem. Por ser não paramétrico, não depende da suposição de normalidade, enquanto a correlação de Pearson depende desta suposição (Andy Field, Jeremy Miles, and Zoe Field 2012) (capítulo 6.5). A normalidade das variáveis foi testada com Shapiro-wilk (Ghasemi 2012).


A magnitude do efeito foi classificada com Cohen (1992), sendo uma das medidas mais usuais na literatura, que os separa em ‘grande’ (de 0,50 a 1,00); ‘moderada’ (de 0,30 a 0,49), ‘pequena’ (de 0,10 a 0,29) e ‘irrisória’ (menor que 0,1). Andy Field, Jeremy Miles, and Zoe Field (2012) também sugere o cálculo do coeficiente de determinação, que consiste no quadrado da correlação e indica a proporção de variabilidade compartilhada entre as variáveis, no caso da correlação de Pearson e entre os ranks, no caso da correlação de Spearman. O mesmo autor também indica o cálculo de Intervalos de confiança, em que bootstrap (BCa) com 1000 reamostragens foi utilizado para o cômputo do IC da correlação de Spearman, uma vez que não há uma fórmula fechada para esta estatística.


Bibliografia


Andy Field, Jeremy Miles, and Zoe Field. 2012. Discovering Statistics Using R. SAGE Publications.


Cohen, Jacob. 1992. “Statistical Power Analysis.” Current Directions in Psychological Science 1 (3): 98–101. https://doi.org/10.1111/1467-8721.ep10768783.


Ghasemi, & Zahediasl, A. 2012. “Normality Tests for Statistical Analysis: A Guide for Non-Statisticians.” International Journal of Endocrinology and Metabolism 10(2): 486--489.


V: VISUALIZAÇÃO





Gostou dessa forma de análise? Se quiser uma dessa para os dados do seu banco, é só enviá-lo! Terei o maior prazer em replicar a sequência TIRV para você!


Fique à vontade para tirar dúvida sobre esse modelo de análise aqui nos comentários :)

Comments


bottom of page