Análise descritiva detalhada (Parte 1)

4 de fev. de 2022
4 min de leitura

Atualizado: 13 de mai. de 2022

Como a sua análise descritiva pode ajudar nas suas análises?

Bem vindos à este blog! Fico muito feliz de tê-lo(a) por aqui e espero que todo o conteúdo passado seja muito útil e te ajude a vislumbrar possibilidades de análises na sua pesquisa. Vou começar pelo começo: a Análise Descritiva.

Como o próprio nome diz, o objetivo desta análise é introdutório e um pouco exploratório, com os objetivos de:

Descobrir alguma inconsistência ou erro
Descobrir mais sobre a população que está trabalhando
Checar pressupostos de testes

Eu SEMPRE opto por fazer essa análise em conjunto com a visualização por meio de gráficos. O motivo para essa escolha é que o gráfico é uma ferramenta poderosa para RESUMIR o seu banco de dados e colocar em EVIDÊNCIA, mesmo numa inspeção sem muito detalhamento, quando algo não vai bem ou tem potencial para ter problemas.

Erros acontecem, mesmo com muito cuidado e diligência. Podem ser erros de digitação, respostas equivocadas dos respondentes, alguma intercorrência no experimento, etc. Não é incomum encontrarmos alturas maiores do que 3 metros, respostas inconsistentes dentro do banco e valores que, na prática, são impossíveis.

Além disso, quando o seu objetivo for CARACTERIZAR uma amostra, é essa a análise que você precisa!

Aqui está um exemplo de como a ICIC - Consultoria Estatística realiza essa etapa tão importante para VARIÁVEIS NUMÉRICAS:

Supondo que temos como população os 100 concluintes do curso de Estatística do ano de 2015 e buscamos entender a dinâmica dos seus salários: Podemos realizar a análise da seguinte forma:

T: TABELA

I: INTERPRETAÇÃO

A variável ‘Salário após 5 anos de formado’ não teve perda de dados, também chamada de “missings”, portanto todas as 100 linhas do banco estão preenchidas. Passamos a avaliar como os valores estão distribuídos:

– Os dados variaram no intervalo (3785.3-8401.62), portanto sua amplitude (diferença entre o maior e o menor) foi 4616.32. Não há outliers.

– Olhando para os quartis, percebemos que 25% dos valores foram menores que 5505.76 e 25% foram maiores que 6691.54. Assim, a metade “central” dos dados se distribuiu ao longo de 1185.78 unidades. Esta quantia também é chamada “Intervalo Interquartil”;

– A mediana obtida foi 6113.91, que indica que 50% dos dados estão abaixo desse valor e 50% estão acima. A diferença entre a média (6108.89) e a mediana (6113.91) não é significativa, indicando simetria.

– A variabilidade é medida pelo desvio padrão (898.2), e indica quanto os dados variam da média obtida.

– O CV - Coeficiente de Variação - (14.7%) compara o desvio padrão com a média. O ideal é que este índice seja o mais baixo possível (idealmente menor que 50%). Como isso ocorreu, os dados tendem a se concentrar perto da média.

– O teste de shapiro-wilk, com p-valor maior ou igual a 0.05, não rejeitou a hipótese de normalidade dos dados (W=1, p-valor=0.988)

R: REFERÊNCIAS

Estatísticas Descritivas:

Medidas-resumo ou estatísticas descritivas são usadas para resumir um conjunto de observações, a fim de comunicar a maior quantidade de informações da forma mais simples possível (Mishra 2019). Para variáveis numéricas, usaremos as seguintes medidas:

• N: Número de respostas

• NA’s: Número de não respostas, também chamados missings ou informações faltantes

Medidas de tendência central:

Nos fornecem um valor que busca representar toda a distribuição.

• Média: Soma de todos os valores dividido pelo número de indivíduos avaliados

• Mediana: Valor central do conjunto de valores ordenados, ou seja, metade dos dados estão acima deste valor e a outra metade, abaixo.

Medidas de dispersão:

Medidas de dispersão é outra medida usada para mostrar como se espalhou (variação) em um conjunto de dados.

• Min – Máx: Valores mínimo e máximo encontrados

• 1Q – 3Q: Desprezando os 25% menores valores e os 25% maiores valores, encontramos este intervalo de dados. Ou seja, a metade ‘central’ dos dados está neste intervalo.

• DP: Desvio padrão. Medida de variabilidade dos dados: quanto maior, mais longe os dados estão da média.

• CV: Coeficiente de Variação: O CV considera a interpretação do DP em relação a magnitude da média (em porcentagem), onde CV = 100 × (DP / média).

Teste de Shapiro-Wilk

O teste de Shapiro-Wilk é baseado na correlação entre os dados e os escores de normalidade correspondentes e fornece maior poder do que os demais testes comumente utilizados, ou seja, tem maior capacidade de detectar se uma amostra vem de uma distribuição não normal, mesmo com diferentes tamanhos de amostra e graus de assimetria (Ghasemi 2012). Ao nível de significância de 5%, rejeita-se a hipótese de normalidade se o p-valor encontrado for menor que 0,05, causando então a necessidade de recorrer a um teste não paramétrico ou a alguma outra técnica que aceite a não normalidade dos dados.

Bibliografia:

Ghasemi, & Zahediasl, A. 2012. “Normality Tests for Statistical Analysis: A Guide for Non-Statisticians.” International Journal of Endocrinology and Metabolism 10(2): 486--489.

Mishra, Pandey, P. 2019. “Descriptive Statistics and Normality Tests for Statistical Data.” Annals of Cardiac Anaesthesia 22(1): 67--72.

V: VISUALIZAÇÃO

Gostou dessa forma de análise? Se quiser uma dessa para os dados do seu banco, é só enviá-lo! Terei o maior prazer em replicar a sequência TIRV para você!

ENVIAR BANCO DE DADOS

Fique à vontade para tirar dúvida sobre esse modelo de análise aqui nos comentários :)