A importância da ANOVA (Análise de Variância)

Pense na seguinte situação: sua indústria, independente da área que for, precisa avaliar diferentes tipos de tratamento para um processo. Para ficar mais claro, suponhamos que você seja o proprietário de uma grande fazenda de ervilhas. Como saber quais tipos de adubos demonstram os melhores e mais lucrativos resultados?

A análise de Variância busca responder esse tipo de questão. Sendo largamente utilizada tanto na área acadêmica como na industrial, essa técnica consiste na comparação das médias de um mesmo processo aplicado a diferentes tratamentos. No exemplo acima, a análise de variância poderia indicar facilmente qual tipo de adubo seria mais eficaz.

 

O que é e para que serve?

A análise de variância conhecida como ANOVA é uma técnica estatística ou um procedimento utilizado para fazer comparações entre três ou mais grupos em amostras independentes. Permitindo assim, fazer afirmações sobre as médias das populações baseado na análise de variâncias amostrais.

A análise de variância é também muito utilizada para descrever um modelo de regressão linear. Particionando a variabilidade total dos seus dados em duas componentes: uma devida ao modelo e outra em função do que não é observável (conhecida como erro). Em outras palavras, análise de variância é uma forma de avaliar a qualidade do ajuste do modelo de regressão linear.

 

Testes de hipóteses

Para realizar comparações entre as médias populacionais através de análise de variância, as hipóteses nulas e alternativa a serem testadas serão:

• H0 (hipótese nula): As médias populacionais são iguais.
• H1 (hipótese alternativa): Pelo menos uma das médias populacionais é diferente das demais.

Sendo assim, para testar agora através da análise de variância, se os parâmetros ou fontes de variações do modelo são iguais a zero temos:

• H0 (hipótese nula): os parâmetros ou fontes de variações do modelo são iguais a zero.
• H1 (hipótese alternativa): Pelo menos um dos parâmetros ou fontes de variações é diferente de zero.

 

As suposições e a sua importância para a utilização da Análise de Variância

Para que a distribuição da estatística do teste obtida a partir da análise de variância tenha a distribuição apresentada, é necessário que as suposições do modelo sejam atendidas.

Deste modo, temos basicamente três pressupostos e suposições do modelo para a utilização da análise de variância:

• Os erros têm distribuição normal;
• Os erros são independentes;
• Os erros têm variância constante (propriedade conhecida como homocedasticidade);

Assim, a existência e a identificação da violação de algumas suposições permitem evitar o uso da análise de variância com afirmações de pouca utilidade e de baixa confiabilidade de seus resultados.

 

Exemplos de aplicação da análise de variância (ANOVA) para experimentos fatoriais

Suponha que um agrônomo realizou um experimento para verificar a produtividade de 4 tipos de variedade de ervilhas (A, B, C e D). Ele suspeita que a variação na produção de ervilhas é decorrente a variedade do milho. Ou seja, existe uma variedade que apresenta produtividade média melhor que as demais. A produção em cada tipo de ervilha foi a seguinte:

 

Variedade Repetições
1 2 3 4 5
A 25 26 20 23 21
B 31 25 28 27 24
C 22 26 28 25 29
D 33 29 31 34 28

 

Hipóteses

Assim, temos as seguintes hipóteses e a tabela de análise de variância (ANOVA):

• H0: As variedades de ervilha possuem a mesma produtividade média;
• H1: Existe diferença entre as variedades de ervilha em relação a produtividade média.

 

Anova

Tabela 1: Análise de Variância da produção de ervilhas por variedade.

Fonte de
variação
Graus de
liberdade
Soma de
quadrados
Quadrados
médios
F* Valor-p
Tratamentos 3 163,75 54,583 7,798 0,002
Erro 16 112 7,000
Total 19 275,75

 

Os graus de liberdade são calculados com base no número de variedades de ervilhas e no número total ervilhas.

 

Soma de quadrados

A soma de quadrados, em geral, mede a variação dos dados. Assim, onde a soma de quadrados total mede a variação total nos dados. A soma de quadrados dos tratamentos mede a variação entre os tipos de ervilhas. E, por sua vez, a soma dos quadrados dos resíduos mede a variação dentro de cada grupo de ervilhas, ou seja, mede a variação da produtividade de cada tipo de ervilhas.

O quadrado médio é a razão entre a soma de quadrados e os graus de liberdade e a estatística F pode ser encontrada na tabela de distribuição F de Fisher- Snedecor com k-1 e n-k graus de liberdade, onde k é o número de grupos e n é o número de observações.

 

Conclusão do exemplo

Para nosso exemplo, temos que a distribuição F de Fisher- Snedecor possui (4-1) e (20-4) graus de liberdade e utilizando um nível de significância de 5%, temos através da tabela de distribuição F de Fisher- Snedecor a região crítica dado por F* > 3,23. Ou seja, para valores maiores que 3,23 rejeitaremos a hipótese nula

Assim, com base na Tabela 1 temos a estatística F observado (F*) é de 7,798 pertencendo a região crítica, deste modo rejeitaremos a hipótese nula. Ao nível de significância de 5%, concluímos que há evidências de que existe diferença entre as variedades de ervilha em relação a produtividade média.

Outra maneira de se interpretar é através do valor-p, observamos um valor-p de 0,002 (na Tabela 1) menor que o nível de significância de 5%, estabelecido anteriormente. Sendo assim, rejeitamos a hipótese nula e concluímos que há evidências de que existe diferença entre as variedades de ervilha, em relação a produtividade média.

Agora que sabemos que os tipos de ervilhas se diferem em relação a produtividade média, queremos então descobrir qual delas, em média, produz mais ou menos que as demais. Porém, para isso precisaremos utilizar de teste de comparação múltiplas (que mais para frente disponibilizaremos artigo relacionado a esse tópico).

Note que se tivermos muitos grupos e um tamanho n de amostra bem grande, as contas e os cálculos se tornam exaustivas (quando feitas a mão). Assim, a utilização dos softwares é imprescindível. E mesmo com a produção destes resultados, é muito importante a existências de um estatístico por trás capaz de interpretar os resultados. Tornando, assim, as interpretações e os resultados em fontes confiáveis e utilizáveis.

 

Notas finais

Importante ressaltar que, apesar de ser uma ferramenta potente, a Análise de Variância nem sempre vem sozinha. Diversos serviços incluídos no portfólio da EJE incluem ela, como, por exemplo, análises para dissertações acadêmicas ou controles estatísticos de qualidade.

Com um campo de aplicações amplo, essa ferramenta pode auxiliar você a alcançar a excelência no seu objetivo, seja você um estudante da graduação ou um empresário.

Entre em contato conosco para conhecermos seu contexto e identificarmos a melhor maneira de lhe ajudar! Mande um e-mail para projetos@ejeconsultoria.com.br ou clique aqui.

Deixar uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *