14/11/2010

Comparação entre resultados obtidos por duas aplicações do ENEM

Quando escrevi, no dia da realização do ENEM 2010, o artigo "ENEM: resultados comparáveis entre 2009 e 2010",  não podia imaginar que o tema virasse assunto de fundamental importância para tomada de decisão judicial sobre essa avaliação. No artigo, busquei apresentar o poder da metodologia de construção de testes e de análise de dados baseada na Teoria de Resposta ao Item (TRI) ao permitir a comparação entre os testes do ENEM 2009 e do ENEM 2010, via pré-testes realizado entre essas avaliações.

Pauta da semana passada: Pode-se comparar os resultados entre a primeira aplicação do ENEM 2010 com os de  uma possível segunda aplicação? Resposta: Perfeitamente.

Os itens do ENEM 2010 foram selecionados entre itens contidos Banco Nacional de Itens, cujas características ou parâmetros foram previamente pré-testados e estimados na escala única do ENEM. A construção de um novo teste para o ENEM, contendo itens diferentes aos do primeiro teste, originários desse Banco e estando na mesma escala ENEM, permitirá a emissão de resultados de proficiência dos estudantes, de forma justa, isonômica e com o mesmo grau de validade. Poderíamos comparar os resultados entre ENEM 2010, primeira e (suposta) segunda aplicação, da mesma forma como podemos comparar os resultados do ENEM 2009 com os do ENEM 2010, mesmo que os testes não apresentem itens comuns entre eles.

Isso foi feito ano passado. Por questão de segurança os candidatos dos presídios foram submetidos ao ENEM em uma segunda aplicação, com itens completamente diferentes aos aplicados na avaliação principal. Ainda, candidatos de Santa Catarina foram avaliados em 2009, em um segundo momento, com um teste diferente ao primeiro, em função da impossibilidade de participarem da primeira avaliação. Esses não foram injustiçados e nem um percentual maior ou menor deles foram aprovados em alguma IES.

Claro. Alguns aspectos técnicos devem ser considerados.

1) Considerar o equilíbrio entre os itens dos testes em termos de dificuldade (parâmetro b da TRI): Se em um primeiro teste, por exemplo, temos 25% de itens com complexidade baixa, para o segundo teste, esse percentual deve ser mantido. O mesmo equilíbrio entre os itens deve ser observado para as faixas de complexidades média e alta.

2) Considerar o equilíbrio quanto ao conteúdo (competências e habilidades): Deve-se construir o segundo teste com o mesmo número de itens por habilidade da matriz de referência. Se temos dois itens que avaliam, por exemplo, a habilidade 1 de Ciências da Natureza, para o novo teste, esse quantitativo para essa habilidade deve ser mantido. Isso tem relação com o conceito de testes equivalentes ou paralelismo postulado pela Psicometria.

3) Considerar a manutenção de itens com alto índice de discriminação (parâmetro a da TRI) para a segunda prova, da mesma forma como deve ter sido considerado para a construção do primeiro teste.

4) Considerar a manutenção de itens com baixa probabilidade de acerto ao acaso (parâmetro c da TRI) como deve ter sido considerado pelo INEP na construção do primeiro teste aplicado.

A TRI é robusta em seus princípios se esses critérios são rigorosamente observados. Não veremos, caso tome-se a decisão de realizar uma segunda aplicação para o ENEM, notas médias maiores ou menores para os estudantes que venham a responder a um segundo teste, caso não mereçam essa notas maiores ou menores.


Frederico Neves Condé
Psicométrica Consultoria e Pesquisa
www.psicometrica.com.br

Nenhum comentário:

Ocorreu um erro neste gadget