ID: 42421
Autoria:
Rodrigo Alves Silva, Evandro Marcos Saidel Ribeiro, Alberto Borges Matias.
Fonte:
Revista de Finanças Aplicadas, v. 7, n. 2, p. 1-19, Abril-Junho, 2016. 19 página(s).
Palavras-chave:
Aprendizagem estatística , previsão de default , Risco de crédito
Tipo de documento: Artigo (Português)
Ver Resumo
OBJETIVO
Esta pesquisa tem por objetivo comparar a capacidade preditiva das principais técnicas de aprendizagem estatística atualmente utilizadas nacional e internacionalmente para tratamento do problema de risco de crédito, analisando-as à luz de sua eficiência preditiva.
METODOLOGIA
No presente estudo foram utilizados os dados da base German Credit Dataset. As estimações foram obtidas à partir do pacote e1071 aplicado ao software estatístico R®. Foram testadas, comparativamente, as técnicas: Análise Discriminante, Regressão Logística, Redes Bayesianas Naive Bayes, kdB-1, kdB-2, SVC e SVM. Como ponto de corte para Análise Discriminante, Regressão Logística, Redes Bayesianas Naive Bayes, kdB-1, kdB-2 foi empregada a curva ROC - Receiver Operating Characteristic. Os resultados foram comparados com base na acurácia (medida pelo método ACC) e pelo critério de custo pelo erro (medido com base nos critérios trazidos pela base de dados) e os resultados foram apresentados sob o formato de uma matriz de confusão e validados pelo método k-Fold Cross-Validation.
RESULTADOS E CONCLUSÕES
Analisando os resultados das técnicas o SVM apresentou o maior número médio de acertos, obtendo índice de acurácia 86.6%, bem como as maiores médias de acerto em termos de previsão dentre todos os modelos, com aproximadamente 85,5% de acertos na previsão de default. Pela análise do custo total é possível verificar que o custo do erro do SVM foi de 50.46, sendo que 41.44% desse custo foi produzido por erros de falso positivo e 58.56% do custo foi produzido por erro de falso negativo. Este foi o menor custo dentre os custos produzidos pelas técnicas estudadas, sendo aproximadamente 42% menor que o segundo colocado na análise. Para ambas as métricas (ACC e custos do erro) observou-se a superioridade do método SVM – Support Vector Machine, sugerindo que este método apresenta características que potencializam o seu poder preditivo para o caso estudado. Tais resultados corroboram com indicações de autores que mostram que a superioridade do SVM se deve ao fato de que métodos ensemble, como é o caso do SVM, em dados desbalanceados.
IMPLICAÇÕES PRÁTICAS
Com base nos resultados é possível verificar que a evolução das técnicas de aprendizagem estatística tem contribuído para a maximização dos resultados de classificação, sendo este o problema central da análise de crédito. Pela quantidade de estudos realizados internacionalmente e destacados na bibliografia, este se mostra um campo fértil para o desenvolvimento de pesquisas futuras, especialmente para comparação dos resultados alcançados por este estudo. Especificamente sobre o SVM, os resultados corroboram com estudos que indicam boa aderência de tal modelo para situações reais nas quais o banco de dados a ser classificado é desbalanceado.