Aprendizado de máquina

Por Eduardo Carvalho Nepomuceno Alencar, Especialista em Regulação, economista e PhD pela Universidade da Califórnia, Irvine.
-

Tradução de parte do capítulo em Alencar, E. C. N. (2021). Assessing the potential for detecting fraud in the Brazilian public procurement using Latent Class Analysis. University of California, Irvine.

-É imprescindível o papel da tecnologia para facilitar a gestão dos recursos públicos, potencializando a capacidade de análise dos órgãos de controle e proporcionando maior transparência e participação da sociedade. Esta seção tem como objetivo apresentar uma visão geral, não exaustiva, dos esforços em vários países para identificar fraudes e combater a corrupção e os conceitos básicos de aprendizado de máquina.


-O aprendizado de máquina é um subcampo da Inteligência Artificial e projeta algoritmos que aprendem iterativamente a partir de dados e experiências (OCDE, 2017a). Esses algoritmos permitem que os computadores aprendam sem a necessidade de serem explicitamente programados (Samuel, 1959). De acordo com Anitha et al. (2014), os algoritmos de aprendizado de máquina podem ser classificados em três grandes categorias, dependendo do seu padrão de aprendizagem. Algoritmos de aprendizagem supervisionada usam uma amostra de dados rotulados para aprender uma regra geral que mapeia entradas em saídas. Algoritmos de aprendizagem não supervisionados visam identificar estruturas e padrões ocultos de dados não rotulados. Finalmente, os algoritmos de aprendizagem por reforço executam tarefas em um ambiente dinâmico e aprendem por tentativa e erro.


-Tais algoritmos têm sido utilizados por agências governamentais e pelo setor privado (Buchanan & Miller, 2017). Um dos desafios do governo é sinalizar práticas de conluio quando as empresas utilizam algoritmos de aprendizagem para transferir decisões de negócios de humanos para computadores. Ao fazê-lo, “os gestores não só evitam qualquer comunicação explícita durante as fases de iniciação e implementação do conluio, mas também são libertados do fardo de criar quaisquer estruturas” (OCDE, 2017b, p. 29). Além disso, Mehra (2015) destaca que os algoritmos podem amplificar o chamado “problema do oligopólio” e tornar o conluio tácito um resultado de mercado ainda mais frequente.


-A avaliação de riscos muitas vezes vai além da análise manual porque muitas vezes há muitos conjuntos de dados e variáveis, mesmo para analistas experientes. Ferramentas de mineração e análise de dados, criando grandes grupos abertos e palavras cruzadas inteligentes, também podem ajudar a identificar transações arriscadas. Estas ferramentas permitem desenvolver mapas de risco para obter informações sobre fluxos financeiros ilegais e redes complexas de corrupção (Argüello & Ziff, 2019). A detecção de fraude é uma oportunidade que as empresas e os governos podem aproveitar para utilizar os seus recursos financeiros para poupar dinheiro de forma eficiente. A principal área de conhecimento que tem sido intensamente utilizada para melhorar a detecção de fraudes é o aprendizado de máquina.


-O aprendizado de máquina é um campo do conhecimento que se cruza com a ciência da computação, estatística, neurociência e outros assuntos. Consiste no processo de ensinar computadores a aprender. No entanto, ao contrário do desenvolvimento de software tradicional, a aprendizagem automática consiste em “programar computadores para aprenderem a si próprios a partir de dados, em vez de instruí-los a realizar determinadas tarefas de determinadas maneiras” (Buchanan & Miller, 2017, p. 5). O crescente interesse na utilização de sistemas de aprendizagem automática para a tomada de decisões no setor público levantou questões sobre como estas tecnologias podem ser concebidas, implementadas e geridas de forma responsável (Veale, 2017). O aprendizado de máquina pode modelar algoritmicamente grandes quantidades de dados que são difíceis de serem manipulados pelos humanos. Esses modelos podem então ser usados para tarefas como previsões ou estruturação de dados. Após a sua aplicação bem-sucedida nos negócios e em várias exposições públicas importantes, tem havido um interesse significativo na sua aplicação para resolver problemas públicos. Neste contexto, surgem muitas lacunas de investigação na cadeia de abastecimento relacionadas com o controlo de qualidade na produção, a recolha de encomendas e os sistemas de controlo de inventário no armazenamento, e a formação da procura (Nguyen et al., 2018). Além disso, os métodos algorítmicos proporcionam oportunidades potentes para encorajar descobertas sobre fenómenos sociais, aumentando o acesso a grandes quantidades de dados ou a coleções de dados qualitativos/quantitativos mistos (Miller, 2019).


-A maioria dos problemas de aprendizagem estatística podem ser divididos em supervisionados e não supervisionados (James et al., 2017). A aprendizagem supervisionada tenta adaptar o modelo de resposta aos preditores para prever observações futuras (previsões) corretamente ou compreender melhor a relação entre a resposta e os preditores (inferência). Para cada observação da medida prevista xi, i = 1, ..., n, existe uma medida de resposta correspondente yi. Muitos métodos clássicos de aprendizagem estatística, como regressão linear, regressão logística, modelos aditivos generalizados (GAMs), reforço e máquinas de vetores de suporte, funcionam com aprendizagem supervisionada (James et al., 2017).


-Vadász et al. (2016) argumentam que a aprendizagem supervisionada só pode detectar uma pequena fração de eventos fraudulentos, especialmente no contexto de procedimentos complexos para grandes empresas modernas. Um modelo supervisionado é criado com base nos diversos cenários positivos e negativos que ele proporciona. Como crítica geral à detecção supervisionada de fraudes, o sistema só pode detectar episódios conhecidos de fraude. No entanto, o aprendizado de máquina supervisionado possui métodos atraentes e mensuráveis, levando a uma explosão de métodos cada vez mais improvisados.


-James el al. (2017) esclarecem que a aprendizagem não supervisionada descreve uma situação um pouco mais complicada em um vetor de xi para cada observação i = 1, ..., n, mas sem a resposta correspondente yi. O modelo de regressão linear não pode ser adaptado porque não há variável de resposta para prever. Neste contexto, parece estar a funcionar às cegas; o caso é denominado não supervisionado porque não existem variáveis de resposta que possam orientar nossa análise (James et al., 2017). Das (2016) define aprendizagem não supervisionada como o processo de reorganizar e melhorar a entrada para estruturar dados não rotulados. A análise de cluster é um bom exemplo, que cria um conjunto de objetos com alguns atributos e divide o espaço do objeto em conjuntos ou grupos com base nos atributos de proximidade de todos os objetos. Ele reorganiza e rotula os dados (neste caso, o número/nome do cluster). Outro método de aprendizagem não supervisionado é a análise fatorial.


-Na aprendizagem não supervisionada, todos os eventos que se desviam dos padrões de atividade podem ser considerados enganosos (Vadász et al., 2016). A principal vantagem é que não requer um conjunto predefinido de eventos fraudulentos conhecidos e pode detectar tipos de atividades maliciosas anteriormente desconhecidas. A aprendizagem não supervisionada é um ramo da inteligência artificial que pode assimilar e aumentar a sua base de conhecimento sem um conjunto predefinido de eventos sinalizados. Os métodos não supervisionados incluem detecção de anomalias, uma classe de método que examina todos os dados disponíveis e identifica valores discrepantes que se desviam do conjunto de dados (Vadász et al., 2016).


-Apesar das promessas de detectar tipos desconhecidos de fraude, os métodos não supervisionados apresentam duas desvantagens principais que limitam a sua utilização na prática (Vadász et al., 2016). Primeiro, não é fácil avaliar a sua eficácia se os dados de rotulagem não estiverem disponíveis. Neste caso, não há informações que comparem o desempenho dos dois modelos. Em segundo lugar, o conceito de outlier não pode ser definido com precisão. Um valor contratual mais elevado ou uma área com poucos procedimentos de contratação podem ser considerados uma exceção, mas não fraudulentos.


-A pesquisa em aprendizado de máquina concentrou-se principalmente em modelos supervisionados que permitem que as pessoas interajam criando cenários de aprendizagem. A aprendizagem “ativa” (Tong & Koller, 2001) é um caminho promissor onde todos no ciclo podem ajudar a melhorar gradualmente a sua classificação, fornecendo as opções de rotulagem mais críticas. No entanto, por vezes a questão de saber se a análise deve ser supervisionada ou não supervisionada é menos clara (James et al., 2017). Suponha um conjunto de n observações e para m observações (m <n) com medidas de previsão e resposta. Existem medições preditoras disponíveis para o restante das observações (n – m), mas nenhuma medição de resposta. Nesta estrutura, um método de aprendizagem estatística pode integrar observações para as quais estão disponíveis medidas de resposta e as observações n – m para as quais não existem. Métodos de aprendizado de máquina semi-supervisionados podem resolver essa situação.


-Se considerarmos as potencialidades o uso de inteligência artificial nos mais variados serviços públicos, é possível constatar que estamos ainda iniciando esta caminhada. Para avançarmos, especialmente no Brasil, é necessária uma discussão ampla e aprofundada sobre o assunto. Também temos que ter cuidado com conclusões precipitadas e propostas de regulamentação que podem gerar efeitos adversos ao esperado.

 

Bibliografia:

I. Anitha, P., Krithka, G., & Choudhry, M. D. (2014). Machine Learning Techniques for learning features of any kind of data: A Case Study. International Journal of Advanced Research in Computer Engineering & Technology (IJARCET), 3(12).

II. Argüello, M. F. P., & Ziff, T. (2019). Hacking Corruption: Tech Tools to Fight Graft in the Americas. Washington, D.C.: Inter-American Dialogue and the Atlantic Council of the United States.

III. Buchanan, B., & Miller, T. (2017). Machine Learning for Policymakers: What It Is and Why It Matters. The Cyber Security Project. Belfer Center for Science and International Affairs at Harvard Kennedy School.

IV. Das, S. R. (2016). Data Science: Theories, Models, Algorithms, and Analytics. S. R. Das.

V. James, G. Witten, D., Hastie, T. & Tibshirani, R. (2017). An Introduction to Statistical Learning with Applications in R. Springer.

VI. Mehra, S. K. (2015). Antitrust and the Robo-Seller: Competition in the Time of Algorithms, Minnesota. Law Review, Vol. 100.

VII. Miller, D. T. (2019). Three International Studies Computational Social Science Inquiries Examining Large Corpora of Natural Data. University of Washington, Jackson School of International Studies.

VIII. Nguyen, T., Zhou, L., Spiegler, V., Ieromonachou, P. & Lin, Y. (2018). Big data analytics in supply chain management: A state-of-the-art literature review. Computers and Operations Research, 98 (2018) 254–264.

IX. OECD (2017a). Algorithms and Collusion: Competition Policy in the Digital Age.

X. OECD (2017b). Algorithms and Collusion - Background Note by the Secretariat. DAF/COMP(2017)4.

XI. Samuel, A. (1959). Some Studies in Machine Learning Using the Game of Checkers. IBM Journal of Research and Development 3 (3): 210–29.

XII. Tong, S., & Koller, D. (2001). Support vector machine active learning with applications to text classification. J Mach Learn Res 2:45–66, November.

XIII. Vadász, P., Benczúr, A., Füzesi, G., and Munk, S. (2016) Identifying Illegal Cartel Activities from Open Sources. In Akhgar et al. (eds.), Open Source Intelligence Investigation, from Strategy to Implementation. Springer International Publishing.

 

  • Compartilhe esse post
  • Compartilhar no Facebook00
  • Compartilhar no Google Plus00

MAIS DA CATEGORIA Artigos

Artigos

Corrupção como perseguições automobilísticas em filmes de ação

Artigos

Pode gerar ineficiência na gestão do caixa e na prestação de serviços essenciais à sociedade


{TITLE}

{CONTENT}

{TITLE}

{CONTENT}
Precisa de ajuda? Entre em contato!
0%
Aguarde, enviando solicitação!

Aguarde, enviando solicitação!