Introdução ao Sistema de Processamento de Linguagem Natural e Classificação hierarquica de documentos
Em um contexto acadêmico de alta rotatividade semestral, os repositórios em PDF chegam com formatações variadas, imagens, tabelas e ruídos que dificultam qualquer processamento automático. Para resolver isso, implementamos um pipeline de IA que combina OCR avançado, extração estruturada e normalização semântica, removendo inconsistências e transformando cada documento em texto limpo e hierarquizado. Esse conteúdo purificado é então enviado à nossa LLM, garantindo:
- Precisão aprimorada em buscas semânticas;
- Geração de sumários e etiquetas contextuais;
- Consistência de dados para análise e tomada de decisão.
Contexto e Objetivos
O diagrama a seguir ilustra o fluxo de dados escolhido para implementação do prototipo.
Realizar a leitura serial de arquivos (pdf, xlsx, markdown, csv), limpeza de contexto e redução de dimensionalidade para criação de prompts especializados para o domínio dos arquivos enviados.
O diagrama a seguir ilustra o fluxo de análise estática da frequência das palavras presentes em arquivos através do processamento de linguagem natural, redução de dimensionalidade, vetorização, clusteraização, classificação por nível, alimentação do agent llm com os dados de domínio gerados.
O fluxograma abaixo descreve as etapas de processamento de linguagem natural, redução de dimensionalidade, vetorização, clusterização e classificação de arquivos que geram resumos e entradas para um assistent AI large language model.
Nome: AAU - Mobile Education - 2021 - Final Report - Secure Software Development, Web Security, Injection Attacks & Taint Analysis Resumo: O conteúdo aborda a segurança em desenvolvimento de software, incluindo análise de vulnerabilidades, ataques cibernéticos e de injeção, além de enfatizar a importância da segurança da informação e do desenvolvimento seguro. Também destaca iniciativas voltadas para educação móvel em comunidades vulneráveis, como a criação de uma plataforma digital para educação financeira de catadores de materiais recicláveis. Labels:Escopo
Objetivos
Método
Resultados
K-Means = 3
K-Means = 4
K-Means = 5
K-Means = 7
K-Means = 8
K-Means = 9
Exploração completa
Id: 0
- Segurança em desenvolvimento de software e análise de vulnerabilidades
- Segurança em desenvolvimento de software e ataques cibernéticos
- Segurança em desenvolvimento de software e educação móvel para comunidades vulneráveis
- Segurança em desenvolvimento de software e ataques de injeção
- Desenvolvimento de plataforma digital para educação financeira de catadores de materiais recicláveis
- Segurança da informação e desenvolvimento seguro
Próximos Passos
- Desenvolver e validar um sistema de avaliação de desempenho do agente.
- Testar processos de PLN cientificamente descritos e analisar resultados.
- Testar processos de normalização descritos cientificamente e analisar resultados.
- Testar processos de redução de dimensionalidade e analisar resultados.
- Testar processos de vetorização e analisar resultados.
- Testar procedimentos de plotagem de dimensionalidade e analisar resultados.
- Testar processos de clusterização e analisar resultados.
- Testar fluxos de alimentação da LLM e analisar resultados.
- Avaliar diferentes modelos de LLM e comparar desempenho.
- Elaborar checklist de conformidade com Ready to Use Software Product (RUSP).
Referências
- Documentação Oficial Educado (MkDocs)
- Jurafsky, D.; Martin, J. H., Speech and Language Processing, 3ª Edição, Pearson, 2021. (Introdução a técnicas de PLN)
- MacQueen, J. B., “Some Methods for Classification and Analysis of Multivariate Observations,” na Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, vol. 1, pp. 281–297, 1967. (Artigo original do k-means)
- Brown, T. B.; Mann, B.; Ryder, N.; et al., “Language Models are Few-Shot Learners,” Advances in Neural Information Processing Systems, vol. 33, pp. 1877–1901, 2020. (LLMs modernas)