UnB Saxion Aalborg Minho

EGP UnB

Escritório de Gerenciamento de Projetos da Universidade de Brasília

Erasmus+

Introdução ao Sistema de Processamento de Linguagem Natural e Classificação hierarquica de documentos

Em um contexto acadêmico de alta rotatividade semestral, os repositórios em PDF chegam com formatações variadas, imagens, tabelas e ruídos que dificultam qualquer processamento automático. Para resolver isso, implementamos um pipeline de IA que combina OCR avançado, extração estruturada e normalização semântica, removendo inconsistências e transformando cada documento em texto limpo e hierarquizado. Esse conteúdo purificado é então enviado à nossa LLM, garantindo:

fluxograma de informações EGP UnB
  • Precisão aprimorada em buscas semânticas;
  • Geração de sumários e etiquetas contextuais;
  • Consistência de dados para análise e tomada de decisão.
Acessar Projeto

Contexto e Objetivos

Escopo

O diagrama a seguir ilustra o fluxo de dados escolhido para implementação do prototipo.

fluxograma de informações EGP UnB
  • Banco de arquivos PDF: 89 arquivos, 82340 palavras
  • Sem padronização estrutural: arquivos de diversos tipos de entregas das 4 universidades envolvidas.

Objetivos

Realizar a leitura serial de arquivos (pdf, xlsx, markdown, csv), limpeza de contexto e redução de dimensionalidade para criação de prompts especializados para o domínio dos arquivos enviados.

fluxograma de informações EGP UnB
  • Preservar o histórico acadêmico: Centralizar e organizar todas as versões de requisitos, documentos e entregas anteriores.
  • Onboarding eficiente: Permitir que novos participantes acessem em segundos o contexto completo do projeto, sem depender exclusivamente de veteranos.
  • Continuidade de conhecimento: Garantir que decisões e aprendizados de semestres passados sejam facilmente recuperáveis e reutilizáveis.
  • Automatização inteligente: Empregar IA para indexar, classificar e hierarquizar automaticamente documentos em diferentes formatos (PDF, Excel, Markdown).
  • Redução de retrabalho: Minimizar esforços duplicados na busca e interpretação de artefatos de semestres anteriores.

Método

O diagrama a seguir ilustra o fluxo de análise estática da frequência das palavras presentes em arquivos através do processamento de linguagem natural, redução de dimensionalidade, vetorização, clusteraização, classificação por nível, alimentação do agent llm com os dados de domínio gerados.

fluxograma de informações EGP UnB fluxograma de informações EGP UnB fluxograma de informações EGP UnB fluxograma de informações EGP UnB
  • Entrada: 89 arquivos, 82340 palavras
  • Saída: 89 arquivos resumidos e acompanhados de 6 frases chaves descritivas.

Resultados

O fluxograma abaixo descreve as etapas de processamento de linguagem natural, redução de dimensionalidade, vetorização, clusterização e classificação de arquivos que geram resumos e entradas para um assistent AI large language model.

  • Algoritmo de Classificação de Arquivos: Algoritmo de classificação de pastas de arquivos
  • fluxograma de informações EGP UnB
  • Algoritmo assistido de Limpeza de StopWords: Algoritmo de aprendizado assistido para limpeza de stopwords
  • fluxograma de informações EGP UnB fluxograma de informações EGP UnB
  • Exploração do domínio restrito: Alimentação realizada através de mapeamento da frequência de palavras chaves
  • fluxograma de informações EGP UnB

    K-Means = 3

    PCA 3D K3 TSNE K3 UMAP K3 Metrics K3

    K-Means = 4

    PCA 3D K4 TSNE K4 UMAP K4 Metrics K4

    K-Means = 5

    PCA 3D K5 TSNE K5 UMAP K5 Metrics K5

    K-Means = 7

    PCA 3D K7 TSNE K7 UMAP K7 Metrics K7

    K-Means = 8

    PCA 3D K8 TSNE K8 UMAP K8 Metrics K8

    K-Means = 9

    PCA 3D K9 TSNE K9 UMAP K9 Metrics K9

    Exploração completa

    fluxograma de informações EGP UnB fluxograma de informações EGP UnB fluxograma de informações EGP UnB fluxograma de informações EGP UnB
  • Automatização inteligente: Geração de resumos e frases chave de classificação para alimentação de banco de dados de arquivos para busca na WIKI
  • ALPHA.

    Id: 0

    Nome: AAU - Mobile Education - 2021 - Final Report - Secure Software Development, Web Security, Injection Attacks & Taint Analysis

    Resumo: O conteúdo aborda a segurança em desenvolvimento de software, incluindo análise de vulnerabilidades, ataques cibernéticos e de injeção, além de enfatizar a importância da segurança da informação e do desenvolvimento seguro. Também destaca iniciativas voltadas para educação móvel em comunidades vulneráveis, como a criação de uma plataforma digital para educação financeira de catadores de materiais recicláveis.

    Labels:
    - Segurança em desenvolvimento de software e análise de vulnerabilidades
    - Segurança em desenvolvimento de software e ataques cibernéticos
    - Segurança em desenvolvimento de software e educação móvel para comunidades vulneráveis
    - Segurança em desenvolvimento de software e ataques de injeção
    - Desenvolvimento de plataforma digital para educação financeira de catadores de materiais recicláveis
    - Segurança da informação e desenvolvimento seguro

    Wiki Database
  • Chat Bot de domínio restrito: Centralizar a atuação da llm a um domínio limpo e restrito de dados.
  • EM BREVE.
    fluxograma de informações EGP UnB
    fluxograma de informações EGP UnB
    fluxograma de informações EGP UnB
    fluxograma de informações EGP UnB
    fluxograma de informações EGP UnB
    fluxograma de informações EGP UnB

Próximos Passos

  • Desenvolver e validar um sistema de avaliação de desempenho do agente.
  • Testar processos de PLN cientificamente descritos e analisar resultados.
  • Testar processos de normalização descritos cientificamente e analisar resultados.
  • Testar processos de redução de dimensionalidade e analisar resultados.
  • Testar processos de vetorização e analisar resultados.
  • Testar procedimentos de plotagem de dimensionalidade e analisar resultados.
  • Testar processos de clusterização e analisar resultados.
  • Testar fluxos de alimentação da LLM e analisar resultados.
  • Avaliar diferentes modelos de LLM e comparar desempenho.
  • Elaborar checklist de conformidade com Ready to Use Software Product (RUSP).

Referências

  • Documentação Oficial Educado (MkDocs)
  • Jurafsky, D.; Martin, J. H., Speech and Language Processing, 3ª Edição, Pearson, 2021. (Introdução a técnicas de PLN)
  • MacQueen, J. B., “Some Methods for Classification and Analysis of Multivariate Observations,” na Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, vol. 1, pp. 281–297, 1967. (Artigo original do k-means)
  • Brown, T. B.; Mann, B.; Ryder, N.; et al., “Language Models are Few-Shot Learners,” Advances in Neural Information Processing Systems, vol. 33, pp. 1877–1901, 2020. (LLMs modernas)