Metodologia
Como os dados brutos do PNCP são transformados em preços de referência confiáveis. Cada etapa do pipeline é automatizada, auditável e executada semanalmente.
Fonte de dados e coleta
Os dados são extraídos de duas fontes oficiais: a API pública do PNCP (Portal Nacional de Contratações Públicas) e os dados abertos do ComprasGov (sistema de compras do Governo Federal). Ambas são públicas, sem necessidade de autenticação, e juntas cobrem contratações de todas as esferas — federal, estadual e municipal.
O que é coletado
- Contratações publicadas (objeto, órgão, UF, modalidade, amparo legal)
- Itens de cada contratação (descrição, unidade, quantidade, valor estimado/homologado)
- Resultados (fornecedor vencedor, marca, modelo, desconto)
- Notas fiscais eletrônicas com código NCM (quando publicadas)
Periodicidade e cobertura
- Série histórica: agosto/2021 em diante (início do PNCP)
- Atualização incremental: semanal
- Volume atual: 876.371 contratações, 1,1 milhões itens
- Cobertura: 27 UFs, 4.024 órgãos
Normalização automática
O PNCP publica descrições livres — cada órgão descreve o mesmo item de forma diferente. O pipeline de normalização transforma texto não-estruturado em dados comparáveis.
Dicionário de sinônimos
"Notebook", "laptop" e "computador portátil" são mapeados para o mesmo termo canônico. O dicionário cobre os itens mais frequentes em compras públicas.
Detecção de lotes e embalagens
"Caixa com 100 unidades" por R$ 500 = R$ 5/un. Regex especializado detecta multiplicadores (caixa, pacote, kit, fardo, resma, galão, rolo, par) e normaliza o valor unitário. 521 lotes detectados.
Harmonização de unidades
"UN", "UNID", "UNIDADE", "UND" são normalizados para "un". "KG", "QUILOGRAMA", "QUILO" para "kg". A normalização permite agregar preços por chave composta (slug + unidade).
Identificador canônico
Após todas as normalizações, cada item recebe um identificador único (slug) que agrupa itens equivalentes. Resultado: 1.060.400 itens brutos → 78.984 itens únicos.
Classificação NCM
O código NCM (Nomenclatura Comum do Mercosul) é essencial para cruzamento com bases fiscais. A hierarquia de fontes:
Código NCM da nota fiscal eletrônica — classificação fiscal oficial, obrigação tributária do fornecedor.
CATMAT/CATSER ou NCM informado pelo órgão na publicação do item.
Padrão XXXX.XX.XX extraído do texto e validado contra a tabela NCM vigente.
Enriquecimento e agregação
Os itens normalizados passam por camadas de enriquecimento que transformam dados individuais em inteligência estatística.
Cálculo de preços de referência
Para cada item (slug + unidade), calculamos:
Conforme recomendação da IN SEGES/ME nº 65/2021, a mediana dos últimos 90 dias é a métrica primária de preço de referência. A mediana de 12 meses é apresentada como referência secundária para itens com sazonalidade.
Detecção de anomalias
Preços fora da faixa interquartil são sinalizados automaticamente:
Valor > Q3 + 1,5 × IQR
601.472 itensValor < Q1 − 1,5 × IQR
82.019 itensAnomalias são sinalizadas, não removidas. O indicador visual permite ao gestor avaliar se o preço é justificável pelo contexto.
Classificação em categorias
Cada item é classificado em uma das 46 categorias curadas (Equipamentos de TI, Alimentos, Material de Construção, Medicamentos, etc.) por meio de regras semânticas especializadas em compras públicas.
Processamento de linguagem natural
Cada órgão descreve o mesmo item de um jeito diferente. Para agrupar corretamente, usamos técnicas de processamento de linguagem natural adaptadas ao vocabulário de compras públicas brasileiras:
- Agrupamento de variações — "canetas", "caneta esferográfica" e "caneta esf. azul" são reconhecidos como o mesmo item
- Dicionário especializado com mais de 500 termos frequentes em licitações, construído a partir dos dados reais do PNCP
- Extração automática de códigos — identifica NCM, CATMAT, SINAPI e SICRO dentro das descrições dos itens
- Classificação em 46 categorias com regras semânticas validadas contra os dados históricos
A abordagem segue princípios da pesquisa brasileira em processamento de textos governamentais, como os trabalhos do Instituto de Computação da Unicamp e do NILC-USP (Núcleo Interinstitucional de Linguística Computacional) em modelos de linguagem para o português brasileiro.
Índice de Preços Governamentais (IPG)
O IPG é calculado por categoria, com base 100 no primeiro mês disponível. A variação mensal reflete a mudança média dos preços dos itens que compõem aquela categoria — um indicador próprio de inflação de compras públicas.
Filtros de qualidade
Marcado como suspeito. Provável erro de digitação ou unidade incorreta.
Marcado como suspeito. Valor desproporcionalmente acima da estimativa.
Aviso de amostra insuficiente. Mediana calculada, mas com ressalva.
Itens suspeitos são excluídos da mediana, mas permanecem visíveis na tabela com indicador visual.
Atualmente, 73.367 itens estão marcados como preço suspeito e excluídos dos cálculos de mediana.
Cruzamento com bases externas
Quando disponível, cada item é conectado a bases externas para enriquecimento:
Atualização
Os dados são atualizados semanalmente. A data da última atualização é exibida na página inicial. O pipeline incremental coleta apenas novos registros e recalcula os agregados afetados.
Limitações
Cobertura não-total
Nem todos os entes federativos publicam no PNCP. A cobertura é crescente, mas municípios pequenos ainda têm adesão limitada.
Imprecisão da normalização
A normalização automática pode agrupar itens diferentes (falso positivo) ou separar itens equivalentes (falso negativo). O dicionário de sinônimos é expandido continuamente.
Serviços vs. materiais
Preços de serviços são mais difíceis de comparar por dependerem de escopo, localidade e condições específicas. A comparação é mais confiável para materiais padronizados.
Referência, não decisão
Este portal é uma ferramenta de referência. A responsabilidade pela pesquisa de preços e pela decisão de contratação é do agente de contratação, conforme Art. 23 da Lei 14.133/2021.