Metodologia

Como os dados brutos do PNCP são transformados em preços de referência confiáveis. Cada etapa do pipeline é automatizada, auditável e executada semanalmente.

Coleta

876.371 contratações

Normalização

78.984 itens únicos

Enriquecimento

181.473 agregados

Publicação

27 estados

Etapa 1

Fonte de dados e coleta

Os dados são extraídos de duas fontes oficiais: a API pública do PNCP (Portal Nacional de Contratações Públicas) e os dados abertos do ComprasGov (sistema de compras do Governo Federal). Ambas são públicas, sem necessidade de autenticação, e juntas cobrem contratações de todas as esferas — federal, estadual e municipal.

O que é coletado

Contratações publicadas (objeto, órgão, UF, modalidade, amparo legal)
Itens de cada contratação (descrição, unidade, quantidade, valor estimado/homologado)
Resultados (fornecedor vencedor, marca, modelo, desconto)
Notas fiscais eletrônicas com código NCM (quando publicadas)

Periodicidade e cobertura

Série histórica: agosto/2021 em diante (início do PNCP)
Atualização incremental: semanal
Volume atual: 876.371 contratações, 1,1 milhões itens
Cobertura: 27 UFs, 4.024 órgãos

Etapa 2

Normalização automática

O PNCP publica descrições livres — cada órgão descreve o mesmo item de forma diferente. O pipeline de normalização transforma texto não-estruturado em dados comparáveis.

Dicionário de sinônimos

"Notebook", "laptop" e "computador portátil" são mapeados para o mesmo termo canônico. O dicionário cobre os itens mais frequentes em compras públicas.

Detecção de lotes e embalagens

"Caixa com 100 unidades" por R$ 500 = R$ 5/un. Regex especializado detecta multiplicadores (caixa, pacote, kit, fardo, resma, galão, rolo, par) e normaliza o valor unitário. 521 lotes detectados.

Harmonização de unidades

"UN", "UNID", "UNIDADE", "UND" são normalizados para "un". "KG", "QUILOGRAMA", "QUILO" para "kg". A normalização permite agregar preços por chave composta (slug + unidade).

Identificador canônico

Após todas as normalizações, cada item recebe um identificador único (slug) que agrupa itens equivalentes. Resultado: 1.060.400 itens brutos → 78.984 itens únicos.

Etapa 2b

Classificação NCM

O código NCM (Nomenclatura Comum do Mercosul) é essencial para cruzamento com bases fiscais. A hierarquia de fontes:

1a prioridade NF-e publicada no PNCP

Código NCM da nota fiscal eletrônica — classificação fiscal oficial, obrigação tributária do fornecedor.

2a prioridade Código no item da contratação

CATMAT/CATSER ou NCM informado pelo órgão na publicação do item.

3a prioridade Extração por regex da descrição

Padrão XXXX.XX.XX extraído do texto e validado contra a tabela NCM vigente.

Etapa 3

Enriquecimento e agregação

Os itens normalizados passam por camadas de enriquecimento que transformam dados individuais em inteligência estatística.

Cálculo de preços de referência

Para cada item (slug + unidade), calculamos:

Mediana

Valor central da distribuição — métrica primária. Resistente a outliers.

IQR

Intervalo interquartil (P75 − P25). Indica a dispersão real dos preços praticados.

P25 / P75

Primeiro e terceiro quartis — delimitam a faixa onde 50% dos preços se concentram.

Média

Média aritmética — apresentada como referência secundária, sensível a extremos.

Tendência 6m

Variação percentual da mediana nos últimos 6 meses. Indica direção do mercado.

Série mensal

Mediana mês a mês para análise de sazonalidade e evolução temporal.

Mediana 90 dias como métrica primária

Conforme recomendação da IN SEGES/ME nº 65/2021, a mediana dos últimos 90 dias é a métrica primária de preço de referência. A mediana de 12 meses é apresentada como referência secundária para itens com sazonalidade.

Detecção de anomalias

Preços fora da faixa interquartil são sinalizados automaticamente:

Acima da faixa

Valor > Q3 + 1,5 × IQR

601.472 itens

Abaixo da faixa

Valor < Q1 − 1,5 × IQR

82.019 itens

Anomalias são sinalizadas, não removidas. O indicador visual permite ao gestor avaliar se o preço é justificável pelo contexto.

Classificação em categorias

Cada item é classificado em uma das 46 categorias curadas (Equipamentos de TI, Alimentos, Material de Construção, Medicamentos, etc.) por meio de regras semânticas especializadas em compras públicas.

Processamento de linguagem natural

Cada órgão descreve o mesmo item de um jeito diferente. Para agrupar corretamente, usamos técnicas de processamento de linguagem natural adaptadas ao vocabulário de compras públicas brasileiras:

Agrupamento de variações — "canetas", "caneta esferográfica" e "caneta esf. azul" são reconhecidos como o mesmo item
Dicionário especializado com mais de 500 termos frequentes em licitações, construído a partir dos dados reais do PNCP
Extração automática de códigos — identifica NCM, CATMAT, SINAPI e SICRO dentro das descrições dos itens
Classificação em 46 categorias com regras semânticas validadas contra os dados históricos

A abordagem segue princípios da pesquisa brasileira em processamento de textos governamentais, como os trabalhos do Instituto de Computação da Unicamp e do NILC-USP (Núcleo Interinstitucional de Linguística Computacional) em modelos de linguagem para o português brasileiro.

Índice de Preços Governamentais (IPG)

O IPG é calculado por categoria, com base 100 no primeiro mês disponível. A variação mensal reflete a mudança média dos preços dos itens que compõem aquela categoria — um indicador próprio de inflação de compras públicas.

Etapa 4

Filtros de qualidade

Preço < R$ 0,10

Marcado como suspeito. Provável erro de digitação ou unidade incorreta.

Preço > 10× estimado

Marcado como suspeito. Valor desproporcionalmente acima da estimativa.

Menos de 5 compras

Aviso de amostra insuficiente. Mediana calculada, mas com ressalva.

Exclusão do cálculo

Itens suspeitos são excluídos da mediana, mas permanecem visíveis na tabela com indicador visual.

Atualmente, 73.367 itens estão marcados como preço suspeito e excluídos dos cálculos de mediana.

Cruzamento com bases externas

Quando disponível, cada item é conectado a bases externas para enriquecimento:

NCM Classificação fiscal → tributação, alíquotas

SINAPI Custos de construção civil (CEF)

SICRO Custos de infraestrutura rodoviária (DNIT)

ABNT Normas técnicas citadas em editais

Atualização

Os dados são atualizados semanalmente. A data da última atualização é exibida na página inicial. O pipeline incremental coleta apenas novos registros e recalcula os agregados afetados.

Limitações

Cobertura não-total

Nem todos os entes federativos publicam no PNCP. A cobertura é crescente, mas municípios pequenos ainda têm adesão limitada.

Imprecisão da normalização

A normalização automática pode agrupar itens diferentes (falso positivo) ou separar itens equivalentes (falso negativo). O dicionário de sinônimos é expandido continuamente.

Serviços vs. materiais

Preços de serviços são mais difíceis de comparar por dependerem de escopo, localidade e condições específicas. A comparação é mais confiável para materiais padronizados.

Referência, não decisão

Este portal é uma ferramenta de referência. A responsabilidade pela pesquisa de preços e pela decisão de contratação é do agente de contratação, conforme Art. 23 da Lei 14.133/2021.