# Plano do motor de coleta recorrente

Objetivo:
desenhar um plano enxuto para a implementação do motor de coleta recorrente de fontes públicas ambientais.

Escopo da primeira versão:
- não executar integração autenticada complexa
- não automatizar protocolo oficial
- focar em coleta, indexação, deduplicação e geração de inteligência

Arquitetura mínima recomendada:

1. Tabela source_registry
Campos:
- source_id
- nome
- categoria
- url_raiz
- metodo_coleta
- periodicidade
- ativo
- observacoes

2. Tabela crawl_job
Campos:
- job_id
- source_id
- inicio_execucao
- fim_execucao
- status
- itens_coletados
- itens_novos
- itens_alterados
- erros

3. Tabela raw_capture
Campos:
- capture_id
- source_id
- url
- collected_at
- status_code
- html_raw
- text_raw
- content_hash

4. Tabela normalized_document
Campos:
- document_id
- source_id
- external_id
- tipo_documental
- interessado
- municipio
- processo
- data_emissao
- data_publicacao
- data_validade
- score_confianca
- payload_normalizado

5. Tabela review_queue
Campos:
- review_id
- document_id
- motivo
- severidade
- status
- analista_responsavel

6. Tabela alert_event
Campos:
- alert_id
- document_id
- tipo_alerta
- trigger_date
- status

Fases de construção:

Fase 1 - descoberta e indexação
- registrar fontes
- coletar HTML e links
- salvar snapshots
- detectar mudanças

Fase 2 - extração e normalização
- extrair campos básicos
- criar taxonomia documental
- deduplicar resultados

Fase 3 - vigência e alertas
- extrair datas
- aplicar regras de validade
- montar fila de revisão

Fase 4 - inteligência comercial e operacional
- leads por atividade regulatória
- vencimentos confirmados
- carteira de monitoramento por cliente

Backlog recomendado por ordem:
1. coletor do portal antigo de licenciamento
2. coletor da consulta pública VRA
3. coletor de documentos emitidos/publicidade
4. normalizador documental
5. classificador de validade
6. fila de revisão humana
7. dashboard de oportunidades e vencimentos

Métricas de qualidade do motor:
- taxa de sucesso por fonte
- taxa de mudança detectada
- taxa de extração válida
- taxa de duplicidade
- quantidade de documentos sem validade identificada
- tempo médio até revisão humana

Riscos principais:
- mudança de layout dos portais
- bloqueio anti-bot
- ambiguidade documental
- erro de interpretação de validade
- mistura entre evento processual e licença vigente

Contramedidas:
- fallback por fonte
- snapshots versionados
- score de confiança
- revisão humana
- monitoramento ativo de falhas

Resultado esperado da primeira versão:
- um radar confiável de atividade regulatória pública
- uma base crescente de documentos normalizados
- uma camada inicial de previsão de renovação e vencimento
- uma fila de oportunidades para consultoria/comercial