# Fontes públicas e robôs de coleta de dados ambientais

Objetivo:
documentar as fontes públicas já identificadas, seu papel dentro da futura plataforma e a estratégia de coleta recorrente por robôs/agendamentos.

Princípio orientador:
o sistema não deve depender de uma única fonte.
Deve operar com uma malha de fontes públicas, portais transacionais e curadoria técnica.

Visão geral das camadas de coleta:
1. Fontes institucionais de orientação e roteiros
2. Fontes públicas de consulta de processos/licenciamentos
3. Fontes públicas de documentos emitidos/publicidade
4. Fontes transacionais para acompanhamento por processo/cliente
5. Fontes regulatórias para monitoramento de mudanças legais

-----------------------------------
1. Fonte: CETESB - portal antigo de licenciamento
URL:
https://www2.cetesb.sp.gov.br/licenciamentoambiental/

Papel:
hub principal de roteiros, orientações, links para sistemas operacionais, perguntas frequentes e páginas auxiliares do ecossistema CETESB.

O que essa fonte entrega:
- roteiros por atividade/segmento
- páginas de renovação de licença de operação
- referência para Portal do Licenciamento Ambiental
- referência para consulta de licenciamento público
- referência para consulta de andamento de processo
- referência para serviços via E.Ambiente
- referência para publicidade de licenças e outros documentos

Valor para a plataforma:
- catálogo de tipos documentais e fluxos
- catálogo de jornadas regulatórias por atividade
- base para mapeamento de documentos exigidos por segmento
- fonte-mãe para descoberta de novos endpoints e páginas úteis

Estratégia de robô:
- crawler leve diário
- extrair links internos relevantes
- detectar novos roteiros, novas páginas e mudanças de conteúdo
- armazenar snapshot textual e hash por página
- disparar revisão humana quando houver mudança estrutural relevante

Frequência sugerida:
- diária para descoberta de mudanças
- semanal para reindexação completa

Risco técnico:
- baixo a médio
- estrutura WordPress mais amigável que o portal novo

-----------------------------------
2. Fonte: Consulta pública de licenciamentos - CETESB VRA
URL:
https://sistemasinter02.cetesb.sp.gov.br/consultaLicenciamento/public/

Papel:
fonte pública mais promissora para montar radar externo de licenciamentos.

Campos identificados na interface:
- interessado
- endereço
- município
- data inicial da solicitação
- data final da solicitação
- tipo de documento
- tipo de intervenção

Tipos de documento identificados na interface:
- AUTORIZACAO
- DAIL
- LPIO
- LPIO e AUTORIZACAO

Tipos de intervenção identificados na interface:
- abertura de picadas
- corte de árvore
- faixa de domínio - supressão
- intervenção em área de preservação permanente
- implantação de rede de energia elétrica
- intervenção em área de risco
- intervenção por comunidade indígena ou quilombola
- intervenção
- movimentação de solo

Papel no produto:
- radar público de licenciamentos
- prospecção de empresas/empreendimentos com eventos recentes
- identificação de atividade regulatória por município, interessado e janela temporal
- insumo para geração de leads e inteligência comercial

Estratégia de robô:
- coletor por janelas de data
- execução diária ou semanal por período incremental
- paginação/varredura segura se houver retorno de múltiplos resultados
- persistência do HTML cru, dados extraídos e metadados da coleta
- deduplicação por combinação de campos identificadores

Frequência sugerida:
- diária em janela incremental D-1, D-7, D-30
- reprocessamento mensal para consistência histórica

Observação importante:
o tipo de documento visível nessa consulta parece mais voltado a determinados atos/licenças/intervenções específicas, não necessariamente a todo o universo de LO/renovação industrial tradicional.
Portanto, esta fonte é valiosa, mas não deve ser a única para prever vencimentos.

-----------------------------------
3. Fonte: Consulta de andamento de processo - CETESB
URL:
https://licenciamento.cetesb.sp.gov.br/cetesb/processo_consulta.asp

Papel:
consulta focada em processo específico ou empresa específica.

Campos identificados:
- nº solicitação
- CNPJ
- razão social
- endereço
- CEP

Papel no produto:
- acompanhamento pontual de processos conhecidos
- verificação operacional de andamento para clientes já onboarded
- investigação dirigida por analista/técnico

Estratégia de robô:
- não usar para varredura cega massiva
- usar como robô de enriquecimento por carteira de clientes ou leads já identificados
- disparos controlados por fila de CNPJ/processo

Frequência sugerida:
- sob demanda
- ou rotina diária apenas para processos monitorados

Melhor uso:
- módulo “monitoramento de processo” para clientes
- playbook de renovação, exigência técnica ou defesa administrativa

-----------------------------------
4. Fonte: publicidade / documentos emitidos
URL principal identificada:
https://www.cetesb.sp.gov.br/cetesb/transparencia/publicacoes/documentos_emitidos

Papel:
forte candidata a ser a melhor fonte pública para capturar emissão/publicação de licenças e outros documentos oficiais.

Observação técnica:
o portal novo da CETESB apresentou bloqueios/instabilidade no browser automatizado durante esta sessão, mas a página e o link institucional foram identificados no ecossistema oficial da CETESB.

Hipótese de valor dessa fonte:
- listar documentos emitidos
- capturar tipo documental
- capturar empresa/interessado
- capturar data de emissão/publicação
- eventualmente capturar validade ou referência processual

Estratégia de robô:
- crawler com fallback
- tentativa 1: browser/headless
- tentativa 2: fetch HTTP + parsing do HTML
- tentativa 3: inspeção de chamadas de rede/endpoints internos
- registrar falhas de acesso e exigir observabilidade forte

Frequência sugerida:
- diária

Prioridade:
- altíssima
porque esta fonte pode ser a mais próxima do que vocês precisam para prever vencimentos e mapear emissões reais.

-----------------------------------
5. Fonte: Portal do Licenciamento Ambiental
URL:
https://e.cetesb.sp.gov.br/portal-servicos-frontend/

Papel:
porta de entrada de serviços digitais e possivelmente área transacional para protocolos/licenciamentos.

Papel no produto:
- referência de jornada digital oficial
- eventual integração operacional manual/assistida para clientes
- mapeamento de serviços por tipo de demanda

Estratégia de coleta:
- não tratar como fonte primária de scraping bruto logo no início
- primeiro documentar fluxos e telas
- avaliar autenticação, sessões, termos de uso e riscos

Frequência sugerida:
- monitoramento estrutural semanal
- uso transacional somente com consentimento/escopo claro do cliente

-----------------------------------
6. Fonte: E.Ambiente
URL:
https://e.ambiente.sp.gov.br/atendimento/

Papel:
portal de atendimento citado oficialmente pela CETESB para:
- abertura de processos
- minhas pendências
- vistas a processos digitais
- protocolização de alguns pedidos/recursos

Papel no produto:
- operacionalização de serviços para clientes
- acompanhamento assistido de pendências
- possível checklist de ação externa

Estratégia de coleta:
- não usar como base de mineração de mercado
- usar como canal operacional de cliente logado / consultoria autorizada
- modelar como integração humana-assistida no início

Frequência:
- orientada a evento
- baseada em processos reais da carteira

-----------------------------------
7. Fonte: SAO - Sistema de Agendamento Online
URL:
http://sao-publico.cetesb.sp.gov.br/

Papel:
sistema oficial de agendamento e informações operacionais de atendimento.

O que foi validado:
- login por usuário/e-mail
- menção ao SICAC
- instruções de atendimento
- indicação de que vistas a processos e reuniões com técnicos/gerentes da agência são tratadas por e-mail direto com a agência
- referência ao E.Ambiente para protocolizações

Papel no produto:
- não é fonte principal de inteligência de vencimento
- é fonte operacional de apoio a playbooks de atendimento, protocolo e relacionamento com agências

Estratégia:
- documentar fluxos e dependências
- sem scraping frequente como prioridade

-----------------------------------
8. Fonte: CONAMA - Atos normativos
URL:
https://conama.mma.gov.br/atos-normativos-sistema

Papel:
monitoramento regulatório federal e resolução/norma aplicável.

Papel no produto:
- radar legal
- atualização normativa
- classificação de impacto regulatório

Estratégia de robô:
- crawling diário/semanal
- captura de novas resoluções, anos, tipos de ato e arquivos
- resumo automático + revisão técnica

-----------------------------------
9. Fontes normativas-base já validadas anteriormente
- Constituição Federal: https://www.planalto.gov.br/ccivil_03/constituicao/constituicao.htm
- Lei 6.938/1981: https://www.planalto.gov.br/ccivil_03/leis/l6938.htm
- LC 140/2011: https://www.planalto.gov.br/ccivil_03/leis/lcp/lcp140.htm
- Lei SP 997/1976: https://www.al.sp.gov.br/repositorio/legislacao/lei/1976/lei-997-31.05.1976.html
- Decreto SP 8.468/1976: https://www.al.sp.gov.br/repositorio/legislacao/decreto/1976/decreto-8468-08.09.1976.html
- Resolução CONAMA 237/1997: https://conama.mma.gov.br/?option=com_sisconama&task=arquivo.download&id=237

Papel:
essas fontes não servem para captar vencimento de empresa individualmente, mas servem para traduzir regra, competência, tipos documentais e obrigações de conformidade.

-----------------------------------
Arquitetura recomendada dos robôs

Princípio:
separar coleta, extração, interpretação e publicação.

Camada 1 - source registry
cadastro das fontes com:
- nome
- URL raiz
- categoria
- método de acesso
- periodicidade
- criticidade
- estratégia anti-fragilidade

Camada 2 - collectors
tipos:
- http fetcher
- browser/headless fetcher
- crawler de sitemap/listagem
- collector autenticado assistido

Camada 3 - parsers
por fonte:
- parser HTML de listagens
- parser de páginas detalhe
- parser PDF
- parser de formulários de consulta
- parser de arquivos anexos

Camada 4 - normalization
normalizar em entidades internas:
- empresa/interessado
- documento
- processo
- licença
- publicação
- obrigação
- fonte
- evidência

Camada 5 - rules engine
aplicar regras de:
- deduplicação
- classificação documental
- extração de datas
- cálculo de validade presumida
- geração de alertas
- score de confiança

Camada 6 - review queue
tudo o que for ambíguo vai para revisão humana.

Camada 7 - business outputs
- radar de vencimentos
- leads comerciais
- tarefas de renovação
- monitoramento por cliente
- mudanças regulatórias

-----------------------------------
Regras operacionais dos robôs

1. Nunca depender só do HTML renderizado
Salvar sempre:
- HTML bruto
- texto extraído
- metadados HTTP
- timestamp de coleta
- hash do conteúdo

2. Toda inferência precisa ter score de confiança
Exemplo:
- validade explícita no documento = confiança alta
- validade inferida por regra de tipo documental = confiança média
- validade suposta por heurística = confiança baixa

3. Toda fonte precisa de fallback
Exemplo:
- portal novo falha -> tentar portal antigo
- browser falha -> tentar HTTP fetch
- endpoint muda -> sinalizar anomalia

4. Diferenciar fonte pública de fonte autenticada
- pública: pode alimentar radar de mercado
- autenticada: usar somente em contexto autorizado pelo cliente

5. Respeitar observabilidade
Cada job precisa registrar:
- quantidade coletada
- quantidade nova
- quantidade alterada
- quantidade com erro
- páginas quebradas
- tempo de execução

-----------------------------------
Prioridade recomendada para implementação

Fase 1 - alta prioridade
- portal antigo de licenciamento
- consulta pública de licenciamentos
- documentos emitidos/publicidade

Fase 2 - média prioridade
- consulta de andamento de processo
- CONAMA atos normativos

Fase 3 - operacional assistida
- Portal do Licenciamento Ambiental
- E.Ambiente
- SAO

Conclusão:
o robô principal de inteligência de mercado deve nascer sobre fontes públicas e semi-estruturadas.
Os portais autenticados devem entrar depois, como camada de operação assistida para clientes ativos.
