Aula 1 — CRISP-DM: o passo a passo de todo projeto de dados

Fala, Felício! Subiu a escada DIKW inteira na Aula 0 — do "47 mudo" até a tese fiscal lá no topo. Agora vem a pergunta de R$ 20 mil: como, na prática, alguém pega o dado bruto e sobe essa escada num projeto de verdade? Existe um passo a passo oficial pra isso, e ele tem nome: CRISP-DM. É o método que a SEFAZ usa (sem dizer o nome) toda vez que cruza NF-e pra caçar sonegação. Hoje você vai dominá-lo.

Por que esta aula vale ouro (lê devagar):

🔢 As 6 fases do CRISP-DM são ~20% das questões de Fluência. O próprio professor cita esse número — é o tópico que mais cravam na matéria. Uma em cada cinco questões nasce daqui.
🧠 Quem entende a lógica DEDUZ a resposta — não decora. As 6 fases seguem uma ordem que é puro bom senso (você não modela antes de entender o problema, igual não compete antes de treinar). Sacou a ordem → você lê a resposta na alternativa.
🪜 É a Aula 0 em movimento. Lembra da escada DIKW (dado → informação → conhecimento → inteligência)? O CRISP-DM é o elevador que sobe essa escada com método. A teoria de ontem vira processo hoje.
🪤 É um campo minado de pegadinha — e isso joga A SEU FAVOR. A FCC ama trocar a ORDEM das fases e dizer "tarefa X acontece na fase Y" (errado). Quem treina a armadilha embolsa o ponto que derruba os outros.

🔑 Bordão da abertura: CRISP-DM não é teoria de TI — é o roteiro de uma fiscalização. Entendeu o problema → arrumou o dado → caçou o padrão → autuou. Igual treino: diagnóstico, preparo, execução, prova.

🏅 Depoimento de aprovado

DEPOIMENTO REAL — Hueliton Fontes · 26º lugar, Auditor Fiscal SEFAZ-AP

Quem é: paraibano, 42 anos (a SUA idade, Felício), ex-militar (passou em 1º na PM-PB e em 1º na EEAR/Aeronáutica), matemático e contador. Estudava trabalhando.

O que importa pra esta aula: ele tinha "verdadeiro pavor" de TI e partiu do zero — seu ponto exato de largada. Não tentou virar cientista de dados nem decorou apostila. Ele mirou os tópicos prováveis e entendeu o processo (NF-e, EFD) — foi do pavor a 80% na prova. CRISP-DM é a espinha desse processo: é o mapa que organiza "o que faço primeiro, o que faço depois".

🗣️ "Sempre teorizar mais em detrimento de fazer questões — emperrava muito na teoria." (o erro que ele confessa — e que a gente NÃO repete: aqui é lógica + caso fiscal + questão FCC, não enciclopédia de TI.)

A tradução pro seu caso: se um cara de 42, ex-farda, com pavor de TI, dominou o processo e tirou 80% — você fecha as 6 fases do CRISP até dormir sabendo. Fonte rastreável: entrevista no blog do Estratégia Concursos.

🏷️ LEGENDA DOS SELOS — o termômetro de cada ponto (calibrado nas provas reais FCC, com GO/SP-2026 de espelho):

Selo Significa O que fazer

⚡ CRAVA caiu na prova real, ponto certo decora — é ponto garantido no bolso

🎯 PROVÁVEL item nomeado no edital estuda firme — tem nome no edital, pode cair

🥱 CAI POUCO o edital promete, mas a prova não cobrou pesado passa leve — não gasta sono

🪤 PEGADINHA a troca clássica da FCC memoriza a armadilha — é onde ela te derruba

Selo	Significa	O que fazer
⚡ CRAVA	caiu na prova real, ponto certo	decora — é ponto garantido no bolso
🎯 PROVÁVEL	item nomeado no edital	estuda firme — tem nome no edital, pode cair
🥱 CAI POUCO	o edital promete, mas a prova não cobrou pesado	passa leve — não gasta sono
🪤 PEGADINHA	a troca clássica da FCC	memoriza a armadilha — é onde ela te derruba

🗺️ MINI-MAPA DA SÉRIE — pra você ver onde está e pra onde vai:

Aula Conteúdo

0 — Fundamentos ✅ escada DIKW + tipos de dado + ciclo de vida + o que é Ciência de Dados — [PRONTA]

1 — O Método 📍 CRISP-DM — o passo a passo de todo projeto de dados — VOCÊ ESTÁ AQUI

2 — Arquitetura Data Warehouse, Data Mart, Data Lake, Lakehouse + ETL + BI

3 — Tratar e Aprender Pré-processamento + Machine Learning

4 — Volume e Consulta Big Data + Banco de Dados + SQL

5 — Governar e Eticar Governança de Dados + Ética em IA

6 — Proteger Segurança + Conformidade (LGPD, sigilo fiscal CE)

Aula	Conteúdo
0 — Fundamentos ✅	escada DIKW + tipos de dado + ciclo de vida + o que é Ciência de Dados — [PRONTA]
1 — O Método 📍	CRISP-DM — o passo a passo de todo projeto de dados — VOCÊ ESTÁ AQUI
2 — Arquitetura	Data Warehouse, Data Mart, Data Lake, Lakehouse + ETL + BI
3 — Tratar e Aprender	Pré-processamento + Machine Learning
4 — Volume e Consulta	Big Data + Banco de Dados + SQL
5 — Governar e Eticar	Governança de Dados + Ética em IA
6 — Proteger	Segurança + Conformidade (LGPD, sigilo fiscal CE)

📑 SUMÁRIO DESTA AULA 1 — o caminho de hoje:

Bloco Tema

1 Mineração de Dados & KDD — de onde o CRISP-DM nasceu (amarra com a escada DIKW da Aula 0)

2 CRISP-DM: as 6 fases — a visão de cima, a ordem e o ciclo

3 Fase 1 (Entendimento do Negócio) + Fase 2 (Entendimento dos Dados) — o diagnóstico

4 Fase 3 (Preparação dos Dados) — o "trabalho sujo" que come 70% do tempo

5 Fase 4 (Modelagem) + Fase 5 (Avaliação) + Fase 6 (Implantação) — caçar o padrão, conferir, pôr pra rodar

6 KDD × CRISP-DM × SEMMA + bateria de questões FCC

Bloco	Tema
1	Mineração de Dados & KDD — de onde o CRISP-DM nasceu (amarra com a escada DIKW da Aula 0)
2	CRISP-DM: as 6 fases — a visão de cima, a ordem e o ciclo
3	Fase 1 (Entendimento do Negócio) + Fase 2 (Entendimento dos Dados) — o diagnóstico
4	Fase 3 (Preparação dos Dados) — o "trabalho sujo" que come 70% do tempo
5	Fase 4 (Modelagem) + Fase 5 (Avaliação) + Fase 6 (Implantação) — caçar o padrão, conferir, pôr pra rodar
6	KDD × CRISP-DM × SEMMA + bateria de questões FCC

🧠 Bizu da banca

BIZU DA BANCA (global) — como a FCC pensa CRISP-DM:

🔢 A ORDEM das 6 fases é o alvo nº 1. Ela embaralha a sequência e te dá 5 alternativas com as fases fora de ordem. Decora a ordem como decora a sequência de uma prova de pentatlo: cada etapa só faz sentido depois da anterior.
🌐 "Agnóstico / flexível / cíclico / não-linear" CRAVA como característica. O CRISP-DM não depende de ferramenta, setor ou linguagem (é agnóstico), você pode voltar fases (é iterativo/cíclico), e ele não é uma cascata rígida. Marque isso de olhos fechados.
🪤 A pegadinha-mãe é trocar a fase onde a tarefa acontece. "Inventário/exploração dos dados" é Fase 2, não Fase 3. "Limpeza e transformação" é Fase 3, não Fase 2. "Definir o objetivo do negócio" é Fase 1, nunca a 4. Ela vive trocando isso de lugar.
🪞 GO-2026 e SP-2026 são os ESPELHOS do CE. Pela Bola de Cristal, o edital do CE é o GO reciclado. Toda questão dessas duas provas é praticamente a sua prova ensaiada.

🔑 Bordão do bizu: a FCC raramente pergunta "o que é CRISP-DM?" seca. Ela embaralha a ordem ou muda a fase de uma tarefa — e quem sabe o roteiro vê a troca na hora.

Bloco 1 — Mineração de Dados & KDD: o quadro geral

🎯 O que travar neste bloco:

O que é MINERAÇÃO DE DADOS (data mining) de verdade — cavar padrões escondidos numa montanha de dado, com a picareta certa (estatística / matemática / IA).
A diferença que a FCC adora cobrar: KDD (o processo GRANDE de descobrir conhecimento) × Data Mining (a etapa central dentro dele) × CRISP-DM (a metodologia que diz COMO fazer).
Por que mineração NÃO é a picareta — a picareta (machine learning) é a ferramenta; mineração é a arte de usar a picareta.
A 🪤 pegadinha-mãe deste bloco: dizer que "KDD = Data Mining". Errado — a mineração é só uma parte do KDD.

📌 Antes de detalhar, amarra com a Aula 0. Lembra da escada DIKW — o "47" mudo (dado) que vira informação, depois conhecimento? Pois é: mineração de dados é o trabalho braçal de SUBIR essa escada. Você tem uma montanha de dado bruto (degrau 1) e quer chegar no conhecimento (degrau 3) — padrões, fraudes, tendências que ninguém via. A picareta que escava esse caminho tem nome, e é o que a gente trava hoje.

Nome	O que é (em 1 frase)	Tamanho
KDD	o processo inteiro de descobrir conhecimento numa base	🏔️ o maior (guarda-chuva)
Data Mining (mineração)	a etapa central do KDD — onde se cava o padrão	⛏️ a etapa-chave dentro do KDD
CRISP-DM	a metodologia/processo de referência que diz COMO fazer	🗺️ o mapa do passo a passo

🔑 Guarda a hierarquia já: KDD é o grande > Data Mining é a etapa > CRISP-DM é o método. O resto da aula só detalha isso.

Bora cavar.

O que é mineração de dados (a lógica antes do nome)

Fala, Felício! Pensa no seu acervo de treino do CEFAN depois de 10 anos: milhares de registros — tempo de natação utilitária, pista de obstáculos, cross anfíbio, frequência cardíaca, sono, peso, o que você comeu. É dado demais. Ninguém abre essa planilha gigante e "vê" alguma coisa de cara — é montanha de número mudo (o "47" mudo da Aula 0, só que multiplicado por milhares).

Agora imagina que você quer descobrir um padrão escondido ali: "toda vez que durmo menos de 6h por 3 dias seguidos, meu tempo na utilitária cai." Esse padrão sempre esteve lá nos dados — só que enterrado. Pra desenterrar, você precisa cavar. E pra cavar, você precisa de uma picareta.

Isso — cavar a montanha de dado pra arrancar o padrão escondido — é mineração de dados.

🧊 CONCEITO — Mineração de Dados (Data Mining)

Mineração de dados é o processo (automatizado) de descoberta de padrões, correlações, tendências, associações e anomalias (outliers) escondidos em grandes volumes de dados, extraindo informação/conhecimento previamente desconhecido e potencialmente útil. A "picareta" que faz o trabalho é um modelo estatístico, matemático ou de inteligência artificial (hoje a IA / machine learning domina). 🔑 Mineração tira o que estava escondido na base — não é simples consulta, é descoberta de padrão.

Repara na lógica (anti-decoreba): por que se chama mineração? Porque é igual cavar uma mina. O ouro (o padrão útil) já está lá embaixo, no meio do dado bruto. A mineração não inventa o ouro — ela escava e separa o que presta do que é cascalho. E pra escavar você escolhe a picareta certa:

⛏️ picareta da estatística
⛏️ picareta dos modelos matemáticos
⛏️ picareta da inteligência artificial / machine learning

🔑 A picareta da IA "ganhou a guerra das picaretas". Hoje, quase toda mineração de dados é feita com machine learning. Por isso, quando o edital lista classificação, regressão, agrupamento (clusterização), associação — isso tudo é mineração feita com IA. Guarda esse gancho: a gente detalha esses algoritmos lá na Aula 3.

🔑 Bordão: mineração é cavar padrão escondido na montanha de dado — e a picareta de hoje é a IA.

O caso fiscal-âncora: a SEFAZ caçando sonegação em milhões de NF-e

Beleza, planilha de treino é fácil. Agora a mesma mina, na mesa do Guilherme — e este é exatamente o cenário que a FCC monta:

💡 Exemplo 1) — o garimpo da SEFAZ-CE

O banco de dados da SEFAZ tem milhões de NF-e (lembra: XML = dado semiestruturado, Aula 0), mais cadastro de contribuinte, EFD/SPED, autos de infração, quadro societário, localização. É uma montanha de dado bruto. Olhar linha por linha é impossível — nenhum auditor lê 8 milhões de notas.

Aí entra a mineração: o sistema cava essa montanha com a picareta da IA e acha o padrão escondido — "existe um grupo de empresas que emite nota pra destinatário com CNPJ baixado, sempre em valor redondo, sempre na madrugada, sempre no fim do trimestre." Esse padrão de sonegação estava lá, enterrado no meio de milhões de notas legítimas. A mineração o desenterrou.

Repara: o sistema achou relações ocultas entre empresas, valores e horários — e apontou as anomalias (as notas suspeitas) pra investigação. Isso é data mining na veia do Fisco. O ouro = a quadrilha de nota fria. O cascalho = as milhões de notas honestas.

⚠️ As empresas que sonegam são fictícias (estilo DABOA, da Aula 0). Fraude é SEMPRE empresa de mentira — o Guilherme, a Camila e o Filipe são gente de bem. 😉

A confusão que derruba: KDD × Data Mining × CRISP-DM

Agora segura, porque aqui mora o ponto que a FCC adora neste bloco. Três nomes que parecem a mesma coisa — e não são. Vou separar com a analogia do garimpo:

🧊 CONCEITO — os 3 níveis 🎯

Sigla / Nome	O que é	Analogia do garimpo
KDD (Knowledge Discovery in Databases)	o PROCESSO INTEIRO de descoberta de conhecimento numa base — da seleção do dado até a interpretação do resultado	🏔️ a operação de mineração inteira (escolher o terreno, escavar, separar, vender o ouro)
Data Mining (mineração)	a ETAPA CENTRAL/PRINCIPAL dentro do KDD — o momento em que se aplica a picareta e se extrai o padrão	⛏️ o ato de cavar e achar o ouro (a etapa-coração)
CRISP-DM	o PROCESSO DE REFERÊNCIA / METODOLOGIA que diz COMO conduzir a mineração, em fases	🗺️ o manual de boas práticas de como tocar a operação

A lógica, pra nunca mais confundir:

🏔️ KDD é o GRANDE. É o processo todo de descobrir conhecimento. As etapas clássicas do KDD são: seleção → pré-processamento (limpeza) → transformação → MINERAÇÃO → interpretação/avaliação. Olha onde a mineração mora: no meio, é a etapa-coração — mas só uma das etapas.
⛏️ Data Mining é a ETAPA central dentro do KDD. É onde você aplica o algoritmo (a picareta) e arranca o padrão. Não é o processo todo — é o coração do processo.
🗺️ CRISP-DM é o MÉTODO — o passo a passo de referência (entendimento do negócio → dados → preparação → modelagem → avaliação → implantação) que organiza como fazer mineração na prática. É a metodologia mais usada no mundo. (A gente disseca as 6 fases nos próximos blocos desta aula.)

🔑 Regra que mata a questão: a mineração de dados é uma PARTE (a etapa central) do KDD — nunca o KDD inteiro, e nunca a mesma coisa que a "picareta". O Prof. Vitor Kessler crava: "Machine learning é a picareta. Mineração de dados é a arte de usar a picareta. Não é a mesma coisa, não."

🔑 Bordão: KDD é a operação inteira; mineração é o cavar; CRISP-DM é o manual de como cavar.

💡 Exemplo 2) — o Guilherme montando o projeto na SEFAZ

O Guilherme vai construir o detector de sonegação. Olha os 3 nomes aparecendo no mesmo projeto: - Ele toca o projeto inteiro — da escolha das bases (NF-e, cadastro) até apresentar o resultado pro chefe. Esse processo todo é o KDD. 🏔️ - No miolo do projeto, ele roda o algoritmo de IA que acha o padrão de fraude. Essa etapa específica é o Data Mining. ⛏️ - Pra não fazer bagunça, ele segue um passo a passo organizado (primeiro entende o negócio, depois os dados, prepara, modela, avalia, implanta). Esse roteiro é o CRISP-DM. 🗺️

Mesmo projeto, 3 nomes, 3 tamanhos. KDD = o todo · Data Mining = o coração · CRISP-DM = o roteiro.

🔗 Conexão (não é ilha!): isto encaixa direto na Aula 0. Lembra das 4 análises? A mineração é o motor da análise preditiva (e ajuda na diagnóstica) — é a picareta que faz o Fisco sair do "o ICMS caiu" (descritiva/retrovisor 🪞) pro "VAI cair mais e por causa de fulano" (preditiva/para-brisa 🚗). E o insumo dela é a NF-e (XML semiestruturado, gaveta 🟨) que você já conhece da Legislação Tributária. Então a escada inteira amarra: NF-e (dado) → mineração cava o padrão → vira informação/conhecimento → o auditor decide (inteligência). Mesma escada DIKW, agora com a picareta na mão. 🪜

🎯 Hora da verdade — questão FCC real (caso fiscal, banca da nossa prova)

Essa caiu na SEFAZ-BA/2019, prova de Auditor Fiscal, banca FCC — cenário 100% fiscal (fraude e corrupção) e bate em cheio no conceito do bloco: ela descreve a mineração de dados sem dizer o nome e te manda reconhecer a técnica. Repara que a definição no enunciado é a nossa definição-canônica. Resolve comigo:

🎯 Questão — teste agora

FCC — Auditor Fiscal/SEFAZ-BA 2019 · tec 877995

1 toque = candidata · 2 toques = riscar (eliminei)

Além dos indicadores reativos, existem controles proativos. Uma das técnicas requer que sejam selecionadas, exploradas e modeladas grandes quantidades de dados para revelar padrões, tendências e relações que ajudem a identificar casos de fraude e corrupção. Relações ocultas entre pessoas, entidades e eventos são identificadas, e as suspeitas, encaminhadas para apuração. As anomalias apontadas não necessariamente indicam fraude, mas eventos singulares que merecem avaliação individualizada. O texto se refere à técnica de

🎙️ O professor disse…

Na aula, o Prof. Vitor Kessler disse...

✅ CRAVOU a analogia da picareta: "Mineração de dados é simples. Eu tenho dados e vou minerar informações nesses dados. E como toda mineração, o que é que eu vou precisar? De uma picareta. A picareta da matemática, da estatística e da inteligência artificial. Só que a picareta da IA ganhou a guerra das picaretas." — é o coração deste bloco.

✅ CRAVOU a hierarquia KDD ⊃ Data Mining: "A mineração de dados está dentro de um processo maior, que a gente chama de KDD, Knowledge Discovery in Databases. Nesse processo a gente usa a mineração como uma das etapas — a etapa principal." E sobre o CRISP-DM: "é um processo criado pra dizer como eu faço mineração de dados."

🔑 A lição (calibragem): ele martela que mineração ≠ machine learning — "machine learning é a picareta; mineração de dados é a arte de usar a picareta". E avisa: as questões introdutórias de mineração/KDD são fáceis e frequentes ("tem muita questão introdutória sobre o tema"). ⚡🥱 Trava o tripé KDD > Mining > CRISP-DM — é ponto de entrada batido: CRAVA na frequência, mas é questão leve.

🪤 PEGADINHA — as trocas clássicas da FCC neste bloco:

Dizer que "KDD = Data Mining" (são a mesma coisa). ❌ Errado! A mineração é só a etapa central dentro do KDD (que tem ainda seleção, pré-processamento, transformação e interpretação). 🔑 Mineração é PARTE do KDD, nunca o KDD inteiro. (No vão entre os dois: CRISP-DM é o método, não o processo-mãe — não confunda os três.)
Dizer que "mineração = machine learning" / "são termos idênticos". ❌ ML é a picareta (a ferramenta); mineração é o processo de usar a picareta pra achar padrão. A FCC/Cebraspe adora afirmar que são idênticos — não são.
Trocar a TÉCNICA pelo LUGAR/VOLUME. 🪤 A armadilha da questão BA-2019: distrair com data mart / data warehouse (onde o dado mora) ou big data (o volume) ou OLAP (consulta do que já se sabe) quando o enunciado pede descobrir padrão oculto = data mining. 🔑 Descobrir o escondido → mineração. Guardar/consultar o conhecido → DW/OLAP.
Dizer que mineração "só serve pra dado estruturado/tabular". ❌ Mentira — minera-se texto, imagem, áudio, vídeo também (mineração de texto, visão computacional). Lembra da gaveta 🟥 não estruturado da Aula 0: dado sem forma ≠ sem valor.

🔖 Guarde no bolso

Guarde: mineração de dados (data mining) = cavar padrões/relações/anomalias escondidos numa montanha de dado, com a picareta (estatística/matemática/IA). Ela é a etapa central de um processo maior, o KDD (descoberta de conhecimento), e o CRISP-DM é a metodologia que diz como conduzir tudo. 🔑 Bordão-síntese: KDD é a operação inteira; mineração é o cavar (a picareta de hoje é a IA); CRISP-DM é o manual de como cavar.

🔮 Próxima parada

Teaser do próximo bloco: agora que você sabe o que é mineração e onde ela mora (dentro do KDD, guiada pelo CRISP-DM), a gente abre o CRISP-DM por dentro: as 6 fases que todo projeto de dados segue, na ordem — começando pela que mais cai e mais confunde: o Entendimento do Negócio (e a pegadinha do "inventário de bases" que parece dado, mas é negócio). O Prof. Kessler avisa: "isso é 20% das questões." A picareta agora vira passo a passo. 🪜

Fecho do Bloco 1 — o que LEVAR no bolso:

Mineração de dados (data mining) = descobrir padrões/tendências/relações ocultas/anomalias escondidos em grande volume de dado, que eram desconhecidos e úteis. É cavar a mina — o ouro já estava lá, enterrado.
⛏️ A picareta = estatística + matemática + IA/machine learning (a IA "ganhou a guerra"). 🔑 Mineração ≠ a picareta — ML é a ferramenta; mineração é a arte de usá-la.
🏔️ KDD = o processo INTEIRO de descoberta de conhecimento (seleção → limpeza → transformação → mineração → interpretação). A mineração é só a etapa-coração dele. KDD ≠ Data Mining.
🗺️ CRISP-DM = a metodologia de referência que diz COMO fazer (6 fases, próximos blocos).
Caso fiscal: minerar milhões de NF-e pra desenterrar o padrão de sonegação (nota fria, relações ocultas, anomalias) — é o garimpo da SEFAZ.
🪤 Pegadinhas: (1) KDD = Data Mining → errado (mineração é PARTE); (2) mineração = machine learning → errado (ML é a picareta); (3) trocar a técnica (mining) pelo lugar (DW/data mart) ou volume (big data) ou consulta (OLAP); (4) "minera só dado tabular" → errado (texto/imagem também).
🎯 Como a FCC cobra: definição da mineração disfarçada num caso de fraude fiscal + distratores de "onde o dado mora" (BA-2019, gab E) — gatilhos: padrões, relações ocultas, anomalias, descobrir.

Bloco 2 — CRISP-DM: o mapa das 6 fases

Fala, Felício! No Bloco 1 desta Aula 1 você pegou o que é mineração de dados — garimpar uma base pra extrair conhecimento. Agora vem a pergunta que CRAVA na prova: e como é que eu faço essa mineração na ordem certa, sem me perder? A resposta tem nome e sobrenome: CRISP-DM. É o mapa das 6 fases de todo projeto de dados. Senta que esse bloco é puro ouro de banca.

🎯 O que travar neste bloco:

As 6 fases NA ORDEM (o prof. Vitor Kessler bate o martelo: "isso é 20% das questões") — e o que se faz em cada uma.
As 4 características que CRAVAM: 🔑 agnóstico · flexível · iterativo · gratuito (e por que cada uma derruba uma pegadinha).
Os dois ciclos (as setas que voltam entre fases + o ciclo externo de melhoria contínua).
A 🪤 família de pegadinhas FCC: dizer que é rígido / unidirecional / pago / que prescreve tecnologia.

🔑 Bordão de abertura: CRISP-DM é receita de bolo, não marca de fogão — diz a ordem dos passos, nunca qual máquina usar.

A lógica antes do nome — por que existe um "mapa"

Pensa no seu plano de treino pro CEFAN. Você não chega na piscina e sai nadando à toa. Tem um roteiro:

Primeiro você entende a meta (o que a prova de pentatlo naval exige? quanto tenho que baixar no nado utilitário?).
Depois você olha o que você tem hoje (seus tempos atuais, seu condicionamento).
Aí você prepara o corpo (alimentação, descanso, base aeróbica).
Então você treina forte o gesto específico.
Você avalia num teste-piloto (bateu a meta?).
Se bateu, leva pra competição. Se não bateu, volta e ajusta o treino.

Repara: esse roteiro não diz a marca da sua nadadeira nem do seu cronômetro. Ele diz a sequência lógica das etapas. Você pode trocar a nadadeira, trocar o relógio, trocar a piscina — o roteiro continua o mesmo.

Isso é exatamente o CRISP-DM. É o roteiro padrão de um projeto de mineração de dados: diz as 6 etapas e a ordem, mas não amarra a tecnologia.

🧊 CONCEITO — CRISP-DM

CRISP-DM = Cross Industry Standard Process for Data Mining (Processo Padrão Inter-Indústrias para Mineração de Dados). É um modelo de processo que descreve o ciclo de vida de um projeto de mineração de dados em 6 fases. Suas marcas registradas: - Cross-industry → serve pra qualquer setor (banco, varejo, Fisco...). - Standard → é um padrão consagrado, documentado, disponível na internet. - Agnóstico → NÃO prescreve tecnologia (não manda usar tal software ou tal arquitetura). - Livre / não proprietário / gratuito → não tem licença, não se paga. - Flexível e iterativo → você pode voltar a fases anteriores; o projeto roda em ciclos que vão melhorando o resultado.

🔑 Bordão: CRISP-DM = o passo a passo da garimpagem. Lembra do Bloco 1: a mineração é cavar a base com a "picareta"; o CRISP-DM é o mapa que diz onde e em que ordem cavar.

As 6 fases NA ORDEM (⚡ o coração do bloco — decore isto)

Agora segura firme, porque é aqui que mora 20% das questões (palavra do professor). São 6 fases, nesta ordem exata:

🧊 CONCEITO — as 6 fases do CRISP-DM ⚡

#	Fase (PT)	Fase (EN)	O que se FAZ (1 frase)
1	Entendimento do Negócio	Business Understanding	define o problema/objetivo: o que vamos resolver e como medir sucesso
2	Compreensão dos Dados	Data Understanding	conhece os dados: que bases existem, qualidade, volume, valores faltantes
3	Preparação dos Dados	Data Preparation	arruma o dataset: limpa, formata, transforma, integra, enriquece
4	Modelagem	Modeling	aplica os algoritmos (machine learning / estatística) — é AQUI que minera de verdade
5	Avaliação	Evaluation	o modelo resolve o problema da fase 1? Mede acurácia/qualidade
6	Implantação	Deployment	bota em produção — leva pro mundo real

A lógica encadeada (anti-decoreba), no caso fiscal que vai ser nossa âncora o bloco inteiro — o projeto da malha fina da SEFAZ pra caçar sonegação de ICMS:

1️⃣ Entendimento do Negócio → o Guilherme (seu amigo auditor) senta com a chefia: "Quero um sistema que aponte os contribuintes com alto risco de sonegar ICMS. Sucesso = aumentar autos de infração que dão certo e parar de fiscalizar quem não deve nada." Define o alvo.
2️⃣ Compreensão dos Dados → ele vai ver o que a SEFAZ tem: base de NF-e, EFD/SPED, cadastro de contribuintes. Essa base tá completa? Tem 30% de campo vazio? Dá pra usar?
3️⃣ Preparação dos Dados → ele monta o dataset "cheiroso": limpa erro, junta as bases, converte tudo pro mesmo formato. (Detalhe na Aula 3.)
4️⃣ Modelagem → joga o dataset na máquina, que aprende a separar contribuinte suspeito de contribuinte de bem. É aqui que a picareta cava.
5️⃣ Avaliação → o modelo acertou no teste? Ele realmente acha sonegador, ou tá apontando empresa honesta? Resolve o problema da fase 1?
6️⃣ Implantação → aprovado → vai pra produção: a malha fina passa a rodar sozinha, apontando alvos todo mês.

🪤 A pegadinha PERIGOSA da fase 1 (o prof. Kessler avisa em alto e bom som): inventariar as bases de dados faz parte do Entendimento do NEGÓCIO (fase 1), não da Compreensão dos Dados (fase 2)! O macete: na fase 1 você faz um inventário básico ("o que existe por aí?"); na fase 2 você detalha e avalia a qualidade ("essa base presta?"). 🔑 Inventariar = negócio; detalhar/qualidade = dados.

🪤 A outra pegadinha mortal: NÃO existe fase de "Mineração"! A banca adora escrever "na fase de mineração ocorre a aplicação dos algoritmos" — errado! A fase chama-se Modelagem. (Até o prof. errou isso ao vivo no slide e voltou correndo: "não tem fase de mineração, gente, é Modelagem!".) A mineração é o projeto inteiro; o nome da fase 4 é Modelagem.

🔑 Macete da ordem (decore a sequência): NÉ-go-cio → DA-dos(conhecer) → DA-dos(preparar) → MO-dela → A-valia → IM-planta. Ou em inglês: B-D-D-M-E-D (Business · Data · Data · Modeling · Evaluation · Deployment).

Os DOIS ciclos: por que ele é FLEXÍVEL (⚡ e iterativo)

Aqui está a alma do CRISP-DM e a fonte da pegadinha favorita da FCC. O modelo NÃO é uma linha reta de mão única. Ele tem dois tipos de "volta":

🧊 CONCEITO — os dois ciclos

Setas que voltam ENTRE fases vizinhas (o vai-e-volta interno):
Entre Negócio ↔ Dados: olhei os dados, vi algo que não entendi → volto entender melhor o negócio.
Entre Preparação ↔ Modelagem: fui modelar, percebi que meu dataset precisa de outro formato → volto preparar.
O ciclo EXTERNO (de construção / melhoria contínua): terminei a Avaliação. Deu ruim? → volto pro começo (Entendimento do Negócio) e rodo tudo de novo, melhor. Deu bom? → sigo pra Implantação. E mesmo depois de implantado, o projeto pode recomeçar pra evoluir — é iterativo e incremental (cada volta entrega um resultado melhor).

A analogia do seu treino: você fez o teste-piloto (Avaliação) e não bateu a meta → você não desiste, você volta pro planejamento e ajusta. E a cada temporada você refina o treino. Mesma lógica.

💡 Exemplo — o ciclo na mesa do Guilherme

O modelo da malha fina ficou pronto, foi pra Avaliação... e estava apontando padaria de bairro como megasonegadora. Lixo. O Guilherme não joga fora o projeto — ele volta pro Entendimento do Negócio: "acho que defini mal o que é 'alto risco'." Redefine, refaz o dataset, remodela, reavalia. Na segunda volta o modelo acerta. Isso é o ciclo externo — e é por isso que CRISP-DM é flexível, iterativo e incremental, nunca rígido.

🔑 Bordão: no CRISP-DM, errou → volta. Refinou → repete. Ele anda pra frente E pra trás — quem disser que é "fluxo unidirecional" tá na lorota.

🔗 Conexão (não é ilha!)

🪜 Liga com a Aula 0 (escada DIKW): lembra da escada DIKW, do "47 mudo"? O CRISP-DM é essa escada virando projeto. A NF-e crua (dado) entra na Compreensão dos Dados → vira dataset/painel (informação) na Preparação → o modelo aprende e o auditor decide (conhecimento/inteligência) na Modelagem/Avaliação. A escada é o "o quê"; o CRISP-DM é o "como, em 6 passos".
🔍 Liga com o Bloco 1 desta aula: lembra da "picareta" (o algoritmo que cava a base)? Pois é — a picareta só entra em ação na fase 4 (Modelagem). As 3 fases anteriores são só preparar o terreno pra picareta cavar bem.
⚖️ Liga com a Legislação Tributária: o insumo de tudo isso é a NF-e (XML) e o EFD/SPED que você já conhece (na Aula 0 a gente cravou: NF-e = XML = semiestruturado). O CRISP-DM é o método que transforma esse monte de declaração fiscal em alvo de fiscalização.

🎯 Hora da verdade — questão FCC REAL (do espelho exato do nosso edital)

Essa é a questão perfeita: caiu na SEFAZ-SP/2026 — um dos dois espelhos do edital CE (Bola de Cristal), banca FCC, cenário 100% fiscal, e ela nomeia o CRISP-DM e cobra a FASE. É o molde que vai cair na sua prova. Resolve comigo:

🎯 Questão — teste agora

FCC — AFR/SEFAZ-SP 2026 · tec 3847051

1 toque = candidata · 2 toques = riscar (eliminei)

No desenvolvimento de um modelo de detecção de contribuintes com alto risco de simulação de operações, após definir claramente com a área de fiscalização quais tipos de fraude serão priorizados, quais indicadores de negócio serão acompanhados (como aumento de autos de infração qualificados e redução de fiscalizações improdutivas) e quais restrições legais e operacionais existem para uso do modelo, a equipe de uma Secretaria da Fazenda registra esses critérios e alinha expectativas com a alta gestão. Com base na metodologia CRISP-DM, essa descrição se encaixa principalmente na fase de

🎯 Bônus — segunda questão FCC REAL (mineração na fiscalização)

Pra firmar que mineração é preditiva (acha padrão que aponta pro futuro), uma da SEF-SC/2018, FCC, cenário de ICMS na fronteira:

🎯 Questão — teste agora

FCC — AFRE/SEF-SC 2018 · tec 719514

1 toque = candidata · 2 toques = riscar (eliminei)

Um Auditor da Receita Estadual pretende, após denúncia, caracterizar fraudes de sonegação de ICMS: caminhões das empresas Org1/Org2/Org3 têm permanência curta demais na pesagem dos postos de fronteira (em relação à média dos demais). Ele coleta os registros diários por pelo menos 1 ano. Aplicando mineração de dados (data mining), no caso das pesagens, uma ação típica de mining passível de ser tomada com o auxílio de instrumentos PREDITIVOS é

🪤 (Nota do Camilo: o prof. Kessler cita na aula uma FCC 2018 TCE-RS sobre as 6 fases na ordem — eu vasculhei o banco e essa específica ainda não está capturada (busca por "seis fases"/"6 fases"/"CRISP-DM"+"fases" = 0 resultados FCC). A questão-âncora deste bloco é a SP-2026, tec 3847051, que é melhor: nomeia o CRISP-DM e é do espelho exato do CE. Quando eu capturar a TCE-RS no TEC, te mando de bônus.)

🎙️ Na aula, o Prof. Vitor Kessler disse...

✅ CRAVOU — as 6 fases valem 20%: "Você tem que chegar na prova sabendo as seis fases do CRISP-DM. Você não tem desculpa. E isso é 20% das questões. [...] CRISP-DM, quais são as seis fases e o que se faz em cada fase — você vai acertar 90% das questões sobre o modelo." 🔑 Tradução: decorar a ordem B-D-D-M-E-D é o melhor ROI da matéria inteira.

✅ CRAVOU — a "picareta" e o agnóstico: "Pra você extrair as informações da base, vai precisar de uma picareta — pode ser modelo estatístico, matemático, machine learning. [...] O CRISP-DM não prescreve tecnologia, famoso agnóstico — agnóstico não tem nada a ver com religião; em tecnologia quer dizer que não prescreve tecnologia."

✅ CRAVOU — a pegadinha do inventário: "Se aparece pra mim 'inventariar bases de dados', eu marco Compreensão dos Dados na hora... mas no CRISP-DM isso é perigoso: inventariar as bases faz parte da Compreensão do NEGÓCIO." 🔑 Guarda essa — é a casca de banana clássica da fase 1.

✅ CRAVOU — gratuito: sobre uma questão que dizia que o alto custo de licença atrapalha o uso → "O CRISP-DM é gratuito, você não precisa pagar. Licença do CRISP-DM? Não tem, não. Loucura do examinador."

🪤 Pegadinha — a família de trocas clássicas da FCC

A banca derruba candidato distorcendo uma característica do CRISP-DM. Decore o antídoto de cada uma:

A banca escreve... (❌ ERRADO)	A verdade (✅)
"é rígido, a sequência deve ser seguida à risca"	é flexível — pode voltar fases
"permite apenas fluxo unidirecional"	é iterativo — vai e volta (dois ciclos)
"requer aquisição de licença / alto custo"	é gratuito / livre / não proprietário
"prescreve a tecnologia/plataforma/arquitetura a usar"	é agnóstico — não prescreve tecnologia
"tem fase de Mineração"	a fase 4 chama-se Modelagem (não existe "fase de mineração")
"a 1ª fase é o entendimento dos DADOS"	a 1ª fase é o entendimento do NEGÓCIO
"a fase de Entendimento do Negócio leva 50% a 70% do tempo do projeto"	🪤 errado! O CRISP-DM NÃO estima % de tempo por fase — "não existe dentro do CRISP-DM esse tipo de estimativa" (Kessler). E mineração não ocorre no Negócio, ocorre na Modelagem.

🔑 Antídoto-mãe: sempre que a FCC pintar o CRISP-DM como engessado, fechado, pago, com cronômetro por fase ou que escolhe a ferramenta pra você → está errado. Ele é o oposto disso em tudo: livre, flexível, iterativo, agnóstico.

🔖 Guarde no bolso

Guarde: CRISP-DM = 6 fases, nesta ordem → 1) Entendimento do Negócio · 2) Compreensão dos Dados · 3) Preparação dos Dados · 4) Modelagem · 5) Avaliação · 6) Implantação. É agnóstico (não prescreve tecnologia), flexível/iterativo (vai e volta — dois ciclos), gratuito/livre. 🔑 Bordão-síntese: CRISP-DM é receita de bolo, não marca de fogão — e o passo 1 é sempre DEFINIR O PROBLEMA (Negócio), não olhar o dado.

🔮 Próxima parada

Teaser do próximo bloco: você já tem o método (as 6 fases). Mas onde é que ficam guardados esses montes de NF-e e EFD que a fase 2 vai "compreender" e a fase 3 vai "preparar"? Aí entra a Aula 2 — Arquitetura de Dados: Data Warehouse, Data Mart, Data Lake e Lakehouse (lembra do Data Lake da questão GO da Aula 0? volta com força) + o ETL, o caminhão que move o dado de um lado pro outro. A casa onde o dado mora. 🏗️

Fecho do Bloco 2 — o que LEVAR no bolso:

CRISP-DM = Cross Industry Standard Process for Data Mining — o mapa das 6 fases de um projeto de mineração.
As 6 fases NA ORDEM (vale 20% da prova!): 1️⃣ Negócio (define o problema) → 2️⃣ Dados/conhecer (qualidade, volume) → 3️⃣ Dados/preparar (dataset cheiroso) → 4️⃣ Modelagem (a picareta cava — não chama "mineração"!) → 5️⃣ Avaliação (resolve o problema?) → 6️⃣ Implantação (produção).
4 características que CRAVAM: 🔑 agnóstico (sem tecnologia prescrita) · flexível (volta fases) · iterativo/incremental (dois ciclos) · gratuito/livre/não proprietário.
Dois ciclos: setas vai-e-volta entre fases vizinhas + ciclo externo (Avaliação ruim → volta ao começo; bom → Implantação).
🪤 Pegadinhas-mãe: "rígido / unidirecional / pago / prescreve tecnologia / 50-70% do tempo na fase X" = tudo errado; "inventariar base = fase 2" = errado, é fase 1 (Negócio); "fase de mineração" = errado, é Modelagem.

Bloco 3 — CRISP-DM Fases 1 e 2: Entendimento do Negócio + Compreensão dos Dados

🎯 O que travar neste bloco:

Fase 1 — Entendimento do Negócio: descobrir por que o projeto existe (objetivos + critérios de sucesso), levantar hardware/software e — 🪤 atenção máxima — é AQUI que se INVENTARIA as bases que existem, não na fase dos dados.
Fase 2 — Compreensão dos Dados: abrir as gavetas e ver o que tem dentro — conhecer tabela/coluna, fazer estatística descritiva, análise exploratória, avaliar qualidade (faltantes/outliers) e volume.
A 🔑 ordem que CRAVA: primeiro negócio, depois dados. Quem inverte, erra.
A 🪤 pegadinha-mãe deste bloco: a banca jura que "inventariar base" é compreensão dos dados. É mentira — é entendimento do NEGÓCIO.

📌 Onde estamos no método. No início da Aula 1 você travou o mapa do CRISP-DM — as 6 fases do projeto de dados. Hoje a gente entra nas duas primeiras, as que abrem o jogo:

#	Fase (PT / EN)	Pergunta que ela responde	Pegamos hoje?
1️⃣	Entendimento do Negócio / Business Understanding	Por que fui chamado? O que resolver?	✅ AQUI
2️⃣	Compreensão dos Dados / Data Understanding	O que tem nas gavetas? Dá pra usar?	✅ AQUI
3️⃣	Preparação dos Dados / Data Preparation	(próximo bloco)	🔮
4️⃣	Modelagem / Modeling	onde a mineração de fato acontece	—
5️⃣	Avaliação / Evaluation	o modelo presta?	—
6️⃣	Implantação / Deployment	bota pra rodar	—

🔑 Lembra da escada DIKW (Aula 0)? O CRISP-DM é o passo a passo de como subir a escada: você parte do dado bruto lá embaixo (o "47 mudo"!) e, fase por fase, chega na inteligência (a decisão fiscal). As Fases 1 e 2 são os dois primeiros degraus do método — entender o porquê, depois olhar o dado.

Bora abrir o jogo.

Fase 1 — Entendimento do Negócio (a lógica antes do nome)

Fala, Felício! Pensa numa coisa do teu mundo. Antes de montar qualquer planilha de treino, você senta com o técnico do CEFAN e pergunta:

Qual é o alvo? Bater o recorde no nado utilitário? Aguentar o cross anfíbio sem cair o pace?
Como eu sei que deu certo? Baixar 3 segundos? Terminar a pista de obstáculos sem zerar?

Repara: você ainda não olhou nenhum número. Você está entendendo por que vai treinar e o que quer alcançar. Só depois você vai atrás dos dados (tempos, batimentos, marés).

Em projeto de dados é idêntico. A primeira coisa não é mexer em base nenhuma — é entender o negócio: por que esse projeto existe e qual problema ele resolve.

🧊 CONCEITO — Entendimento do Negócio (Business Understanding)

1ª fase do CRISP-DM. É compreender os objetivos e requisitos do projeto sob a ótica do negócio: definir o que vai ser feito, por que importa, quais os critérios de sucesso (como eu sei que alcancei o objetivo), identificar os stakeholders (os "donos das carnes", como diz o prof), levantar o hardware e software necessários e fazer um inventário das bases de dados existentes. 🔑 Aqui eu defino o PROBLEMA — ainda não olho o dado por dentro.

Repara na lógica (anti-decoreba): por que essa fase vem primeiro? Porque sem saber o que você procura, olhar dado não serve pra nada. É como sair fiscalizando sem hipótese: você afoga em número e não acha fraude nenhuma. Primeiro o alvo, depois a munição.

💡 Exemplo 1) — o projeto antifraude da SEFAZ-CE

A SEFAZ chama um cientista de dados (imagina o Filipe, seu amigo médico que migrou pra dados) e diz: "queremos um sistema que pegue nota fria de ICMS antes de o dinheiro escoar."

No Entendimento do Negócio, o Filipe define: - Objetivo: sinalizar NF-e com alto risco de simulação de operação. 🎯 - Critério de sucesso: aumentar autos de infração que viram dinheiro e reduzir fiscalização improdutiva (sair menos a campo à toa). - Restrições: o que a lei permite usar (sigilo fiscal!), que servidor aguenta o processamento (hardware/software). - Inventário das bases: "a SEFAZ TEM base de NF-e, TEM cadastro de contribuinte, TEM EFD/SPED." — só lista o que existe. 🪤

Repara: ele ainda não abriu a base de NF-e pra ver se está suja. Ele só entendeu o problema e listou as gavetas. Abrir as gavetas é a Fase 2.

🔑 Bordão: Entendimento do Negócio = saber por que fui contratado e o que resolver. Alvo antes de munição.

🪤 A PEGADINHA-MÃE deste bloco: inventariar base é qual fase?

Agora para tudo e presta atenção, porque é AQUI que a FCC derruba metade da sala:

🪤 INVENTARIAR as bases de dados existentes = Entendimento do NEGÓCIO (Fase 1), NÃO compreensão dos dados.

A armadilha é psicológica: a palavra "base de dados" puxa o seu cérebro pra "ah, isso é a fase dos dados". Erro. Olha a diferença cirúrgica:

Ação	Fase	Por quê
LISTAR quais bases existem ("temos NF-e, cadastro, EFD")	1️⃣ Negócio	você está conhecendo o negócio, mapeando recursos
ABRIR a base e ver coluna/qualidade/faltante/outlier	2️⃣ Dados	você está detalhando o dado por dentro

🔑 A régua: inventariar = listar de fora (negócio). Compreender = abrir e investigar por dentro (dados). Mesmo objeto (a base), fases diferentes — o que muda é a profundidade.

🎙️ O professor disse…

Na aula, o Prof. Vitor Kessler avisou (e quase gritou)...

✅ CRAVOU a pegadinha: "Isso aqui é quase perigoso, é muito perigoso isso aqui, porque se aparece pra mim inventariar bases de dados, eu marco compreensão dos dados na hora. Mas no CRISP-DM inventariar as bases de dados faz parte da compreensão do NEGÓCIO. Levantar quais bases existem, você tá conhecendo o negócio."

🔑 A lição: ele te entrega o reflexo errado de propósito ("eu marcaria dados") pra você gravar o certo. Quando ler "inventário/levantamento das bases existentes" → respira → marca NEGÓCIO. É a troca clássica que a FCC monta.

🎯 Hora da verdade — questão FCC real (do espelho EXATO do nosso edital)

Essa é ouro: caiu na SEFAZ-SP/2026 — banca FCC, 2026, cenário fiscal de detecção de fraude. Pela Bola de Cristal, SP-2026 é um dos dois espelhos da nossa prova. Repara que ela testa só uma coisa: você reconhecer a Fase 1 pela descrição das atividades. Resolve comigo:

🎯 Questão — teste agora

FCC — SEFAZ-SP 2026 · tec 3847051

1 toque = candidata · 2 toques = riscar (eliminei)

No desenvolvimento de um modelo de detecção de contribuintes com alto risco de simulação de operações, após definir claramente com a área de fiscalização quais tipos de fraude serão priorizados, quais indicadores de negócio serão acompanhados (como aumento de autos de infração qualificados e redução de fiscalizações improdutivas) e quais restrições legais e operacionais existem para uso do modelo, a equipe de uma Secretaria da Fazenda registra esses critérios e alinha expectativas com a alta gestão. Com base na metodologia CRISP-DM, essa descrição se encaixa principalmente na fase de

Fase 2 — Compreensão dos Dados (a lógica antes do nome)

Beleza, definiu o alvo na Fase 1. Agora sim você vai atrás do dado. E o primeiro contato é só olhar e conhecer — ainda não é arrumar (isso é a Fase 3).

Volta pro treino: depois de decidir "quero baixar 3s no nado utilitário", você abre a planilha de tempos e dá uma vasculhada:

Quantos treinos eu tenho registrados? (volume)
Tem dia em branco? Tem um "47" que na verdade era "4,7" digitado errado? (qualidade)
Qual meu tempo médio, o melhor, o pior? (estatística descritiva)

Você está conhecendo o dado que tem na mão — vendo se dá pra confiar nele. Isso é a Fase 2.

🧊 CONCEITO — Compreensão dos Dados (Data Understanding)

2ª fase do CRISP-DM. É conhecer os dados por dentro: saber o que tem em cada tabela e cada coluna, fazer estatística descritiva (média, mediana, contagem) e análise exploratória, avaliar a qualidade (procurar valores faltantes e outliers — o famoso data profiling) e avaliar o volume (tenho dado suficiente?). 🔑 Aqui eu ABRO a gaveta e investigo — mas ainda NÃO arrumo nada (arrumar é a Fase 3).

Repara na lógica: por que conhecer antes de preparar? Porque você não limpa o que não conhece. Primeiro você descobre "essa coluna tem 30% faltando, aquela tem um peso de 500kg que é erro de digitação". Diagnosticar o problema (Fase 2) vem antes de tratar o problema (Fase 3). É o médico: o Filipe primeiro examina o paciente, depois medica.

💡 Exemplo 2) — o Filipe abrindo as bases da SEFAZ

Na Fase 1, o Filipe listou que existem 3 bases. Agora, na Fase 2, ele abre cada uma: - Base de NF-e: 8 milhões de linhas (volume ✅), mas a coluna CNAE tem 22% em branco (faltante — problema de qualidade ⚠️). - Cadastro de contribuinte: acha um registro com faturamento = R$ 0 e outro com R$ 4 bilhões numa quitanda (outlier — ponto fora da curva 🚩). - EFD/SPED: tabela com colunas que ele descreve uma a uma (período, débito, crédito).

Ele anota tudo num relatório de qualidade. Não corrigiu nada ainda — só diagnosticou. Corrigir o CNAE faltante e tratar o outlier é a Fase 3 (Preparação).

🔑 Fase 2 = raio-X do dado. Fase 3 = cirurgia.

⚠️ Nenhuma fraude no exemplo — Filipe é cientista de bem olhando base de bem. Quando entrar empresa sonegando, é sempre a DABOA fictícia. 😉

🔑 Bordão: Compreensão dos Dados = abrir as gavetas e ver o que tem dentro (e se presta).

🎯 Questão FCC real — mineração na mesa do auditor

Não há no nosso banco uma questão FCC que isole "Data Understanding" puro (registro honesto). Mas tem esta joia — FCC, cenário fiscal de fronteira, que mostra a mineração aplicada ao ICMS e amarra o porquê (Fase 1) com a ação preditiva (a mineração lá na frente). Resolve comigo:

🎯 Questão — teste agora

FCC — AFRE/SEF-SC 2018 · tec 719514

1 toque = candidata · 2 toques = riscar (eliminei)

Um Auditor da Receita Estadual pretende descobrir, após denúncia, fraudes de sonegação de ICMS: caminhões das empresas Org1, Org2 e Org3 ficam tempo curto demais na pesagem dos postos de fronteira (vs. o tempo médio dos demais). Ele coleta os registros diários por ≥1 ano e elabora demonstrativos. A aplicação de técnicas de mineração de dados pode ser de grande valia. No caso das pesagens, uma ação típica de mining passível de ser tomada com o auxílio de instrumentos PREDITIVOS é

🎙️ O professor disse…

Na aula, o Prof. Vitor Kessler martelou...

✅ CRAVOU a metáfora da "picareta": "Mineração de dados é quando você tem uma base e vai minerar pra extrair informação, conhecimento, vantagem competitiva. Pra extrair, você precisa de uma picareta — pode ser modelo estatístico, matemático ou um algoritmo de inteligência artificial (foi a IA que ganhou a briga das picaretas)." 🔑 É a escada DIKW de novo: minerar = subir do dado pro conhecimento.

✅ CRAVOU a importância do ciclo: "Você tem que chegar na prova sabendo as 6 fases e o que se faz em cada uma. Isso é 20% das questões — e quem sabe as 6 fases acerta 90% das questões do modelo." 🔑 Tradução: fase é o ouro do CRISP-DM. Decora as 6 e o que cada uma faz, e o bloco inteiro vira gol.

✅ CRAVOU a ordem: "Primeiro eu conheço o negócio, depois eu conheço os dados, depois preparo, depois modelo..." — e mostrou questão (FGV-TCE-PA) onde a banca diz "após a preparação vem a compreensão dos dados" → errado, porque compreensão vem ANTES da preparação.

🪤 PEGADINHA — as trocas clássicas da FCC neste bloco:

🪤 "Inventariar as bases existentes = Compreensão dos Dados." ❌ FALSO! Inventariar (listar quais bases existem) é Entendimento do NEGÓCIO (Fase 1). Abrir e detalhar é que é Compreensão (Fase 2). (O próprio Kessler avisou: "muito perigoso".)
🪤 "A 1ª fase do CRISP-DM é a compreensão dos dados." ❌ FALSO! A 1ª é Entendimento do NEGÓCIO. Dados é a 2ª. ⚡ (A banca já cobrou essa inversão exata — "na primeira fase, o entendimento dos dados" — e o gabarito foi ERRADO, porque na 1ª fase é o negócio.)
🪤 "A mineração acontece no entendimento do negócio." ❌ A mineração (rodar os algoritmos) só acontece na Modelagem (Fase 4). No negócio você só define o problema.
🪤 Trocar a ORDEM: dizer que "preparação vem antes da compreensão dos dados". ❌ É o contrário: compreender (Fase 2) → preparar (Fase 3). Conhece, depois arruma. (Foi assim que a FGV-TCE-PA tentou te derrubar.)

🔖 Guarde no bolso

Guarde: o CRISP-DM começa pelo par 1→2. Fase 1 (Entendimento do Negócio) = definir objetivo + critério de sucesso + stakeholders + hardware/software + INVENTÁRIO das bases (🪤 listar base é AQUI, no negócio). Fase 2 (Compreensão dos Dados) = abrir as bases: conhecer tabela/coluna, estatística descritiva, qualidade (faltantes/outliers) e volume. 🔑 Bordão-síntese: primeiro o PORQUÊ (negócio), depois o DADO — inventariar é negócio, abrir a gaveta é dado.

🔮 Próxima parada

Teaser do próximo bloco: você já entendeu por que o projeto existe (Fase 1) e já diagnosticou o dado sujo (Fase 2). No próximo a gente entra na Fase 3 — Preparação dos Dados: a cirurgia que transforma o dado bruto e sujo num dataset "cheirosinho" (limpar faltante, tratar outlier, integrar bases, criar variável) pronto pra Modelagem. É onde o cientista passa mais suor. 🪜

Fecho do Bloco 3 — o que LEVAR no bolso:

CRISP-DM = método das 6 fases pra subir a escada DIKW (dado → decisão). Hoje: as 2 primeiras.
Fase 1 — Entendimento do Negócio: o PORQUÊ. Objetivo + critério de sucesso + stakeholders + hardware/software + inventário das bases. É definir o problema, sem tocar o dado.
Fase 2 — Compreensão dos Dados: ABRIR a gaveta. Conhecer coluna, estatística descritiva, análise exploratória, qualidade (faltante/outlier) e volume. Diagnostica, não corrige.
⚡ Ordem que CRAVA: negócio → dados. Nunca o inverso.
🪤 As 4 pegadinhas: (1) inventariar base = negócio, não dados; (2) 1ª fase = negócio, não dados; (3) mineração = modelagem, não negócio; (4) compreender vem antes de preparar.
🔑 Régua de ouro: listar de fora = negócio; abrir por dentro = dados.

Bloco 4 — Fase 3: Preparação dos Dados (a mais cara)

🎯 O que travar neste bloco:

O que é a PREPARAÇÃO dos dados — a 3ª fase do CRISP-DM, e por que ela é, na prática, a fase mais trabalhosa e demorada de todo o projeto (⚡ ponto que CRAVA) — com um porém de prova que vira sua munição.
As 6 tarefas que moram aqui: selecionar · limpar · integrar · formatar · transformar · construir/enriquecer (o resultado é o dataset final que vai pra modelagem).
A diferença cirúrgica que a FCC adora trocar: preparação ≠ modelagem e preparação ≠ compreensão dos dados (🪤 as duas pegadinhas-mãe).
A 🔑 regra que mata metade das questões: transformar SIM é preparação (e quem disser o contrário está errado).

📌 Reancorando o CRISP-DM — a gente já subiu os degraus 1 (Entendimento do Negócio) e 2 (Compreensão dos Dados). Hoje pisa firme no 3º:

#	Fase (PT / EN)	O que se faz	Onde você está
1️⃣	Entendimento do Negócio · Business Understanding	descobrir o objetivo + inventariar quais bases existem	✅ já vimos
2️⃣	Compreensão dos Dados · Data Understanding	conhecer/explorar os dados, avaliar qualidade	✅ já vimos
3️⃣	Preparação dos Dados · Data Preparation	limpar/integrar/transformar → montar o dataset	📍 VOCÊ ESTÁ AQUI
4️⃣	Modelagem · Modeling	a máquina treina no dataset	próximo bloco
5️⃣	Avaliação · Evaluation	o modelo está bom?	—
6️⃣	Implantação · Deployment	bota pra rodar (produção)	—

🔑 Lembra da escada DIKW da Aula 0 (o "47 mudo")? A preparação é onde a gente garante que o dado bruto está limpo o bastante pra virar informação confiável. Dado torto → informação torta → decisão fiscal errada. É aqui que se evita isso.

Bora subir o degrau mais trabalhoso de todos.

O que é a preparação dos dados (a lógica antes do nome)

Fala, Felício! Pensa num dia de prova de natação utilitária no CEFAN. A prova em si — o nado — dura poucos minutos. Mas e o antes? Você passa horas ajeitando: confere a touca, ajusta os óculos pra não embaçar, calça a nadadeira certa, testa o equipamento, aquece, mede a temperatura da água. O nado é rápido; a preparação é que dá trabalho.

Mineração de dados é idêntico:

A modelagem (a máquina "nadar" nos dados) é onde a mágica acontece — mas é rápida, é dar o play.
A preparação — deixar o dado "cheiroso, limpo, no formato certo" — é onde, na vida real de quem faz, você queima o grosso do esforço do projeto.

🔑 É a fase mais braçal e demorada na prática. E faz todo sentido: lixo entra, lixo sai — se o dataset estiver sujo, nenhum modelo do mundo salva.

🧊 CONCEITO — Preparação dos Dados (Data Preparation)

É a 3ª fase do CRISP-DM, na qual se constrói o DATASET final (o conjunto de dados que será entregue à modelagem). Cobre todas as atividades de selecionar, limpar, integrar, formatar, transformar, construir e enriquecer os dados, partindo das bases brutas até a tabela única e arrumada. Na prática de projeto, é reconhecidamente a fase que mais consome tempo e esforço. 🔑 O produto da preparação é o dataset; o destino dele é a modelagem.

🪤 PEGADINHA DE PROVA (guarda essa — é munição, não risco): uma coisa é dizer "na prática a preparação dá o maior trabalho" (verdade de mercado). Outra, bem diferente, é a banca cravar "o CRISP-DM define que a fase X leva 50%–70% do tempo do projeto". ❌ Isso é cilada! O CRISP-DM NÃO prescreve percentual fixo de tempo por fase — quem inventa número de "% do tempo" por etapa caiu na lorota do examinador. O prof. Kessler desmonta exatamente esse item na aula. 🔑 Preparação é a mais cara NA PRÁTICA; mas "o CRISP-DM diz que ela é X% do tempo" = pegadinha.

Repara na lógica (anti-decoreba): por que a preparação fica entre compreender (fase 2) e modelar (fase 4)? Porque na fase 2 você só olhou os dados e descobriu os defeitos ("essa coluna tem 30% de buraco, aquela tem CNPJ torto"). Na fase 3 você arruma esses defeitos. Só depois de arrumado dá pra treinar o modelo. Diagnosticar (fase 2) é diferente de operar (fase 3). Segura essa fronteira — é onde a FCC te derruba.

As 6 tarefas da preparação (o coração do bloco)

O prof. Vitor Kessler bate o martelo: "na preparação dos dados eu faço seis coisas, basicamente." Vamos a elas, cada uma no seu mundo — e todas convergindo pro caso fiscal-âncora:

🧊 CONCEITO — as 6 tarefas da preparação 🎯

#	Tarefa	O que faz	Exemplo-relâmpago
1	Selecionar	escolher só os atributos relevantes ao problema	pego `valor`, `data`, `hora`; descarto "cor do carro"
2	Limpar	tratar faltantes (nulos) e outliers (ponto fora da curva)	peso "500 kg" → erro de digitação; campo vazio → imputar ou excluir
3	Integrar	fundir várias bases numa só, resolvendo conflitos	NF-e + cadastro + dívida ativa viram uma tabela
4	Formatar	pôr tudo na mesma escala/padrão (NÃO é formatar HD!)	dólar → real; data `MM/DD` → `DD/MM`; Celsius pra tudo
5	Transformar	mudar o tipo do dado ou normalizar	categórico → número (fund=0, médio=1, sup=2); normalizar
6	Construir / enriquecer	criar novas variáveis (feature engineering) ou acrescentar dados de outra base	de mil vendas, crio "preço médio"; puxo data de nascimento que falta de outra base

🎙️ O professor disse…

Olho na fala real do professor (anti-invenção): o Kessler enumera as seis assim — "eu vou selecionar... eu limpo... eu formato... transformação de dados... vou construir novos dados... e vou enriquecer meus dados." Repara: na enumeração-relâmpago dele a 6ª palavra é enriquecer. O "integrar" entra como tarefa de preparação logo em seguida, quando ele resolve a questão da Defensoria 2022 ("a fase que se caracteriza por limpar, construir, integrar, formatar... é a preparação") — ou seja, integrar é preparação sim, está no CRISP-DM canônico e na própria questão FCC. Por isso eu te entrego a régua S-L-I-F-T-C com integrar dentro (é o que a banca cobra) e o enriquecer dependurado no "construir" (é a 6ª palavra do Kessler). Nenhuma das duas é invenção: as duas caem como preparação. 👊

A lógica de cada uma, do seu jeito:

1) SELECIONAR 🎯 — é escolher seu equipamento de prova: leva nadadeira, óculos, touca; deixa em casa o que não serve. No dado: leva valor da transação e horário (relevantes pra fraude), larga a cor do carro. Selecionar = separar o que tem relação com o objetivo (objetivo esse que veio lá da fase 1, o Entendimento do Negócio).
2) LIMPAR 🧹 — é o trabalho mais sujo. Dois inimigos:
Faltantes (nulos): o campo peso em branco porque ninguém preencheu. Você imputa (preenche com média/mediana, ou com um algoritmo tipo KNN) ou exclui a linha.
Outliers (ponto fora da curva): "o cara tem 500 quilos — com certeza era 50, erro de digitação." Você identifica e trata.
3) INTEGRAR 🔗 — juntar bases que falam coisas diferentes. "Eu tenho duas bases e vai sair daqui uma base só" (palavra do Kessler). E quando o valor diverge entre dois sistemas, "eu tenho que chegar a uma conclusão qual é o valor real que vai ficar no meu dataset final." Duas tabelas entram, uma sai.
4) FORMATAR 📐 — "não tem nada a ver com formatação de computador!" (palavra do professor — 🪤 cuidado com a confusão). É pôr tudo na mesma régua: valores em dólar viram real; datas no padrão americano MM/DD/AAAA viram DD/MM/AAAA; campo binário vira 0/1 ou true/false (você escolhe um padrão). O exemplo-pôster dele: "Fahrenheit e Celsius, eu coloco tudo em Celsius."
5) TRANSFORMAR 🔄 — o ponto onde a FCC mais arma armadilha (guarda isso). Transformar é:
mudar o tipo: dado categórico → numérico (porque a rede neural "só trabalha com número"). Ex.: escolaridade fund=0, médio=1, sup=2.
normalizar/padronizar: pôr os números numa escala comum (0 a 1, ou média 0).
🔑 Transformar É preparação. Não caia na pegadinha de dizer "transformação não faz parte da preparação" — faz, e é uma das seis tarefas.
6) CONSTRUIR / ENRIQUECER 🏗️ — duas irmãs no mesmo guarda-chuva:
Construir = feature engineering, "criar variável nova". "Eu tenho mil vendas do produto X com preços diferentes; crio a coluna preço médio e levo só ela." Ou, no Fisco: criar a variável "razão nota/faturamento" — um número novo que nasceu do cruzamento de dois que já existiam.
Enriquecer = reforçar a base com dado de fonte externa. O exemplo do Kessler: falta a data de nascimento no cadastro → puxo de outra base que tem. 🔑 Pra prova: enriquecer = acréscimo de dados à base já existente (caiu literal numa questão SEFAZ que ele resolve na aula).

🔑 Macete das 6 tarefas (decora a régua): S-L-I-F-T-C → Selecionar · Limpar · Integrar · Formatar · Transformar · Construir (e o irmão enriquecer vem junto do construir). Tudo isso pra cuspir um dataset no final.

Caso fiscal-âncora: a SEFAZ montando o dataset de risco

Agora aterrissa de vez no seu mundo de auditor — esse é exatamente o cenário que a FCC montou na prova de SP-2026 (você vai resolver ela já já):

💡 Exemplo 1) — o dataset de risco fiscal do Guilherme

A SEFAZ-CE quer um modelo que fareje contribuintes com alto risco de sonegação. O Guilherme (seu amigo auditor) puxa três bases pra mesa: - a base de NF-e (XML — dado semiestruturado, lembra da Aula 0?), - o cadastro de contribuintes (tabela — estruturado), - a dívida ativa (outra tabela, de outro sistema).

Aí começa o trabalho braçal — as 6 tarefas: - Seleciona 🎯 os campos que importam (faturamento, valor das notas, situação cadastral) e descarta o irrelevante. - Limpa 🧹: acha CNPJ inválido (dígito não fecha) → corrige ou exclui; acha um faturamento de "R$ 9 bilhões" numa padaria → outlier, trata; campo data de abertura vazio → imputa. - Integra 🔗 as três bases num cadastro só — e, quando o valor da nota difere entre dois sistemas, decide qual é o verdadeiro. - Formata 📐: uns valores estão 1.000,00 (vírgula decimal), outros 1000.00 (ponto) → padroniza tudo; datas AAAA-MM-DD e DD/MM/AAAA → um padrão só. - Transforma 🔄: o regime tributário ("Simples", "Lucro Real"...) vira código numérico pro modelo entender. - Constrói / enriquece 🏗️ a variável-ouro: "razão nota/faturamento" — quem emite nota muito abaixo do faturamento que movimenta acende a luz vermelha; e onde falta um dado, puxa de outra base (enriquecimento).

🔑 Repara: o modelo (fase 4) ainda nem rodou. Tudo isso foi só pra deixar o dataset pronto. E foi aqui que se gastou o grosso do projeto. Preparação = o suor; modelagem = o play.

⚠️ Nenhuma fraude com o elenco — Guilherme é auditor de bem. Quando entrar empresa sonegando, é sempre a fictícia (a DABOA lá da Aula 0). 😉

🔗 Conexão (não é ilha!): repara como tudo amarra. A NF-e é o dado semiestruturado que você travou na Aula 0 e que você já conhece da Legislação Tributária (padrão SPED, ciclo do crédito). Na preparação, esse dado bruto vira dataset limpo → na modelagem vira modelo de risco → o auditor decide fiscalizar (inteligência, topo da escada DIKW). E não confunda com a fase 2 (Compreensão dos Dados): lá você só descobriu que o CNPJ estava torto; aqui (fase 3) você conserta. Descobrir o problema ≠ resolver o problema. 🪜

🎯 Hora da verdade — questão FCC real (a prova-espelho do nosso edital)

Essa caiu na SEFAZ-SP/2026 — banca FCC, cenário 100% fiscal, e é o retrato falado da preparação dos dados. Lembra da Bola de Cristal? SP é o espelho do bloco de Fluência do CE. Resolve comigo — ela só acerta quem entende que preparar é tratar formato + faltante + outlier + duplicata com CRITÉRIO:

🎯 Questão — teste agora

FCC — SEFAZ-SP 2026 · tec 3847053

1 toque = candidata · 2 toques = riscar (eliminei)

Uma Secretaria da Fazenda Estadual recebeu uma base com 2,3 milhões de declarações fiscais. Na exploração inicial, achou: CNPJ com formatações inconsistentes (com e sem pontuação), valores monetários com separadores divergentes (vírgula e ponto), datas em formatos distintos (DD/MM/AAAA, AAAA-MM-DD), campos obrigatórios vazios em ~12% dos registros, outliers de receita bruta distorcendo as estatísticas, e a variável "regime tributário" com categorias redundantes por erro de digitação ("Simples Nacional", "SIMPLES NACIONAL", "Simples nacional"). Considerando as melhores práticas de pré-processamento, o tratamento correto e adequado é:

🎙️ O professor disse…

Na aula, o Prof. Vitor Kessler disse...

✅ CRAVOU as 6 coisas: "na preparação dos dados eu faço seis coisas, basicamente: eu vou selecionar... eu limpo... eu formato... transformação de dados... vou construir novos dados... e vou enriquecer meus dados" — pra entregar "um dataset bonitinho, fresquinho, gostosinho pra entrar na modelagem." (E o integrar ele crava logo depois, resolvendo a questão "limpar, construir, integrar, formatar = preparação".) É exatamente o nosso S-L-I-F-T-C.

✅ CRAVOU o "formatar não é formatar HD": "formatar os dados não tem nada a ver com formatação de computador! É trazer todos pra mesma escala, mesma ordem de grandeza — Fahrenheit e Celsius, eu coloco tudo em Celsius." (🪤 a banca chega a confundir de propósito.)

🔑 A lição que vale OURO (a "picareta", os 20% e o alerta do percentual): ele avisou — "isso é 20% das questões... CRISP-DM: quais são as seis fases e o que se faz em cada fase, você acerta 90% das questões." E desmontou uma questão que cravava percentual de tempo por fase: "não existe dentro do CRISP-DM esse tipo de estimativa de percentual de tempo que você gasta em cada uma das etapas — isso é lorota do examinador." Mais o alerta de fronteira: na fase 1 (Negócio) "inventariar quais bases existem" é Entendimento do Negócio; detalhar/explorar é fase 2; arrumar é fase 3 (preparação); a mineração de verdade só acontece na modelagem, com a "picareta" (o algoritmo). ⚡ Quem sabe O QUE acontece em cada fase, gabarita o bloco.

🪤 PEGADINHA — as armadilhas-mãe deste bloco:

Trocar PREPARAÇÃO por MODELAGEM. ❌ A FCC enfia "os modelos de dados são definidos na etapa de preparação, com técnicas de machine learning" — erro! O dataset é definido/montado na preparação, mas as técnicas de aprendizado de máquina rodam na MODELAGEM (fase 4). 🔑 Preparação MONTA o dataset; modelagem TREINA nele. (Caiu assim no CESP/CEPLAG-Ceará 2024 — gabarito: errado.)
Trocar PREPARAÇÃO por COMPREENSÃO DOS DADOS. ❌ A banca escreve "na preparação ocorre a identificação dos dados existentes / geração dos primeiros insights / formulação de hipóteses" — errado! Identificar quais dados existem e explorar é a fase 2 (Compreensão); insight/análise vem na modelagem; hipótese nasce na fase 1 (Negócio). Na preparação você conserta, não descobre nem conclui. (Cuidado: análise da qualidade e exploração estatística podem reaparecer na preparação pra checar o conserto — mas o primeiro diagnóstico foi na fase 2.)
Dizer que "TRANSFORMAÇÃO não faz parte da preparação". ❌ Falso! Transformar (categórico→número, normalizar) é uma das seis tarefas da preparação. Quem afirma que transformação está fora errou. 🔑 Selecionar, limpar, integrar, formatar, TRANSFORMAR e construir — tudo é preparação.
Cravar percentual de tempo por fase "segundo o CRISP-DM". ❌ "O CRISP-DM define que a preparação/o negócio leva 50–70% do tempo" — lorota do examinador! O CRISP-DM não prescreve percentual de tempo por etapa. 🔑 "Mais cara na prática" ≠ "o CRISP-DM diz que é X% do tempo".

🔖 Guarde no bolso

Guarde: a Preparação dos Dados é a 3ª fase do CRISP-DM e, na prática de projeto, a que mais consome tempo/esforço (mas o CRISP-DM não crava percentual — isso é pegadinha). Faz 6 coisas (S-L-I-F-T-C: Selecionar, Limpar — faltantes/outliers, Integrar, Formatar — mesma escala, Transformar — categórico→número/normalizar, Construir — variável nova / enriquecer — dado de outra base) pra entregar um dataset pronto pra modelagem. 🔑 Bordão-síntese: preparar dado é como aprontar pra prova — o nado é rápido, é o pré-prova que dá o suor. E transformar SEMPRE é preparação.

🔮 Próxima parada

Teaser do próximo bloco: dataset pronto e cheiroso na mão? Agora a gente dá o play. No Bloco 5 — Modelagem (Modeling) entra a "picareta" do Kessler: é onde o algoritmo de fato garimpa os dados, onde acontece a mineração de verdade (e não, "mineração" não é uma fase — pegadinha que o próprio professor caiu na aula 😅). Vou te mostrar o treino dos modelos, o vai-e-volta dos parâmetros, e por que essa fase é rápida comparada à preparação. A picareta vai cavar. ⛏️

Fecho do Bloco 4 — o que LEVAR no bolso:

Preparação dos Dados = 3ª fase do CRISP-DM, a que mais consome tempo/esforço NA PRÁTICA (⚡ ponto que CRAVA) — mas o CRISP-DM não fixa percentual de tempo por fase (🪤 quem diz "é X% do tempo" caiu na cilada). Produto: o dataset que vai pra modelagem.
6 tarefas (S-L-I-F-T-C): Selecionar (só o relevante) · Limpar (faltantes + outliers) · Integrar (várias bases → uma) · Formatar (mesma escala; ≠ formatar HD) · Transformar (categórico→número, normalizar) · Construir/enriquecer (feature nova, ex. "razão nota/faturamento"; ou puxar dado de outra base).
Caso fiscal: SEFAZ junta NF-e + cadastro + dívida ativa, corrige CNPJ inválido, padroniza formatos, cria a variável de risco — tudo antes de o modelo rodar.
🪤 Pegadinhas: (1) preparação ≠ modelagem (modelo treina na fase 4); (2) preparação ≠ compreensão (descobrir é fase 2, consertar é fase 3); (3) transformação É preparação — quem diz que não, errou; (4) CRISP-DM não prescreve % de tempo por fase.
🔑 Na questão FCC de preparação: a alternativa com "tudo / sempre / automático / exclusivamente" quase sempre é cilada; a que trata cada defeito com critério ganha. Preparação é cirurgia, não trator.

Bloco 5 — Fases 4, 5 e 6: Modelagem, Avaliação e Implantação

🎯 O que travar neste bloco:

Fase 4 — Modelagem: é onde a "picareta" finalmente cava — você treina o modelo com o dataset. Se o algoritmo pede outro formato, volta pra preparação (a seta sobe e desce).
Fase 5 — Avaliação: ⚡ não é só "acertou muito" — é checar se o modelo bate o objetivo de NEGÓCIO definido lá na Fase 1. Aqui entra o truque do treino × teste (treina 90%, testa nos 10% que a máquina nunca viu).
Fase 6 — Implantação: põe em produção, gera relatório e plano de monitoramento. ⚡ Aprovou → implanta; reprovou → volta ao início do ciclo.
A 🪤 troca-mãe da FCC neste trecho: dizer que avaliar = só medir acurácia técnica (incompleto) e que implantação é "simples, só rodar script" (mentira).

📌 Reancorando o ciclo do CRISP-DM (o mesmo dos blocos anteriores — você já subiu 3 fases; hoje fecha as 3 últimas):

Fase	Nome	O que faz	Analogia do atleta
1️⃣	Entendimento do Negócio	define o objetivo e as métricas de sucesso	montar o plano de competição
2️⃣	Entendimento dos Dados	conhece e audita a qualidade da base	conferir o equipamento
3️⃣	Preparação dos Dados	monta o dataset limpo	periodizar o treino
4️⃣	Modelagem	treina o modelo (aplica os algoritmos)	🏊 treinar o atleta ← VOCÊ ESTÁ AQUI
5️⃣	Avaliação	testa se atende o objetivo de negócio	🥽 simular a prova
6️⃣	Implantação	põe em produção + monitora	🏁 competir de verdade

🔑 Lembra do bordão das fases? "Conheço o negócio → conheço o dado → preparo → MODELO → AVALIO → implanto (ou volto pro começo)." Agora a gente fecha o trio final.

Bora subir os últimos 3 degraus.

🏊 A analogia-mãe: treinar → simular → competir

Fala, Felício! Esquece tecnologia por um segundo e pensa na sua preparação pro pentatlo naval no CEFAN:

Modelagem = treinar o atleta. Você pega o seu plano de treino (o dataset pronto, da Fase 3) e bota o corpo pra aprender o gesto: nado utilitário, pista, cross anfíbio. O treino é onde você fica bom — repetindo, ajustando, testando carga. Mas treino não é prova.
Avaliação = simular a prova. Antes de competir, você faz um simulado cronometrado com um percurso que não treinou exaustivamente — pra ver se aquilo que você aprendeu funciona no desconhecido, não só no que você já decorou. Se foi bem no simulado, está pronto. Se foi mal, volta pro treino.
Implantação = competir de verdade. A prova oficial. Põe tudo em jogo "na produção". E não acaba aí: você monitora o desempenho pra saber se precisa reajustar pra próxima.

🔑 Guarde esse trio: modelar = treinar · avaliar = simular · implantar = competir. Toda a Fase 4-5-6 cabe nessa frase.

Fase 4 — Modelagem: a hora em que a picareta cava

Lembra da Aula 0 — a escada DIKW, subindo do dado bruto até a inteligência que decide? A mineração é exatamente isso: cavar o dado pra arrancar conhecimento. E a picareta (palavra do professor 😄) é o algoritmo. Pois é na Modelagem que a picareta finalmente bate no chão.

Até agora (Fases 1-3) você só preparou o terreno: definiu o objetivo, conheceu os dados, montou o dataset cheiroso. Nada foi minerado ainda. A mineração de verdade — o aprendizado da máquina — acontece aqui, na Fase 4.

🧊 CONCEITO — Modelagem (Fase 4)

Modelagem é a fase em que se aplicam os algoritmos (de machine learning ou modelos estatísticos) sobre o dataset preparado, treinando o modelo pra que ele aprenda os padrões escondidos nos dados. É AQUI que ocorre a mineração propriamente dita — não antes. A modelagem é iterativa: roda o algoritmo, mede, ajusta os parâmetros, roda de novo, até achar a melhor configuração.

Dois detalhes que a FCC ama (lógica antes de decoreba):

🔁 A modelagem é vai-e-volta com a preparação. O algoritmo que você escolheu pode exigir outro formato de dado (ex.: uma rede neural só engole número, não texto). Aí você volta pra Fase 3 (Preparação) pra converter o dado, e retorna pra modelar. 🔑 A seta entre Preparação ↔ Modelagem é dupla, sobe e desce.
🎛️ Ajuste fino de parâmetros é parte da modelagem. Você roda o modelo com a configuração padrão, dá 72%; troca um parâmetro, sobe pra 78%; troca de novo, cai pra 75% → volta pro de 78%. Esse tatear empírico é o coração da Fase 4. ⚡ (Caiu literal na FCC: "a fase executada em várias iterações, em que os analistas executam vários modelos com a configuração padrão e vão ajustando os parâmetros para valores otimizados" = Modelagem.)

💡 Exemplo 1) — o Guilherme treinando o "caçador de notas frias"

O Guilherme (seu amigo auditor) e a equipe de TI da SEFAZ querem um modelo que aponte quais NF-e têm alto risco de simulação (nota fria). O dataset já está pronto (Fase 3): cada linha é uma nota, com valor, horário de emissão, CNAE, histórico do emitente... e a coluna-resposta: "fraudulenta" ou "limpa" (rótulo de notas que a fiscalização já conhece).

Na Modelagem, eles dão esse dataset pra máquina treinar: ela varre milhões de notas já julgadas e aprende a relação entre os campos e o rótulo ("valor redondo + emissão de madrugada + destinatário com CNPJ baixado → cheira a fraude"). A máquina não decidiu nada ainda na vida real — ela só treinou com casos do passado, igual você treinando o gesto antes da prova.

⚠️ A empresa fraudadora aqui é sempre a DABOA (fictícia). O Guilherme é auditor de bem treinando ferramenta de bem. 😉

🎯 Questão — teste agora

FCC · AFRE/SEFAZ-SP 2026 · tec 3847051

1 toque = candidata · 2 toques = riscar (eliminei)

⚠️ Atenção, Felício: questão de CONTRASTE. Ela está aqui dentro da Fase 4 de propósito, mas o gabarito NÃO é Modelagem — é a Fase 1. Ler ela aqui te ensina a não confundir "definir o objetivo" (Fase 1) com "treinar o modelo" (Fase 4). É a pegadinha do começo × meio do ciclo. No desenvolvimento de um modelo de detecção de contribuintes com alto risco de simulação de operações, após definir claramente com a área de fiscalização quais tipos de fraude serão priorizados, quais indicadores de negócio serão acompanhados (como aumento de autos de infração qualificados e redução de fiscalizações improdutivas) e quais restrições legais e operacionais existem para uso do modelo, a equipe de uma Secretaria da Fazenda registra esses critérios e alinha expectativas com a alta gestão. Com base na metodologia CRISP-DM, essa descrição se encaixa principalmente na fase de

🪤 PEGADINHA da Fase 4: NÃO existe fase chamada "Mineração de Dados" no CRISP-DM! O professor errou de propósito na aula só pra te marcar isso 😅. A mineração acontece, sim — mas dentro da fase de MODELAGEM. A FCC enfia "fase de mineração" numa alternativa pra te pegar. 🔑 Mineração ≠ fase; mineração = o que se faz NA modelagem.

Fase 5 — Avaliação: o simulado que vale a vaga

Beleza, o modelo treinou. Está bom? Ninguém sabe ainda — porque ele foi treinado olhando as respostas. Pra saber de verdade, você precisa do simulado: jogar nele casos que ele nunca viu e medir se acerta.

🧊 CONCEITO — Avaliação (Fase 5)

Avaliação é a fase em que se verifica se o modelo construído atende aos OBJETIVOS DE NEGÓCIO definidos lá na Fase 1 — não basta a acurácia técnica ser alta. Pra medir, separa-se a base em dados de treino (a máquina aprende) e dados de teste (a máquina nunca viu — usados aqui pra checar se ela generaliza). Métricas típicas: acurácia (% que acertou), recall/sensibilidade, entre outras.

A lógica do truque treino × teste (anti-decoreba):

Você tem 100 notas já julgadas (sabe quais são frias e quais são limpas).
Treina o modelo com 90 delas (Fase 4 — Modelagem).
Esconde 10 que ele nunca viu e, na Avaliação, manda ele classificar essas 10. Se acertou 8 → 80% de acurácia.
🔑 Por que esconder? Porque medir o modelo nos dados que ele decorou é fraude — é como cronometrar você num percurso que você fez 500 vezes. O simulado só vale se for terreno novo.

💡 Exemplo 2) — o simulado do caçador de notas frias

O modelo do Guilherme treinou com 90% das notas já julgadas. Agora, na Avaliação, a equipe pega os 10% escondidos (notas que a máquina nunca viu) e pergunta: "classifica aí — frias ou limpas?". O modelo acerta 86%. Tecnicamente, parece ótimo.

Mas a Avaliação vai além do número ⚡: o Guilherme cruza com o objetivo de negócio da Fase 1 — "reduzir fiscalização improdutiva e aumentar auto de infração qualificado". Se o modelo acerta 86%, mas manda o fiscal pra rua atrás de muita nota limpa (alarme falso), ele falha no objetivo de negócio mesmo com acurácia alta. 🔑 Acertar no laboratório ≠ resolver o problema do Fisco.

🎯 Questão — teste agora

FCC · AFRE/SEFAZ-SP 2026 · tec 3843227

1 toque = candidata · 2 toques = riscar (eliminei)

Na modelagem estatística utilizando aprendizado de máquina, a principal razão para separar os dados em conjuntos de treinamento, validação e teste é

🪤 PEGADINHA-mãe da Fase 5: dizer que "avaliação = só medir a acurácia técnica". ❌ Incompleto! A acurácia é uma ferramenta, mas a Avaliação cobra se o modelo resolve o objetivo de NEGÓCIO (Fase 1). Um modelo 99% acurado que não serve pra decisão do Fisco está reprovado. ⚡ Avaliação olha o objetivo de negócio, não só o número.

💡 Exemplo 3) — o overfitting (o atleta que só sabe o percurso decorado)

Imagina que você treinou tanto aquele percurso específico do CEFAN que decorou cada pedra — voa nele. Mas no dia da prova, mudaram o trajeto, e você derrapa. Você não aprendeu a nadar/correr; aprendeu aquele percurso. Isso, em dados, é overfitting: o modelo "decorou" o treino e falha no novo.

🎯 Questão — teste agora

FCC · AFRE/SEFAZ-MT 2026 · tec 3863445

1 toque = candidata · 2 toques = riscar (eliminei)

Um classificador de risco de inadimplência foi treinado com histórico fiscal, que apresenta desempenho elevado no treino e queda consistente em dados novos, mesmo com validação adequada. O fenômeno técnico caracterizado no cenário descrito é

Fase 6 — Implantação: a prova oficial (e o monitoramento)

Avaliou, aprovou? Então vai pro pau — competir de verdade.

🧊 CONCEITO — Implantação / Implementação (Fase 6)

Implantação (também dita implementação ou desenvolvimento/deployment) é a fase final: pôr o modelo em PRODUÇÃO, incorporando-o ao processo de negócio. Inclui gerar o relatório final e, crucialmente, um plano de MONITORAMENTO e manutenção (o modelo pode "envelhecer" e precisar de retreino). 🔑 Decisão do ciclo: aprovou na Avaliação → implanta · reprovou → volta ao INÍCIO do ciclo (Entendimento do Negócio).

💡 Exemplo 4) — o modelo entrando na malha fina do Ceará

O caçador de notas frias do Guilherme passou no simulado (Fase 5). Agora, na Implantação, ele entra em produção dentro da malha fina da SEFAZ-CE: todo dia, as NF-e novas passam pelo modelo, que aponta automaticamente quais contribuintes priorizar pra fiscalização. O Guilherme não olha mais 8 milhões de notas na mão — o modelo filtra e entrega a lista quente.

Mas tem o plano de monitoramento ⚡: a equipe acompanha se o modelo continua acertando. Se os fraudadores mudarem o golpe (ex.: pararem de emitir de madrugada), o modelo degrada — e aí volta ao início do ciclo pra retreinar com os novos padrões. Competir uma vez não é o fim; é manter o desempenho.

🪤 PEGADINHA-mãe da Fase 6: dizer que "a implantação é a fase mais simples, é só rodar um script". ❌ MENTIRA! Pôr em produção é um rolo danado: o modelo que rodava na máquina do cientista de dados precisa funcionar num servidor diferente, parrudo, online — é a clássica briga "na minha máquina funcionava". Por isso existe até o DevOps (juntar desenvolvimento + operação). 🔑 Implantação NUNCA é trivial.

🪤 Pegadinha-bônus (Cebraspe/FGV adoram, FCC pode reciclar): "implantação só ocorre depois da avaliação" → CORRETO. Não inverta a ordem: avalia primeiro, implanta depois. E "o CRISP-DM é rígido, não pode voltar de fase" → ERRADO: o ciclo é flexível, iterativo e incremental — reprovou, volta pro começo.

🔗 Conexão (não é ilha!): repare como o trio fecha a escada DIKW da Aula 0. O dado bruto (NF-e em XML, lembra? semiestruturado) entra → vira informação (painel de risco) → na Modelagem a máquina aprende o padrão → na Avaliação confirmamos que vira conhecimento útil → na Implantação isso vira INTELIGÊNCIA fiscal (a malha fina que decide quem fiscalizar). 🪜 Toda a Aula 0 + a Aula 1 são a mesma escada: o CRISP-DM é o "como" a gente sobe do dado ao topo. E no próximo bloco a gente liga isso à arquitetura que guarda esses dados (DW/Data Lake) — você já viu a ponta disso na questão do Data Lake da Aula 0.

🎙️ O professor disse…

Na aula, o Prof. Vitor Kessler disse...

✅ CRAVOU o trio final: sobre a Modelagem — "é o momento em que eu pego meu dataset, dou pra minha máquina treinar; ela aprende com esse conjunto de dados e faz previsões"; e a regra de ouro: "não existe fase de mineração — é fase de MODELAGEM, onde eu aplico as técnicas de mineração de dados, ponto." (Ele até errou de propósito o slide pra te marcar isso.)

✅ CRAVOU o truque do teste: "a gente divide o conjunto em dois — treino e teste. O treino usa na modelagem; o de teste eu pego um conjunto que a máquina nunca viu e rodo pra ver se está funcionando. Acertou 860 de 1000 → 86% de acurácia."

✅ CRAVOU a implantação: "implantação NUNCA é simples" — é a briga do "na minha máquina funciona", por isso inventaram o DevOps. E: "aprovou, vai pra implantação; reprovou, volta pro começo do ciclo."

🔑 A lição dele: "saber as 6 fases e o que se faz em CADA uma = você acerta 90% das questões do modelo. As 6 fases sozinhas já são 20% das questões." ⚡ Traduzindo pro seu caso, Felício: este bloco é munição de alto ROI — é gol fácil que a FCC repete prova após prova.

🔖 Guarde no bolso

Guarde: Modelagem (Fase 4) = treina o modelo / aplica algoritmo / é aqui que a mineração acontece / pode voltar pra Preparação. Avaliação (Fase 5) = testa no que nunca viu (treino × teste) e checa o objetivo de NEGÓCIO, não só a acurácia / flagra o overfitting. Implantação (Fase 6) = põe em produção + monitora / NUNCA é simples / aprovou implanta, reprovou volta ao início.

🔑 Bordão-síntese: MODELO = treino · AVALIO = simulado (no que nunca vi, contra o objetivo) · IMPLANTO = competição (e fico de olho).

🔮 Próxima parada

Teaser do próximo bloco: você fechou o método (CRISP-DM). Agora a pergunta é: ONDE moram os dados que alimentam tudo isso? Na Aula 2 a gente abre o galpão da SEFAZ — Data Warehouse, Data Mart, Data Lake e Lakehouse, mais o ETL que enche esses tanques. Spoiler: o schema-on-read do Data Lake (que você já matou na Aula 0) volta com tudo. 🏗️

Fecho do Bloco 5 — o que LEVAR no bolso:

Fase 4 Modelagem = 🏊 treinar o atleta: aplica o algoritmo, a mineração acontece AQUI. Pode voltar pra Preparação se o modelo pede outro formato. 🪤 Não existe "fase de mineração".
Fase 5 Avaliação = 🥽 simular a prova: separa treino × teste (testa no que nunca viu), mede acurácia/recall — mas ⚡ cobra o objetivo de NEGÓCIO, não só o número. Flagra overfitting (decorou o treino, falha no novo).
Fase 6 Implantação = 🏁 competir: produção + relatório + plano de monitoramento. ⚡ Aprovou → implanta; reprovou → volta ao início. 🪤 NUNCA é "só rodar script".
🔑 O ciclo é flexível, iterativo e incremental — e fecha a escada DIKW da Aula 0: do dado bruto à inteligência fiscal na malha fina.

Bloco 6 — KDD × CRISP-DM × SEMMA: três receitas pro mesmo prato

Fala, Felício! Você fechou o Bloco 5 sabendo o que é minerar dado (subir a escada DIKW do dado bruto até o conhecimento — lembra do "47 mudo" virando decisão?). Agora vem o como: o passo a passo que todo projeto de dados segue. E aqui mora um ponto que a FCC bate sem dó — porque tem três receitas pra esse mesmo prato, e a banca adora trocar uma pela outra.

🎯 O que travar neste bloco:

As 3 metodologias e o que cada uma é: KDD (o guarda-chuva da descoberta), CRISP-DM (o passo a passo mais usado, começa pelo NEGÓCIO) e SEMMA (a do SAS, técnica/estatística, SEM fase de negócio).
Por que CRISP-DM é o campeão de prova — e por que ele começa entendendo o problema, não os dados.
A 🪤 pegadinha-mãe: dizer que "SEMMA tem fase de negócio" (é FALSO — ela já começa pegando a amostra).
O arsenal: resolver questão FCC real e fiscal e sair do bloco lendo a resposta, não decorando.

A lógica antes do nome: três cozinheiros, um prato

Imagina que você quer fazer o mesmo prato — digamos, "caçar sonegação de ICMS usando dados". Você tem três cozinheiros na cozinha, cada um com um jeito (uma receita escrita) de chegar lá:

👨‍🍳 Cozinheiro KDD — o chef veterano. Pensa o processo inteiro, do início ao fim: "descobrir conhecimento escondido no dado". A mineração (cavar o dado) é uma das etapas dele, não o prato inteiro.
👨‍🍳 Cozinheiro CRISP-DM — o mais usado do mundo. A regra de ouro dele: "antes de cozinhar, me diz qual é o problema do cliente". Ele começa pelo NEGÓCIO — entende o objetivo, depois vai pros dados.
👨‍🍳 Cozinheiro SEMMA — o técnico da casa SAS. Ele já chega com a faca na mão: "me dá uma amostra que eu começo". Ele pula a conversa de negócio e vai direto pro técnico/estatístico.

🔑 A sacada: os três fazem o mesmo prato (descobrir conhecimento no dado). A diferença é por onde começam e o quê cada um cobre.

🧊 CONCEITO — KDD, CRISP-DM e SEMMA

Metodologia	O que é	Começa por...	Tem fase de NEGÓCIO?
KDD (Knowledge Discovery in Databases)	processo amplo de descoberta de conhecimento em bases de dados; a mineração é uma etapa dentro dele	Seleção dos dados	❌ não tem fase de negócio formal
CRISP-DM (CRoss-Industry Standard Process for Data Mining)	metodologia/processo padrão mais usado pra projetos de mineração; 6 fases, cíclica	Entendimento do NEGÓCIO (Business Understanding)	✅ SIM — é a 1ª fase
SEMMA (Sample, Explore, Modify, Model, Assess)	metodologia da SAS, mais técnica/estatística; 5 etapas	Sample (amostragem)	❌ NÃO — começa direto na amostra

🔑 Palavra que a FCC cobra: o CRISP-DM é o mais utilizado e o único dos três que começa pelo NEGÓCIO. KDD é o processo amplo (mineração é etapa). SEMMA é da SAS e é técnica (não fala de negócio).

Repara na lógica (anti-decoreba): por que CRISP é o queridinho? Porque a vida real não começa no dado — começa num problema. Você não sai cavando dado à toa; primeiro alguém te diz "preciso pegar quem sonega ICMS". CRISP nasceu pra isso — botar o problema de negócio na frente. KDD e SEMMA são mais "mão na massa do dado" e pulam essa conversa.

Decorando KDD e SEMMA pela inicial (só o que cai)

A FCC raramente cobra cada etapinha de KDD/SEMMA — ela cobra se você sabe diferenciar os três. Mas guarda as etapas pra não cair na pegadinha:

🧊 KDD — 5 etapas (sequência): Seleção → Pré-processamento (limpeza) → Transformação → Mineração (data mining) → Interpretação/Avaliação. 🔑 No KDD, a mineração é só o MIOLO — o "data mining" é UMA etapa, não o processo todo.
🧊 SEMMA — 5 etapas (a sigla é a ordem): Sample (amostra) · Explore (explora) · Modify (modifica/trata) · Model (modela) · Assess (avalia). 🔑 Começa em Sample e termina em Assess — em ponto nenhum aparece "negócio".

🔑 Bordão: SEMMA começa na Sample (amostra) e morre no Assess — negócio não entra nessa cozinha.

🧭 Nota de transparência do Camilo (fonte-única): o Prof. Kessler, na degravação, não chegou a falar de SEMMA — ele focou KDD e CRISP-DM. Eu trouxe a SEMMA porque a comparação KDD × CRISP × SEMMA é clássica da FCC e você precisa saber diferenciar os três pra não cair na troca. Os fatos da SEMMA acima são padrão de mercado (metodologia da SAS) — confia neles, mas saiba que essa parte é reforço meu, não da aula gravada.

CRISP-DM: as 6 fases (o coração de TUDO — e o que CRAVA) ⚡

Felício, o professor é categórico: "você não pode ir pra prova sem saber isso. E isso é 20% das questões." As 6 fases do CRISP-DM, na ordem:

🧊 CONCEITO — as 6 fases do CRISP-DM ⚡

#	Fase (PT)	Fase (EN)	O que se faz
1️⃣	Entendimento do NEGÓCIO	Business Understanding	qual é o problema/objetivo? métricas de sucesso? inventário inicial das bases
2️⃣	Entendimento dos DADOS	Data Understanding	conhecer as bases, qualidade, volume, valores faltantes, outliers
3️⃣	Preparação dos DADOS	Data Preparation	limpar, formatar, transformar, integrar, enriquecer → monta o dataset
4️⃣	Modelagem	Modeling	aplica os algoritmos (machine learning/estatística) — é aqui que a mineração acontece
5️⃣	Avaliação	Evaluation	o modelo atinge o objetivo do negócio? mede acurácia
6️⃣	Implantação	Deployment	bota em produção; reprovou → volta pro começo

🔑 A lógica que mata 90% das questões (palavra do professor): "Primeiro eu conheço o negócio, depois conheço os dados, depois preparo os dados pra modelagem, onde de fato acontece a mineração. Depois avalio. Aprovou → implanta. Reprovou → volta pro começo do ciclo."

⚠️ CRISP-DM é CÍCLICO e FLEXÍVEL — pode ir e voltar entre fases (interativo e incremental). NÃO é rígido, NÃO é unidirecional.

🪤 A "picareta perigosa" do prof. Kessler: "Se aparece pra mim inventariar bases de dados, eu marco compreensão dos DADOS na hora... mas no CRISP-DM isso é entendimento do NEGÓCIO!" Levantar quais bases existem = você ainda está conhecendo o negócio (1ª fase). Detalhar/avaliar a qualidade dessas bases = aí sim é dados (2ª fase). 🔑 Inventariar base = NEGÓCIO; esmiuçar a qualidade da base = DADOS.

💡 Caso fiscal-âncora: qual receita a SEFAZ-CE usaria?

💡 A SEFAZ caçando a DABOA — qual cozinheiro chamar?

A SEFAZ-CE quer um sistema que flagra contribuintes com alto risco de sonegar ICMS (tipo a DABOA Comércio, da nossa nota fria do Bloco 1). Qual das três receitas ela usa?

CRISP-DM ✅ — porque o projeto nasce de um problema de negócio: "a área de fiscalização quer reduzir auto improdutivo e pegar mais fraude qualificada". Antes de tocar em um byte de NF-e, a SEFAZ senta com a fiscalização e define o objetivo (fase 1, Business Understanding). Só depois vai pros dados. É exatamente o que o Fisco faz na vida real.
KDD — caberia (é o guarda-chuva da descoberta), mas ele não força essa conversa inicial de negócio — começa selecionando dado.
SEMMA — o mais técnico; um cientista de dados do SAS pegaria a amostra e já ia explorando. Pula o alinhamento com a fiscalização.

🔑 Por que CRISP ganha no Fisco: porque auditoria começa no PROBLEMA (a denúncia, o indício, a meta de arrecadação), nunca no dado solto. CRISP é a única que bota o negócio na frente — é a cara da SEFAZ.

⚠️ DABOA = empresa fictícia. Fraude é sempre empresa de mentira — Guilherme, Camila e Filipe são gente de bem. 😉

🔗 Conexão (não é ilha!): lembra da escada DIKW da Aula 0? CRISP-DM é a escada virada em projeto: o dado entra no Data Understanding → a informação nasce na Modeling → o conhecimento/inteligência (a decisão "manda a malha fina") sai na Deployment. E o insumo continua sendo a NF-e (XML semiestruturado, lembra?) da Legislação Tributária. Mesma escada, agora com nome de metodologia. 🪜

🎯 Hora da verdade — questão FCC real (do espelho SP-2026)

Essa caiu na SEFAZ-SP/2026 — banca FCC, um dos espelhos do nosso edital (pela Bola de Cristal). Cenário 100% fiscal e bate em cheio no coração do bloco: ela testa se você sabe que CRISP-DM começa pelo NEGÓCIO. Resolve comigo:

🎯 Questão — teste agora

FCC — SEFAZ-SP 2026 · tec 3847051

1 toque = candidata · 2 toques = riscar (eliminei)

No desenvolvimento de um modelo de detecção de contribuintes com alto risco de simulação de operações, após definir claramente com a área de fiscalização quais tipos de fraude serão priorizados, quais indicadores de negócio serão acompanhados (como aumento de autos de infração qualificados e redução de fiscalizações improdutivas) e quais restrições legais e operacionais existem para uso do modelo, a equipe de uma Secretaria da Fazenda registra esses critérios e alinha expectativas com a alta gestão. Com base na metodologia CRISP-DM, essa descrição se encaixa principalmente na fase de

🎯 Segunda no arsenal — FCC real (data mining no Fisco)

Essa é mais antiga (SEF-SC/2018, AFRE, banca FCC), mas é ouro fiscal puro e mostra a mineração preditiva dentro do processo — exatamente a fase 4 (Modeling) aplicada à sonegação de ICMS:

🎯 Questão — teste agora

FCC — AFRE/SEF-SC 2018 · tec 719514

1 toque = candidata · 2 toques = riscar (eliminei)

Um Auditor pretende descobrir, após denúncia, fraudes de sonegação de ICMS: caminhões das empresas Org1/Org2/Org3 permaneceriam tempo curto demais na pesagem dos postos de fronteira (vs. a média dos demais). Ele coleta registros diários por ≥1 ano e monta demonstrativos mensais/trimestrais/anuais. A aplicação de mineração de dados (data mining) pode ser de grande valia. No caso das pesagens, uma ação típica de mining passível de ser tomada com auxílio de instrumentos PREDITIVOS é

🎙️ O professor disse…

Na aula, o Prof. Vitor Kessler disse...

✅ CRAVOU: "O CRISP-DM apoia o processo de descoberta de conhecimento, o KDD, que é um processo maior. O KDD é maior, e lá dentro tem a mineração." — exatamente a hierarquia do nosso conceito: KDD = guarda-chuva, mineração = miolo.

✅ CRAVOU: "Você tem que chegar na prova sabendo as seis fases do CRISP-DM. Não tem desculpa. E isso é 20% das questões." — por isso a gente travou a tabela das 6 fases na marra.

🔑 A lição (a "picareta perigosa"): "Se aparece inventariar base de dados, eu marco compreensão dos dados na hora — mas no CRISP isso é entendimento do NEGÓCIO." É a pegadinha que ele mais avisa. Guarda: inventariar = negócio.

🧠 Bizu do professor: ele bateu o martelo que CRISP-DM é agnóstico — "agnóstico não tem a ver com religião; em tecnologia quer dizer que não prescreve tecnologia". Ele não obriga software/hardware nenhum, e é gratuito ("você não precisa pagar para usar... não tem licença"). Toda questão que disser "CRISP exige a plataforma X / o software Y / arquitetura tal / aquisição de licença" está ERRADA — ele prescreve processo e boas práticas, não ferramenta.

🪤 PEGADINHA — as trocas clássicas da FCC neste tema:

🪤 "SEMMA tem fase de NEGÓCIO." ❌ FALSO! SEMMA começa em Sample (amostra) e é técnica/estatística — negócio não entra. Quem começa pelo negócio é o CRISP-DM (e só ele). É a troca-mãe deste bloco.
🪤 "CRISP-DM é rígido / unidirecional / não pode voltar." ❌ FALSO! Ele é cíclico, flexível, interativo — pode e deve voltar entre fases. Reprovou na avaliação → volta pro começo.
🪤 "CRISP exige software/licença/plataforma específica." ❌ FALSO! É agnóstico, gratuito, não proprietário — não prescreve tecnologia.
🪤 "Inventariar as bases é a fase de DADOS." ❌ Quase! Inventariar quais bases existem ainda é NEGÓCIO (fase 1). Avaliar a qualidade delas é que é DADOS (fase 2).
🪤 "A mineração (data mining) é o processo inteiro." ❌ No KDD e no CRISP, a mineração é só UMA etapa (a modelagem). O processo é maior que ela.

🔖 Guarde no bolso

Guarde: três receitas, um prato. KDD = processo amplo de descoberta (mineração é etapa, não tem fase de negócio). CRISP-DM = o mais usado, 6 fases cíclicas, começa pelo NEGÓCIO, agnóstico/gratuito. SEMMA = da SAS, técnica, começa na amostra (Sample), SEM negócio. As 6 fases na ordem: Negócio → Dados → Preparação → Modelagem → Avaliação → Implantação.

🔑 Bordão-síntese: só o CRISP começa pelo NEGÓCIO; SEMMA começa na amostra e KDD é o guarda-chuva — e nenhum prescreve tecnologia.

🔮 Próxima parada

Teaser do próximo bloco (Aula 2): agora que você sabe o método (CRISP-DM), a próxima pergunta é: ONDE mora todo esse dado que a SEFAZ minera? A gente vai construir do zero a arquitetura — Data Warehouse (o armário arrumadinho), Data Mart (a gavetinha temática), Data Lake (o lago do dado bruto, lembra do schema-on-read?) e Lakehouse — mais o ETL que move tudo. A escada vira prédio. 🏗️

Fecho do Bloco 6 — o que LEVAR no bolso:

3 metodologias: KDD (descoberta ampla; mineração = etapa) · CRISP-DM (o mais usado; 6 fases; começa pelo NEGÓCIO) · SEMMA (da SAS; técnica; começa na amostra; sem negócio).
6 fases do CRISP (cor): Negócio → Dados → Preparação → Modelagem → Avaliação → Implantação. Cíclico, flexível, agnóstico, gratuito.
Caso fiscal: a SEFAZ usa CRISP porque auditoria começa no problema (denúncia/meta), não no dado solto.
🎯 FCC SP-2026 (tec 3847051): "alinhar com fiscalização + indicadores + restrições legais" = Business Understanding (B). A armadilha é vestir negócio de "dados".
🎯 FCC SEF-SC 2018 (tec 719514): "abordagem surpresa com probabilidade de constatar fraude" = preditivo (D). Descritivo olha pro passado; preditivo, pro futuro.
🪤 Pegadinhas-mãe: "SEMMA tem fase de negócio" (FALSO) · "CRISP é rígido" (FALSO) · "CRISP exige tecnologia/licença" (FALSO) · "inventariar base = dados" (é NEGÓCIO).

🎓 Fecho da Aula 1

Para tudo e respira, Felício. Você acabou de virar chave numa matéria que te eliminou: agora você sabe que todo projeto de dados — toda caçada de sonegação da SEFAZ — segue um roteiro fixo de 6 fases. Não é magia de TI; é diagnóstico → preparo → execução → prova, igual à sua rotina de atleta. Recapitula comigo, na ordem:

1️⃣ Entendimento do Negócio — qual é o problema? (Caçar sonegação de ICMS?) 2️⃣ Entendimento dos Dados — o que eu tenho na mão? (NF-e, EFD, cadastro) e como ele está? 3️⃣ Preparação dos Dados — limpa, junta, transforma (o trabalho sujo, 70% do tempo). 4️⃣ Modelagem — solta o algoritmo pra caçar o padrão da fraude. 5️⃣ Avaliação — esse resultado resolve o problema da Fase 1? Vale a pena? 6️⃣ Implantação — põe pra rodar de verdade (a malha fiscal entra no ar).

🔑 Bordão pra dormir sabendo: N-D-P-M-A-I → "Negócio, Dados, Preparo, Modelo, Avalia, Implanta." Decorou a ordem, embolsou ~20% da matéria.

📋 Tabela-resumo das 6 fases (cola de revisão)

Fase	O que faz	🪤 Pegadinha clássica FCC
1 · Entendimento do Negócio	Define o objetivo e o problema (do ponto de vista fiscal, não técnico)	trocar por "definir o objetivo dos dados" — o negócio vem ANTES dos dados
2 · Entendimento dos Dados	Coleta, explora e descreve os dados (o "inventário")	dizer que a limpeza/transformação acontece aqui — ela é da Fase 3
3 · Preparação dos Dados	Limpa, integra, transforma, formata (70% do tempo)	dizer que aqui se "constrói o modelo" — modelo é Fase 4
4 · Modelagem	Aplica os algoritmos; pode exigir voltar à Fase 3 (é cíclico!)	afirmar que é a fase final / que o processo é linear e não volta
5 · Avaliação	Confere se o resultado atende ao objetivo da Fase 1	confundir com a avaliação técnica do modelo (que ainda é Fase 4)
6 · Implantação	Coloca a solução em produção (entrega/monitora)	dizer que encerra o ciclo de vez — o CRISP-DM realimenta novos ciclos

⚡ Lembra do bizu global: ordem + agnóstico/cíclico + fase-da-tarefa = quase toda questão de CRISP-DM mora nesses três pontos.

🧭 Próxima parada — Aula 2: Arquitetura de Dados (DW, Data Lake, ETL)

Você já sabe como se faz um projeto de dados (o método). Mas falta uma pergunta: onde os dados preparados na Fase 3 vão MORAR? Numa planilha solta? Claro que não — a SEFAZ guarda bilhões de NF-e em estruturas próprias.

Na Aula 2 a gente abre o armazém: Data Warehouse, Data Mart, Data Lake e Lakehouse (os "depósitos" de dado), o ETL (a esteira que enche esses depósitos — e que é, na prática, a Fase 3 do CRISP-DM virando engenharia) e o BI (o painel onde o auditor enxerga tudo). É a casa onde o seu dado vai viver. Bora pra lá. 🚀

🎯 Questões pra resolver

👆 Marque a sua (1 toque) · risque as eliminadas (2 toques) · Conferir mostra o gabarito. A resolução comentada abre no TEC.

Questão 1 (FCC · SEFAZ-SP · 2026 · tec 3847051)

No desenvolvimento de um modelo de detecção de contribuintes com alto risco de simulação de operações, após definir claramente com a área de fiscalização quais tipos de fraude serão priorizados, quais indicadores de negócio serão acompanhados (como aumento de autos de infração qualificados e redução de fiscalizações improdutivas) e quais restrições legais e operacionais existem para uso do modelo, a equipe de uma Secretaria da Fazenda registra esses critérios e alinha expectativas com a alta gestão. Com base na metodologia CRISP-DM, essa descrição se encaixa principalmente na fase de

Questão 2 (FCC · SEFAZ BA · 2019 · tec 877995)

Além dos indicadores reativos que, uma vez implantados, automaticamente detectam as ocorrências com base nos indicadores mapeados, existem também os controles proativos, que requerem que os gestores os promovam periodicamente. Uma das técnicas que os gestores podem usar requer que sejam selecionadas, exploradas e modeladas grandes quantidades de dados para revelar padrões, tendências e relações que podem ajudar a identificar casos de fraude e corrupção. Relações ocultas entre pessoas, entidades e eventos são identificadas e as relações suspeitas podem ser encaminhadas para apuração específica. As anomalias apontadas por esse tipo de técnica não necessariamente indicam a ocorrência de fraude e corrupção, mas eventos singulares que merecem avaliação individualizada para a exclusão da possibilidade de fraude e corrupção e, no caso da não exclusão, uma investigação. (Adaptado de: TCU – Tribunal de Contas da União) O texto se refere à técnica de

Questão 3 (FCC · SEFAZ BA · 2019 · tec 877716)

“A Secretaria da Fazenda realizou procedimento que visa estimular os contribuintes paulistas a, voluntariamente, regularizarem as obrigações tributárias que devem ser transmitidas ao Fisco. Em uma etapa da operação foram selecionados 48 contribuintes do Regime Periódico de Apuração com R$ 143 milhões em débitos de ICMS. Esta ação tem caráter orientador, com o objetivo de alertar as empresas sobre divergências em suas declarações e indicar a regularização, porém, a ação pode resultar em indicações de empresas de fachada que apresentaram um conjunto de indícios que sugerem tratar-se de documentos fiscais inidôneos ou de simulação de operações para gerar créditos falsos de ICMS na apuração mensal do tributo a recolher. Para a elaboração da operação autorregularização foram selecionados contribuintes com divergências nas notas fiscais emitidas entre janeiro a dezembro de 2016 em comparação com as informações declaradas nas Guias de Informação e Apuração do ICMS do mesmo período.” (Baseado em: https://portal.fazenda.sp.gov.br) Ao ler esta notícia, uma Auditora Fiscal da área de TI concluiu, corretamente, que o cruzamento e a análise simultânea de diversas informações, como Nota Fiscal Eletrônica (NF-e), inadimplência, regularidade no cumprimento de obrigações, porte da empresa, composição do quadro societário, autos de infração anteriores, localização geográfica e atividade econômica, entre outras,

Questão 4 (FCC · SEF SC · 2018 · tec 719514)

Para responder à questão, considere o seguinte caso hipotético: Um Auditor da Receita Estadual pretende descobrir, após denúncia, elementos que possam caracterizar e fundamentar a possível existência de fraudes, tipificadas como sonegação tributária, que vêm ocorrendo sistematicamente na arrecadação do ICMS. A denúncia é que, frequentemente, caminhões das empresas Org1, Org2 e Org3 não são adequadamente fiscalizados nos postos de fronteiras. Inobservâncias de procedimentos podem ser avaliadas pelo curto período de permanência dos caminhões dessas empresas na operação de pesagem, em relação ao período médio registrado para demais caminhões. Para caracterizar e fundamentar a existência de possíveis fraudes, o Auditor deverá coletar os registros diários dos postos por, pelo menos, 1 ano e elaborar demonstrativos para análises mensais, trimestrais e anuais. A aplicação de técnicas de mineração de dados (data mining) pode ser de grande valia para o Auditor. No caso das pesagens, por exemplo, uma ação típica de mining, que é passível de ser tomada com o auxílio de instrumentos preditivos, é

Última atualização: 18/06/2026 15:13 — Camilo

Camilo · Projeto Auditor · modo interativo