Fala, Felício! Subiu a escada DIKW inteira na Aula 0 — do "47 mudo" até a tese fiscal lá no topo. Agora vem a pergunta de R$ 20 mil: como, na prática, alguém pega o dado bruto e sobe essa escada num projeto de verdade? Existe um passo a passo oficial pra isso, e ele tem nome: CRISP-DM. É o método que a SEFAZ usa (sem dizer o nome) toda vez que cruza NF-e pra caçar sonegação. Hoje você vai dominá-lo.
Por que esta aula vale ouro (lê devagar):
🔑 Bordão da abertura: CRISP-DM não é teoria de TI — é o roteiro de uma fiscalização. Entendeu o problema → arrumou o dado → caçou o padrão → autuou. Igual treino: diagnóstico, preparo, execução, prova.
DEPOIMENTO REAL — Hueliton Fontes · 26º lugar, Auditor Fiscal SEFAZ-AP
Quem é: paraibano, 42 anos (a SUA idade, Felício), ex-militar (passou em 1º na PM-PB e em 1º na EEAR/Aeronáutica), matemático e contador. Estudava trabalhando.
O que importa pra esta aula: ele tinha "verdadeiro pavor" de TI e partiu do zero — seu ponto exato de largada. Não tentou virar cientista de dados nem decorou apostila. Ele mirou os tópicos prováveis e entendeu o processo (NF-e, EFD) — foi do pavor a 80% na prova. CRISP-DM é a espinha desse processo: é o mapa que organiza "o que faço primeiro, o que faço depois".
🗣️ "Sempre teorizar mais em detrimento de fazer questões — emperrava muito na teoria." (o erro que ele confessa — e que a gente NÃO repete: aqui é lógica + caso fiscal + questão FCC, não enciclopédia de TI.)
A tradução pro seu caso: se um cara de 42, ex-farda, com pavor de TI, dominou o processo e tirou 80% — você fecha as 6 fases do CRISP até dormir sabendo. Fonte rastreável: entrevista no blog do Estratégia Concursos.
🏷️ LEGENDA DOS SELOS — o termômetro de cada ponto (calibrado nas provas reais FCC, com GO/SP-2026 de espelho):
Selo Significa O que fazer ⚡ CRAVA caiu na prova real, ponto certo decora — é ponto garantido no bolso 🎯 PROVÁVEL item nomeado no edital estuda firme — tem nome no edital, pode cair 🥱 CAI POUCO o edital promete, mas a prova não cobrou pesado passa leve — não gasta sono 🪤 PEGADINHA a troca clássica da FCC memoriza a armadilha — é onde ela te derruba
🗺️ MINI-MAPA DA SÉRIE — pra você ver onde está e pra onde vai:
Aula Conteúdo 0 — Fundamentos ✅ escada DIKW + tipos de dado + ciclo de vida + o que é Ciência de Dados — [PRONTA] 1 — O Método 📍 CRISP-DM — o passo a passo de todo projeto de dados — VOCÊ ESTÁ AQUI 2 — Arquitetura Data Warehouse, Data Mart, Data Lake, Lakehouse + ETL + BI 3 — Tratar e Aprender Pré-processamento + Machine Learning 4 — Volume e Consulta Big Data + Banco de Dados + SQL 5 — Governar e Eticar Governança de Dados + Ética em IA 6 — Proteger Segurança + Conformidade (LGPD, sigilo fiscal CE)
📑 SUMÁRIO DESTA AULA 1 — o caminho de hoje:
Bloco Tema 1 Mineração de Dados & KDD — de onde o CRISP-DM nasceu (amarra com a escada DIKW da Aula 0) 2 CRISP-DM: as 6 fases — a visão de cima, a ordem e o ciclo 3 Fase 1 (Entendimento do Negócio) + Fase 2 (Entendimento dos Dados) — o diagnóstico 4 Fase 3 (Preparação dos Dados) — o "trabalho sujo" que come 70% do tempo 5 Fase 4 (Modelagem) + Fase 5 (Avaliação) + Fase 6 (Implantação) — caçar o padrão, conferir, pôr pra rodar 6 KDD × CRISP-DM × SEMMA + bateria de questões FCC
BIZU DA BANCA (global) — como a FCC pensa CRISP-DM:
🔑 Bordão do bizu: a FCC raramente pergunta "o que é CRISP-DM?" seca. Ela embaralha a ordem ou muda a fase de uma tarefa — e quem sabe o roteiro vê a troca na hora.
🎯 O que travar neste bloco:
📌 Antes de detalhar, amarra com a Aula 0. Lembra da escada DIKW — o "47" mudo (dado) que vira informação, depois conhecimento? Pois é: mineração de dados é o trabalho braçal de SUBIR essa escada. Você tem uma montanha de dado bruto (degrau 1) e quer chegar no conhecimento (degrau 3) — padrões, fraudes, tendências que ninguém via. A picareta que escava esse caminho tem nome, e é o que a gente trava hoje.
| Nome | O que é (em 1 frase) | Tamanho |
|---|---|---|
| KDD | o processo inteiro de descobrir conhecimento numa base | 🏔️ o maior (guarda-chuva) |
| Data Mining (mineração) | a etapa central do KDD — onde se cava o padrão | ⛏️ a etapa-chave dentro do KDD |
| CRISP-DM | a metodologia/processo de referência que diz COMO fazer | 🗺️ o mapa do passo a passo |
🔑 Guarda a hierarquia já: KDD é o grande > Data Mining é a etapa > CRISP-DM é o método. O resto da aula só detalha isso.
Bora cavar.
Fala, Felício! Pensa no seu acervo de treino do CEFAN depois de 10 anos: milhares de registros — tempo de natação utilitária, pista de obstáculos, cross anfíbio, frequência cardíaca, sono, peso, o que você comeu. É dado demais. Ninguém abre essa planilha gigante e "vê" alguma coisa de cara — é montanha de número mudo (o "47" mudo da Aula 0, só que multiplicado por milhares).
Agora imagina que você quer descobrir um padrão escondido ali: "toda vez que durmo menos de 6h por 3 dias seguidos, meu tempo na utilitária cai." Esse padrão sempre esteve lá nos dados — só que enterrado. Pra desenterrar, você precisa cavar. E pra cavar, você precisa de uma picareta.
Isso — cavar a montanha de dado pra arrancar o padrão escondido — é mineração de dados.
🧊 CONCEITO — Mineração de Dados (Data Mining)
Mineração de dados é o processo (automatizado) de descoberta de padrões, correlações, tendências, associações e anomalias (outliers) escondidos em grandes volumes de dados, extraindo informação/conhecimento previamente desconhecido e potencialmente útil. A "picareta" que faz o trabalho é um modelo estatístico, matemático ou de inteligência artificial (hoje a IA / machine learning domina). 🔑 Mineração tira o que estava escondido na base — não é simples consulta, é descoberta de padrão.
Repara na lógica (anti-decoreba): por que se chama mineração? Porque é igual cavar uma mina. O ouro (o padrão útil) já está lá embaixo, no meio do dado bruto. A mineração não inventa o ouro — ela escava e separa o que presta do que é cascalho. E pra escavar você escolhe a picareta certa:
🔑 A picareta da IA "ganhou a guerra das picaretas". Hoje, quase toda mineração de dados é feita com machine learning. Por isso, quando o edital lista classificação, regressão, agrupamento (clusterização), associação — isso tudo é mineração feita com IA. Guarda esse gancho: a gente detalha esses algoritmos lá na Aula 3.
🔑 Bordão: mineração é cavar padrão escondido na montanha de dado — e a picareta de hoje é a IA.
Beleza, planilha de treino é fácil. Agora a mesma mina, na mesa do Guilherme — e este é exatamente o cenário que a FCC monta:
💡 Exemplo 1) — o garimpo da SEFAZ-CE
O banco de dados da SEFAZ tem milhões de NF-e (lembra: XML = dado semiestruturado, Aula 0), mais cadastro de contribuinte, EFD/SPED, autos de infração, quadro societário, localização. É uma montanha de dado bruto. Olhar linha por linha é impossível — nenhum auditor lê 8 milhões de notas.
Aí entra a mineração: o sistema cava essa montanha com a picareta da IA e acha o padrão escondido — "existe um grupo de empresas que emite nota pra destinatário com CNPJ baixado, sempre em valor redondo, sempre na madrugada, sempre no fim do trimestre." Esse padrão de sonegação estava lá, enterrado no meio de milhões de notas legítimas. A mineração o desenterrou.
Repara: o sistema achou relações ocultas entre empresas, valores e horários — e apontou as anomalias (as notas suspeitas) pra investigação. Isso é data mining na veia do Fisco. O ouro = a quadrilha de nota fria. O cascalho = as milhões de notas honestas.
⚠️ As empresas que sonegam são fictícias (estilo DABOA, da Aula 0). Fraude é SEMPRE empresa de mentira — o Guilherme, a Camila e o Filipe são gente de bem. 😉
Agora segura, porque aqui mora o ponto que a FCC adora neste bloco. Três nomes que parecem a mesma coisa — e não são. Vou separar com a analogia do garimpo:
🧊 CONCEITO — os 3 níveis 🎯
| Sigla / Nome | O que é | Analogia do garimpo |
|---|---|---|
| KDD (Knowledge Discovery in Databases) | o PROCESSO INTEIRO de descoberta de conhecimento numa base — da seleção do dado até a interpretação do resultado | 🏔️ a operação de mineração inteira (escolher o terreno, escavar, separar, vender o ouro) |
| Data Mining (mineração) | a ETAPA CENTRAL/PRINCIPAL dentro do KDD — o momento em que se aplica a picareta e se extrai o padrão | ⛏️ o ato de cavar e achar o ouro (a etapa-coração) |
| CRISP-DM | o PROCESSO DE REFERÊNCIA / METODOLOGIA que diz COMO conduzir a mineração, em fases | 🗺️ o manual de boas práticas de como tocar a operação |
A lógica, pra nunca mais confundir:
🔑 Regra que mata a questão: a mineração de dados é uma PARTE (a etapa central) do KDD — nunca o KDD inteiro, e nunca a mesma coisa que a "picareta". O Prof. Vitor Kessler crava: "Machine learning é a picareta. Mineração de dados é a arte de usar a picareta. Não é a mesma coisa, não."
🔑 Bordão: KDD é a operação inteira; mineração é o cavar; CRISP-DM é o manual de como cavar.
💡 Exemplo 2) — o Guilherme montando o projeto na SEFAZ
O Guilherme vai construir o detector de sonegação. Olha os 3 nomes aparecendo no mesmo projeto: - Ele toca o projeto inteiro — da escolha das bases (NF-e, cadastro) até apresentar o resultado pro chefe. Esse processo todo é o KDD. 🏔️ - No miolo do projeto, ele roda o algoritmo de IA que acha o padrão de fraude. Essa etapa específica é o Data Mining. ⛏️ - Pra não fazer bagunça, ele segue um passo a passo organizado (primeiro entende o negócio, depois os dados, prepara, modela, avalia, implanta). Esse roteiro é o CRISP-DM. 🗺️
Mesmo projeto, 3 nomes, 3 tamanhos. KDD = o todo · Data Mining = o coração · CRISP-DM = o roteiro.
🔗 Conexão (não é ilha!): isto encaixa direto na Aula 0. Lembra das 4 análises? A mineração é o motor da análise preditiva (e ajuda na diagnóstica) — é a picareta que faz o Fisco sair do "o ICMS caiu" (descritiva/retrovisor 🪞) pro "VAI cair mais e por causa de fulano" (preditiva/para-brisa 🚗). E o insumo dela é a NF-e (XML semiestruturado, gaveta 🟨) que você já conhece da Legislação Tributária. Então a escada inteira amarra: NF-e (dado) → mineração cava o padrão → vira informação/conhecimento → o auditor decide (inteligência). Mesma escada DIKW, agora com a picareta na mão. 🪜
Essa caiu na SEFAZ-BA/2019, prova de Auditor Fiscal, banca FCC — cenário 100% fiscal (fraude e corrupção) e bate em cheio no conceito do bloco: ela descreve a mineração de dados sem dizer o nome e te manda reconhecer a técnica. Repara que a definição no enunciado é a nossa definição-canônica. Resolve comigo:
Além dos indicadores reativos, existem controles proativos. Uma das técnicas requer que sejam selecionadas, exploradas e modeladas grandes quantidades de dados para revelar padrões, tendências e relações que ajudem a identificar casos de fraude e corrupção. Relações ocultas entre pessoas, entidades e eventos são identificadas, e as suspeitas, encaminhadas para apuração. As anomalias apontadas não necessariamente indicam fraude, mas eventos singulares que merecem avaliação individualizada. O texto se refere à técnica de
Na aula, o Prof. Vitor Kessler disse...
✅ CRAVOU a analogia da picareta: "Mineração de dados é simples. Eu tenho dados e vou minerar informações nesses dados. E como toda mineração, o que é que eu vou precisar? De uma picareta. A picareta da matemática, da estatística e da inteligência artificial. Só que a picareta da IA ganhou a guerra das picaretas." — é o coração deste bloco.
✅ CRAVOU a hierarquia KDD ⊃ Data Mining: "A mineração de dados está dentro de um processo maior, que a gente chama de KDD, Knowledge Discovery in Databases. Nesse processo a gente usa a mineração como uma das etapas — a etapa principal." E sobre o CRISP-DM: "é um processo criado pra dizer como eu faço mineração de dados."
🔑 A lição (calibragem): ele martela que mineração ≠ machine learning — "machine learning é a picareta; mineração de dados é a arte de usar a picareta". E avisa: as questões introdutórias de mineração/KDD são fáceis e frequentes ("tem muita questão introdutória sobre o tema"). ⚡🥱 Trava o tripé KDD > Mining > CRISP-DM — é ponto de entrada batido: CRAVA na frequência, mas é questão leve.
🪤 PEGADINHA — as trocas clássicas da FCC neste bloco:
Guarde: mineração de dados (data mining) = cavar padrões/relações/anomalias escondidos numa montanha de dado, com a picareta (estatística/matemática/IA). Ela é a etapa central de um processo maior, o KDD (descoberta de conhecimento), e o CRISP-DM é a metodologia que diz como conduzir tudo. 🔑 Bordão-síntese: KDD é a operação inteira; mineração é o cavar (a picareta de hoje é a IA); CRISP-DM é o manual de como cavar.
Fecho do Bloco 1 — o que LEVAR no bolso:
Fala, Felício! No Bloco 1 desta Aula 1 você pegou o que é mineração de dados — garimpar uma base pra extrair conhecimento. Agora vem a pergunta que CRAVA na prova: e como é que eu faço essa mineração na ordem certa, sem me perder? A resposta tem nome e sobrenome: CRISP-DM. É o mapa das 6 fases de todo projeto de dados. Senta que esse bloco é puro ouro de banca.
🎯 O que travar neste bloco:
🔑 Bordão de abertura: CRISP-DM é receita de bolo, não marca de fogão — diz a ordem dos passos, nunca qual máquina usar.
Pensa no seu plano de treino pro CEFAN. Você não chega na piscina e sai nadando à toa. Tem um roteiro:
Repara: esse roteiro não diz a marca da sua nadadeira nem do seu cronômetro. Ele diz a sequência lógica das etapas. Você pode trocar a nadadeira, trocar o relógio, trocar a piscina — o roteiro continua o mesmo.
Isso é exatamente o CRISP-DM. É o roteiro padrão de um projeto de mineração de dados: diz as 6 etapas e a ordem, mas não amarra a tecnologia.
🧊 CONCEITO — CRISP-DM
CRISP-DM = Cross Industry Standard Process for Data Mining (Processo Padrão Inter-Indústrias para Mineração de Dados). É um modelo de processo que descreve o ciclo de vida de um projeto de mineração de dados em 6 fases. Suas marcas registradas: - Cross-industry → serve pra qualquer setor (banco, varejo, Fisco...). - Standard → é um padrão consagrado, documentado, disponível na internet. - Agnóstico → NÃO prescreve tecnologia (não manda usar tal software ou tal arquitetura). - Livre / não proprietário / gratuito → não tem licença, não se paga. - Flexível e iterativo → você pode voltar a fases anteriores; o projeto roda em ciclos que vão melhorando o resultado.
🔑 Bordão: CRISP-DM = o passo a passo da garimpagem. Lembra do Bloco 1: a mineração é cavar a base com a "picareta"; o CRISP-DM é o mapa que diz onde e em que ordem cavar.
Agora segura firme, porque é aqui que mora 20% das questões (palavra do professor). São 6 fases, nesta ordem exata:
🧊 CONCEITO — as 6 fases do CRISP-DM ⚡
| # | Fase (PT) | Fase (EN) | O que se FAZ (1 frase) |
|---|---|---|---|
| 1 | Entendimento do Negócio | Business Understanding | define o problema/objetivo: o que vamos resolver e como medir sucesso |
| 2 | Compreensão dos Dados | Data Understanding | conhece os dados: que bases existem, qualidade, volume, valores faltantes |
| 3 | Preparação dos Dados | Data Preparation | arruma o dataset: limpa, formata, transforma, integra, enriquece |
| 4 | Modelagem | Modeling | aplica os algoritmos (machine learning / estatística) — é AQUI que minera de verdade |
| 5 | Avaliação | Evaluation | o modelo resolve o problema da fase 1? Mede acurácia/qualidade |
| 6 | Implantação | Deployment | bota em produção — leva pro mundo real |
A lógica encadeada (anti-decoreba), no caso fiscal que vai ser nossa âncora o bloco inteiro — o projeto da malha fina da SEFAZ pra caçar sonegação de ICMS:
🪤 A pegadinha PERIGOSA da fase 1 (o prof. Kessler avisa em alto e bom som): inventariar as bases de dados faz parte do Entendimento do NEGÓCIO (fase 1), não da Compreensão dos Dados (fase 2)! O macete: na fase 1 você faz um inventário básico ("o que existe por aí?"); na fase 2 você detalha e avalia a qualidade ("essa base presta?"). 🔑 Inventariar = negócio; detalhar/qualidade = dados.
🪤 A outra pegadinha mortal: NÃO existe fase de "Mineração"! A banca adora escrever "na fase de mineração ocorre a aplicação dos algoritmos" — errado! A fase chama-se Modelagem. (Até o prof. errou isso ao vivo no slide e voltou correndo: "não tem fase de mineração, gente, é Modelagem!".) A mineração é o projeto inteiro; o nome da fase 4 é Modelagem.
🔑 Macete da ordem (decore a sequência): NÉ-go-cio → DA-dos(conhecer) → DA-dos(preparar) → MO-dela → A-valia → IM-planta. Ou em inglês: B-D-D-M-E-D (Business · Data · Data · Modeling · Evaluation · Deployment).
Aqui está a alma do CRISP-DM e a fonte da pegadinha favorita da FCC. O modelo NÃO é uma linha reta de mão única. Ele tem dois tipos de "volta":
🧊 CONCEITO — os dois ciclos
A analogia do seu treino: você fez o teste-piloto (Avaliação) e não bateu a meta → você não desiste, você volta pro planejamento e ajusta. E a cada temporada você refina o treino. Mesma lógica.
💡 Exemplo — o ciclo na mesa do Guilherme
O modelo da malha fina ficou pronto, foi pra Avaliação... e estava apontando padaria de bairro como megasonegadora. Lixo. O Guilherme não joga fora o projeto — ele volta pro Entendimento do Negócio: "acho que defini mal o que é 'alto risco'." Redefine, refaz o dataset, remodela, reavalia. Na segunda volta o modelo acerta. Isso é o ciclo externo — e é por isso que CRISP-DM é flexível, iterativo e incremental, nunca rígido.
🔑 Bordão: no CRISP-DM, errou → volta. Refinou → repete. Ele anda pra frente E pra trás — quem disser que é "fluxo unidirecional" tá na lorota.
Essa é a questão perfeita: caiu na SEFAZ-SP/2026 — um dos dois espelhos do edital CE (Bola de Cristal), banca FCC, cenário 100% fiscal, e ela nomeia o CRISP-DM e cobra a FASE. É o molde que vai cair na sua prova. Resolve comigo:
No desenvolvimento de um modelo de detecção de contribuintes com alto risco de simulação de operações, após definir claramente com a área de fiscalização quais tipos de fraude serão priorizados, quais indicadores de negócio serão acompanhados (como aumento de autos de infração qualificados e redução de fiscalizações improdutivas) e quais restrições legais e operacionais existem para uso do modelo, a equipe de uma Secretaria da Fazenda registra esses critérios e alinha expectativas com a alta gestão. Com base na metodologia CRISP-DM, essa descrição se encaixa principalmente na fase de
Pra firmar que mineração é preditiva (acha padrão que aponta pro futuro), uma da SEF-SC/2018, FCC, cenário de ICMS na fronteira:
Um Auditor da Receita Estadual pretende, após denúncia, caracterizar fraudes de sonegação de ICMS: caminhões das empresas Org1/Org2/Org3 têm permanência curta demais na pesagem dos postos de fronteira (em relação à média dos demais). Ele coleta os registros diários por pelo menos 1 ano. Aplicando mineração de dados (data mining), no caso das pesagens, uma ação típica de mining passível de ser tomada com o auxílio de instrumentos PREDITIVOS é
🪤 (Nota do Camilo: o prof. Kessler cita na aula uma FCC 2018 TCE-RS sobre as 6 fases na ordem — eu vasculhei o banco e essa específica ainda não está capturada (busca por "seis fases"/"6 fases"/"CRISP-DM"+"fases" = 0 resultados FCC). A questão-âncora deste bloco é a SP-2026, tec 3847051, que é melhor: nomeia o CRISP-DM e é do espelho exato do CE. Quando eu capturar a TCE-RS no TEC, te mando de bônus.)
✅ CRAVOU — as 6 fases valem 20%: "Você tem que chegar na prova sabendo as seis fases do CRISP-DM. Você não tem desculpa. E isso é 20% das questões. [...] CRISP-DM, quais são as seis fases e o que se faz em cada fase — você vai acertar 90% das questões sobre o modelo." 🔑 Tradução: decorar a ordem B-D-D-M-E-D é o melhor ROI da matéria inteira.
✅ CRAVOU — a "picareta" e o agnóstico: "Pra você extrair as informações da base, vai precisar de uma picareta — pode ser modelo estatístico, matemático, machine learning. [...] O CRISP-DM não prescreve tecnologia, famoso agnóstico — agnóstico não tem nada a ver com religião; em tecnologia quer dizer que não prescreve tecnologia."
✅ CRAVOU — a pegadinha do inventário: "Se aparece pra mim 'inventariar bases de dados', eu marco Compreensão dos Dados na hora... mas no CRISP-DM isso é perigoso: inventariar as bases faz parte da Compreensão do NEGÓCIO." 🔑 Guarda essa — é a casca de banana clássica da fase 1.
✅ CRAVOU — gratuito: sobre uma questão que dizia que o alto custo de licença atrapalha o uso → "O CRISP-DM é gratuito, você não precisa pagar. Licença do CRISP-DM? Não tem, não. Loucura do examinador."
A banca derruba candidato distorcendo uma característica do CRISP-DM. Decore o antídoto de cada uma:
| A banca escreve... (❌ ERRADO) | A verdade (✅) |
|---|---|
| "é rígido, a sequência deve ser seguida à risca" | é flexível — pode voltar fases |
| "permite apenas fluxo unidirecional" | é iterativo — vai e volta (dois ciclos) |
| "requer aquisição de licença / alto custo" | é gratuito / livre / não proprietário |
| "prescreve a tecnologia/plataforma/arquitetura a usar" | é agnóstico — não prescreve tecnologia |
| "tem fase de Mineração" | a fase 4 chama-se Modelagem (não existe "fase de mineração") |
| "a 1ª fase é o entendimento dos DADOS" | a 1ª fase é o entendimento do NEGÓCIO |
| "a fase de Entendimento do Negócio leva 50% a 70% do tempo do projeto" | 🪤 errado! O CRISP-DM NÃO estima % de tempo por fase — "não existe dentro do CRISP-DM esse tipo de estimativa" (Kessler). E mineração não ocorre no Negócio, ocorre na Modelagem. |
🔑 Antídoto-mãe: sempre que a FCC pintar o CRISP-DM como engessado, fechado, pago, com cronômetro por fase ou que escolhe a ferramenta pra você → está errado. Ele é o oposto disso em tudo: livre, flexível, iterativo, agnóstico.
Guarde: CRISP-DM = 6 fases, nesta ordem → 1) Entendimento do Negócio · 2) Compreensão dos Dados · 3) Preparação dos Dados · 4) Modelagem · 5) Avaliação · 6) Implantação. É agnóstico (não prescreve tecnologia), flexível/iterativo (vai e volta — dois ciclos), gratuito/livre. 🔑 Bordão-síntese: CRISP-DM é receita de bolo, não marca de fogão — e o passo 1 é sempre DEFINIR O PROBLEMA (Negócio), não olhar o dado.
Fecho do Bloco 2 — o que LEVAR no bolso:
🎯 O que travar neste bloco:
📌 Onde estamos no método. No início da Aula 1 você travou o mapa do CRISP-DM — as 6 fases do projeto de dados. Hoje a gente entra nas duas primeiras, as que abrem o jogo:
| # | Fase (PT / EN) | Pergunta que ela responde | Pegamos hoje? |
|---|---|---|---|
| 1️⃣ | Entendimento do Negócio / Business Understanding | Por que fui chamado? O que resolver? | ✅ AQUI |
| 2️⃣ | Compreensão dos Dados / Data Understanding | O que tem nas gavetas? Dá pra usar? | ✅ AQUI |
| 3️⃣ | Preparação dos Dados / Data Preparation | (próximo bloco) | 🔮 |
| 4️⃣ | Modelagem / Modeling | onde a mineração de fato acontece | — |
| 5️⃣ | Avaliação / Evaluation | o modelo presta? | — |
| 6️⃣ | Implantação / Deployment | bota pra rodar | — |
🔑 Lembra da escada DIKW (Aula 0)? O CRISP-DM é o passo a passo de como subir a escada: você parte do dado bruto lá embaixo (o "47 mudo"!) e, fase por fase, chega na inteligência (a decisão fiscal). As Fases 1 e 2 são os dois primeiros degraus do método — entender o porquê, depois olhar o dado.
Bora abrir o jogo.
Fala, Felício! Pensa numa coisa do teu mundo. Antes de montar qualquer planilha de treino, você senta com o técnico do CEFAN e pergunta:
Repara: você ainda não olhou nenhum número. Você está entendendo por que vai treinar e o que quer alcançar. Só depois você vai atrás dos dados (tempos, batimentos, marés).
Em projeto de dados é idêntico. A primeira coisa não é mexer em base nenhuma — é entender o negócio: por que esse projeto existe e qual problema ele resolve.
🧊 CONCEITO — Entendimento do Negócio (Business Understanding)
1ª fase do CRISP-DM. É compreender os objetivos e requisitos do projeto sob a ótica do negócio: definir o que vai ser feito, por que importa, quais os critérios de sucesso (como eu sei que alcancei o objetivo), identificar os stakeholders (os "donos das carnes", como diz o prof), levantar o hardware e software necessários e fazer um inventário das bases de dados existentes. 🔑 Aqui eu defino o PROBLEMA — ainda não olho o dado por dentro.
Repara na lógica (anti-decoreba): por que essa fase vem primeiro? Porque sem saber o que você procura, olhar dado não serve pra nada. É como sair fiscalizando sem hipótese: você afoga em número e não acha fraude nenhuma. Primeiro o alvo, depois a munição.
💡 Exemplo 1) — o projeto antifraude da SEFAZ-CE
A SEFAZ chama um cientista de dados (imagina o Filipe, seu amigo médico que migrou pra dados) e diz: "queremos um sistema que pegue nota fria de ICMS antes de o dinheiro escoar."
No Entendimento do Negócio, o Filipe define: - Objetivo: sinalizar NF-e com alto risco de simulação de operação. 🎯 - Critério de sucesso: aumentar autos de infração que viram dinheiro e reduzir fiscalização improdutiva (sair menos a campo à toa). - Restrições: o que a lei permite usar (sigilo fiscal!), que servidor aguenta o processamento (hardware/software). - Inventário das bases: "a SEFAZ TEM base de NF-e, TEM cadastro de contribuinte, TEM EFD/SPED." — só lista o que existe. 🪤
Repara: ele ainda não abriu a base de NF-e pra ver se está suja. Ele só entendeu o problema e listou as gavetas. Abrir as gavetas é a Fase 2.
🔑 Bordão: Entendimento do Negócio = saber por que fui contratado e o que resolver. Alvo antes de munição.
Agora para tudo e presta atenção, porque é AQUI que a FCC derruba metade da sala:
🪤 INVENTARIAR as bases de dados existentes = Entendimento do NEGÓCIO (Fase 1), NÃO compreensão dos dados.
A armadilha é psicológica: a palavra "base de dados" puxa o seu cérebro pra "ah, isso é a fase dos dados". Erro. Olha a diferença cirúrgica:
| Ação | Fase | Por quê |
|---|---|---|
| LISTAR quais bases existem ("temos NF-e, cadastro, EFD") | 1️⃣ Negócio | você está conhecendo o negócio, mapeando recursos |
| ABRIR a base e ver coluna/qualidade/faltante/outlier | 2️⃣ Dados | você está detalhando o dado por dentro |
🔑 A régua: inventariar = listar de fora (negócio). Compreender = abrir e investigar por dentro (dados). Mesmo objeto (a base), fases diferentes — o que muda é a profundidade.
Na aula, o Prof. Vitor Kessler avisou (e quase gritou)...
✅ CRAVOU a pegadinha: "Isso aqui é quase perigoso, é muito perigoso isso aqui, porque se aparece pra mim inventariar bases de dados, eu marco compreensão dos dados na hora. Mas no CRISP-DM inventariar as bases de dados faz parte da compreensão do NEGÓCIO. Levantar quais bases existem, você tá conhecendo o negócio."
🔑 A lição: ele te entrega o reflexo errado de propósito ("eu marcaria dados") pra você gravar o certo. Quando ler "inventário/levantamento das bases existentes" → respira → marca NEGÓCIO. É a troca clássica que a FCC monta.
Essa é ouro: caiu na SEFAZ-SP/2026 — banca FCC, 2026, cenário fiscal de detecção de fraude. Pela Bola de Cristal, SP-2026 é um dos dois espelhos da nossa prova. Repara que ela testa só uma coisa: você reconhecer a Fase 1 pela descrição das atividades. Resolve comigo:
No desenvolvimento de um modelo de detecção de contribuintes com alto risco de simulação de operações, após definir claramente com a área de fiscalização quais tipos de fraude serão priorizados, quais indicadores de negócio serão acompanhados (como aumento de autos de infração qualificados e redução de fiscalizações improdutivas) e quais restrições legais e operacionais existem para uso do modelo, a equipe de uma Secretaria da Fazenda registra esses critérios e alinha expectativas com a alta gestão. Com base na metodologia CRISP-DM, essa descrição se encaixa principalmente na fase de
Beleza, definiu o alvo na Fase 1. Agora sim você vai atrás do dado. E o primeiro contato é só olhar e conhecer — ainda não é arrumar (isso é a Fase 3).
Volta pro treino: depois de decidir "quero baixar 3s no nado utilitário", você abre a planilha de tempos e dá uma vasculhada:
Você está conhecendo o dado que tem na mão — vendo se dá pra confiar nele. Isso é a Fase 2.
🧊 CONCEITO — Compreensão dos Dados (Data Understanding)
2ª fase do CRISP-DM. É conhecer os dados por dentro: saber o que tem em cada tabela e cada coluna, fazer estatística descritiva (média, mediana, contagem) e análise exploratória, avaliar a qualidade (procurar valores faltantes e outliers — o famoso data profiling) e avaliar o volume (tenho dado suficiente?). 🔑 Aqui eu ABRO a gaveta e investigo — mas ainda NÃO arrumo nada (arrumar é a Fase 3).
Repara na lógica: por que conhecer antes de preparar? Porque você não limpa o que não conhece. Primeiro você descobre "essa coluna tem 30% faltando, aquela tem um peso de 500kg que é erro de digitação". Diagnosticar o problema (Fase 2) vem antes de tratar o problema (Fase 3). É o médico: o Filipe primeiro examina o paciente, depois medica.
💡 Exemplo 2) — o Filipe abrindo as bases da SEFAZ
Na Fase 1, o Filipe listou que existem 3 bases. Agora, na Fase 2, ele abre cada uma:
- Base de NF-e: 8 milhões de linhas (volume ✅), mas a coluna CNAE tem 22% em branco (faltante — problema de qualidade ⚠️).
- Cadastro de contribuinte: acha um registro com faturamento = R$ 0 e outro com R$ 4 bilhões numa quitanda (outlier — ponto fora da curva 🚩).
- EFD/SPED: tabela com colunas que ele descreve uma a uma (período, débito, crédito).
Ele anota tudo num relatório de qualidade. Não corrigiu nada ainda — só diagnosticou. Corrigir o CNAE faltante e tratar o outlier é a Fase 3 (Preparação).
🔑 Fase 2 = raio-X do dado. Fase 3 = cirurgia.
⚠️ Nenhuma fraude no exemplo — Filipe é cientista de bem olhando base de bem. Quando entrar empresa sonegando, é sempre a DABOA fictícia. 😉
🔑 Bordão: Compreensão dos Dados = abrir as gavetas e ver o que tem dentro (e se presta).
Não há no nosso banco uma questão FCC que isole "Data Understanding" puro (registro honesto). Mas tem esta joia — FCC, cenário fiscal de fronteira, que mostra a mineração aplicada ao ICMS e amarra o porquê (Fase 1) com a ação preditiva (a mineração lá na frente). Resolve comigo:
Um Auditor da Receita Estadual pretende descobrir, após denúncia, fraudes de sonegação de ICMS: caminhões das empresas Org1, Org2 e Org3 ficam tempo curto demais na pesagem dos postos de fronteira (vs. o tempo médio dos demais). Ele coleta os registros diários por ≥1 ano e elabora demonstrativos. A aplicação de técnicas de mineração de dados pode ser de grande valia. No caso das pesagens, uma ação típica de mining passível de ser tomada com o auxílio de instrumentos PREDITIVOS é
Na aula, o Prof. Vitor Kessler martelou...
✅ CRAVOU a metáfora da "picareta": "Mineração de dados é quando você tem uma base e vai minerar pra extrair informação, conhecimento, vantagem competitiva. Pra extrair, você precisa de uma picareta — pode ser modelo estatístico, matemático ou um algoritmo de inteligência artificial (foi a IA que ganhou a briga das picaretas)." 🔑 É a escada DIKW de novo: minerar = subir do dado pro conhecimento.
✅ CRAVOU a importância do ciclo: "Você tem que chegar na prova sabendo as 6 fases e o que se faz em cada uma. Isso é 20% das questões — e quem sabe as 6 fases acerta 90% das questões do modelo." 🔑 Tradução: fase é o ouro do CRISP-DM. Decora as 6 e o que cada uma faz, e o bloco inteiro vira gol.
✅ CRAVOU a ordem: "Primeiro eu conheço o negócio, depois eu conheço os dados, depois preparo, depois modelo..." — e mostrou questão (FGV-TCE-PA) onde a banca diz "após a preparação vem a compreensão dos dados" → errado, porque compreensão vem ANTES da preparação.
🪤 PEGADINHA — as trocas clássicas da FCC neste bloco:
Guarde: o CRISP-DM começa pelo par 1→2. Fase 1 (Entendimento do Negócio) = definir objetivo + critério de sucesso + stakeholders + hardware/software + INVENTÁRIO das bases (🪤 listar base é AQUI, no negócio). Fase 2 (Compreensão dos Dados) = abrir as bases: conhecer tabela/coluna, estatística descritiva, qualidade (faltantes/outliers) e volume. 🔑 Bordão-síntese: primeiro o PORQUÊ (negócio), depois o DADO — inventariar é negócio, abrir a gaveta é dado.
Fecho do Bloco 3 — o que LEVAR no bolso:
🎯 O que travar neste bloco:
📌 Reancorando o CRISP-DM — a gente já subiu os degraus 1 (Entendimento do Negócio) e 2 (Compreensão dos Dados). Hoje pisa firme no 3º:
| # | Fase (PT / EN) | O que se faz | Onde você está |
|---|---|---|---|
| 1️⃣ | Entendimento do Negócio · Business Understanding | descobrir o objetivo + inventariar quais bases existem | ✅ já vimos |
| 2️⃣ | Compreensão dos Dados · Data Understanding | conhecer/explorar os dados, avaliar qualidade | ✅ já vimos |
| 3️⃣ | Preparação dos Dados · Data Preparation | limpar/integrar/transformar → montar o dataset | 📍 VOCÊ ESTÁ AQUI |
| 4️⃣ | Modelagem · Modeling | a máquina treina no dataset | próximo bloco |
| 5️⃣ | Avaliação · Evaluation | o modelo está bom? | — |
| 6️⃣ | Implantação · Deployment | bota pra rodar (produção) | — |
🔑 Lembra da escada DIKW da Aula 0 (o "47 mudo")? A preparação é onde a gente garante que o dado bruto está limpo o bastante pra virar informação confiável. Dado torto → informação torta → decisão fiscal errada. É aqui que se evita isso.
Bora subir o degrau mais trabalhoso de todos.
Fala, Felício! Pensa num dia de prova de natação utilitária no CEFAN. A prova em si — o nado — dura poucos minutos. Mas e o antes? Você passa horas ajeitando: confere a touca, ajusta os óculos pra não embaçar, calça a nadadeira certa, testa o equipamento, aquece, mede a temperatura da água. O nado é rápido; a preparação é que dá trabalho.
Mineração de dados é idêntico:
🔑 É a fase mais braçal e demorada na prática. E faz todo sentido: lixo entra, lixo sai — se o dataset estiver sujo, nenhum modelo do mundo salva.
🧊 CONCEITO — Preparação dos Dados (Data Preparation)
É a 3ª fase do CRISP-DM, na qual se constrói o DATASET final (o conjunto de dados que será entregue à modelagem). Cobre todas as atividades de selecionar, limpar, integrar, formatar, transformar, construir e enriquecer os dados, partindo das bases brutas até a tabela única e arrumada. Na prática de projeto, é reconhecidamente a fase que mais consome tempo e esforço. 🔑 O produto da preparação é o dataset; o destino dele é a modelagem.
🪤 PEGADINHA DE PROVA (guarda essa — é munição, não risco): uma coisa é dizer "na prática a preparação dá o maior trabalho" (verdade de mercado). Outra, bem diferente, é a banca cravar "o CRISP-DM define que a fase X leva 50%–70% do tempo do projeto". ❌ Isso é cilada! O CRISP-DM NÃO prescreve percentual fixo de tempo por fase — quem inventa número de "% do tempo" por etapa caiu na lorota do examinador. O prof. Kessler desmonta exatamente esse item na aula. 🔑 Preparação é a mais cara NA PRÁTICA; mas "o CRISP-DM diz que ela é X% do tempo" = pegadinha.
Repara na lógica (anti-decoreba): por que a preparação fica entre compreender (fase 2) e modelar (fase 4)? Porque na fase 2 você só olhou os dados e descobriu os defeitos ("essa coluna tem 30% de buraco, aquela tem CNPJ torto"). Na fase 3 você arruma esses defeitos. Só depois de arrumado dá pra treinar o modelo. Diagnosticar (fase 2) é diferente de operar (fase 3). Segura essa fronteira — é onde a FCC te derruba.
O prof. Vitor Kessler bate o martelo: "na preparação dos dados eu faço seis coisas, basicamente." Vamos a elas, cada uma no seu mundo — e todas convergindo pro caso fiscal-âncora:
🧊 CONCEITO — as 6 tarefas da preparação 🎯
| # | Tarefa | O que faz | Exemplo-relâmpago |
|---|---|---|---|
| 1 | Selecionar | escolher só os atributos relevantes ao problema | pego valor, data, hora; descarto "cor do carro" |
| 2 | Limpar | tratar faltantes (nulos) e outliers (ponto fora da curva) | peso "500 kg" → erro de digitação; campo vazio → imputar ou excluir |
| 3 | Integrar | fundir várias bases numa só, resolvendo conflitos | NF-e + cadastro + dívida ativa viram uma tabela |
| 4 | Formatar | pôr tudo na mesma escala/padrão (NÃO é formatar HD!) | dólar → real; data MM/DD → DD/MM; Celsius pra tudo |
| 5 | Transformar | mudar o tipo do dado ou normalizar | categórico → número (fund=0, médio=1, sup=2); normalizar |
| 6 | Construir / enriquecer | criar novas variáveis (feature engineering) ou acrescentar dados de outra base | de mil vendas, crio "preço médio"; puxo data de nascimento que falta de outra base |
Olho na fala real do professor (anti-invenção): o Kessler enumera as seis assim — "eu vou selecionar... eu limpo... eu formato... transformação de dados... vou construir novos dados... e vou enriquecer meus dados." Repara: na enumeração-relâmpago dele a 6ª palavra é enriquecer. O "integrar" entra como tarefa de preparação logo em seguida, quando ele resolve a questão da Defensoria 2022 ("a fase que se caracteriza por limpar, construir, integrar, formatar... é a preparação") — ou seja, integrar é preparação sim, está no CRISP-DM canônico e na própria questão FCC. Por isso eu te entrego a régua S-L-I-F-T-C com integrar dentro (é o que a banca cobra) e o enriquecer dependurado no "construir" (é a 6ª palavra do Kessler). Nenhuma das duas é invenção: as duas caem como preparação. 👊
A lógica de cada uma, do seu jeito:
1) SELECIONAR 🎯 — é escolher seu equipamento de prova: leva nadadeira, óculos, touca; deixa em casa o que não serve. No dado: leva valor da transação e horário (relevantes pra fraude), larga a cor do carro. Selecionar = separar o que tem relação com o objetivo (objetivo esse que veio lá da fase 1, o Entendimento do Negócio).
2) LIMPAR 🧹 — é o trabalho mais sujo. Dois inimigos:
peso em branco porque ninguém preencheu. Você imputa (preenche com média/mediana, ou com um algoritmo tipo KNN) ou exclui a linha.Outliers (ponto fora da curva): "o cara tem 500 quilos — com certeza era 50, erro de digitação." Você identifica e trata.
3) INTEGRAR 🔗 — juntar bases que falam coisas diferentes. "Eu tenho duas bases e vai sair daqui uma base só" (palavra do Kessler). E quando o valor diverge entre dois sistemas, "eu tenho que chegar a uma conclusão qual é o valor real que vai ficar no meu dataset final." Duas tabelas entram, uma sai.
4) FORMATAR 📐 — "não tem nada a ver com formatação de computador!" (palavra do professor — 🪤 cuidado com a confusão). É pôr tudo na mesma régua: valores em dólar viram real; datas no padrão americano MM/DD/AAAA viram DD/MM/AAAA; campo binário vira 0/1 ou true/false (você escolhe um padrão). O exemplo-pôster dele: "Fahrenheit e Celsius, eu coloco tudo em Celsius."
5) TRANSFORMAR 🔄 — o ponto onde a FCC mais arma armadilha (guarda isso). Transformar é:
🔑 Transformar É preparação. Não caia na pegadinha de dizer "transformação não faz parte da preparação" — faz, e é uma das seis tarefas.
6) CONSTRUIR / ENRIQUECER 🏗️ — duas irmãs no mesmo guarda-chuva:
🔑 Macete das 6 tarefas (decora a régua): S-L-I-F-T-C → Selecionar · Limpar · Integrar · Formatar · Transformar · Construir (e o irmão enriquecer vem junto do construir). Tudo isso pra cuspir um dataset no final.
Agora aterrissa de vez no seu mundo de auditor — esse é exatamente o cenário que a FCC montou na prova de SP-2026 (você vai resolver ela já já):
💡 Exemplo 1) — o dataset de risco fiscal do Guilherme
A SEFAZ-CE quer um modelo que fareje contribuintes com alto risco de sonegação. O Guilherme (seu amigo auditor) puxa três bases pra mesa: - a base de NF-e (XML — dado semiestruturado, lembra da Aula 0?), - o cadastro de contribuintes (tabela — estruturado), - a dívida ativa (outra tabela, de outro sistema).
Aí começa o trabalho braçal — as 6 tarefas:
- Seleciona 🎯 os campos que importam (faturamento, valor das notas, situação cadastral) e descarta o irrelevante.
- Limpa 🧹: acha CNPJ inválido (dígito não fecha) → corrige ou exclui; acha um faturamento de "R$ 9 bilhões" numa padaria → outlier, trata; campo data de abertura vazio → imputa.
- Integra 🔗 as três bases num cadastro só — e, quando o valor da nota difere entre dois sistemas, decide qual é o verdadeiro.
- Formata 📐: uns valores estão 1.000,00 (vírgula decimal), outros 1000.00 (ponto) → padroniza tudo; datas AAAA-MM-DD e DD/MM/AAAA → um padrão só.
- Transforma 🔄: o regime tributário ("Simples", "Lucro Real"...) vira código numérico pro modelo entender.
- Constrói / enriquece 🏗️ a variável-ouro: "razão nota/faturamento" — quem emite nota muito abaixo do faturamento que movimenta acende a luz vermelha; e onde falta um dado, puxa de outra base (enriquecimento).
🔑 Repara: o modelo (fase 4) ainda nem rodou. Tudo isso foi só pra deixar o dataset pronto. E foi aqui que se gastou o grosso do projeto. Preparação = o suor; modelagem = o play.
⚠️ Nenhuma fraude com o elenco — Guilherme é auditor de bem. Quando entrar empresa sonegando, é sempre a fictícia (a DABOA lá da Aula 0). 😉
🔗 Conexão (não é ilha!): repara como tudo amarra. A NF-e é o dado semiestruturado que você travou na Aula 0 e que você já conhece da Legislação Tributária (padrão SPED, ciclo do crédito). Na preparação, esse dado bruto vira dataset limpo → na modelagem vira modelo de risco → o auditor decide fiscalizar (inteligência, topo da escada DIKW). E não confunda com a fase 2 (Compreensão dos Dados): lá você só descobriu que o CNPJ estava torto; aqui (fase 3) você conserta. Descobrir o problema ≠ resolver o problema. 🪜
Essa caiu na SEFAZ-SP/2026 — banca FCC, cenário 100% fiscal, e é o retrato falado da preparação dos dados. Lembra da Bola de Cristal? SP é o espelho do bloco de Fluência do CE. Resolve comigo — ela só acerta quem entende que preparar é tratar formato + faltante + outlier + duplicata com CRITÉRIO:
Uma Secretaria da Fazenda Estadual recebeu uma base com 2,3 milhões de declarações fiscais. Na exploração inicial, achou: CNPJ com formatações inconsistentes (com e sem pontuação), valores monetários com separadores divergentes (vírgula e ponto), datas em formatos distintos (DD/MM/AAAA, AAAA-MM-DD), campos obrigatórios vazios em ~12% dos registros, outliers de receita bruta distorcendo as estatísticas, e a variável "regime tributário" com categorias redundantes por erro de digitação ("Simples Nacional", "SIMPLES NACIONAL", "Simples nacional"). Considerando as melhores práticas de pré-processamento, o tratamento correto e adequado é:
Na aula, o Prof. Vitor Kessler disse...
✅ CRAVOU as 6 coisas: "na preparação dos dados eu faço seis coisas, basicamente: eu vou selecionar... eu limpo... eu formato... transformação de dados... vou construir novos dados... e vou enriquecer meus dados" — pra entregar "um dataset bonitinho, fresquinho, gostosinho pra entrar na modelagem." (E o integrar ele crava logo depois, resolvendo a questão "limpar, construir, integrar, formatar = preparação".) É exatamente o nosso S-L-I-F-T-C.
✅ CRAVOU o "formatar não é formatar HD": "formatar os dados não tem nada a ver com formatação de computador! É trazer todos pra mesma escala, mesma ordem de grandeza — Fahrenheit e Celsius, eu coloco tudo em Celsius." (🪤 a banca chega a confundir de propósito.)
🔑 A lição que vale OURO (a "picareta", os 20% e o alerta do percentual): ele avisou — "isso é 20% das questões... CRISP-DM: quais são as seis fases e o que se faz em cada fase, você acerta 90% das questões." E desmontou uma questão que cravava percentual de tempo por fase: "não existe dentro do CRISP-DM esse tipo de estimativa de percentual de tempo que você gasta em cada uma das etapas — isso é lorota do examinador." Mais o alerta de fronteira: na fase 1 (Negócio) "inventariar quais bases existem" é Entendimento do Negócio; detalhar/explorar é fase 2; arrumar é fase 3 (preparação); a mineração de verdade só acontece na modelagem, com a "picareta" (o algoritmo). ⚡ Quem sabe O QUE acontece em cada fase, gabarita o bloco.
🪤 PEGADINHA — as armadilhas-mãe deste bloco:
Guarde: a Preparação dos Dados é a 3ª fase do CRISP-DM e, na prática de projeto, a que mais consome tempo/esforço (mas o CRISP-DM não crava percentual — isso é pegadinha). Faz 6 coisas (S-L-I-F-T-C: Selecionar, Limpar — faltantes/outliers, Integrar, Formatar — mesma escala, Transformar — categórico→número/normalizar, Construir — variável nova / enriquecer — dado de outra base) pra entregar um dataset pronto pra modelagem. 🔑 Bordão-síntese: preparar dado é como aprontar pra prova — o nado é rápido, é o pré-prova que dá o suor. E transformar SEMPRE é preparação.
Fecho do Bloco 4 — o que LEVAR no bolso:
🎯 O que travar neste bloco:
📌 Reancorando o ciclo do CRISP-DM (o mesmo dos blocos anteriores — você já subiu 3 fases; hoje fecha as 3 últimas):
| Fase | Nome | O que faz | Analogia do atleta |
|---|---|---|---|
| 1️⃣ | Entendimento do Negócio | define o objetivo e as métricas de sucesso | montar o plano de competição |
| 2️⃣ | Entendimento dos Dados | conhece e audita a qualidade da base | conferir o equipamento |
| 3️⃣ | Preparação dos Dados | monta o dataset limpo | periodizar o treino |
| 4️⃣ | Modelagem | treina o modelo (aplica os algoritmos) | 🏊 treinar o atleta ← VOCÊ ESTÁ AQUI |
| 5️⃣ | Avaliação | testa se atende o objetivo de negócio | 🥽 simular a prova |
| 6️⃣ | Implantação | põe em produção + monitora | 🏁 competir de verdade |
🔑 Lembra do bordão das fases? "Conheço o negócio → conheço o dado → preparo → MODELO → AVALIO → implanto (ou volto pro começo)." Agora a gente fecha o trio final.
Bora subir os últimos 3 degraus.
Fala, Felício! Esquece tecnologia por um segundo e pensa na sua preparação pro pentatlo naval no CEFAN:
🔑 Guarde esse trio: modelar = treinar · avaliar = simular · implantar = competir. Toda a Fase 4-5-6 cabe nessa frase.
Lembra da Aula 0 — a escada DIKW, subindo do dado bruto até a inteligência que decide? A mineração é exatamente isso: cavar o dado pra arrancar conhecimento. E a picareta (palavra do professor 😄) é o algoritmo. Pois é na Modelagem que a picareta finalmente bate no chão.
Até agora (Fases 1-3) você só preparou o terreno: definiu o objetivo, conheceu os dados, montou o dataset cheiroso. Nada foi minerado ainda. A mineração de verdade — o aprendizado da máquina — acontece aqui, na Fase 4.
🧊 CONCEITO — Modelagem (Fase 4)
Modelagem é a fase em que se aplicam os algoritmos (de machine learning ou modelos estatísticos) sobre o dataset preparado, treinando o modelo pra que ele aprenda os padrões escondidos nos dados. É AQUI que ocorre a mineração propriamente dita — não antes. A modelagem é iterativa: roda o algoritmo, mede, ajusta os parâmetros, roda de novo, até achar a melhor configuração.
Dois detalhes que a FCC ama (lógica antes de decoreba):
💡 Exemplo 1) — o Guilherme treinando o "caçador de notas frias"
O Guilherme (seu amigo auditor) e a equipe de TI da SEFAZ querem um modelo que aponte quais NF-e têm alto risco de simulação (nota fria). O dataset já está pronto (Fase 3): cada linha é uma nota, com valor, horário de emissão, CNAE, histórico do emitente... e a coluna-resposta: "fraudulenta" ou "limpa" (rótulo de notas que a fiscalização já conhece).
Na Modelagem, eles dão esse dataset pra máquina treinar: ela varre milhões de notas já julgadas e aprende a relação entre os campos e o rótulo ("valor redondo + emissão de madrugada + destinatário com CNPJ baixado → cheira a fraude"). A máquina não decidiu nada ainda na vida real — ela só treinou com casos do passado, igual você treinando o gesto antes da prova.
⚠️ A empresa fraudadora aqui é sempre a DABOA (fictícia). O Guilherme é auditor de bem treinando ferramenta de bem. 😉
⚠️ Atenção, Felício: questão de CONTRASTE. Ela está aqui dentro da Fase 4 de propósito, mas o gabarito NÃO é Modelagem — é a Fase 1. Ler ela aqui te ensina a não confundir "definir o objetivo" (Fase 1) com "treinar o modelo" (Fase 4). É a pegadinha do começo × meio do ciclo. No desenvolvimento de um modelo de detecção de contribuintes com alto risco de simulação de operações, após definir claramente com a área de fiscalização quais tipos de fraude serão priorizados, quais indicadores de negócio serão acompanhados (como aumento de autos de infração qualificados e redução de fiscalizações improdutivas) e quais restrições legais e operacionais existem para uso do modelo, a equipe de uma Secretaria da Fazenda registra esses critérios e alinha expectativas com a alta gestão. Com base na metodologia CRISP-DM, essa descrição se encaixa principalmente na fase de
🪤 PEGADINHA da Fase 4: NÃO existe fase chamada "Mineração de Dados" no CRISP-DM! O professor errou de propósito na aula só pra te marcar isso 😅. A mineração acontece, sim — mas dentro da fase de MODELAGEM. A FCC enfia "fase de mineração" numa alternativa pra te pegar. 🔑 Mineração ≠ fase; mineração = o que se faz NA modelagem.
Beleza, o modelo treinou. Está bom? Ninguém sabe ainda — porque ele foi treinado olhando as respostas. Pra saber de verdade, você precisa do simulado: jogar nele casos que ele nunca viu e medir se acerta.
🧊 CONCEITO — Avaliação (Fase 5)
Avaliação é a fase em que se verifica se o modelo construído atende aos OBJETIVOS DE NEGÓCIO definidos lá na Fase 1 — não basta a acurácia técnica ser alta. Pra medir, separa-se a base em dados de treino (a máquina aprende) e dados de teste (a máquina nunca viu — usados aqui pra checar se ela generaliza). Métricas típicas: acurácia (% que acertou), recall/sensibilidade, entre outras.
A lógica do truque treino × teste (anti-decoreba):
💡 Exemplo 2) — o simulado do caçador de notas frias
O modelo do Guilherme treinou com 90% das notas já julgadas. Agora, na Avaliação, a equipe pega os 10% escondidos (notas que a máquina nunca viu) e pergunta: "classifica aí — frias ou limpas?". O modelo acerta 86%. Tecnicamente, parece ótimo.
Mas a Avaliação vai além do número ⚡: o Guilherme cruza com o objetivo de negócio da Fase 1 — "reduzir fiscalização improdutiva e aumentar auto de infração qualificado". Se o modelo acerta 86%, mas manda o fiscal pra rua atrás de muita nota limpa (alarme falso), ele falha no objetivo de negócio mesmo com acurácia alta. 🔑 Acertar no laboratório ≠ resolver o problema do Fisco.
Na modelagem estatística utilizando aprendizado de máquina, a principal razão para separar os dados em conjuntos de treinamento, validação e teste é
🪤 PEGADINHA-mãe da Fase 5: dizer que "avaliação = só medir a acurácia técnica". ❌ Incompleto! A acurácia é uma ferramenta, mas a Avaliação cobra se o modelo resolve o objetivo de NEGÓCIO (Fase 1). Um modelo 99% acurado que não serve pra decisão do Fisco está reprovado. ⚡ Avaliação olha o objetivo de negócio, não só o número.
💡 Exemplo 3) — o overfitting (o atleta que só sabe o percurso decorado)
Imagina que você treinou tanto aquele percurso específico do CEFAN que decorou cada pedra — voa nele. Mas no dia da prova, mudaram o trajeto, e você derrapa. Você não aprendeu a nadar/correr; aprendeu aquele percurso. Isso, em dados, é overfitting: o modelo "decorou" o treino e falha no novo.
Um classificador de risco de inadimplência foi treinado com histórico fiscal, que apresenta desempenho elevado no treino e queda consistente em dados novos, mesmo com validação adequada. O fenômeno técnico caracterizado no cenário descrito é
Avaliou, aprovou? Então vai pro pau — competir de verdade.
🧊 CONCEITO — Implantação / Implementação (Fase 6)
Implantação (também dita implementação ou desenvolvimento/deployment) é a fase final: pôr o modelo em PRODUÇÃO, incorporando-o ao processo de negócio. Inclui gerar o relatório final e, crucialmente, um plano de MONITORAMENTO e manutenção (o modelo pode "envelhecer" e precisar de retreino). 🔑 Decisão do ciclo: aprovou na Avaliação → implanta · reprovou → volta ao INÍCIO do ciclo (Entendimento do Negócio).
💡 Exemplo 4) — o modelo entrando na malha fina do Ceará
O caçador de notas frias do Guilherme passou no simulado (Fase 5). Agora, na Implantação, ele entra em produção dentro da malha fina da SEFAZ-CE: todo dia, as NF-e novas passam pelo modelo, que aponta automaticamente quais contribuintes priorizar pra fiscalização. O Guilherme não olha mais 8 milhões de notas na mão — o modelo filtra e entrega a lista quente.
Mas tem o plano de monitoramento ⚡: a equipe acompanha se o modelo continua acertando. Se os fraudadores mudarem o golpe (ex.: pararem de emitir de madrugada), o modelo degrada — e aí volta ao início do ciclo pra retreinar com os novos padrões. Competir uma vez não é o fim; é manter o desempenho.
🪤 PEGADINHA-mãe da Fase 6: dizer que "a implantação é a fase mais simples, é só rodar um script". ❌ MENTIRA! Pôr em produção é um rolo danado: o modelo que rodava na máquina do cientista de dados precisa funcionar num servidor diferente, parrudo, online — é a clássica briga "na minha máquina funcionava". Por isso existe até o DevOps (juntar desenvolvimento + operação). 🔑 Implantação NUNCA é trivial.
🪤 Pegadinha-bônus (Cebraspe/FGV adoram, FCC pode reciclar): "implantação só ocorre depois da avaliação" → CORRETO. Não inverta a ordem: avalia primeiro, implanta depois. E "o CRISP-DM é rígido, não pode voltar de fase" → ERRADO: o ciclo é flexível, iterativo e incremental — reprovou, volta pro começo.
🔗 Conexão (não é ilha!): repare como o trio fecha a escada DIKW da Aula 0. O dado bruto (NF-e em XML, lembra? semiestruturado) entra → vira informação (painel de risco) → na Modelagem a máquina aprende o padrão → na Avaliação confirmamos que vira conhecimento útil → na Implantação isso vira INTELIGÊNCIA fiscal (a malha fina que decide quem fiscalizar). 🪜 Toda a Aula 0 + a Aula 1 são a mesma escada: o CRISP-DM é o "como" a gente sobe do dado ao topo. E no próximo bloco a gente liga isso à arquitetura que guarda esses dados (DW/Data Lake) — você já viu a ponta disso na questão do Data Lake da Aula 0.
Na aula, o Prof. Vitor Kessler disse...
✅ CRAVOU o trio final: sobre a Modelagem — "é o momento em que eu pego meu dataset, dou pra minha máquina treinar; ela aprende com esse conjunto de dados e faz previsões"; e a regra de ouro: "não existe fase de mineração — é fase de MODELAGEM, onde eu aplico as técnicas de mineração de dados, ponto." (Ele até errou de propósito o slide pra te marcar isso.)
✅ CRAVOU o truque do teste: "a gente divide o conjunto em dois — treino e teste. O treino usa na modelagem; o de teste eu pego um conjunto que a máquina nunca viu e rodo pra ver se está funcionando. Acertou 860 de 1000 → 86% de acurácia."
✅ CRAVOU a implantação: "implantação NUNCA é simples" — é a briga do "na minha máquina funciona", por isso inventaram o DevOps. E: "aprovou, vai pra implantação; reprovou, volta pro começo do ciclo."
🔑 A lição dele: "saber as 6 fases e o que se faz em CADA uma = você acerta 90% das questões do modelo. As 6 fases sozinhas já são 20% das questões." ⚡ Traduzindo pro seu caso, Felício: este bloco é munição de alto ROI — é gol fácil que a FCC repete prova após prova.
Guarde: Modelagem (Fase 4) = treina o modelo / aplica algoritmo / é aqui que a mineração acontece / pode voltar pra Preparação. Avaliação (Fase 5) = testa no que nunca viu (treino × teste) e checa o objetivo de NEGÓCIO, não só a acurácia / flagra o overfitting. Implantação (Fase 6) = põe em produção + monitora / NUNCA é simples / aprovou implanta, reprovou volta ao início.
🔑 Bordão-síntese: MODELO = treino · AVALIO = simulado (no que nunca vi, contra o objetivo) · IMPLANTO = competição (e fico de olho).
Fecho do Bloco 5 — o que LEVAR no bolso:
Fala, Felício! Você fechou o Bloco 5 sabendo o que é minerar dado (subir a escada DIKW do dado bruto até o conhecimento — lembra do "47 mudo" virando decisão?). Agora vem o como: o passo a passo que todo projeto de dados segue. E aqui mora um ponto que a FCC bate sem dó — porque tem três receitas pra esse mesmo prato, e a banca adora trocar uma pela outra.
🎯 O que travar neste bloco:
Imagina que você quer fazer o mesmo prato — digamos, "caçar sonegação de ICMS usando dados". Você tem três cozinheiros na cozinha, cada um com um jeito (uma receita escrita) de chegar lá:
🔑 A sacada: os três fazem o mesmo prato (descobrir conhecimento no dado). A diferença é por onde começam e o quê cada um cobre.
🧊 CONCEITO — KDD, CRISP-DM e SEMMA
| Metodologia | O que é | Começa por... | Tem fase de NEGÓCIO? |
|---|---|---|---|
| KDD (Knowledge Discovery in Databases) | processo amplo de descoberta de conhecimento em bases de dados; a mineração é uma etapa dentro dele | Seleção dos dados | ❌ não tem fase de negócio formal |
| CRISP-DM (CRoss-Industry Standard Process for Data Mining) | metodologia/processo padrão mais usado pra projetos de mineração; 6 fases, cíclica | Entendimento do NEGÓCIO (Business Understanding) | ✅ SIM — é a 1ª fase |
| SEMMA (Sample, Explore, Modify, Model, Assess) | metodologia da SAS, mais técnica/estatística; 5 etapas | Sample (amostragem) | ❌ NÃO — começa direto na amostra |
🔑 Palavra que a FCC cobra: o CRISP-DM é o mais utilizado e o único dos três que começa pelo NEGÓCIO. KDD é o processo amplo (mineração é etapa). SEMMA é da SAS e é técnica (não fala de negócio).
Repara na lógica (anti-decoreba): por que CRISP é o queridinho? Porque a vida real não começa no dado — começa num problema. Você não sai cavando dado à toa; primeiro alguém te diz "preciso pegar quem sonega ICMS". CRISP nasceu pra isso — botar o problema de negócio na frente. KDD e SEMMA são mais "mão na massa do dado" e pulam essa conversa.
A FCC raramente cobra cada etapinha de KDD/SEMMA — ela cobra se você sabe diferenciar os três. Mas guarda as etapas pra não cair na pegadinha:
🔑 Bordão: SEMMA começa na Sample (amostra) e morre no Assess — negócio não entra nessa cozinha.
🧭 Nota de transparência do Camilo (fonte-única): o Prof. Kessler, na degravação, não chegou a falar de SEMMA — ele focou KDD e CRISP-DM. Eu trouxe a SEMMA porque a comparação KDD × CRISP × SEMMA é clássica da FCC e você precisa saber diferenciar os três pra não cair na troca. Os fatos da SEMMA acima são padrão de mercado (metodologia da SAS) — confia neles, mas saiba que essa parte é reforço meu, não da aula gravada.
Felício, o professor é categórico: "você não pode ir pra prova sem saber isso. E isso é 20% das questões." As 6 fases do CRISP-DM, na ordem:
🧊 CONCEITO — as 6 fases do CRISP-DM ⚡
| # | Fase (PT) | Fase (EN) | O que se faz |
|---|---|---|---|
| 1️⃣ | Entendimento do NEGÓCIO | Business Understanding | qual é o problema/objetivo? métricas de sucesso? inventário inicial das bases |
| 2️⃣ | Entendimento dos DADOS | Data Understanding | conhecer as bases, qualidade, volume, valores faltantes, outliers |
| 3️⃣ | Preparação dos DADOS | Data Preparation | limpar, formatar, transformar, integrar, enriquecer → monta o dataset |
| 4️⃣ | Modelagem | Modeling | aplica os algoritmos (machine learning/estatística) — é aqui que a mineração acontece |
| 5️⃣ | Avaliação | Evaluation | o modelo atinge o objetivo do negócio? mede acurácia |
| 6️⃣ | Implantação | Deployment | bota em produção; reprovou → volta pro começo |
🔑 A lógica que mata 90% das questões (palavra do professor): "Primeiro eu conheço o negócio, depois conheço os dados, depois preparo os dados pra modelagem, onde de fato acontece a mineração. Depois avalio. Aprovou → implanta. Reprovou → volta pro começo do ciclo."
⚠️ CRISP-DM é CÍCLICO e FLEXÍVEL — pode ir e voltar entre fases (interativo e incremental). NÃO é rígido, NÃO é unidirecional.
🪤 A "picareta perigosa" do prof. Kessler: "Se aparece pra mim inventariar bases de dados, eu marco compreensão dos DADOS na hora... mas no CRISP-DM isso é entendimento do NEGÓCIO!" Levantar quais bases existem = você ainda está conhecendo o negócio (1ª fase). Detalhar/avaliar a qualidade dessas bases = aí sim é dados (2ª fase). 🔑 Inventariar base = NEGÓCIO; esmiuçar a qualidade da base = DADOS.
💡 A SEFAZ caçando a DABOA — qual cozinheiro chamar?
A SEFAZ-CE quer um sistema que flagra contribuintes com alto risco de sonegar ICMS (tipo a DABOA Comércio, da nossa nota fria do Bloco 1). Qual das três receitas ela usa?
🔑 Por que CRISP ganha no Fisco: porque auditoria começa no PROBLEMA (a denúncia, o indício, a meta de arrecadação), nunca no dado solto. CRISP é a única que bota o negócio na frente — é a cara da SEFAZ.
⚠️ DABOA = empresa fictícia. Fraude é sempre empresa de mentira — Guilherme, Camila e Filipe são gente de bem. 😉
🔗 Conexão (não é ilha!): lembra da escada DIKW da Aula 0? CRISP-DM é a escada virada em projeto: o dado entra no Data Understanding → a informação nasce na Modeling → o conhecimento/inteligência (a decisão "manda a malha fina") sai na Deployment. E o insumo continua sendo a NF-e (XML semiestruturado, lembra?) da Legislação Tributária. Mesma escada, agora com nome de metodologia. 🪜
Essa caiu na SEFAZ-SP/2026 — banca FCC, um dos espelhos do nosso edital (pela Bola de Cristal). Cenário 100% fiscal e bate em cheio no coração do bloco: ela testa se você sabe que CRISP-DM começa pelo NEGÓCIO. Resolve comigo:
No desenvolvimento de um modelo de detecção de contribuintes com alto risco de simulação de operações, após definir claramente com a área de fiscalização quais tipos de fraude serão priorizados, quais indicadores de negócio serão acompanhados (como aumento de autos de infração qualificados e redução de fiscalizações improdutivas) e quais restrições legais e operacionais existem para uso do modelo, a equipe de uma Secretaria da Fazenda registra esses critérios e alinha expectativas com a alta gestão. Com base na metodologia CRISP-DM, essa descrição se encaixa principalmente na fase de
Essa é mais antiga (SEF-SC/2018, AFRE, banca FCC), mas é ouro fiscal puro e mostra a mineração preditiva dentro do processo — exatamente a fase 4 (Modeling) aplicada à sonegação de ICMS:
Um Auditor pretende descobrir, após denúncia, fraudes de sonegação de ICMS: caminhões das empresas Org1/Org2/Org3 permaneceriam tempo curto demais na pesagem dos postos de fronteira (vs. a média dos demais). Ele coleta registros diários por ≥1 ano e monta demonstrativos mensais/trimestrais/anuais. A aplicação de mineração de dados (data mining) pode ser de grande valia. No caso das pesagens, uma ação típica de mining passível de ser tomada com auxílio de instrumentos PREDITIVOS é
Na aula, o Prof. Vitor Kessler disse...
✅ CRAVOU: "O CRISP-DM apoia o processo de descoberta de conhecimento, o KDD, que é um processo maior. O KDD é maior, e lá dentro tem a mineração." — exatamente a hierarquia do nosso conceito: KDD = guarda-chuva, mineração = miolo.
✅ CRAVOU: "Você tem que chegar na prova sabendo as seis fases do CRISP-DM. Não tem desculpa. E isso é 20% das questões." — por isso a gente travou a tabela das 6 fases na marra.
🔑 A lição (a "picareta perigosa"): "Se aparece inventariar base de dados, eu marco compreensão dos dados na hora — mas no CRISP isso é entendimento do NEGÓCIO." É a pegadinha que ele mais avisa. Guarda: inventariar = negócio.
🧠 Bizu do professor: ele bateu o martelo que CRISP-DM é agnóstico — "agnóstico não tem a ver com religião; em tecnologia quer dizer que não prescreve tecnologia". Ele não obriga software/hardware nenhum, e é gratuito ("você não precisa pagar para usar... não tem licença"). Toda questão que disser "CRISP exige a plataforma X / o software Y / arquitetura tal / aquisição de licença" está ERRADA — ele prescreve processo e boas práticas, não ferramenta.
🪤 PEGADINHA — as trocas clássicas da FCC neste tema:
Guarde: três receitas, um prato. KDD = processo amplo de descoberta (mineração é etapa, não tem fase de negócio). CRISP-DM = o mais usado, 6 fases cíclicas, começa pelo NEGÓCIO, agnóstico/gratuito. SEMMA = da SAS, técnica, começa na amostra (Sample), SEM negócio. As 6 fases na ordem: Negócio → Dados → Preparação → Modelagem → Avaliação → Implantação.
🔑 Bordão-síntese: só o CRISP começa pelo NEGÓCIO; SEMMA começa na amostra e KDD é o guarda-chuva — e nenhum prescreve tecnologia.
Fecho do Bloco 6 — o que LEVAR no bolso:
Para tudo e respira, Felício. Você acabou de virar chave numa matéria que te eliminou: agora você sabe que todo projeto de dados — toda caçada de sonegação da SEFAZ — segue um roteiro fixo de 6 fases. Não é magia de TI; é diagnóstico → preparo → execução → prova, igual à sua rotina de atleta. Recapitula comigo, na ordem:
1️⃣ Entendimento do Negócio — qual é o problema? (Caçar sonegação de ICMS?) 2️⃣ Entendimento dos Dados — o que eu tenho na mão? (NF-e, EFD, cadastro) e como ele está? 3️⃣ Preparação dos Dados — limpa, junta, transforma (o trabalho sujo, 70% do tempo). 4️⃣ Modelagem — solta o algoritmo pra caçar o padrão da fraude. 5️⃣ Avaliação — esse resultado resolve o problema da Fase 1? Vale a pena? 6️⃣ Implantação — põe pra rodar de verdade (a malha fiscal entra no ar).
🔑 Bordão pra dormir sabendo: N-D-P-M-A-I → "Negócio, Dados, Preparo, Modelo, Avalia, Implanta." Decorou a ordem, embolsou ~20% da matéria.
| Fase | O que faz | 🪤 Pegadinha clássica FCC |
|---|---|---|
| 1 · Entendimento do Negócio | Define o objetivo e o problema (do ponto de vista fiscal, não técnico) | trocar por "definir o objetivo dos dados" — o negócio vem ANTES dos dados |
| 2 · Entendimento dos Dados | Coleta, explora e descreve os dados (o "inventário") | dizer que a limpeza/transformação acontece aqui — ela é da Fase 3 |
| 3 · Preparação dos Dados | Limpa, integra, transforma, formata (70% do tempo) | dizer que aqui se "constrói o modelo" — modelo é Fase 4 |
| 4 · Modelagem | Aplica os algoritmos; pode exigir voltar à Fase 3 (é cíclico!) | afirmar que é a fase final / que o processo é linear e não volta |
| 5 · Avaliação | Confere se o resultado atende ao objetivo da Fase 1 | confundir com a avaliação técnica do modelo (que ainda é Fase 4) |
| 6 · Implantação | Coloca a solução em produção (entrega/monitora) | dizer que encerra o ciclo de vez — o CRISP-DM realimenta novos ciclos |
⚡ Lembra do bizu global: ordem + agnóstico/cíclico + fase-da-tarefa = quase toda questão de CRISP-DM mora nesses três pontos.
Você já sabe como se faz um projeto de dados (o método). Mas falta uma pergunta: onde os dados preparados na Fase 3 vão MORAR? Numa planilha solta? Claro que não — a SEFAZ guarda bilhões de NF-e em estruturas próprias.
Na Aula 2 a gente abre o armazém: Data Warehouse, Data Mart, Data Lake e Lakehouse (os "depósitos" de dado), o ETL (a esteira que enche esses depósitos — e que é, na prática, a Fase 3 do CRISP-DM virando engenharia) e o BI (o painel onde o auditor enxerga tudo). É a casa onde o seu dado vai viver. Bora pra lá. 🚀
Última atualização: 18/06/2026 15:13 — Camilo