Plano de Estudos Databricks DE Associate (7 e 14 dias)
Roteiro prático + checklist + prática gratuita por tópicos. Escolha seu ritmo e comece agora.
Testar GrátisEscolha seu ritmo
Dois planos para diferentes situações: urgência ou fixação profunda
| Dia | Domínio & Foco | Atividades | Meta |
|---|---|---|---|
| 1 | Plataforma, Workspace e Arquitetura Databricks Intelligence Platform (10%) | Entender componentes do workspace, clusters, notebooks e arquitetura básica | 15-25 questões |
| 2 | Auto Loader e Ingestão de Dados Development and Ingestion (30%) | Auto Loader, COPY INTO, formatos de arquivo, schema evolution | 25-35 questões |
| 3 | Spark SQL e Operações de Leitura/Escrita Development and Ingestion (30%) | Leitura de diversos formatos, opções de escrita, particionamento | 25-35 questões |
| 4 | Delta Lake Fundamentals Data Processing & Transformations (31%) | Merge, update, delete, time travel, vacuum, optimize | 30-40 questões |
| 5 | Streaming e Transformações Avançadas Data Processing & Transformations (31%) | Structured Streaming, watermarks, checkpoints, UDFs | 30-40 questões |
| 6 | Workflows e Orquestração Productionizing Data Pipelines (18%) | Jobs, tasks, dependências, scheduling, alertas | 20-30 questões |
| 7 | Unity Catalog e Governança Data Governance & Quality (11%) | Catalogs, schemas, permissões, data lineage, qualidade | 15-25 questões + Simulado final |
Armadilhas comuns
Erros frequentes que você deve evitar no exame
ZORDER vs Particionamento
ZORDER é para otimizar leituras com múltiplas colunas de filtro, enquanto particionamento é para colunas de cardinalidade baixa usadas frequentemente em WHERE.
VACUUM e Retenção
O padrão de retenção é 7 dias. Usar VACUUM com retenção menor que o padrão requer desabilitar a verificação de segurança. Time travel não funciona após vacuum.
Checkpoints em Streaming
Checkpoints são obrigatórios para garantir exactly-once semantics. A localização deve ser um caminho durável e não pode ser compartilhada entre queries.
UDFs e Performance
Python UDFs são mais lentas que Scala UDFs. Pandas UDFs (Arrow) oferecem melhor performance. Evite UDFs quando funções built-in existem.
Auto Loader vs COPY INTO
Auto Loader é melhor para ingestão contínua e grandes volumes. COPY INTO é para cargas batch e volumes menores. Auto Loader rastreia arquivos automaticamente.
Schema Evolution
mergeSchema permite adicionar colunas. overwriteSchema substitui o schema completo. Entenda quando usar cada um e os riscos envolvidos.
Watermarks em Streaming
Watermarks definem quanto tempo esperar por dados atrasados. Sem watermark, o estado cresce indefinidamente. Essencial para agregações em streaming.
Unity Catalog Hierarquia
A hierarquia é: Metastore → Catalog → Schema → Table/View. Entenda como permissões são herdadas e onde devem ser aplicadas.
Delta Lake MERGE
MERGE combina INSERT, UPDATE e DELETE em uma operação. A condição de match deve ser determinística. Cuidado com múltiplos matches para a mesma linha.
Cluster Types e Pools
All-purpose clusters são interativos, jobs clusters são efêmeros. Pools reduzem tempo de startup. Entenda quando usar cada tipo.
Checklist de preparação
Copie e use para acompanhar seu progresso
Checklist Databricks DE Associate
Agora pratique por tópico
Acesse o modo grátis e comece a resolver questões agora mesmo.