Machine Learning
Modalidade: EAD (Educação a Distância) com aulas ao vivo. Sendo, 30 horas de aulas transmitidas ao vivo e 10 horas de atividades assíncronas.
Remoto
40h
Carga horária
Quem pode se inscrever?
Servidores públicos federais integrantes das carreiras atendidas pelo Programa de Aperfeiçoamento da Enap e demais servidores federais de nível superior que atuem diretamente na área temática do curso.
Pré-requisitos mínimos
Inglês básico para leitura de textos técnicos.
Experiência inicial com a linguagem de programação python e a biblioteca para ciência de dados pandas.
Atividades preparatórias (recomendadas)
Realizar previamente ao curso dois micro-cursos (~4h) de python e pandas no Kaggle (https://www.kaggle.com/learn/overview)
Objetivos
Ao final do curso, o participante será capaz de identificar oportunidades de uso e aplicar técnicas de Machine Learning (ML) para modelizar dados; construir modelos preditivos para estimar uma variável de interesse em função de outros dados correlacionados; compreender o fenômeno modelado, baseado em dados, para apoiar a decisão; e melhorar a qualidade do modelo preditivo, determinando o algoritmo mais adequado ou desenhando novas variáveis - feature engineering.
Metodologia
O curso é composto por aulas (gravadas e online) e bibliografia básica, que serão disponibilizados na Plataforma Google Classroom.
As aulas online (telepresenciais) serão realizadas em dias e horários predefinidos, conforme Cronograma de Aulas disponível abaixo. Para transmissão das aulas e interação dos professores com os alunos, a Enap utiliza o aplicativo Zoom.
Principais tópicos
- Diferenças entre programação e aprendizado de máquina (ML): O desafio de prever resultados de um fenômeno sem um modelo explícito de seu funcionamento.
- Categorias de machine learning (ML): Supervisionado, não supervisionado.
- Diversidade de aplicações.
- Regressão linear. Intuição, cenários de uso. Preparação de dados para modelização. Uso da biblioteca python scikit-learn.
- Conceitos gerais de ML, aplicados ao caso básico de regressão linear: particionamento dos dados em treinamento/teste/validação; Over e under fitting; Determinantes de desempenho: mais dados, controle de complexidade do modelo, regularização, data augmentation; otimização e gradiente descendente.
- Regressão logística: Extensão da regressão linear como primeiro classificador.
- Árvore de decisão: Construção e interpretação; Extensão para Random Forest, aplicação sistemática em tarefas de previsão.
- Visão geral de redes neurais: conceito, modelos pré-treinados, aplicações em visão computacional e processamento de linguagem natural (NLP), com vetorização de palavras e categorias.
Produto esperado
Ao longo do curso, os alunos desenvolverão um projeto de aplicação para resolução de problemas enfrentados por eles nas suas atividades profissionais.
Outras Informações
Informações Gerais
Turma 1/2020
Docente: Erick Muzart
Carga horária: 40 horas, sendo 30 horas de aulas transmitidas ao vivo e 10 horas de atividades assíncronas.
Período de realização entre os dias 13 de julho a 05 de agosto de 2020.
Cronograma de Aulas ao vivo (utilização da ferramenta Zoom)
Dias: 13, 15, 17, 20, 22, 24, 27, 29 e 31 de julho e 05 de agosto.
Horário: 09h às 12h.
Para esclarecimentos e dúvidas, o professor estará disponível no horário de 08h às 09h, nestas referidas datas.
Pré-Inscrição
Na Justificativa de inscrição, sugere-se que o candidato apresente o esboço de um problema que enfrenta e possíveis caminhos que vislumbra para sua solução, em poucas linhas. Os elementos que esse deve conter são:
1. Título;
2. problema de negócio a ser resolvido, destacando a relevância para o órgão ou Administração ou a generalidade do problema, cuja solução poderia beneficiar outras instituições;
3. solução considerada, destacando possível abordagem, viabilidade e referências a soluções similares; e
4. fontes de dados que seriam utilizadas para o projeto, destacando disponibilidade, qualidade e nível de publicidade ou sigilo da base.
Exemplos de projetos de Machine Learning para ilustrar o nível de detalhamento esperado:
Exemplo 1
1. Classificação automática do objeto da reclamação de passageiros do transporte aéreo.
2. Passageiros reclamam de problemas relacionados às suas viagens aéreas no site consumidor.gov.br em campo de texto aberto. A ANAC precisa identificar os problemas específicos de cada reclamação para fins estatísticos e de controle das empresas áreas. Esse trabalho foi feito durante anos manualmente, acumulando um histórico de dezenas de milhares de reclamações classificadas nos temas mais relevantes. Deseja-se automatizar essa tarefa.
3. Acredita-se que os temas considerados pela ANAC estejam associados a frequência relativa de palavras-chave empregadas na descrição da reclamação. Assim, seria possível, por exemplo, distinguir uma reclamação sobre bagagem extraviada de um atraso de vôo em função do número de ocorrências de algumas poucas palavras-chave sem precisar realmente entender o texto.
4. O site consumidor.gov.br é transparente e os dados de relato das reclamações já foram extraídos e associados à classificação manual realizada nos últimos anos. Os relatos são muito variados em nível de linguagem e vocabulário empregado, mas parece haver um claro padrão na frequência de palavras-chave.
(Referência: http://www.ipea.gov.br/sites/images/mestrado/turma3/esa-pekka-tapani-horttanainen.pdf)
Exemplo 2
1. Identificação das melhores escolas no Enem.
2. Tradicionalmente consideram-se melhores escolas aquelas com melhores resultados médios de seus alunos. No entanto, muito do resultado de um aluno está fortemente relacionado às suas características socio-econômicas, que também estão associadas à escola que cursa. Deseja-se um método objetivo para distinguir escolas com alunos com desempenhos abaixo ou acima do que se espera deles, em função dessas características socio-econômicas, que possa ser imputado como contribuição da escola.
3. Por exemplo, se considerarmos apenas o fator renda dos pais, poderia-se agregar as escolas em patamares de renda média dos pais e assim, para cada segmento, identificar as escolas com melhores resultados o que limitaria a influência do fator renda dentro de cada segmento. Idealmente, procuraríamos generalizar esse isolamento de fatores, treinando um modelo preditivo para que estime o desempenho de um aluno em função de todas as suas características, excluindo apenas a escola frequentada. Depois compararíamos esse desempenho estimado com o desempenho real e ordenaríamos as escolas pela contribuição ao desempenho além do esperado.
4. Os microdados anonimizados do Enem encontram-se publicados pelo Inep (inep.gov.br/dados) com boa qualidade de dados em múltiplos anos, para milhões de alunos. Os dados socio-econômicos e de desempenho na prova encontram-se presentes para cada aluno individualmente, viabilizando assim a modelagem desejada.
(Referência: https://exame.com/brasil/7-rankings-mais-realistas-do-desempenho-das-escolas-no-enem/)
Importante: A solicitação de inscrição para o curso está disponível no link "Inscreva-se" e a matrícula será confirmada por e-mail.
Perguntas Frequentes
Ainda com dúvidas? Consulte as perguntas frequentes sobre Cursos