Tem alguma dúvida?
Mensagem enviada Fechar
Novo curso

R para Ciência de Dados

Domine R para limpeza, transformação e visualização, aplicando análises estatísticas para dar suporte à decisões estratégicas.
7 Estudantes inscritos
  • Descrição
  • Currículo
  • Grade
capa-r4ds-cnj

R para Ciência de Dados

Bem-vindo ao curso de R para Ciência de Dados! Este programa intensivo e prático foi meticulosamente desenhado para capacitá-lo a dominar a linguagem R e seu ecossistema, transformando dados brutos em insights acionáveis e soluções analíticas robustas. Você não apenas aprenderá a manipular, visualizar e modelar dados, mas também a alavancar o poder do R para automatizar processos, integrar diferentes fontes de dados e se destacar como um profissional inovador e indispensável no mercado atual.

Trata-se de um curso 100% gratuito, originalmente desenvolvido para a trilha de Ciência de Dados do Programa Justiça 4.0, fruto da cooperação entre CNJ, PNUD e UFPR, e agora também disponível nesta plataforma pessoal, com autorização expressa, para ampliar seu alcance.

Objetivos do Curso

Ao final deste curso, você será capaz de:

  • Dominar os fundamentos da linguagem R: Compreender a sintaxe, operações básicas, tipos de dados e estruturas atômicas como vetores.
  • Configurar e otimizar seu ambiente de trabalho em R: Realizar a instalação do R e de ambientes de desenvolvimento integrados (IDEs) como o RStudio, além de explorar editores gerais como Emacs e VS Code.
  • Gerenciar dados em diferentes formatos: Importar e exportar dados de arquivos de texto (CSV, TSV, FWF), planilhas eletrônicas (Excel), JSON, HTML e conectar-se a bancos de dados relacionais (SQLite, MySQL) e não relacionais, além de trabalhar com formatos modernos como Feather e Parquet.
  • Realizar a manipulação e arrumação de dados com o Tidyverse: Utilizar pacotes essenciais como tibble para estruturas de dados, readr para importação, tidyr para organização e dplyr para transformações, agregações, filtros, seleções e junções de dados.
  • Criar visualizações de dados impactantes com ggplot2: Construir gráficos estáticos e interativos, compreendendo a gramática dos gráficos e suas camadas (dados, estética, geometria, facetas, estatística, sistema de coordenadas e tema), para análises univariadas, bivariadas e construção de mapas.
  • Implementar estruturas de controle e repetição: Utilizar if-else, switch, for, while e repeat para criar lógicas de programação complexas.
  • Desenvolver funções personalizadas em R: Encapsular tarefas, definir argumentos (com valores padrão), e aplicar boas práticas de programação, incluindo tratamento de exceções.
  • Trabalhar com tipos de dados especiais: Manipular expressões regulares com stringr, variáveis categóricas com forcats e dados de tempo/data com lubridate.
  • Utilizar programação funcional com purrr: Automatizar tarefas e aplicar funções de forma eficiente sobre listas e outras estruturas de dados, evitando loops ineficientes.
  • Aplicar técnicas de modelagem estatística: Realizar testes de hipótese (para médias, variâncias, proporções, associação, aderência, não paramétricos), construir intervalos de confiança, e implementar modelos como Análise de Variância (ANOVA) e Regressão Linear Simples.

Conteúdo Programático

O curso está organizado em unidades didáticas, cada uma abordando tópicos essenciais para o domínio do R para Ciência de Dados, com ênfase em casos práticos e exemplos aplicados:

  • Unidade 1: Conhecendo a Linguagem R

    • Introdução ao R: O que é, história e onde adquirir.
    • Características do R: Linguagem de propósito específico, livre, de código aberto, gratuita, extensível e escalável.
    • Interoperabilidade e multiplataforma.
    • Comunidade e repositórios (CRAN, R Development Core Team).
    • Materiais didáticos e recursos de aprendizado.
    • Configuração do ambiente: Instalação do R e RStudio IDE (Windows e Linux), outros editores (Emacs, VS Code, Tinn-R).
    • Navegação na RStudio IDE: Panéis, menus, atalhos, projetos.
  • Unidade 2: Ambientação ao R

    • Modos de execução: REPL (Read-Eval-Print Loop) e Batch.
    • Instruções e comentários em R.
    • Atribuição de valores e o espaço de trabalho (Global Environment).
    • Ordem de procura e namespaces.
    • Diretório de trabalho (Working Directory).
    • Arquivos da linguagem R: .Rhistory, .RData, .Rproj, .Rprofile.
    • Instalação e uso de pacotes (CRAN e GitHub).
    • Acesso à documentação: help, ?, apropos, help.search, vignettes.
  • Unidade 3: Aritmética Básica e Vetores

    • R como calculadora científica: operações matemáticas (soma, subtração, multiplicação, divisão, potenciação, resto da divisão, raiz, logaritmo, funções trigonométricas, arredondamento).
    • Comparações e operadores lógicos (==, !=, <, <=, >, >=, &, |, !).
    • Valores especiais: NA, NULL, Inf, NaN.
    • Vetores: criação, operação, seleção por índice e nome, modificação de elementos.
    • Classes e métodos de objetos (lógico, inteiro, numérico, caractere, fator, complexo, data).
    • Funções para criar sequências (seq), repetições (rep) e amostras (sample, rnorm, runif).
    • Funções estatísticas descritivas: length, sum, mean, median, sd, var, max, min, quantile.
    • Cartões de referência (cheat sheets) para consulta rápida.
  • Unidade 4: Estruturas de Controle e Funções

    • Estruturas de controle: if-else (desvio condicional) e switch (seleção múltipla).
    • Versões vetoriais das estruturas de controle.
    • Estruturas de repetição: for, while e repeat.
    • Criação de funções: Anatomia, argumentos (formais e atuais), corpo e valor de retorno.
    • Cuidados na implementação de funções: Escolha de nomes, argumentos default, tratamento de exceções (stop, warning, message), modificação de variáveis fora do escopo.
  • Unidade 5: Leitura e Escrita de Dados

    • Importação de arquivos de texto: CSV, TSV, arquivos de comprimento fixo (FWF), entrada padrão (scan).
    • Escrita de arquivos de texto: writeLines, cat, capture.output, sink.
    • Importação de fragmentos e clipboard (readClipboard, dput).
    • Salvando objetos da sessão: .Rdata e .RDS (save, load, save.image).
    • Importação de dados semi-estruturados: JSON (jsonlite) e arquivos chave-valor (DCF).
    • Leitura de tabelas HTML de páginas web (rvest).
    • Importação de planilhas eletrônicas (Excel, Gnumeric, Google Sheets).
    • Conexão a bancos de dados (SQLite, MySQL, PostgreSQL, Oracle, NoSQL).
    • Formatos modernos para Big Data: Feather e Parquet.
  • Unidade 6: Manipulação e Visualização de Dados com Tidyverse – Visão Geral e Tibble/ReadR/Tidyr

    • Motivação para manipulação de dados: O tempo gasto na limpeza e organização de dados.
    • Visão geral do Tidyverse: Coleção de pacotes com filosofia e sintaxe homogêneas (readr, tibble, tidyr, dplyr, ggplot2, forcats, stringr, purrr).
    • Introdução ao tibble: Reimplementação do data.frame com melhorias de visualização e consistência.
    • Importação de dados com readr: Funções de leitura e escrita mais rápidas, parsing de tipos de dados.
    • Arrumação de dados com tidyr: O formato “Tidy” (variáveis em colunas, observações em linhas). Operações de pivotagem (pivot_longer, pivot_wider), preenchimento de NAs (fill, replace_na), separação e união de campos (separate, unite), e trabalho com list-columns (nest, unnest).
    • Alternativas ao Tidyverse: data.table (performance) e sqldf (SQL no R).
  • Unidade 7: Manipulação de Dados com dplyr

    • Visão geral do dplyr: Principais verbos para transformação e exploração de dados tabulares.
    • Operações essenciais: Ordenação (arrange), filtro (filter), e seleção de variáveis (select).
    • Transformações de conteúdo: Criação e modificação de variáveis (mutate).
    • Agregações e resumos: Cálculo de medidas descritivas (summarize), agrupamento (group_by) e contagem (count).
    • Junções de tabelas: inner_join, left_join, full_join, right_join, anti_join, semi_join.
    • Funções de resumo numérico (e.g., describe do Hmisc).
    • Prática coordenada dos verbos do dplyr com estudos de caso.
  • Unidade 8: Visualização de Dados com ggplot2

    • Visão geral dos recursos gráficos no R (Base, Lattice, ggplot2).
    • A lógica da gramática dos gráficos: Camadas (data, aesthetic mappings, geometries, facets, statistics, coordinate systems, theme).
    • Análise univariada (qualitativas/discretas): Gráficos de barras.
    • Análise univariada (quantitativas): Histograma, gráfico de densidade, ECDF.
    • Análise bivariada (qualitativas/discretas): Gráficos de barras empilhadas e lado a lado, gráficos de setores/rosca, facetas.
    • Análise bivariada (quantitativas): Diagrama de dispersão, geom_jitter, geom_density_2d, geom_hex, linhas de tendência (geom_smooth).
    • Análise bivariada (quantitativas e qualitativas): Boxplot, violin plot, dotplot.
    • Customização de temas e cores.
    • Criação de mapas com ggplot2 e geobr.
    • Gráficos interativos (plotly, highcharter, leaflet, rgl, animation).
  • Unidade 9: Tratamento de Dados Especiais e Programação Funcional

    • Expressões regulares com stringr: Detecção, extração, remoção e substituição de padrões de texto.
    • Variáveis categóricas com forcats: Reordenação, rotulagem, recodificação e agrupamento de níveis de fatores.
    • Datas e tempos com lubridate e hms: Conversão, extração de componentes, aritmética de datas e manipulação de fusos horários.
    • Programação funcional com purrr: Família apply no R base, funções map, keep, discard, modify, accumulate, reduce, walk para automação de tarefas e operações em listas.
  • Unidade 10: Modelagem Estatística Básica

    • Introdução à Inferência Estatística: Testes de hipótese e intervalos de confiança.
    • Teste para a média de uma população (Teste T de Student).
    • Teste para diferença de médias (amostras independentes e pareadas).
    • Testes para a variância (uma população e razão de duas variâncias).
    • Testes para proporção.
    • Testes não paramétricos (e.g., Wilcoxon).
    • Testes para tabela de contingência (Qui-quadrado de independência).
    • Testes de aderência (e.g., Kolmogorov-Smirnov).
    • Introdução à modelagem estatística.
    • Análise de Variância (ANOVA) para um fator.
    • Análise de Regressão Linear Simples.

Por que fazer este curso?

  • Ferramenta Incomparável para Análise de Dados: R é, sem dúvida, a melhor ferramenta que você pode utilizar para análise de dados e tudo o que envolve dados em geral. Seu poder para a construção de gráficos é incomparável em relação a outras linguagens.
  • Aberto e Gratuito: R é uma linguagem de programação livre, de código aberto e gratuita, parte do projeto GNU, e multiplataforma (Linux, macOS, Windows, Android).
  • Ampla Adoção e Relevância no Mercado: Muito comum no ambiente acadêmico para ensino de estatística, o R tem sido cada vez mais utilizado no mercado de trabalho por grandes instituições e empresas que reconheceram seu potencial. O R é onde surgem as novidades na parte de modelagem estatística, sendo pioneiro no desenvolvimento de soluções em estatística.
  • Eficiência na Ciência de Dados: Embora a tarefa de limpeza e organização de dados possa ser laboriosa e consumir 60% do tempo de um analista, este curso o capacitará a encurtar esse tempo e tornar a tarefa mais poderosa e prazerosa, utilizando bons frameworks como o Tidyverse.
  • Reprodução e Escalabilidade: As linguagens de programação, como o R, permitem scripts reproduzíveis, extensíveis, escalonáveis, integráveis e portáveis, diferenciando-se de softwares de “arrasta e solta”.
  • Aprender com Qualidade e Facilidade: O R não é uma linguagem difícil de se aprender, e este curso é construído sobre materiais didáticos de excelente qualidade. A linguagem é muito bem documentada, permitindo que você aprenda muito de dentro do próprio R.
  • Instrutor Qualificado: Aprenda com o Prof. Dr. Walmes Zeviani, doutor em Estatística e Experimentação Agropecuária, professor universitário desde 2010 e experiente programador R, que ministra cursos desde 2008 e é um dos grandes responsáveis pela ampla adoção do R no ensino de estatística no Brasil.

Prof. Dr. Walmes Zeviani

Prof. Walmes Zeviani possui doutorado em Estatística e Experimentação Agropecuária, foi professor do Departamento de Estatística da UFPR de 2010 a 2024. Hoje é professor da Faculdade de Ciências Agrárias da UFGD. Além de ser um experiente programador R, conta com ampla experiência no ensino de Estatística e Data Science, já ministrou inúmeros cursos de R em diversas instituições de ensino e pesquisa desde 2008. Com sua paixão pelo ensino, ele está pronto para guiar você em sua jornada de aprendizado em Ciência de Dados com a linguagem R!

 

Considerações Finais e Aprendizado Contínuo
Grade details
Curso:
Estudante:
Enrollment date:
Course completion date:
Grade:
Grade Points
Grade Range
Exams:
Sign in to account to see your Grade