Conociendo dplyr

Vamos a trabajar con los datos de las características físicas de pinguinos que están en el paquete palmerpenguins. El paquete se puede instalar con install.packages("palmerpenguins"). Toda la documentación sobre estos datos está acá. El paquete fue desarrollado por Allison Horst, Alison Hill, Kristen Gorman. En particular, Allison Horst es la responsable de los dibujos de los pinguinos y de hacer un gran tutorial de dplyr usando este dataset.

El objetivo de estos ejercicios es familiarizarse con las siguientes funciones de dplyr:

Pueden cargar la librería tidyverse completa (library(tidyverse)) pero por ahora sólo vamos a usar funciones del paquete dplyr.

require(palmerpenguins)
require(dplyr)
1

Usar filter() para crear un subconjunto de datos que contenga sólo pinguinos de la isla Biscoe y que tengan un pico de 48 mm de largo o más.

2

Crear otro dataset con la información de pinguinos Adelie machos que no hayan sido vistos en el año 2008.

3

Del dataset penguins quedarse con todas las variables excepto year, sex y body_mass_g.

4

Crear un subconjunto de los datos de penguins sólo con las obsevaciones de pinguinos machos con aletas de más de 200 mm de largo y quedarse con todas las columnas que terminan con “mm”. (usar la función ends_with()).

5

Empezando con penguins, hacer un pipe (%>%) que:

  • se quede sólo con las observaciones de la isla Dream.
  • se quede con las variables species y todas las que empiece con bill.
6

Mover todas las variables factor después de las columnas integer. Se puede usar relocate() junto con is.integer y is.factor.

7

Convertir todas las variables que empiezan con bill a mayúsculas.

penguins %>%
  rename_with(____, starts_with("____"))
8

Empezando con penguins hacer lo siguiente con un único llamado a la función mutate():

  • Convertir la variable species a character.
  • Crear una nueva variable que tenga el peso en Kg.
  • Convertir la variable island a minúscula.
9

Empezando con penguins crear una tabla resumen que contenga para el largo mínimo y máximo de las aletas de los pinguinos chinstrap, agrupados por isla.

10

Empezando con penguins, agrupar los datos por especie y año, luego crear una tabla de resumen que contenga el ancho del pico (llamarla bill_depth_mean) y el largo del pico (llamarla bill_length_mean) para cada grupo

penguins %>%
  group_by(_____, _____) %>%
  summarize(
    _________ = mean(______, na.rm = TRUE),
    _________ = mean(______, na.rm = TRUE)
  )
11

Empezando con penguins, hacer una secuencia de operaciones %>% que:

  • Agregue una nueva columna llamada bill_ratio que sea el cociente entre el largo y el ancho del pico.
  • Quedarse sólo con las columnas species y bill_ratio.
  • Agrupar los datos por especie.
  • Crear una tabla de resumen que contenga el promedio de la variable bill_ratio por especie y que el nombre de la columna en la tabla sea bill_ratio_mean)
penguins %>%
  mutate(bill_ratio = ______ / ______) %>%
  select(______, ______) %>%
  group_by(______) %>%
  summarize(______ = mean(______, na.rm = TRUE))
12

Empezando con penguins, agrupar los datos por isla y después usar across() para encontrar la mediana de los grupos para todas las columnas que contengan el string “mm”. El nombre de las variables tiene que ser el nombre original seguido de un guión bajo y la palabra “median” (o sea, nombredelacolumna_median)

penguins %>%
  group_by(______) %>%
  summarize(across(contains("______"),
                   median,
                   na.rm = TRUE,
                   .names = "_______")
            )
13

Empezando con penguins, quedarse con las observaciones correspondientes a los pinguinos Adelie y luego usar across() para encontrar el valor máximo de todas las variables numéricas para cada isla.

penguins %>%
  filter(species == "______") %>%
  group_by(______) %>%
  summarize(across(where(_____), _____, na.rm = TRUE))
14

Empezando con penguins, escribir una secuencia de operaciones %>% que:

  • Excluya a los pinguinos observados en la isla Biscoe.
  • Sólo se quede con las variables que están entre species y body_mass_g inclusive.
  • Renombrar la variable species a especie_pinguino.
  • Agrupar los datos por la variable especie_pinguino.
  • Encontrar el valor medio de las variables que contienen el string “length”, separando por la especie del pinguino, y llamando a las columnas como las originales pero agregando "_mean" al final.
penguins %>%
  filter(island != "_____") %>%
  select(_____:_____) %>%
  rename(_____ = _____) %>%
  group_by(_____) %>%
  summarize(across(contains("_____"), mean, na.rm = TRUE, .names = "{.col}_avg"))
15

Empezando con penguins, contar cuántas observaciones hay por especie, isla y año.

16

Empezando con penguins, quedarse sólo con los pinguinos Adelie y gentoo penguins. Luego contar cuántos hay por cada especie y sexo.

17

Agregar una nueva columna a la base de datos llamada campaña que contenga:

  • “c1” si el año 2007
  • “c2” si el año 2008
  • “c3” si el año 2009
18

Empezando con penguins quedarse sólo con las observaciones correspondientes a pinguinos chinstrap. Luego, quedarse sólo con las variables flipper_length_mm y body_mass_g. Agregar una nueva columna llamada fm_ratio que contenga el cociente entre el largo de la aleta y el peso del pinguino. Luego agregar otra columna llamada ratio_bin que contenga la palabra “alto” si fm_ratio es mayor o igual que 0.05, “bajo” si el cociente es menor que 0.05 y “no hay registro” en cualquier otro caso (como por ejemplo si el cociente es un NA)

penguins %>%
  filter(species == "_____") %>%
  select(_____, _____) %>%
  mutate(fm_ratio = _____ / _____) %>%
  mutate(ratio_bin = case_when(
    fm_ratio >= 0.05 ~ "_____",
    fm_ratio < 0.05 ~ "_____",
    TRUE ~ "_____"
  ))