Conociendo dplyr
Vamos a trabajar con los datos de las características físicas de pinguinos que están en el paquete palmerpenguins
. El paquete se puede instalar con install.packages("palmerpenguins")
. Toda la documentación sobre estos datos está acá. El paquete fue desarrollado por Allison Horst, Alison Hill, Kristen Gorman. En particular, Allison Horst es la responsable de los dibujos de los pinguinos y de hacer un gran tutorial de dplyr usando este dataset.
El objetivo de estos ejercicios es familiarizarse con las siguientes funciones de dplyr
:
filter()
: quedarse con las filas que satisfacen ciertas condiciones.
select()
: quedarse o excluir algunas columnas del dataset.
relocate
()`: mover columnas de lugar.
rename
()`: renombrar columnas.
mutate()
: crear una nueva variable (columna) operando con las demás.
group_by()
+ summarize()
: obtener medidas resumen de los datos por grupos.
across()
: aplicar una función a varias columnas.
count()
: contar rápidamente cuántas observaciones hay por grupo.
case_when()
: una forma de hacer “if-else”.
Pueden cargar la librería tidyverse
completa (library(tidyverse)
) pero por ahora sólo vamos a usar funciones del paquete dplyr
.
require(palmerpenguins)
require(dplyr)
1
Usar filter()
para crear un subconjunto de datos que contenga sólo pinguinos de la isla Biscoe y que tengan un pico de 48 mm de largo o más.
2
Crear otro dataset con la información de pinguinos Adelie machos que no hayan sido vistos en el año 2008.
3
Del dataset penguins
quedarse con todas las variables excepto year
, sex
y body_mass_g
.
4
Crear un subconjunto de los datos de penguins
sólo con las obsevaciones de pinguinos machos con aletas de más de 200 mm de largo y quedarse con todas las columnas que terminan con “mm”. (usar la función ends_with()
).
5
Empezando con penguins
, hacer un pipe
(%>%
) que:
- se quede sólo con las observaciones de la isla Dream.
- se quede con las variables
species
y todas las que empiece con bill
.
6
Mover todas las variables factor
después de las columnas integer
. Se puede usar relocate()
junto con is.integer
y is.factor
.
7
Convertir todas las variables que empiezan con bill
a mayúsculas.
penguins %>%
rename_with(____, starts_with("____"))
8
Empezando con penguins
hacer lo siguiente con un único llamado a la función mutate()
:
- Convertir la variable
species
a character
.
- Crear una nueva variable que tenga el peso en Kg.
- Convertir la variable
island
a minúscula.
9
Empezando con penguins
crear una tabla resumen que contenga para el largo mínimo y máximo de las aletas de los pinguinos chinstrap, agrupados por isla.
10
Empezando con penguins
, agrupar los datos por especie y año, luego crear una tabla de resumen que contenga el ancho del pico (llamarla bill_depth_mean
) y el largo del pico (llamarla bill_length_mean
) para cada grupo
penguins %>%
group_by(_____, _____) %>%
summarize(
_________ = mean(______, na.rm = TRUE),
_________ = mean(______, na.rm = TRUE)
)
11
Empezando con penguins
, hacer una secuencia de operaciones %>%
que:
- Agregue una nueva columna llamada
bill_ratio
que sea el cociente entre el largo y el ancho del pico.
- Quedarse sólo con las columnas
species
y bill_ratio
.
- Agrupar los datos por especie.
- Crear una tabla de resumen que contenga el promedio de la variable
bill_ratio
por especie y que el nombre de la columna en la tabla sea bill_ratio_mean
)
penguins %>%
mutate(bill_ratio = ______ / ______) %>%
select(______, ______) %>%
group_by(______) %>%
summarize(______ = mean(______, na.rm = TRUE))
12
Empezando con penguins
, agrupar los datos por isla y después usar across()
para encontrar la mediana de los grupos para todas las columnas que contengan el string “mm”. El nombre de las variables tiene que ser el nombre original seguido de un guión bajo y la palabra “median” (o sea, nombredelacolumna_median
)
penguins %>%
group_by(______) %>%
summarize(across(contains("______"),
median,
na.rm = TRUE,
.names = "_______")
)
13
Empezando con penguins
, quedarse con las observaciones correspondientes a los pinguinos Adelie y luego usar across()
para encontrar el valor máximo de todas las variables numéricas para cada isla.
penguins %>%
filter(species == "______") %>%
group_by(______) %>%
summarize(across(where(_____), _____, na.rm = TRUE))
14
Empezando con penguins
, escribir una secuencia de operaciones %>%
que:
- Excluya a los pinguinos observados en la isla Biscoe.
- Sólo se quede con las variables que están entre
species
y body_mass_g
inclusive.
- Renombrar la variable
species
a especie_pinguino
.
- Agrupar los datos por la variable
especie_pinguino
.
- Encontrar el valor medio de las variables que contienen el string “length”, separando por la especie del pinguino, y llamando a las columnas como las originales pero agregando "_mean" al final.
penguins %>%
filter(island != "_____") %>%
select(_____:_____) %>%
rename(_____ = _____) %>%
group_by(_____) %>%
summarize(across(contains("_____"), mean, na.rm = TRUE, .names = "{.col}_avg"))
15
Empezando con penguins
, contar cuántas observaciones hay por especie, isla y año.
16
Empezando con penguins
, quedarse sólo con los pinguinos Adelie y gentoo penguins. Luego contar cuántos hay por cada especie y sexo.
17
Agregar una nueva columna a la base de datos llamada campaña
que contenga:
- “c1” si el año 2007
- “c2” si el año 2008
- “c3” si el año 2009
18
Empezando con penguins
quedarse sólo con las observaciones correspondientes a pinguinos chinstrap. Luego, quedarse sólo con las variables flipper_length_mm
y body_mass_g
. Agregar una nueva columna llamada fm_ratio
que contenga el cociente entre el largo de la aleta y el peso del pinguino. Luego agregar otra columna llamada ratio_bin
que contenga la palabra “alto” si fm_ratio
es mayor o igual que 0.05, “bajo” si el cociente es menor que 0.05 y “no hay registro” en cualquier otro caso (como por ejemplo si el cociente es un NA)
penguins %>%
filter(species == "_____") %>%
select(_____, _____) %>%
mutate(fm_ratio = _____ / _____) %>%
mutate(ratio_bin = case_when(
fm_ratio >= 0.05 ~ "_____",
fm_ratio < 0.05 ~ "_____",
TRUE ~ "_____"
))
