Summarise
La función summarise() funciona de forma análoga a la función mutate, excepto que en lugar de añadir nuevas columnas crea un nuevo data frame.
Así por ejemplo, ara calcular la mediana y la varianza de la variable amount en el conjunto de datos pollution:
Echemos un vistazo al data frame pollution:
pollution
## city size amount
## 1 New York large 23
## 2 New York small 14
## 3 London large 22
## 4 London small 16
## 5 Beijing large 121
## 6 Beijing small 56
Para obtener un resumen con la mediana y la varianza de la variable amount podemos hacer lo siguiente:
summarise(pollution, mediana = median(amount), variance = var(amount))
## mediana variance
## 1 22.5 1731.6
Podemos utilizar el operador %>%,
pollution %>% summarise(mediana = median(amount), variance = var(amount))
## mediana variance
## 1 22.5 1731.6
Obsérvese que las dos formas de hacerlo devuelven el mismo resultado.
A continuación se muestran funciones que trabajando conjuntamente con la función summarise() facilitarán nuestro trabajo diario. Las primeras pertenecen al paquete base y las otras son del paquete dplyr. Todas ellas toman como argumento un vector y devuelven un único resultado.
base | |
---|---|
min(), max() | Valores max y min |
mean() | media |
median() | mediana |
sum() | suma de los valores |
var, sd() | varianza y desviación típica |
dplyr | |
---|---|
first() | primer valor en un vector |
last() | el último valor en un vector |
n() | el número de valores en un vector |
n_distinct() | el número de valores distintos en un vector |
nth() | Extrar el valor que ocupa la posición n en un vector |