Leyendo grandes conjuntos de datos

Ver el video de esta sección:

Cuándo trabajemos con grandes volúmenes de datos, podemos hacer una serie de cosas que harán nuestra vida más fácil y prevendrán que R se ahogue.

  • Leer la página de ayuda de la función read.table, la cual contiene muchas pistas.
  • Realizar un cálculo aproximado de la cantidad necesaria de memoria que necesitan nuestro conjunto de datos (véase la siguiente sección para un ejemplo).
  • Poner comment.char = "" si no existen líneas de comentario en nuestro archivo.
  • Usar el argumento colClasses.

Una manera de comprobar la clase de cada columna es la siguiente:

> initial <- read.table("datatable.txt", nrows = 100) ## ponemos nrows para un mejor uso de memoria
> classes <- sapply(initial, class)
> tabAll <- read.table("datatable.txt", colClasses = classes)

En general, cuándo utilizamos R con grandes volúmenes de datos, es útil conocer una serie de cosas sobre nuestro ordenador.

  • La cantidad de memoria.
  • Otras aplicaciones que estén en uso. En la medida de lo posible intentar cerrar las que podamos.
  • En sistemas multiusuarios, tener en cuenta la cantidad de usuarias conectados.
  • El sistema operativo que utilizamos.