Leyendo grandes conjuntos de datos
Ver el video de esta sección:
Cuándo trabajemos con grandes volúmenes de datos, podemos hacer una serie de cosas que harán nuestra vida más fácil y prevendrán que R se ahogue.
- Leer la página de ayuda de la función read.table, la cual contiene muchas pistas.
- Realizar un cálculo aproximado de la cantidad necesaria de memoria que necesitan nuestro conjunto de datos (véase la siguiente sección para un ejemplo).
- Poner comment.char = "" si no existen líneas de comentario en nuestro archivo.
- Usar el argumento colClasses.
Una manera de comprobar la clase de cada columna es la siguiente:
> initial <- read.table("datatable.txt", nrows = 100) ## ponemos nrows para un mejor uso de memoria
> classes <- sapply(initial, class)
> tabAll <- read.table("datatable.txt", colClasses = classes)
En general, cuándo utilizamos R con grandes volúmenes de datos, es útil conocer una serie de cosas sobre nuestro ordenador.
- La cantidad de memoria.
- Otras aplicaciones que estén en uso. En la medida de lo posible intentar cerrar las que podamos.
- En sistemas multiusuarios, tener en cuenta la cantidad de usuarias conectados.
- El sistema operativo que utilizamos.