Y este, amigos, es el motivo por el que necesitamos supercomputadores (y ni aun con esas)
Vuelvo al trabajo y me encuentro con que todos los rsync al servidor me petan. Vamos a ver.
Para que os hagáis una idea, estoy trabajando con un subconjunto mínimo (menos del 1 por mil) del genoma humano, de los cuales escojo una serie de descriptores numéricos que luego he de analizar, buscando correlaciones y posibles formas para agruparlos “a ciegas”.
Yo sabía que estaba trabajando con un huevo de ficheros, pero como lo gestiono todo con scripts, tampoco me había molestado nunca en mirar cuántos hay. Hasta hoy, claro. Al ver que petaba el rsync, he supuesto que quizá había demasiados ficheros, y o bien era un problema del NFS o del propio rsync, que no puede gestionar una lista tan grande.
Podría decirse que mi ordenador es bastante potente para ser una workstation, y tengo el linux más o menos optimizado. Pero, ¿quién le iba a decir a Hans Reiser que yo iba a poner al límite su sistema de ficheros?
Un ejemplo: dos carpetas de datos, de las varias que tengo en el ordenador.
Sí, son carpetas que contienen millones de ficheros
Y este es el motivo por el que algunos cálculos no se pueden realizar en un computador, ni en mil millones de Marenostrums. Si ya es difícil descubrir algunos modelos de datos, peor es no poderlos aplicar por falta de potencia de cálculo.
Es como vivir en otro mundo; uno cree que Linux es lo más avanzado técnicamente, y se pregunta por qué la gente paga para usar Oracles, SGIs y cosas así. Luego te encuentras con cosas como esta, y se te caen los cojoncillos al suelo.
Si aún no entendéis la magnitud del problema, intentad cruzar un millón de ficheros, todos contra todos. No un millón de elementos, sino un millón de ficheros de cien elementos cada uno. ¿Ya? Bien; ahora tened en cuenta que este proyecto usa sólo la milésima parte del genoma humano y sólo un subconjunto de descriptores disponibles. Y esto es el trabajo de UNA persona. Multiplicadlo por unas cincuenta personas que hay en el laboratorio. Uuuuuffff… y sólo hablo de mi oficina.
Gente de arquitectura de computadores, ponéos las pilas e inventad algo nuevo, como escalabilidad para millones de máquinas en O(1) ;)

no os paséis mucho si digo alguna barbaridad, pero ¿no fue para este tipo de cosas por lo que se invento el modelo entidad relación y las bases de datos? A ver si alguien que sepa del tema me corrige si me equivoco.
yomismo: Una base de datos sirve cuando tienes registros del tipo (clave, valor), pero no cuando has de trabajar con matrices de datos.
Además, solucionaría el problema del número de ficheros, y quizá iría ligeramente más rápido (aunque no para lo que yo lo uso), pero mi intención era mostrar el problema del volumen de datos que manejamos actualmente, y que no hace más que crecer.
Lo que no entiendo es ¿qué tiene que ver oracle con linux?
No pienso que todos los que usemos linux creamos que es lo mas avanzado y todo terreno que existe.
Seamos realistas, es un sistema operativo de escritorio, servidores y para algunas tareas avanzadas de investigacion. Pero imagino que nadie pensaria en ponerle Ubuntu 8.10 con Kde 4.2 y soporte para ext4 a la nave Orion.
Pues que yo, en mi ignorancia, pensaba que Linux lo podía todo, y no entendía por qué las empresas se gastaban dinero en productos carísimos. Pero ahora entiendo que, para determinados volúmenes de datos y determinados procesos, por desgracia no da la talla.
No es una crítica ni nada parecido; sólo es una reflexión.
@todopardo: Gracias por la aclaración, ahora veo la diferencia.
Una herramienta siempre está limitada: por el que la crea y por el que la usa.
También es una reflexión, que a mi siempre me pasa lo segundo ;-)
El problema es del sistema de ficheros, que no funciona bien con tantos archivos, ¿es así?.
Tal vez iría mejor con otro sistema de archivos como ZFS (disponible en Solaris, y creado por Sun). ZFS prácticamente no tiene límites.
Como Jorge opino que es un problema del sistema de ficheros. Creo recordar que había sistemas de ficheros más apropiados para muchos (muchísimos) ficheros de pequeño tamaño. Pero como no soy un experto en el tema no me acuerdo de cuál era.
De todas maneras pues nada es perfecto y Linux tampoco.
Si es cierto que es un problema del sistema de ficheros, el sistema de ficheros de nueva generación btrfs ha sido ya incluído en la rama principal de linux (2.6.29)
Para saber más: http://www.phoronix.com/scan.php?page=news_item&px=Njk4Mw
Y ntfs no te servira…… XD
[...] raíz de este interesante post de Topopardo, he descubierto que los sistemas de archivos que utilizamos diariamente se nos están quedando [...]