Organización Filogenética de las Lenguas del Mundo

Proyecto

lenguas

Desde hace varios años (desde el 2002, por lo menos) que el tema de crear una organización cómoda para la filiación de las familias lingüísticas me parece interesante y algo que deseo hacer. Esta es la principal motivación para la creación: el deseo. También lo podíamos llamar intención, aunque intención estaría más relacionado con la forma deseada de continente del contenido deseado. El deseo es el germen, el leit motiv, lo primordial para comenzar algo.

Lo primero fue la curiosidad: ¿Cuál era el origen del euskera? Así como existían teorías para decir que el castellano procede, más o menos directa o indirectamente, del latín, no hay una respuesta a esa pregunta y es algo que me picaba la curiosidad. Me gusta esta expresión que, gráficamente, refleja muy bien esa sensación de desazón que implica que hay que rascarse aunque no sirva para nada.

Inicialmente, me planteé buscar una estructura filogenética de todas las lenguas que hay (y ha habido) en el mundo. Ahí es nada. Por supuesto, no se trata tanto de demostrar que esa estructura es la correcta, que tal o cual lengua deriva realmente de tal o cual otra. Eso es algo que, con mucho, me desborda, sino que se trata tan solo de organizar la información que existe distribuida en distintas fuentes (en ocasiones muy escasas) para poder presentarla de muy diversas maneras. No pretende ser un trabajo de investigación pura, sino más bien de recopilación y reordenación de información disponible (en ocasiones, en formatos ya de por sí muy interesantes).

Información adicional del proyecto que he ido vertiendo en el diario.

Organización Filogenética de las Lenguas del Mundo

Objetivo

lenguas

El primer objetivo del Proyecto, inicialmente, es el de llenar el contenido del árbol filogenético que albergará información de unas 10.000 lenguas. Organizadas de manera sistemática, almacenando el mismo tipo de información por cada una de ellas. Así como de las distintas ramas, subgrupos y otras entidades lingüísticas semejantes.

Sobre la clasificación que adopto a lo largo del proyecto, decir que es una variante de las diferentes versiones que voy encontrando y que en muchas ocasiones no son idénticas dada la dificultad para establecer, en muchos casos, una línea de filogénesis probada. Además, hago aparecer una agrupación superior a la Familia Lingüística que entronca con la idea de la dispersión geográfica y, por tanto, elijo una primera subdivisión en bloques continentales que no es puramente lingüística.

Información por cada lengua

De cada lengua, recopilo información estructurada según la plantilla que ha de satisfacerse para todas ellas, aun sabiendo que no siempre será posible encontrar la información de las distintas categorías que la forman (historia, datos de hablantes, mapas, gramática, escritura y patrocinio).

  • En Referencias podemos ver datos técnicos sobre la codificación de la lengua en otros sistemas de organización lingüística. He optado por adoptar el ISO-639-3, propuesto por SIL (Consultar Bibliografía). También hay enlaces a estos sistemas (Ethnologue y SIL) cuando estén disponibles. Información como la de si se trata de una lengua extinta, viva, o de las denominadas macrolenguas, para poder aproximarse a situaciones difíciles de clasificar.

  • La categoría de Historia y Mapas tienen una división en tres momentos temporales distintos para cada lengua y cuya frontera es arbitraria. En la categoría de Mapas, albergo un atributo (geodata) utilizable para guardar información geofísica que pueda ser usada en el futuro lejano para mostrar un mapa dinámico en el que se observe el desplazamiento en tres posiciones (puede que, en algún caso mejor documentado, haya más posiciones) del área de expansión de esa lengua.

    Los mapas se nombran mediante un código SIL (de Referencia) acompañado de un número que indica el orden cronológico del mismo y se guardan en la carpeta correspondiente a: BloqueContinental/FamiliaLingüística/Rama/Grupo/[Subgrupo/]mapa_SIL_T.jpg (Familia, Rama, Grupo y, eventualmente, subgrupo no llevan una codificación estandarizada, sino verbal o coloquial)

  • La información sobre la gramática de la lengua ha sido dividida en tres áreas más o menos bien delimitadas (Fonología, Morfosintaxis y Léxico-Semántica)

    • Fonología: Rama de la lingüística que estudia los elementos fónicos, atendiendo a su valor distintivo y funcional.
    • Morfosintaxis. Ling. Parte de la gramática que integra la morfología y la sintaxis. La morfosintaxis se refiere al conjunto de elementos y reglas que permiten construir oraciones con sentido y carentes de ambigüedad mediante el marcaje de relaciones gramaticales, concordancias, indexaciones y estructura jerárquica de constituyentes sintácticos.
    • Léxico, ca. m. Vocabulario, conjunto de las palabras de un idioma, o de las que pertenecen al uso de una región, a una actividad determinada, a un campo semántico dado, etc.
    • Semántico, ca. 1. adj. Perteneciente o relativo a la significación de las palabras. 2. f. Estudio del significado de los signos lingüísticos y de sus combinaciones, desde un punto de vista sincrónico o diacrónico. La semántica lingüística es un subcampo de la semántica general y de la lingüística que estudia la codificación del significado dentro de las expresiones lingüísticas. Etimológicamente el término viene del griego semantikos, que quería decir 'significado relevante', derivada de sema, 'signo'.
  • En cuanto a material escrito de las lenguas (las que tienen escritura) se aporta información básica sobre el alfabeto que utilizan (hacer una clasificación, quizá también filogenética, de los alfabetos sería otro trabajo que no abordo en esta ocasión) o si han utilizado varios a lo largo de su historia, atestiguo o recojo textos relevantes de esa lengua y, por último, los números del 1 al 10 cuando sea posible.

Organización Filogenética de las Lenguas del Mundo

Herramients

lenguas

Comencé haciendo un trabajo de recolección de información con el Investigador de Encarta de Microsoft, pero desde hace tres años era un formato que me parecía peligroso por su enorme dependencia de un programa del que no tenía, ni siquiera, una licencia válida. Los ficheros que generaba Encarta tenían una extensión ERP y un formato propietario que no podía abrir con ningún otro software, así que cuando me cambié a Ubuntu definitivamente (creo que en mayo del 2010), me encontré con que no podía seguir porque no podía usarlo en Linux. Lo tengo instalado en una máquina virtual con Windows XP para poder abrir aquellos ficheros, pero el investigador dejó de funcionar hace unos meses con una de las últimas actualizaciones de Internet Explorer. Pero ni siquiera me di cuenta. Tuve que instalar otra máquina virtual para hacerla vivir como en el 2005, con XP, Office 2000, IE 5.5 y logré, pero no del todo, recuperar algo de aquellos ficheros en los que invertí un gran número de horas de trabajo.

Yo seguía buscando una aplicación opensource que hiciese algo parecido a lo que me permitía hacer el investigador de encarta, pero no encontraba ninguna. Además, quería y le pedía que fuese ligero, pudiese exportar su resultado en diversos formatos, entre otros, HTML dinámico, XML y, por supuesto, también ODT (para fabricar un subproducto libro disponible online en cuanto tenga un avance significativo).

A principios de diciembre de 2011, encontré, casualmente, un programa llamado FreeMind que hacía exactamente lo que deseo. Ya solo tengo que preocuparme por llenar el contenido del árbol filogenético que albergará información de unas 10.000 lenguas.