No sé juntar palabras

sé unir palabras
sé yuxtaponer palabras
sé unificar palabras
sé vincular palabras
sé relacionar palabras
sé anexar palabras
sé reunir palabras
sé aunar palabras
sé acoplar palabras
sé enlazar palabras
sé trabar palabras
sé atar (mal) palabras
sé machihembrar palabras
sé ensamblar palabras
sé amalgamar palabras
sé combinar palabras
sé compilar palabras
sé acopiar palabras
sé aglomerar palabras
sé conglomerar palabras
sé amontonar palabras
sé almacenar palabras
sé congregar palabras
sé concitar palabras
sé entornar palabras
sé acercar (íntimamente) palabras
sé arrimar palabras
sé aproximar palabras
sé aliar palabras
sé conectar palabras
sé fundir y confundir palabras
sé unificar palabras
sé maridar (sin vino) palabras
sé ligar palabras
sé mezclar palabras
sé agregar (unas a otras) palabras
sé añadir (unas a otras) palabras
sé sumar palabras
sé incorporar palabras
sé federar y confederar palabras
sé copular palabras
sé casar palabras
sé marcar palabras
sé ser silencio

sin palabras

Nosotros, tras

En el diccionario de la RAE, el que también se denomina DLE, resulta que están haciendo algunos cambios que creen que resultan más «inclusivos» o que dejan de privilegiar en exclusiva al género masculino gramatical, pero los que están haciendo apenas se notan, salvo en problemáticas como la que me está haciendo repasar errores que no son tales, sino entradas que no se encuentran porque se han decidido migrar a sus correspondientes «femeninas».

Así, por ejemplo, «nosotros» no se encuentra en la URL del diccionario de la RAE sino como una de las formas de «nosotras», que sí se encuentra.

https://dle.rae.es/nosotras?m=form

Pero lo absurdo es que, queriendo haber sido más precisos, no hagan de una vez el cambio que desde el punto de vista de diccionario sí que correspondería hacer, es decir, que la definición sea la de la palabra «nosotras, tros» y no «nosotros, tras», amén de ubicarla en su posición correspondiente acorde a esa modificación.

Por otro lado, no alcanzo a entender porqué el criterio de AS/OS no se impone a lo largo de todo el DLE y así, abitrariamente, podemos encontrar que otras palabras privilegian la forma masculina también en la construcción de la URL.

Por ejemplo, «nubio, bia», está en el género gramatical masculino en la URL sin ningún atisbo de irse a cambiar: https://dle.rae.es/nubio
mientras «nubia» es una forma de «nubio»…

O incluso «nuestro», que aún está más cerca de ese «nosotros», no ha de cambiar su URL https://dle.rae.es/nuestro a https://dle.rae.es/nuestra por ninguna razón, parece ser.

Postureo, postureo… y poco más.

Cero enjundia.

Marujo o Maruja

Sigo repasando los errores que cometí durante la transcripción de las palabras del diccionario, lo que ha de hacerse error a error a lo largo de las más de 1000 palabras que no fueron detectadas por el programa que hice para descargar de la web de la RAE las definiciones.

Muchas de ellas simplemente no es que sean errores, sino cambios en el criterio de archivo online, así, por ejemplo, «LOS» ahora es «LAS» y no la encuentra (mi programita), pero está en el diccionario y no es ningún error.

Tampoco lo era maruja que hasta la XXIII edición no contemplaba el masculino y que, sin embargo, en esta XXIV edición (que es contra la que estoy revisando esa lista de palabras que yo tecleé a partir del diccionario en papel conteniendo la vigésimo tercera) aparece bajo «marujo«, aunque la definición en poco o nada ha cambiado y sigue siendo una de esas palabras que demuestran que el machismo está impregnado en lo más hondo que tenemos, que es el lenguaje:

marujo, ja Hipocorístico del n. p. María.

1. f. despect. coloq. Esp. Mujer que se dedica solo a las tareas domésticas y a la que suele asociarse a ciertos tópicos como el chismorreo, la dependencia excesiva de la televisión, etc. U. t. c. adj.

2. m. irón. coloq. Esp. Hombre que actúa como una maruja (? mujer que se dedica solo a las tareas del hogar). U. t. c. adj.

3. m. y f. despect. coloq. Esp. Persona chismosa. U. m. c. adj.

4. adj. despect. coloq. Esp. Propio o característico de las marujas o de los marujos.

No hay por dónde arreglar esto en el diccionario y que hayan cambiado de «maruja» a «marujo» la entrada correspondiente no es algo que considere ni mínimamente inclusivo.

Otras palabras en esta pequeña aventura de definiciones poco simétricas desde el punto de vista del género son:

manijero. Tb. manigero.

Del fr. ant. maisnagier.

1. m. Capataz de una cuadrilla de trabajadores del campo.

2. m. Hombre encargado de contratar obreros para ciertas faenas del campo.

De esto, obviamente, no se encarga una mujer, así que no es necesaria manijera.

O la poco usada:

lembario. De lembo.

1. m. Soldado que combatía a bordo de los bajeles.

No existían ni podían existir lembarias, parece ser.

Albendera ha dejado de existir

Estoy repasando los más de 1000 errores tipográficos que cometí durante la transcripción del diccionario de la RAE para el proyecto del diccionario personal de Isidoro Valcárcel Medina, pero me encuentro con que, además de los errores mencionados, ha habido desde entonces a hoy algunos cambios en la versión del DLE, como por ejemplo el de esta palabra que en la anterior edición (la vigésimo tercera), no existía con género masculino en ninguna de las acepciones, siendo así que «albandera» ha dejado de existir independientemente, para ser «albandero, ra», lo que no deja de ser un raro signo de error de ordenación alfabética, pues debiera ser «albandera, ro» y no tanto por una cuestión de visibilización, sino por el hecho de que en igualdad de condiciones, el diccionario se organiza tan sólo por orden frío y calculado de orden de letras… pero no parece ser el caso.

albendero, ra
1. m. y f. Persona que tejía o hacía albendas. 2. f. p. us. Mujer callejera y ociosa.

Por cierto, si un hombre es callejero y ocioso no tiene acepción que lo contemple.

Esto forma parte del proyecto para capturar todas aquellas palabras que contengan la expresión «mujer que» u «hombre que», como cocinillas, que anteriormente (en pasadas ediciones) era «hombre que se mete a cosas que no le corresponden», básicamente.

Cierto desconcierto

abierto, ta/ acierto/ aliabierto, ta/ boquiabierto, ta/ cierto, ta/ concierto/ corniabierto, ta/ cubierto/ desacierto/ desconcierto/ descubierto, ta/ desierto, ta/ despierto, ta/ dispierto, ta/ encubierto, ta/ entreabierto/ incierto, ta/ macroconcierto/ maniabierto, ta/ patiabierto, ta/ perniabierto, ta/ piernabierto, ta/ reabierto, ta/ recubierto, ta/ redescubierto, ta/ semiabierto, ta

El otro día en un taller de poesía alguien usó la palabra «descubierto» y me quedé con ganas de pasarle las palabras en el DLE que terminasen en «bierto», pero eran realmente pocas, así que me decidí por una búsqueda de aquellas que terminan en «ierto» que son unas pocas más: 26.

Ahí están.

Dictionary of the Spanish language Text Analysis

El 20 de agosto de este «peculiar» 2020 recibí un simpático correo electrónico de un hombre llamado «Germán Andrés Segura Tinoco» que me decía:

Buscando en Internet, encontré en su website el diccionario de la RAE en modo texto plano, el cual me pareció genial y quisiera usarlo en un proyecto personal (sin fines de lucro) y publicar el resultado en mi GitHub, en donde tengo mis proyectos de informática públicos.

Por lo tanto, quería preguntarle, ¿cuál es la forma correcta de citarlo o de darle agradecimientos?

No es la primera vez que me pasa algo así desde que realicé el trabajo de recopilar todas las palabras (tecleándolas) del diccionario de la RAE para aquel, lejano ya, proyecto de Isidoro Valcárcel Medina. Sin ir más lejos, el año pasado una persona desde Chile me decía que lo estaba usando para «enseñar a hablar» a una máquina. Así como la gran colaboración que realicé dentro del interesantísimo proyecto de Marta PCampos 1914-2014 sobre las palabras que habían desaparecido del diccionario en esos 100 años. Su precioso trabajo que yo denomino «Palabras Muertas».

Yo le respondí cortésmente con un email ese mismo día diciéndole:

Por supuesto eres libre de usarlo en un proyecto personal sin ánimo de lucro o, incluso, remunerado. Son las palabras de la RAE… es decir, de todos, que yo tan sólo he tecleado (ante la imposibilidad de conseguir una versión digital).

Puedes citarme como te dé la gana, pero agradecería que citases mi nombre y website:
Giusseppe Domínguez https://www.giusseppe.net

Te envío, no obstante, una entrada del blog con una versión lo más actualizada posible (en Mega) y no me responsabilizo de posibles errores… que voy corrigiendo, pero que seguro que alguna quedará. Si necesitas algún tipo de «sección» del mismo o alguna cosa curiosa… puedes decírmelo y si tengo ocasión, cuenta conmigo.

Un cordial saludo y hasta pronto,
Giusseppe

Fue muy bonito e interesante encontrarse en dónde había utilizado esas palabras y para qué: un análisis estadístico de las palabras en español, además de su gentileza a la hora de citarme en varios lugares agradeciéndome mi contribución (que siempre tiendo a minimizar, pues las palabras son públicas).

Buenas tardes, estimado Giusseppe,

Muchas gracias por su respuesta.

Le comparto el link a la página principal del proyecto en el que estoy trabajando, en donde realizo el agradecimiento a usted (en la sección Acknowledgment), con link a su website.
https://ansegura7.github.io/DSL_Analysis/

También le comparto el resultado del análisis descriptivo en el que estoy trabajando. Agradecería sus comentarios al respecto.
https://ansegura7.github.io/DSL_Analysis/pages/dsl_text_analysis.html
Próximamente, estaré compartiendo los resultados por Twitter. Por lo tanto, agradecería si me indica el nombre de usuario de su cuenta Twitter, para poder mencionarlo.

Una vez más, muchas gracias por compartir y recopilar el dataset del DLE.

Saludos cordiales,
Andrés Segura Tinoco

Me resulta simpático que llamen «dataset» al conjunto o listado de las palabras que recoge la RAE en su DLE. Los enlaces del proyecto de Andrés son fantásticos y es un trabajo divertido que seguro que además alguien considera útil.

En su proyecto mezclaba dos de mis grandes pasiones: la programación y el lenguaje, cosa que suelo hacer con frecuencia y que, próximamente, haré aún más. Así que estuve cotilleando con suma atención hasta que creí que podía hacerle una sugerencia útil, además de agradecerle su agradecimiento (entrando en un curioso bucle)

Me alegra saber que te sirve el material recopilado.

He estado ojeando tu proyecto y tiene una pinta estupenda. Me encantan los análisis y tu codificación es muy limpia y bien comentada.

Como única sugerencia (no muy difícil de hacer) es la de escribir todas las frases del análisis en un array (o un archivo externo) que puede modificarse sencillamente para traducciones a otros idiomas. Me explico, por ejemplo, en la parte del código:

"source": [
  "# Show results\n",
  "n_words = len(word_dict)\n",
  "print('Total of different words: %d' % n_words)"
]

podrías sustituir el print por algo así como:

"print('%s: %d' % msg_total_words[i], n_words)"

y tener un array de cadenas msg_total_words[LANGUAGES] o algo similar… (disculpa mi escaso conocimiento de python)

Es sólo una insignificante sugerencia que, seguramente, se puede hacer mejor que como te sugiero. (Leyendo los textos/mensajes de un archivo idiomático, por ejemplo)

Quizá me ha llamado la atención especialmente por el hecho de que no esté en español el resultado, lo que comprendo desde el punto de vista de la divulgación, pero también me resulta paradójico siendo que se habla sobre el español… 😉

Muchísimas gracias por la atribución y espero que no te molesten mis sugerencias.

Un cordial saludo,
Giusseppe

PS: No uso Twitter. Tengo cuenta de Facebook e Instagram, just in case…
https://www.facebook.com/giusseppe.dominguez (perfil personal)
https://www.facebook.com/giusseppedelaaalaz (página «oficial»)
https://www.instagram.com/giusseppe.dominguez

Y en último agradecimiento, me escribió unos días después con los resultados que estaba obteniendo para hacerme partícipe de su publicación. (Lo que es de agradecer).

Estimado Giusseppe,

Muchas gracias por tu sugerencia. Me parece súper válida y útil para mayor y mejor divulgación del material publicado. La tendré en cuenta para este y futuros proyectos.

Aprovecho el correo y te comento 3 cosas brevemente:
1. Cree un hilo en Twitter publicando algunos de los resultados obtenidos en mi análisis y al final hay un tweet agradeciendo y reconociendo tu aporte con link directo a tu sitio web. Te comparto el enlace al hilo (son solo 8 tweets) por si los quieres revisar: https://twitter.com/seguraandres7/status/1298025632090259458?s=21

2. He hecho algunas correcciones sobre las palabras recopiladas. Encontré como 2 o 3 palabras en donde se acentuaban consonantes en vez de vocales y otros pequeños errores, en donde se invertían letras, sin embargo han sido menos de 10 correcciones hasta el momento. Una vez termine el proyecto, te envío de vuelta el diccionario de palabras, para que puedas actualizar el tuyo, de así considerarlo.

3. Para futuro networking o trabajos, te comparto mi sitio web y mi perfil de Twitter donde constantemente estoy publicando resultados de mis trabajos de investigación personales o académicos. Curiosamente, yo no tengo Facebook. Website: https://ansegura7.github.io/ y usuario de twitter: https://twitter.com/SeguraAndres7

Una vez mas, muchas gracias por recopilar y compartir este dataset tan valioso.

Saludos cordiales,
Andres Segura Tinoco
Telf: +57 3555590546

Actualicé mi diccionario con su revisión incorporada, para poder utilizarlo en nuevos proyectos, pero sé, soy consciente, que seguro que habrá más errores. Quizá por ello en el proyecto «Cocinillas» en el que estoy metido ahora mismo he querido incorporar un «testeador» o comprobador, para saber si la palabra que busco en el diccionario existe o no y, en caso contrario, hacer un listado con todas las palabras erróneas que tengo y poder mejorar mi diccionario en texto plano (aunque espero que la próxima vez que lo actualice pueda incorporar, incluso, todas las definiciones).

Búsqueda de palabras en la RAE en línea de comandos

He fabricado un script (un lote de comandos) de bash shell en Linux para descargar y juguetear con búsquedas en la RAE, ya que resulta complicado pedir que tengan la deferencia de hacerla disponible para el público, como si la RAE fuese un organismo público pagado con dinero público.

Es el paso intermedio entre buscar una palabra y descargarme el diccionario completo palabra a palabra. Ahora toca hacer un pequeño programita que lo invoque para cada una de las palabras que tecleé para el proyecto de Isidoro Valcárcel Medina hace unos años y traiga sus definiciones.

Lo he llamado buscaenrae.sh.

Esta versión está modificada sobre la que publiqué hace unos días para subsanar errores relacionados con las palabras que contienen varias entradas/acepciones (no es lo mismo acepciones que entradas y soy consciente de ello, pero no es importante), así como para retirar las conjugaciones en los verbos.

#!/bin/bash

### FUNCIONES ÚTILES PARA EL PROGRAMA
# uso() Instrucciones del programa y salida en caso de error.
uso () {
  echo "Uso: $0 salida palabra"
  echo -e "\tsalida es un valor númerico que identifica:"
	echo -e "\t[0] para generar un archivo HTML con la respuesta"
	echo -e "\t[1] para generar un archivo TXT  con la respuesta"
	echo -e "\t[2] para generar una línea  TXT  con la respuesta"
  exit
}
f_verbos="00000_VERBOS.txt"
f_errores="00000_ERRORES.txt"

# CONTROL DE ENTRADA DE VARIABLES y ASIGNACIÓN
if [ $# -lt 2 ]
then
  # Reportar uso inapropiado
  uso
else
  salida=$1
  if [ $# -eq 2 ]; then
    palabra="$2"
  elif [ $# -eq 3 ]; then 
    palabra="$2 $3"
  elif [ $# -eq 4 ]; then 
    palabra="$2 $3 $4"
  elif [ $# -eq 5 ]; then 
    palabra="$2 $3 $4 $5"
  fi
  # echo "Palabra es #$palabra#"
fi

# CONSULTA DEL SERVIDOR de la RAE simulando ser uno de los diversos navegadores posibles
navegador=(
  "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:15.0) Gecko/20100101 Firefox/15.0.1"
  "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:77.0) Gecko/20100101 Firefox/77.0"
  "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:77.0) Gecko/20190101 Firefox/77.0"
  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A"
)
rnd=`echo $(($RANDOM%${#navegador[@]}))` # Elegimos un navegador al azar
# Hacemos la petición a la web de la RAE
curl -s --user-agent "${navegador[$rnd]}" https://dle.rae.es/"$palabra" > ./"$palabra.html"

# PROCESAMOS EL ARCHIVO OBTENIDO (Cortamos, retiramos lo innecesario, etc)
# Si se trata de un verbo, quitar las conjugaciones
id_conjugacion="
" esunverbo=`grep -c "$id_conjugacion" ./"$palabra.html"` if [ $esunverbo -gt 0 ] then echo "$palabra es un verbo" >> $f_verbos # ELIMINAMOS la(s) CONJUGACIÓN(ES) sed -i "/${id_conjugacion}/d" ./"$palabra.html" fi # Si tiene más de una acepción (Calcular cuántas después de saber si es un verbo) id_acepcion="
" num_acepciones=`grep -c "$id_acepcion" ./"$palabra.html"` # Si no tiene acepciones, la palabra no existe. No continuamos. if [ $num_acepciones -eq 0 ] then echo "$palabra no se ha encontrado en la RAE" >> $f_errores rm "./$palabra.html" exit fi # PARTIR en $num_acepciones EL FICHERO $palabra.html" # acepciones y acepciones_fin son 2 arrays de líneas PRECISO CONVERTIRLOS a cortes[] acepciones=`grep -n "$id_acepcion" ./"$palabra.html"|awk -F":" '{print $1}'|sed ':a;N;$!ba;s/\n/ /g'` c=0 for i in $acepciones do let cortes[$c]=$(($i)) let c=$(($c+1)) done acepciones_fin=`grep -n "$id_acepcion_fin" ./"$palabra.html"|awk -F":" '{print $1}'|sed ':a;N;$!ba;s/\n/ /g'` c=0 for i in $acepciones_fin do let cortes_fin[$c]=$(($i)) let c=$(($c+1)) done # GENERA FICHEROS palabra.X.html por cada ACEPCIÓN for (( i=0; i<$num_acepciones; i++ )) do # echo "El comienzo del corte está en ${cortes[$((i))]}" # echo "El fin del corte está en ${cortes_fin[$((i))]}" sed "${cortes[$((i))]},${cortes_fin[$((i))]} !d" "./$palabra.html" > "./$palabra.$i.html" # Distintas salidas del programa, en función de la variable "salida" if [ $salida -gt 0 ] # Salida a modo TXT then w3m "./$palabra.$i.html" > "./$palabra.$i.txt" if [ $salida -gt 1 ] # En una sóla línea then sed ':a;N;$!ba;s/\n/ /g' "./$palabra.$i.txt"|sed 's/ / /g' > "./$palabra.$i.1linea" fi fi done # BORRAR indica si dejar o no los archivos que no se deseen como salida BORRAR=1 if [[ $BORRAR -eq 1 ]] && [[ $salida -gt 0 ]] then rm "./$palabra."*html if [ $salida -eq 2 ] then rm "./$palabra."*txt fi fi # SALIDA FORZADA exit

Las primeras pruebas las he realizado con la palabra palabra, como debe ser.

buscaenrae.sh 2 palabra
Esto no es una broma