¿Qué es el lenguaje?

El lenguaje es un sistema estructurado de comunicación que involucra combinaciones complejas de sus componentes constituyentes, tales como caracteres, palabras, oraciones, etc. La lingüística es el estudio sistemático del lenguaje. Para estudiar NLP es importante entender algunos conceptos lingüísticos sobre cómo el lenguaje está estructurado.

Podemos pensar en el lenguaje humano como un compuesto de cuatro grandes componentes: fonemas, morfemas y lexemas, sintaxis, y finalmente, contexto. Las aplicaciones de NLP necesitan conocer los diferentes niveles de estos componentes básicos, desde los sonidos básicos del lenguaje (fonemas) hasta el texto con algunas expresiones significativas (contexto).





Componentes del lenguaje

Fonemas

Los fonemas son las pequeñas unidades de sonido en el lenguaje. Estas pueden no tener ningún significado por si mismas pero pueden inducir significados cuando se pronuncia en combinación con otros fonemas. Por ejemplo, el inglés estándar tiene 44 fonemas, que son letras o combinaciones de letras.





Los fonemas son importantes en las aplicaciones relacionadas con el entendimiento del habla, como por ejemplo, el reconocimiento del habla, transcripción habla a texto y conversión texto a habla.

Morfemas y lexemas

Los morfemas son las pequeñas unidades del lenguaje que tienen significado. Están formadas por combinaciones de fonemas. No todos los morfemas son palabras, pero todos los prefijos y sufijos son morfemas. Por ejemplo, en la palabra “multimedia”, “multi-” no es una palabra sino que un prefijo que cambia el significado cuando se junta con “media”. “Multi-” es un morfema.





Los lexemas son variaciones estructurales de los morfemas relacionados entre sí por el significado. Por ejemplo, "run" y "running" pertenecen a la misma forma o familia de lexema. El análisis morfológico, que analiza la estructura de las palabras mediante el estudio de sus morfemas y lexemas, es un bloque fundamental de muchas tareas de NLP, como la 'tokenization', el aprendizaje de 'word embeddings' y el 'tagging' de partes del discurso (part-of-speech tagging).

Sintaxis

La sintaxis es un conjunto de reglas para construir oraciones gramaticalmente correctas a partir de palabras y frases en un lenguaje. En lingüística, la estructura sintáctica es representada de diferentes formas. Un común acercamiento es representar las oraciones como un árbol.





La sintaxis entrega una estructura jerárquica al lenguaje, con palabras en el nivel más bajo, seguidas de etiquetas como verbos, pronombres, etc., seguidas de frases y terminando con una oración en el nivel más alto. (Ver más…)

La sintaxis de un lenguaje puede ser muy diferente a la sintaxis de otro lenguaje. A su vez, el acercamiento necesario para procesar un lenguaje es influenciado por su sintaxis.

Contexto

El contexto es cómo varias partes de un idioma se unen para transmitir una determinado significado. El contexto incluye referencias a largo plazo, conocimiento del mundo y sentido común junto con el significado literal de palabras y frases. El significado de una oración puede cambiar según el contexto, ya que las palabras y frases a veces pueden tener múltiples significados. Generalmente, el contexto se compone de semántica y pragmática. La semántica es el significado directo de las palabras y oraciones sin el contexto externo de la conversación que nos permita inferir el significado implícito.

Las tareas complejas de NLP, como la detección de sarcasmo, generación automática de resúmenes (text summarization) y el modelado de tópicos (topic modeling), son algunas de las tareas que utilizan mucho el contexto.

En resumen: La lingüística es el estudio del lenguaje y, por lo tanto, es un campo de estudio bastante amplio. Las ideas introducidas abarcan solo conceptos básicos para ilustrar el rol de la lingüística en NLP.