Tipos de aprendizaje en Machine Learning

Dentro del Machine Learning, podemos identificar la división más genérica de las técnicas, las cuales son clasificadas en función de la naturaleza de la señal o entrada de aprendizaje. Esta división, que es la más común en la literatura, se refiere a los algoritmos con aprendizaje supervisado y sin aprendizaje supervisado.

Antes de seguir, como ya les hemos contado en un artículo de este blog, se sabe que hay un aumento del interés en las técnicas de Machine Learning y la capacidad que tienen de transformar datos en conocimiento y es por ello que queremos seguir profundizando en este campo.

Aprendizaje Supervisado

Volviendo al tema que nos trae, el aprendizaje supervisado se da un conjunto de datos denominados de entrenamiento y se busca definir una función a partir de estos. Los datos de entrenamiento suelen consistir en pares de objetos en los cuales la entrada/input está relacionada con la salida/output.

Los problemas de aprendizaje supervisado se diferencian en regresión y clasificación. En un problema de regresión, tratamos de predecir los resultados con una salida continua, lo que significa que estamos tratando de asignar variables de entrada para una función continua. En un problema de clasificación, se trata por tanto de predecir los resultados de una salida/output discreta, es decir, tratamos de asignar variables de entrada en categorías discretas.

Ejemplo de aprendizaje supervisado sería en el sector inmobiliario si se tienen los datos de los precios de alquiler y las características de las viviendas (superficie, año, etc…) se puede predecir el precio. Si la función precio en función de las características tuviera una salida de datos continua, el problema sería de regresión. Si lo que se busca es clasificar la vivienda en categoría normal y lujo, la función precio clasificaría las viviendas en dos categorías discretas.

Aprendizaje no supervisado

El aprendizaje no supervisado, permite afrontar problemas de los que apenas se conoce el aspecto que tienen los resultados, falta conocimiento previo. El modelo es ajustado a las observaciones. Sin embargo, se puede conocer la estructura de datos donde no sabe necesariamente el efecto que tienen las variables. Se puede deducir dicha estructura agrupando los datos en función de la relaciones entre las variables en los datos. Con el aprendizaje no supervisado no hay retroalimentación con base en los resultados de la predicción. Este tipo, no se trata solamente del clustering o agrupamiento, la memoria asociativa es otro tipo de aprendizaje no supervisado.

Ejemplo de aprendizaje no supervisado puede ser el clustering de artículos científicos en función de distintas variables como la frecuencia de palabras, número de páginas, etc.  Otro ejemplo podría ser la asociación, en función de los EHR (Electronic Health Record) de los pacientes se podría crear una función que mapee a los pacientes.

Ambos tipos de Machine Learning se pueden ejemplificar de manera conjunta, para ello se supone la necesidad de clasificar automóviles en un concesionario de coches de segunda mano. Se dispone de dos bases de datos diferentes, la primera denominada A [Tabla 1] y la segunda denominada B [Tabla 2].

BBDD A
Precio Km Marca
2.000 100.000 SEAT
2.500 90.000 SEAT
2.400 140.000 SEAT
2.200 95.000 SEAT
2.400 105.000 SEAT
2.000 90.000 SEAT
5.000 150.000 BMW
8.000 120.000 BMW
6.000 130.000 BMW
6.500 140.000 BMW
7.500 160.000 BMW
7.000 135.000 BMW
Tabla 1: Base de datos A con los atributos precio, Km y marca. Fuente: Elaboración propia.

 

BBDD B
Precio Km
2.000 100.000
2.500 90.000
2.400 140.000
2.200 95.000
2.400 105.000
2.000 90.000
5.000 150.000
8.000 120.000
6.000 130.000
6.500 140.000
7.500 160.000
7.000 135.000
Tabla 2: Base de datos B con los atributos precio y Km. Fuente: Elaboración propia.

Observando el plano [Figura 3], se aprecia como los datos se agrupan en dos clúster diferentes. En el primer caso se tiene constancia de la marca del automóvil, lo cual permite apreciar de manera más clara los clúster y también predecir de una manera más exacta el precio en función de Km y marca. En el segundo caso se desconoce la marca del automóvil, lo cual no quiere decir que no se aprecien los dos clúster. En este caso tendríamos un aprendizaje no supervisado. El objetivo no sería predecir el precio de un coche, sino poder descubrir la estructura que tienen los datos, es decir, verificar la posibilidad de diferenciar clúster.

 

Figura 3: A la izquierda, representación gráfica de la base de datos A; a la derecha la base de datos B. Fuente: Elaboración propia.

 

Esperamos que este post te haya ayudado, si no lo tienes claro, siempre podrás preguntarnos sin compromiso.

 

myCloudDoor
Adopt a Cloud!

Leave a Reply

Your email address will not be published.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Share This

Copy Link to Clipboard

Copy