Microsoft & myCloudDoor: Silver Data Analytics
May 29, 2018“En Cloud migramos 5 veces más rápido y ahorramos hasta el 40% de los costes” – Marcos de Pedro
May 31, 2018Dentro del Machine Learning, podemos identificar la división más genérica de las técnicas, las cuales son clasificadas en función de la naturaleza de la señal o entrada de aprendizaje. Esta división, que es la más común en la literatura, se refiere a los algoritmos con aprendizaje supervisado y sin aprendizaje supervisado.
Antes de seguir, como ya les hemos contado en un artículo de este blog, se sabe que hay un aumento del interés en las técnicas de Machine Learning y la capacidad que tienen de transformar datos en conocimiento y es por ello que queremos seguir profundizando en este campo.
Aprendizaje Supervisado
Volviendo al tema que nos trae, el aprendizaje supervisado se da un conjunto de datos denominados de entrenamiento y se busca definir una función a partir de estos. Los datos de entrenamiento suelen consistir en pares de objetos en los cuales la entrada/input está relacionada con la salida/output.
Los problemas de aprendizaje supervisado se diferencian en regresión y clasificación. En un problema de regresión, tratamos de predecir los resultados con una salida continua, lo que significa que estamos tratando de asignar variables de entrada para una función continua. En un problema de clasificación, se trata por tanto de predecir los resultados de una salida/output discreta, es decir, tratamos de asignar variables de entrada en categorías discretas.
Ejemplo de aprendizaje supervisado sería en el sector inmobiliario si se tienen los datos de los precios de alquiler y las características de las viviendas (superficie, año, etc…) se puede predecir el precio. Si la función precio en función de las características tuviera una salida de datos continua, el problema sería de regresión. Si lo que se busca es clasificar la vivienda en categoría normal y lujo, la función precio clasificaría las viviendas en dos categorías discretas.
Aprendizaje no supervisado
El aprendizaje no supervisado, permite afrontar problemas de los que apenas se conoce el aspecto que tienen los resultados, falta conocimiento previo. El modelo es ajustado a las observaciones. Sin embargo, se puede conocer la estructura de datos donde no sabe necesariamente el efecto que tienen las variables. Se puede deducir dicha estructura agrupando los datos en función de la relaciones entre las variables en los datos. Con el aprendizaje no supervisado no hay retroalimentación con base en los resultados de la predicción. Este tipo, no se trata solamente del clustering o agrupamiento, la memoria asociativa es otro tipo de aprendizaje no supervisado.
Ejemplo de aprendizaje no supervisado puede ser el clustering de artículos científicos en función de distintas variables como la frecuencia de palabras, número de páginas, etc. Otro ejemplo podría ser la asociación, en función de los EHR (Electronic Health Record) de los pacientes se podría crear una función que mapee a los pacientes.
[thb_testimonial_parent thb_style=”style2″ thb_pagination=””][thb_testimonial quote=”Machine Learning, un sistema que emule al ser humano: pensar, razonar, reflexionar, comprender, entender el mundo a través de la propia experiencia y aprendizaje”][/thb_testimonial_parent]
Ambos tipos de Machine Learning se pueden ejemplificar de manera conjunta, para ello se supone la necesidad de clasificar automóviles en un concesionario de coches de segunda mano. Se dispone de dos bases de datos diferentes, la primera denominada A [Tabla 1] y la segunda denominada B [Tabla 2].
BBDD A | ||
Precio | Km | Marca |
2.000 | 100.000 | SEAT |
2.500 | 90.000 | SEAT |
2.400 | 140.000 | SEAT |
2.200 | 95.000 | SEAT |
2.400 | 105.000 | SEAT |
2.000 | 90.000 | SEAT |
5.000 | 150.000 | BMW |
8.000 | 120.000 | BMW |
6.000 | 130.000 | BMW |
6.500 | 140.000 | BMW |
7.500 | 160.000 | BMW |
7.000 | 135.000 | BMW |
Tabla 1: Base de datos A con los atributos precio, Km y marca. Fuente: Elaboración propia.
BBDD B | |
Precio | Km |
2.000 | 100.000 |
2.500 | 90.000 |
2.400 | 140.000 |
2.200 | 95.000 |
2.400 | 105.000 |
2.000 | 90.000 |
5.000 | 150.000 |
8.000 | 120.000 |
6.000 | 130.000 |
6.500 | 140.000 |
7.500 | 160.000 |
7.000 | 135.000 |
Tabla 2: Base de datos B con los atributos precio y Km. Fuente: Elaboración propia.
Observando el plano [Figura 3], se aprecia como los datos se agrupan en dos clúster diferentes. En el primer caso se tiene constancia de la marca del automóvil, lo cual permite apreciar de manera más clara los clúster y también predecir de una manera más exacta el precio en función de Km y marca. En el segundo caso se desconoce la marca del automóvil, lo cual no quiere decir que no se aprecien los dos clúster. En este caso tendríamos un aprendizaje no supervisado. El objetivo no sería predecir el precio de un coche, sino poder descubrir la estructura que tienen los datos, es decir, verificar la posibilidad de diferenciar clúster.
Figura 3: A la izquierda, representación gráfica de la base de datos A; a la derecha la base de datos B. Fuente: Elaboración propia.
Esperamos que este post te haya ayudado, si no lo tienes claro, siempre podrás preguntarnos sin compromiso.