Azure Data Integration: SSIS vs DataFactory vs DataBricks

Microsoft & myCloudDoor: Silver Small and Midmarket Cloud Solutions

October 25, 2019

Microsoft & SAP recognizes myCloudDoor as a SAP on Azure Advanced Specialist

November 20, 2019

Siempre que iniciamos un nuevo proyecto de ingeniería de datos, uno de los momentos más críticos es la elección de la herramienta que utilizaremos. La creación de pipelines para la integración de datos puede ser muy distinta en función de las necesidades de negocio, sin embargo, desde el punto de vista técnico, podemos acotar la decisión.

Durante el desarrollo de los pipelines, nos encontramos con la necesidad de integrar diferentes fuentes de datos en un único repositorio que posibilite crear soluciones de analítica avanzada o desarrollar informes de analítica tradicional. Para dar solución a dicha necesidad, ¿qué herramientas debemos utilizar?

La suite de Microsoft/Azure nos permite dar respuesta a dicha pregunta con las siguientes herramientas:

-SSIS (SQL Server Integration Services)

Herramienta utilizada para:

Extracción del dato
Desarrollo de ETL (Extract, Transform, Load)
Transformación compleja del dato

Pensado para entornos On-Premises, en la actualidad Azure nos permite ejecutar paquetes de SSIS con ADF. Todos los paquetes consisten en un Control Flow que a su vez puede tener distintos Data Flows.

-ADF (Azure Data Factory):

Herramienta utilizada para:

Movimiento y orquestación del dato
Desarrollo de ELT (Extract, Load, Transform)
Transformación del dato

Se trata de un servicio de integración de datos Cloud que nos permite crear Work Flows para automatizar el movimiento, orquestación y transformación del dato; permitiendo el cambio de paradigma de la ETL hacia las ELT. Los Work Flows permiten conectar, transformar, publicar y monitorizar.

-Azure Databricks:

Herramienta utilizada para:

Preparación del dato
Trabajo colaborativo sobre Notebooks
Ejecución de procesos Apache Spark

Diseñada en un inicio por los fundadores de Apache Spark, se trata de una plataforma de analítica optimizada para la Cloud de Azure. Su enfoque es totalmente colaborativo, haciendo de la plataforma un área de trabajo donde distintos perfiles como científicos de datos o ingenieros de datos pueden ejecutar Work Flows basados en Apache Spark.

Una vez vistas todas las características de las distintas herramientas de integración de datos que nos ofrece Microsoft/Azure, tendríamos que ser capaces de realizar la elección sobre una de ellas. Sin embargo, la decisión no estaría del todo bien tomada ya que debemos tener en cuenta cuestiones fundamentales, como el tipo de dato con el que vamos a trabajar, la finalidad del proyecto o la infraestructura con la que contamos:

La naturaleza del dato que estamos tratando, nos puede ayudar a elegir la tecnología que debemos utilizar a la hora de implementar nuestro proyecto. Para ello se suelen tener en cuenta las 3v (volumen, velocidad y variedad)

	Volumen	Velocidad	Variedad
SSIS	Bajo volumen de datos	Procesos Batch	Dato Estructurado
ADF	Gran volumen de datos	Procesos Batch Streaming	Dato Estructurado Dato No Estructurado
ADB	Gran volumen de datos	Procesos Batch Streaming RealTime	Dato Estructurado Dato No Estructurado

A nivel entorno, tanto de desarrollo como de infraestructura, deberemos tener en cuenta la plataforma y pago, el lenguaje de desarrollo con el que trabajaremos o el tipo de proyecto que estamos implementando.

	Plataforma/Precio	Lenguaje desarrollo	Proyecto
SSIS	IaaS/licencia	C#BIML	IntegraciónTransformaciónETL
ADF	Cloud/por uso	.NETPythonPowerShell	MovimientoOrquestaciónELT
ADB	Cloud/por uso	SQLPythonRScala	TransformaciónColaboraciónAI/ML

Si tienes alguna duda puedes preguntarnos a través de un comentario o de nuestro formulario.

Name	Domain	Purpose	Expiry	Type
thb-revolution-cookiebar	myclouddoor.com	Cookie required to use website options and services	1 month	HTTP
ARRAffinitySameSite	myclouddoor.com	Cookie required to use website options and services	1 day	HTTP
ARRAffinity	myclouddoor.com	ARRAffinity is a cookie used to affinitize a client to an instance of an Azure Web App.	1 day	HTTP
SEARCH_SAMESITE	google.com	SameSite prevents the browser from sending this cookie along with cross-site requests. The main goal is mitigate the risk of cross-origin information leakage. It also provides some protection against cross-site request forgery attacks.	4 months	HTTP
OGPC	google.com	Cookie required to use website options and services	10 days	HTTP
AEC	google.com	Cookie required to use website options and services	12 months	HTTP
__Secure-3PSIDCC	google.com	Cookie required to use website options and services	1 year	HTTP
__Secure-1PSIDCC	google.com	Cookie required to use website options and services	1 year	HTTP
__Secure-1PSID	google.com	Cookie required to use website options and services	2 years	HTTP
__Secure-1PAPISID	google.com	Cookie required to use website options and services	2 years	HTTP

Name	Domain	Purpose	Expiry	Type
google.com	https://myclouddoor.com	Download certain Google Tools and save certain preferences, for example the number of search results per page or activation of the SafeSearch Filter. Adjusts the ads that appear in Google Search.	2 years	HTTP
SIDCC	google.com	Download certain Google Tools and save certain preferences, for example the number of search results per page or activation of the SafeSearch Filter. Adjusts the ads that appear in Google Search.	2 years	HTTP
SID	google.com	Download certain Google Tools and save certain preferences, for example the number of search results per page or activation of the SafeSearch Filter. Adjusts the ads that appear in Google Search.	2 years	HTTP
OTZ	google.com	Aggregate analysis of website visitors	1 month	HTTP
NID	google.com	This cookies is used to collect website statistics and track conversion rates and Google ad personalisation	7 months	HTTP
HSID	google.com	Download certain Google Tools and save certain preferences, for example the number of search results per page or activation of the SafeSearch Filter. Adjusts the ads that appear in Google Search.	2 years	HTTP
APISID	google.com	Download certain Google Tools and save certain preferences, for example the number of search results per page or activation of the SafeSearch Filter. Adjusts the ads that appear in Google Search.	2 years	HTTP
1P_JAR	google.com	These cookies are set via embedded youtube-videos. They register anonymous statistical data on for example how many times the video is displayed and what settings are used for playback.	1 month	HTTP
IDE	doubleclick.net	This cookie is used for targeting, analyzing and optimisation of ad campaigns in DoubleClick/Google Marketing Suite	1 year	HTTP
DSID	doubleclick.net	This cookie is used for targeting, analyzing and optimisation of ad campaigns in DoubleClick/Google Marketing Suite	9 days	HTTP

Name	Domain	Purpose	Expiry	Type
SAPISID	google.com	Download certain Google Tools and save certain preferences, for example the number of search results per page or activation of the SafeSearch Filter. Adjusts the ads that appear in Google Search.	2 years	HTTP
_gid	myclouddoor.com	ID used to identify users for 24 hours after last activity	1 day	HTTP
_gat	myclouddoor.com	Used to monitor number of Google Analytics server requests when using Google Tag Manager	1 day	HTTP
_ga	myclouddoor.com	ID used to identify users	2 years	HTTP
__Secure-3PSID	google.com	These cookies are used to deliver more relevant ads for you and your interests.	2 years	HTTP
__Secure-3PAPISID	google.com	This cookies are used to deliver more relevant ads for you and your interests.	2 years	HTTP
UULE	google.com	Cookie associated with the Google Maps service. Allows geolocation from our laboratory in the corresponding section of this website. We adhere to the privacy policy of Google	1 day	HTTP
CONSENT	google.com	Google cookie consent tracker	2 years	HTTP

Name	Domain	Purpose	Expiry	Type
Azure / Microsoft	account.microsoft.com	https://account.microsoft.com/privacy	12 months	HTTP
DoubleClick/Google Marketing	privacy.google.com	https://privacy.google.com/take-control.html	1 year	HTTP
Google Analytics	privacy.google.com	https://privacy.google.com/take-control.html	1 year	HTTP
Google	privacy.google.com	https://privacy.google.com/take-control.html	1 year	HTTP

Microsoft & myCloudDoor: Silver Small and Midmarket Cloud Solutions

Microsoft & SAP recognizes myCloudDoor as a SAP on Azure Advanced Specialist

Microsoft & myCloudDoor: Silver Small and Midmarket Cloud Solutions

Microsoft & SAP recognizes myCloudDoor as a SAP on Azure Advanced Specialist

Related posts

Microsoft Power Pages: How to create a corporate website. A Comprehensive Guide.

Windows Server 2012 end of life cycle.

Key Strategies for Data Protection in the Pharmaceutical Sector