Skip to main content

Airflow-data-ingestion-local

En desarrollo

Continuando con la ruta de aprendizaje de Airflow, en esta secci贸n aprenderemos a realizar la ingesta de datos desde Airflow en una base de datos Postgres. Para el desarrollo de esta parte, seguiremos los pasos que realizamos en nuestro m贸dulo 1, titulado "Ingesting NY Taxi Data to Postgres", donde aprendimos a crear un pipeline de datos utilizando Jupyter Notebook.

Ahora vamos a realizar estos mismos pasos, pero en lugar de ejecutar el pipeline desde un Jupyter Notebook, lo haremos desde Airflow. Para ello, crearemos un nuevo script de Python basado en el que desarrollamos anteriormente.

Los archivos ingest_data_parquet.py y data_ingestion_parquet.py trabajan juntos para implementar un flujo de trabajo en Apache Airflow que descarga datos en formato Parquet desde un enlace de S3, los ingesta en una base de datos PostgreSQL y permite la programaci贸n de esta tarea. El primer archivo define una funci贸n que establece una conexi贸n a la base de datos y carga los datos en batches, mientras que el segundo archivo configura un DAG de Airflow que utiliza un operador Bash para descargar el archivo Parquet y un operador Python para ejecutar la funci贸n de ingesti贸n, facilitando as铆 la automatizaci贸n y gesti贸n del proceso de ingesti贸n de datos.