Apache Spark en 10 minutos

Hola, os dejo una guía paso a paso para poder probar Apache Spark a partir de la instalación de una máquina virtual en vuestro equipo. Los requisitos mínimos son los siguientes:

Un equipo con más de 2Gb de memoria
Sistema operativo Windows, Linux o Mac
VirtualBox
Una máquina virual con todo el software necesario ya configurado.
Ganas de explorar lo desconocido ;-)

Ahí vamos… El primer paso es descargar la aplicación VirtualBox (https:/www.virtualbox.org), en el caso de que no se tenga previamente instalada en el equipo.

png

Una vez descargado el fichero, se debe de instalar VirtualBox en el equipo y ejecutarlo (necesitareis permisos de administrador).

png

Una vez en VirtualBox, hay que importar el fichero sparkvm.ova, desde la opción “Importar servicio virtualizado” del menú Archivo:

png

Cuando finalice la importación, se tiene pulsar el botón “Iniciar” para ejecutar la máquina virtual y probar Spark.

png

Con la opción “Inicio sin pantalla” es suficiente, ya que la forma de probar Spark es a través del navegador, y no necesitamos tener la consola activa.

png

Se abre un navegador y se accede a la dirección http://localhost:8001, donde está desplegado Jupyter sobre la máquina virtual que acabamos de instalar.

png

Jupyter es un software donde se pueden editar y ejecutar Notebooks de IPython o python interactivo. Un Notebook es un documento que contiene un conjunto de celdas. Cada celda puede tener texto, en formato MarkDown, o en código Python que se puede ejecutar de forma individual. Cuando se ejecuta el código contenido en una celda, el resultado se muestra en el propio notebook, justo debajo de la celda. Por ejemplo si introducimos en una celda el código python [print 1+ 1] y lo ejecutamos, el resultado será …

png

Para probar Spark tenemos a descargar el notebook spark_tutorial_student.ipynb que se encuentra disponible en el repositorio mooc-setup de GitHub. Para descargar este fichero en nuestro disco lo más fácil es a través de la opción de “Guardar enlace como …”

png

Una vez Jupyter, ya podemos cargar este notobook pulsando el botón upload …

png

Y volvemos a pulsar el botón Upload, está vez en color azul:

png

Solo nos queda hacer doble click sobre el notebook para que aparezca una nueva ventana:

png

Para seguir el tutorial de Spark se deben de ejecutar cada una de las celdas de este notebook, leyendo atentamente los textos explicativos. Para ejecutar una celda, primero hay que seleccionarla haciendo click sobre ella … (la celda se muestra con un recuadro verde)

png

Y pulsar el botón de ejecución …

png

Hasta que lleguemos al final… También se pueden ejecutar otros notebooks de este repositorio, aunque la mayoría requiere que introduzcamos código en python. En especial es muy interesante hacer los notebook ‘lab0_student.ipynb’ y ‘lab1_word_count_student.ipynb’. El resto es un poco más complicado pero os animo a que lo intentéis. Por último, comentaros que para cerrar la máquina virtual simplemente se deberá ejecutar la opción “Apagar” o pulsar Control-F

png

Espero que lo hayáis encontrado interesante…

Apache Spark en 10 minutos

Pandas and Covid-19

Empresas orientadas a datos

Importing data from Twitter with python and tweepy

Visualizing distributions of data

Apache Spark en 10 minutos

¿Tienes algo que decir?

Related Posts

Pandas and Covid-19

Empresas orientadas a datos

Importing data from Twitter with python and tweepy

Visualizing distributions of data