• Processando Big Data com Apache Spark

    • Palestrante: Flávio Roberto Santos
    • Tags: FISL 16
    • Info: Apache Spark vem ganhando força frente ao já consolidado paradigma Map-Reduce implementado pela suite Hadoop. O grande diferencial do Spark é a utilização do modelo In-Memory Computation, que mantem os dados em memória para realizar computação tipicamente iterativas. Esse modelo se mostra bastante eficiente quando multiplas iterações são feitas sobre as mesmas fatias de dados espalhadas pelo cluster.

      Um benchmark do time do Spark mostra que é possível alcançar ganhos de até 100 vezes frente ao Hadoop. Essa palestra abordará o modelo de armazenamento e computação do Spark, técnicas para consulta a dados usando Spark SQL, além de algoritmos para processamento de dados em Streaming. A linguagem utilizada na palestra será Scala, apesar de Python e Java também serem suportados.