Engenharia de Dados

Do início da computação distribuída nos anos 2000 até os atuais clusters modernos de computadores.

1. Uma breve história da computação distribuída

Até a década de 90, a escala vertical de recursos imperava. Se um sistema computacional não atendia os requisitos de desempenho de uma aplicação, melhorava-se seu hardware. Contudo, catalisados pela popularização da internet no começo dos anos 2000, os requisitos de desempenho das aplicações aumentavam em uma taxa muito mais…


Engenharia de Machine Learning

Na primeira parte da série vamos falar sobre o ponto de vista dos nossos engenheiros e engenheiras sobre modelos de machine learning.

Atenção: O papel e as responsabilidades da engenharia de machine learning divergem (e muito) entre empresas e até entre áreas de uma mesma empresa. Neste artigo, apresentamos a visão do time de dados de crédito da Stone sobre o assunto.

1. Introdução

Em geral, nosso primeiro contato com modelos de machine learning


Cluster Apps on Docker

Build your own Apache Spark cluster in standalone mode on Docker with a JupyterLab interface

Apache Spark is arguably the most popular big data processing engine. With more than 25k stars on GitHub, the framework is an excellent starting point to learn parallel computing in distributed systems using Python, Scala and R.

To get started, you can run Apache Spark on your machine by using…

André Perez

Data & ML Engineer at Stone Co, MSc. Candidate and Big Data Tutor at University of Sao Paulo.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store