Como iniciar uma carreira em Data Science? A resposta é simples, mas realizar essa ideia já não é tão simples assim. A ciência de dados apesar de não ser algo novo como muitos propagam, possui um nível baixo de organização do conhecimento específico, estando pulverizado em diversas áreas como estatística, ciência da computação, engenharia da computação, atemática, sistemas de informação, e até mesmo física.
A ciência de dados já era utilizada por analistas de negócio desde o século 19, sendo que utilizavam informações de mercado para tomar decisões estratégicas, porém isso era feito de uma forma manual, artesanal, pois os computadores pessoais só foram criados na segunda metade do século 20, e massificados (a preços acessíveis) na década de 1990. Algoritmos de machine learning, e inteligência artificial já eram pesquisados antes mesmo que os computadores modernos fossem criados.
Existem diversas áreas de atuação em ciência de dados: engenharia de software, banco de dados, business intelligence, analytics, aplicações pragmáticas de machine learning e inteligência artificial, etc. Neste texto vamos tratar das mais básicas, business intelligence e analytics, e um pouco de banco de dados e machine learning. Os conhecimentos descritos abaixo são básicos dos cursos de física, matemática, estatística, e engenharia da computação. Pode parecer muita coisa a princípio, mas quando estruturados em uma grade curricular devem ser o equivalente a três anos de estudo (aproximadamente 1.500 horas-aula). A lista não é completa, mas contempla alguns conhecimentos que podem ser considerados avançados, i.e que são aplicados somente em empresas de tecnologia e startups. Em outros posts vou indicar algumas bibliografias sobre cada assunto listado.
Saiba ler e entender inglês! Sem o inglês suas opções ficarão muito restritas, pois a maior parte dos bons materiais didáticos se encontram publicados na língua inglesa!
Perfil: Pode parecer elitista, mas se você não possui o perfil, melhor não insistir em uma carreira em ciência de dados, pois pode ser algo muito opressor para quem não gosta de trabalhos analíticos. O perfil necessário é de alguém analítico, racional, que reflete e pondera sobre os dados apresentados, direcionamento a dados, alto nível de organização pessoal, facilidade com matemática, raciocínio lógico, etc.
Matemática básica: álgebra básica, lógica básica, cálculo diferencial e integral, álgebra linear (matrizes, determinantes, sistemas lineares, vetores, noções de espaço vetorial, etc), equações diferenciais parciais aplicadas a modelos reais (Black-Scholes, Onda, tráfego, etc), equações diferenciais ordinárias, teoria de grafos, redes complexas.
Estatística: noções de probabilidade, distribuições de função de probabilidade (Poisson, Binomial, Bernoulli, Uniforme, Geométrica, Gaussiana, etc), testes de hipótese, métricas de avaliação de modelos (KS, Gini, ROC, R2, AUC, RMSE, MAE, F1, Recall, Precision, etc), análise de variância, modelos de regressão linear, modelos de regressão de média móvel, tratamento de outliers (componentes principais, mahalanobis, curva S, etc), regressão logística, análise de resíduos, séries temporais.
Conhecimento Empírico: Tratamento de dados, análise de dados, curvas, e resultados. Aplicação de cálculo diferencial e integral em modelos reais, uso de regressões em modelos empíricos, organização de tabelas de dados, modelos “what if” em Excel, uso de planilhas dinâmicas, organização de dados e informações em modelos pragmáticos, dashboards e outros tipos de visualização de dados (PowerPoint, PowerBI, Power View, etc).
Programação: Lógica básica de programação, Python, R, Excel (uso avançado de funções e formulação de modelos), SQL, álgebra relacional (Join, Group by, Order by, chaves primárias, secundárias, etc), Clusterização e Classificação (K-Means, KNN, árvore de classificação, redes neurais, SVM, etc), Deep Learning, tensor flow.
Observação: Tenha cuidado ao desembolsar uma grande quantia de dinheiro para pagar cursos de data science que prometem facilidades e emprego garantido. Faça uma análise criteriosa das disciplinas ofertadas, analise os instrutores, procure por contribuições, publicações, experiência, aulas antigas. Se o curso não oferece algum tipo de “degustação” do curso, com aulas exemplo, descrição do conteúdo, apostilas básicas, provavelmente são cursos que se baseiam em má fé. Além disso existe uma quantidade enorme de conteúdo gratuito e de qualidade disponíveis na internet.
Comentários