Posts

#python #llm #ai

Geração de Textos com Referências usando LLMs

A geração de texto com modelos de linguagem grandes (LLMs) tem revolucionado a forma como criamos conteúdo. No entanto, um dos maiores desafios é garantir que as informações geradas sejam verificáveis e confiáveis. Neste artigo, vou mostrar uma técnica universal para gerar qualquer tipo de conteúdo estruturado com referências verificáveis, combinando busca avançada (Tavily) com LLMs. Usarei biografias como exemplo prático, mas a técnica se aplica a relatórios, artigos, análises e qualquer outro conteúdo baseado em fatos.

Ler mais
#python #dagster #dados

Dask, Dagster e Coiled para Processamento de Dados em Produção na OnlineApp

Neste artigo irei mostrar uma integração simples entre o Dagster e o Dask+Coiled. Discutiremos como isso tornou um problema comum, processar um grande conjunto de arquivos mensalmente, realmente uma tarefa muito fácil.

O Usuário e o Problema

Olá👋, me chamo Lucas, sou o líder do time de ciência e engenharia de dados na OnlineApp, uma empresa B2B que atende o mercado brasileiro.

Todo mês, o governo brasileiro publica um grande conjunto de arquivos CSV com informações sobre empresas brasileiras, que usamos para entender melhor o nosso mercado. Temos muitos serviços internos que desejam ler esses dados, mas antes que isso seja possível, precisamos pré-processar um pouco eles: - Filtrar algumas linhas e colunas que não nos interessam; - Limpar alguns valores em várias colunas; - Realizar junções com outros conjuntos de dados internos que temos; - Converter para Parquet e armazenar em nosso próprio armazenamento em cloud;

Ler mais
#ia

Inteligência Artificial e o Fim do Cyberbullying: O Efeito Bolha do TikTok

A inteligência artificial (IA) permeia quase todos os aspectos da vida moderna, desde os sistemas de reconhecimento de voz e tradução de idiomas até os algoritmos de recomendação de produtos online e conteúdo de mídia social.

Com o avanço da IA, as redes sociais tornaram-se plataformas muito mais personalizadas e isoladas, onde a experiência de cada usuário é moldada pelos seus próprios interesses e comportamentos. Um exemplo claro disso é o TikTok, que utiliza IA para criar esta “bolha” individualizada para cada usuário.

Ler mais
#blog

Porque eu Recusei uma Oportunidade de Doutorado em uma Universidade Federal

Como todo o estudante de graduação no Brasil, eu sempre fui incentivado e sonhei em seguir carreira acadêmica. Afinal, essa é uma das opções mais “respeitadas” em nosso país: todo mundo quer ser chamado de “Dr.”. Em que muitas áreas inclusive às vezes se valoriza mais o título do que a experiência prática.

Porém, recentemente, eu recusei uma proposta de doutorado em uma das maiores universidades federais do país e decidi seguir um caminho diferente, e sinceramente estou feliz que tomei essa decisão.

Ler mais
#python #dbt #database

Adeus DBT: Como Orquestrar Seu Banco de Dados com Dagster Assets

Gerenciar o schema de tabelas e views em bancos de dados com rastreabilidade (controle de versões) e confiabilidade é um problema que várias ferramentas já tentaram resolver ao longo dos anos. No mundo do desenvolvimento de software, atualmente a abordagem mais comum é utilizar algum tipo de ORM (Object-Relational Mapping), que mapeia as estruturas de dados presentes no seu código (classes geralmente) para tabelas no banco de dados.

Alguns exemplos famosos são: Entity Framework no C#, SQLAlchemy no Python e o Prisma no Node.js.

Ler mais
#ia

DAN, a Nova e Mais Perigosa Falha de Segurança do ChatGPT

Uma das principais preocupações da empresa responsável pelo ChatGPT, a OpenIA, e talvez a maior preocupação dentre as empresas que estão desenvolvendo ferramentas de “chat bot” é justamente as respostas geradas por seus modelos, garantir sua confiabilidade e imparcialidade. Porem, infelizmente, devido à natureza de como o modelo foi construído, este tipo de moderação é extremamente difícil de ser implementada, segundo os próprios criadores:

“Embora tenhamos feito esforços para fazer com que o modelo recuse solicitações inapropriadas, às vezes ele responde a instruções prejudiciais ou exibe um comportamento tendencioso. Estamos usando uma API de moderação para avisar ou bloquear certos tipos de conteúdo inseguro, mas esperamos que haja alguns falsos negativos e positivos por enquanto. Estamos ansiosos para coletar feedback do usuário para ajudar nosso trabalho contínuo para melhorar este sistema.” - OpenIA

Ler mais
#python #dados

Great Expectations, Valide a Qualidade De Seus Dados Com Expectativas

Todos sabemos que garantir e validar a qualidade de dados é uma tarefa que hoje em dia ainda é extremamente trabalhosa na grande maioria dos casos, e é este problema que o Great Expectations visa resolver. Hoje vamos falar sobre essa incrível ferramenta de data quality.

Introdução

A biblioteca “Great Expectations”: feita em Python, é uma ferramenta poderosa para validação de dados. Ela permite que você defina expectativas sobre como seus dados devem se parecer e, em seguida, verifique se essas expectativas são atendidas. Isso serve para garantir a qualidade dos dados antes de prosseguir com análises ou modelagem.

Ler mais
#python #ia

Analisando Microexpressões Faciais em Python

Você já deve ter ouvido falar de microexpressões faciais, a ideia é que a partir delas conseguimos extrair informações valiosas sobre como uma pessoa está pensando, sentindo e o que planeja fazer.

Inovações recentes em algoritmos de visão computacional e aprendizado profundo levaram a uma enxurrada de modelos que podem ser usados para extrair pontos de referência faciais, unidades de ação e microexpressões faciais com velocidade e precisão.

Hoje iremos conhecer uma dessas soluções em Python.

Ler mais
#python #dagster #coiled

Isso Vai Ser O Fim do Spark! Dask & Coiled a Forma Mais Fácil de Criar Clusters em Python

Recentemente estava trabalhando na arquitetura de um novo projeto de um pipeline de dados, tudo corria bem, até que o pior pesadelo de todo o engenheiro de dados que esta trabalhando com Pandas aconteceu: meu dataset era simplesmente muito grande para ser armazenado em memória (ele continha cerca de 100 GB).

A solução para este tipo de problema já é conhecida no universo de dados (e condizente com meu contexto), clusterização! Porem uma dúvida surgiu…

Ler mais
#python #ia #dados

5 Livros Que Todo o Cientista de Dados Deve Ler

Já teve dificuldades para escolher bons livros para ler relacionados ao universo de dados? Já se decepcionou com algum livro cujo conteúdo parece ter sido tirado da Wikipédia? Bom: eu sim!

Por isso, após varias noites de leituras decepcionantes e dezenas de compras frustradas, decidi fazer esse top 5 com os melhores livros que já li e que, na minha opinião, são os melhores da área de dados.

1 - Mãos à obra: aprendizado de máquina com Scikit-Learn, Keras & TensorFlow

imagem

Ler mais
#python #api #dados

Como Validar e Tratar JSON em Python

Todos nos já tivemos que lidar com dados em formato JSON pelo menos alguma vez, seja utilizando uma API ou até mesmo lendo diretamente de algum arquivo e como consequência disso acredito que a: maioria de nós já se deparou com erros relacionados a qualidade ou formatação dos dados contidos nele.

Neste artigo irei compartilhar duas abordagens que gosto de utilizar quando estou trabalhando com este tipo de dado em Python.

Ler mais
#dados #ia #dashboard

Como Fazer Uma Análise Exploratória Em Um Dataset De Vendas De Produtos

Todos já nos sentimos um pouco perdidos quando temos que analisar dados de vendas de produtos, neste artigo irei mostrar algumas técnicas que gosto de utilizar quando me deparo com análises deste tipo.

Entenda seus dados

O mais importante para qualquer tipo de análise de dados é o entendimento do contexto: daqueles dados, oque cada coluna ou campo significa. Em um mundo perfeito e hipotético, essas informações serão fornecidas para você por algum stakeholder: (parte interessada, ou cliente).

Ler mais
#gestao

Scrum Não Faz O Menor Sentido Para Cientistas De Dados

Eu sei, o título é polêmico, porém acredito que seja necessário para fomentar a discussão, além também de resumir bem a ideia central deste artigo. Que é justamente esta, Scrum não faz o menor sentido para cientistas de dados e você não deveria obrigá-los a usá-la.

“O Scrum é uma estrutura leve que ajuda pessoas, equipes e organizações a gerar valor por meio de soluções adaptáveis ​​para problemas complexos.” - Scrum Guide

Ler mais
#sql #database #dados

Clickhouse, O Banco De Dados Mais Rápido Do Mundo Que Você Provavelmente Não Conhece

Enfrentar problemas para analisar grandes volumes de dados não deve ser uma novidade para ninguém hoje em dia. Porem muitas pessoas não sabem mas já existem soluções para esse problema, uma delas é o banco de dados ClickHouse. Neste artigo iremos dar uma olhada nas duas principais categorias de bancos de dados existentes e também nos aprofundar um pouco em como o ClickHouse funciona.

Como citado anteriormente, hoje em dia existem duas grandes classificações para bancos de dados, sendo elas as seguintes:

Ler mais
#docker #python #git

Tchau Tchau Airflow, Olá Dagster

No dia 9 de agosto de 2022 o Dagster finalmente anunciou o lançamento da sua versão 1.0 indicando que o orquestrador finalmente esta pronto para produção. Mas oque é Dagster? Segundo eles:

“Crie e realize o deploy de pipelines de dados com velocidade extraordinária. O orquestrador nativo da nuvem para todo o ciclo de vida de desenvolvimento, com linhagem e observabilidade integradas, um modelo de programação declarativo e a melhor testabilidade da categoria.”

Ler mais