Softwares
Scrubber
Scrubber (esfregão em inglês) é uma biblioteca (API) para tratamento de dados. Permite a qualquer sistema ou aplicativo incorporar funcionalidades de tratamento, bastando apenas chamar as funções presentes na biblioteca.
Principais diferenciais:
• Totalmente escrito em linguagem 'C', o que garante performance e portabilidade para praticamente todos os ambientes computacionais, podendo ser utilizado diretamente por várias linguagens de programação e banco de dados (via Stored Procedures).
• Plataformas disponíveis:Windows, Unix e Linux, DLL e OCX, Java, Oracle e SQLServer, WebService.
• Pode ser utilizado concomitantemente em linguagens e/ou sistemas operacionais diferentes. Os resultados são sempre os mesmos, uma vez que o kernel de tratamento é o mesmo, somente muda a camada de interface da biblioteca com a linguagem utilizada
• Alta performance em velocidade: mais de um milhão de registros por hora
• Alta qualidade em acertividade nas operações realizadas
• Base de dados em formato proprietário, não necessita de administração e nem interfere nas bases de dados do usuário
• Poderoso algorítmo de recuperação de CEP, localiza não somente endereços com erro de grafia, mas também com erro de digitação
• Mais de 30 funções para CEP, endereço, nomes PF & PJ, recuperação de sexo, DDD & telefone, email, home page, match code fonético, etc.
• Todas as funções retornam notas de ZERO a DEZ refletindo a correção e operações realizadas no dado original
• Pode ser utilizado em processos on-line ou batch
• Base de conhecimentos pode ser incrementada pelo usuário
• Suporte a UNICODE (UTF-8)
• Consumo de memória configurável, desde poucos Kb até 500Mb
Datawash
Aplicação Windows para tratamento de dados de forma off-line. Todas as funcionalidades para tratamento / higienização de qualquer arquivo ou tabela de banco de dados em uma única ferramenta.
Principais diferenciais:
• Desenvolvido com Scrubber, o que lhe garante alta performance e qualidade em tratamento de dados
• Interface moderna orientada a objetos, visual agradável e de fácil utilização
• Todas as parametrizações e configurações são acessadas de forma visual, não há necessidade de scripts ou arquivos de configuração
• O DataWash "aprende" a sua forma de utilização
• Tutorial e ajuda on-line
• Leitura e gravação de arquivos nos formatos Texto, dBase, Access e Excel
• Acesso nativo e direto a banco de dados Oracle, SQLServer, MySQL e PostgreSQL. Acesso a outros bancos via ADO / ODBC
• Enorme facilidade para compatibilizar e processar dados de origem e layout distintos em um único projeto. Para as finalidades de deduplicação, cruzamento, ou simples junção de tabelas
• Validação de dados genéricos por lista de valores válidos, expressão regular ou fórmula criada pelo usuário
• Inclusão de acentuação, formatação de campos em Capital Case
• Deduplicação de registros por household (Família, Domicilio ou Edificação) ou por qualquer critério definido pelo usuário. Eleição de um registro master com marcação e/ou atualização dos registros duplicados. Pode-se definir mais de um critério por projeto
• Estatísticas do processamento através das notas de tratamento
• Geração de novos campos a partir dos campos originais através de fórmulas
• Análise de Conteúdo e de Distribuição Geográfica
• Geração de relatórios, expondo de forma clara o resultado do tratamento. Logotipos personalizáveis, gravação direta no formato PDF ou mais de 10 formatos incluindo HTML
• Modo de operação batch sem interação com usuário para integração a outros processos batch ou com Agendador de Tarefas do Windows
Como o próprio nome indica, é uma versão mais leve do DataWash. Possui a mesma interface gráfica e forma de operação, porém limita-se às operações básicas de tratamento de dados. Indicado para quem possui pequeno volume de dados, ou que não precisa de operações mais completas ou sofisticadas, ou ainda como uma forma mais econômica de manter a qualidade de seus dados.
Principais limitações:
• Leitura e gravação somente de arquivos nos formatos Texto, dBase, Access e Excel
• Processa apenas um arquivo de cada vez
• Executa somente a higenização dos dados, sem deduplicação ou cruzamento
• Não emite relatórios
DataUnify
Software para unificação de bases de dados. Processa bases de dados cadastrais com modelagens distintas para uma única base de dados unificada, normalizada (tabelas na terceira forma normal) e padronizada (atributos: nome, endereço, telefones, etc. padronizados e atualizados).
Principais diferenciais:
• Desenvolvido com Scrubber, o que lhe garante alta performance e qualidade em tratamento de dados
• Escrito na forma de Stored Procedures, o que garante performance na leitura e gravação dos dados
• Suporte a bases com dezenas ou centenas de milhões de registros
• Disponível para Oracle e SQLServer
• Mantem a origem e data de atualização de todas as informações
• Localiza registros na base unificada através de qualquer combinação de atributos