Os objetivos principais da mineração de dados são a previsão e descrição. A previsão faz uso de variáveis existentes no banco de dados para prever valores desconhecidos ou futuros. A descrição é voltada para a busca de padrões descrevendo os dados e a subseqüente apresentação para a interpretação do usuário. A relativa ênfase entre previsão e descrição varia de acordo com o sistema de mineração de dados utilizado. Estes objetivos são conseguidos através de vários algoritmos. Tais algoritmos são incorporados em vários métodos de mineração de dados.
Existem vários algoritmos de mineração de dados utilizados para resolver problemas específicos. Estes são categorizados em algoritmos de associação, classificação, padrões seqüenciais e agrupamento. A premissa básica de algoritmos de associação é achar todas as associações em que a presença de um conjunto de itens em uma transação implica em outros itens. Algoritmos de classificação ou geração de perfis desenvolvem perfis de diferentes grupos. Algoritmos de padrões seqüenciais identificam tipos de padrões seqüenciais em restrições mínimas especificadas pelo usuário. Algoritmos de agrupamento segmentam o banco de dados em subconjuntos ou grupos.
■ Associações
Algoritmos de associação têm numerosas aplicações, incluindo supermercados, planejamento de estoque, mala direta para marketing direcionado e planejamento de promoções de vendas. Por exemplo, a regra de associação deriva a partir da mineração de dados de um banco de dados de transações (através do leitor de código de barras de produtos), uma lista contendo o conjunto de itens comprados pelo consumido em uma visita à loja. A regra de associação poderia ser:
75% dos consumidores que compram Coca-cola também compram batata frita.
O número "75%" refere-se ao fator de confidência (confidence factor), uma medida do poder preditivo da regra. O item do lado esquerdo da regra (left hand side - LHS) é Coca-cola, enquanto que batata frita está do lado esquerdo da regra (right hand side - RHS). O algoritmo produz uma grande quantidade destas regras e cabe ao usuário selecionar o subconjunto de regras que têm graus de confidência maiores e também porcentagem de listas que seguem a esta regra. Podem existir também múltiplas associações tais como:
65% dos consumidores que compram Coca-cola e batata frita também compram sorvete.
É importante para o usuário determinar quando existe algum elemento com chance de correlação (Coca e batata-frita sendo vendidas) ou quando existe alguma correlação desconhecida mas importante (sorvete também estava sendo comprado). O impacto aqui é como o supermercado pode incrementar as vendas de sorvete? O que acontece se haver uma promoção de Pepsi? Em outras palavras, quais itens devem ser colocados lado a lado na prateleira? Um conjunto de itens relacionados deve estar seguidamente um após o outro.
• Classificação ou Geração de perfis - Para um dado conjunto de registros com seus atributos correspondentes, um conjunto de marcadores (representando registros) e um marcador para cada registror, uma função de classificação examina o conjunto de registros marcados e produz descrições das características dos registros para cada classe. Por exemplo, numa análise de crédito, a companhia administradora de cartões terá registros de clientes contendo um número de descritores. Então, para um consumidor com um bom histórico de crédito, o registro é marcado como "excelente"; "bom” “médio” ou "ruim". A regra de classificação poderia ser:
Consumidores com histórico de crédito excelente têm uma taxa de débito de menos de 10%.
Esta regra poderia então ser utilizada para a classificação de novos conjuntos de dados. Outro exemplo poderia ser o marketing direcionado. Qualquer companhia que pretenda realizar uma divulgação através de mala direta utilizará a sua lista de correspondência ou uma comprada de terceiros. A lista de correspondência pode ter tido resposta em malas direta anteriores e, através de um gerador de perfis, uma classificação ou perfil é desenvolvido caracterizando as pessoas que tenham respondido às correspondências anteriores. O perfil então é tomado como uma previsão de resposta da correspondência atual. A lista de correspondência é então filtrada de maneira que os materiais promocionais sejam direcionados àqueles que correspondem ao perfil. Além de marketing direcionado e aprovação de crédito, a geração de perfis também é utilizada para as correspondências anexas e a determinação de tratamentos apropriados.
• Padrões Seqüenciais - Esta técnica procura por compras ou eventos que ocorrem em uma seqüência através do tempo. Por exemplo, uma loja pode descobrir que consumidores que compram TVs tendem também a comprar filmadoras de 8 mm em 60% das vezes.
60% dos consumidores compram TVs seguidas de filmadoras de 8 mm.
Uma seqüência similar poderia ser:
90% das vezes, quando as vendas de Coca-cola aumentam, as vendas de salgadinhos também aumentam.
Isto causará um grande impacto no layout da loja e também identificará os consumidores que podem ser alvo de promoções de venda de filmadoras, caso eles tenham comprado TVs nos últimos 3 meses. Este tipo de algoritmo é especialmente útil para companhias de catálogos e firmas de investimentos financeiros, que estão aptas a analisar seqüências de eventos que afetam os preços dos instrumentos financeiros.
• Agrupamento - A técnica de agrupamento irá segmentar um banco de dados em subconjuntos ou grupos. Isto pode ser criado estatisticamente ou através da utilização de métodos de indução não-supervisionados neurais ou simbólicos. Os vários métodos neurais e simbólicos são distinguidos pelo tipo de valores de atributos que podem ser aceitos (numérico nominal e objetos estruturados); representação de grupos, e organização de grupos (em hierarquia ou em um nível plano). Esta técnica de segmentação foi desenvolvida para lidar com o processamento de pesquisas de consumidor. Por exemplo, um questionário de pesquisa contendo 25 questões de múltiplas alternativas pode ser analisado por questão: por exemplo, 35% responderam 'b' na questão 1 e assim por diante. O desafio é analisar este questionário como uma coleção de 25 padrões de respostas, cada um fornecido por um consumidor. Esta técnica irá dividir consumidores de acordo com os seus padrões de resposta, através da criação de conjuntos de grupos que contêm a máxima similaridade com estes e a máxima diferença entre eles. Alguns dos usos pertinentes têm sido na análise de bancos de dados de patentes, pois é de comum acordo que existe um consenso na utilização de palavras-chave; análise de texto para conceitos; compreensão de tipos de consumidores em pesquisas de consumidor; e procura por artigos de pesquisa relevantes.