O QUE É CLUSTERIZAÇÃO?


O poder de desvendar padrões e extrair insights valiosos ​​para tomada de decisão baseada em dados

Cientistas de dados frequentemente empregam análise de agrupamento para organizar pontos de dados em grupos que façam sentido para eles. É a divisão de um conjunto de pontos de dados em subconjuntos ou clusters de acordo com o quão semelhantes ou diferentes eles são. 

Diversas áreas, incluindo marketing, medicina, economia e ciência da computação, empregam a análise de agrupamento. Examinaremos os fundamentos da análise de agrupamento neste post.

Tipos de Clusterização

Existem dois tipos de agrupamento: hierárquico e particionado.

  1. Hierárquicos

Um dendrograma, uma estrutura de agrupamentos semelhante a uma árvore, é produzido usando a técnica de agrupamento conhecida como agrupamento hierárquico. Existem duas categorias, aglomerativo e divisivo.


Um método de baixo para cima, chamado clustering agregativo, começa com cada ponto de dados como um único cluster e os combina em clusters maiores de acordo com a semelhança de cada ponto (indivíduo).


Por outro lado, o clustering divisivo é um método de cima para baixo que começa com todos os pontos de dados em um cluster e depois os divide em clusters menores.




  1. Particionado

Os pontos de dados são divididos em grupos separados e não sobrepostos usando a técnica de agrupamento conhecida como particionamento. Existem duas categorias de cluster particionados, k-médias e k-medóides.


Uma técnica popular chamada "agrupamento K-means" divide os pontos de dados em k centróides, onde k é o número predeterminado de clusters. Cada ponto de dados é atribuído ao centróide mais próximo pelo algoritmo, que então calcula novamente o centróide de cada cluster com o novo ponto.


Semelhante ao k-means, o clustering de k-medóides escolhe um medoid ou o ponto de dados mais próximo do centro do cluster, em vez de calcular o centróide de cada cluster.




Escolhendo o tipo de Cluster

Dependendo do tipo de dados que você possui e do problema que está tentando solucionar, você deve escolher o algoritmo de agrupamento apropriado.


Quando você deseja investigar as conexões entre clusters e exibi-los em um dendrograma, o agrupamento hierárquico é útil. Quando você deseja separar pontos de dados em grupos não sobrepostos, o clustering de particionamento pode ser eficaz.


É vital pré-processar os dados dimensionando ou normalizando antes de usar qualquer técnica de agrupamento. Ao fazer isso, garante-se que todas as variáveis ​​estejam na mesma escala e recebam o mesmo peso durante todo o processo de agrupamento.


Avaliando o Cluster

Uma fase essencial do processo de agrupamento é a avaliação dos resultados do agrupamento. A qualidade do agrupamento pode ser avaliada usando várias medidas, como o escore de silhueta, o índice de Dunn e o índice de Calinski-Harabasz.


A pontuação da silhueta de cada ponto de dados, que varia de -1 a 1, indica o quão bem ele se encaixa no cluster ao qual foi atribuído. Um número próximo a 1 denota um ponto de dados bem agrupado, enquanto um valor próximo a -1 denota uma possível atribuição de cluster incorreta.


O índice de Dunn calcula a separação de pontos de dados dentro e entre clusters. Resultados de agrupamento melhores são indicados por um índice de Dunn mais alto.


A razão entre a variação entre os clusters e a variância dentro dos clusters é medida pelo índice Calinski-Harabasz. Resultados de agrupamento melhores são indicados por um índice Calinski-Harabasz mais alto.


Dados necessários para Cluster

Para realizar análises de agrupamento, é importante ter um conjunto de dados que contenha as variáveis ​​de interesse. As variáveis ​​devem ser relevantes para o problema que está sendo resolvido e devem ter um impacto significativo nos resultados do agrupamento.


Por exemplo, digamos que queremos agrupar clientes com base em seu comportamento de compra. Nesse caso, precisaríamos de um conjunto de dados que incluísse variáveis ​​como histórico de compras do cliente, frequência de compras, valor gasto por compra e dados demográficos como idade, gênero e localização também podem ajudar.


Ter um grande conjunto de dados com uma gama diversificada de variáveis ​​pode melhorar a precisão e a confiabilidade dos resultados do agrupamento. Também é importante garantir que os dados estejam limpos e sem erros, pois isso pode afetar os resultados do agrupamento.


Além das variáveis, também pode ser útil ter uma variável de destino ou variável de resultado que possa ser usada para avaliar os resultados do agrupamento. Por exemplo, em nosso exemplo de agrupamento de clientes, podemos querer avaliar os agrupamentos com base em seu valor médio de compra ou valor de vida útil do cliente.


No geral, ter um conjunto de dados bem organizado com variáveis ​​relevantes e um objetivo claro pode ajudar a garantir o sucesso das análises de agrupamento.

Conclusão

A análise de clustering é uma técnica poderosa em ciência de dados que pode nos ajudar a entender as relações entre os pontos de dados e agrupá-los em clusters semelhantes. 


Existem diferentes tipos de algoritmos de agrupamento, cada um com seus próprios pontos fortes e fracos. Compreendendo os fundamentos da análise de agrupamento e escolhendo o algoritmo certo, podemos obter insights valiosos de nossos dados.


Comentários