O QUE É ANÁLISE EXPLORATÓRIA DE DADOS?



Insights: o poder da análise exploratória de dados para tomada de decisão baseada em dados

O que é EDA?

A análise exploratória de dados (EDA) é um método de estudar dados para obter insights e descobrir padrões, correlações e anomalias. Isto é, a aplicação de abordagens estatísticas e gráficas para visualizar e resumir dados para entender melhor a distribuição, tendência central, variabilidade e outras propriedades significativas dos dados. 

A EDA é uma fase importante na análise de dados, pois ajuda a detectar problemas de dados, influenciar pesquisas futuras e oferecer hipóteses para investigação posterior. Além disso, identifica as variáveis ​​relevantes que podem influenciar o resultado de uma pesquisa e conduzir a construção de modelos de previsão.

Passo a passo para uma análise exploratória completa.


  1. Definir o problema

Determine a extensão da análise de dados e o tópico de pesquisa que você deseja abordar. É fundamental entender o objetivo da análise, o público-alvo e a conclusão esperada.


  1. Prepare os dados

Limpe os dados para garantir consistência, precisão e prontidão para análise. Isso inclui tratar quaisquer valores ausentes, lidar com outliers e, se necessário, converter os dados.


  1. Análise univariada

Analise cada variável separadamente para aprender sobre sua distribuição, tendência central, variabilidade e outras propriedades importantes. Isso ajuda a identificar quaisquer problemas com os dados e quaisquer outliers.


  1. Análise bivariada

Usando gráficos de dispersão ou coeficientes de correlação, examine a relação entre duas variáveis. Isso ajuda na identificação de padrões e vínculos de dados, bem como prováveis ​​vínculos causais.


  1. Análise multivariada

Analise múltiplas variáveis ​​simultaneamente usando técnicas como análise de componentes principais (PCA) ou análise fatorial. Isso pode ajudar a identificar fatores subjacentes ou clusters nos dados, bem como fornecer insights sobre relacionamentos complexos entre múltiplas variáveis.


  1. Conclusão

Com base no tópico de pesquisa e no escopo da análise de dados, use os resultados da análise exploratória de dados para tirar conclusões e fornecer sugestões. Técnicas estatísticas ou de aprendizado de máquina podem ser usadas para construir um modelo de previsão ou para testar hipóteses.

O poder dos gráficos

A visualização de dados é uma parte crucial da análise exploratória de dados e uma ferramenta útil para apresentar descobertas a outras pessoas.

Envolve o desenvolvimento de representações gráficas de dados simples de compreender e entender, ajudando analistas e tomadores de decisão a identificar rapidamente padrões, tendências e valores discrepantes nos dados.

Exemplos de visualizações de dados frequentes incluem:

  • Gráficos de barras (bar charts): São usados ​​para mostrar dados categóricos e comparar as frequências ou proporções de várias categorias. Um gráfico de barras, por exemplo, pode ser usado para comparar as vendas de vários produtos em uma loja de varejo.

  • Gráficos de linhas (line charts): São usados ​​para representar padrões de longo prazo, como preços de ações ou tráfego do site. Eles também são úteis para comparar várias tendências no mesmo gráfico.

  • Gráficos de dispersão (scatter plots): São gráficos que mostram a conexão entre duas variáveis. Eles podem ser usados ​​para detectar relacionamentos, bem como outliers.

  • Mapas de calor (Heat map): São usados ​​para representar dados em uma matriz bidimensional, com cada célula colorida para refletir o valor do ponto de dados. Eles podem ser usados ​​para encontrar clusters, padrões ou conjuntos com alta frequência nos dados.

  • Gráfico de caixa (box plots): São usados para entender a distribuição de variáveis, podem ser agrupados para comparar a distribuição entre grupos ou simplesmente para enxergar as principais medidas de posição.

A visualização de dados também pode ser usada para criar painéis interativos que permitem que os tomadores de decisão estudem os dados e desenvolvam insights em tempo real.

Um painel de vendas, por exemplo, pode permitir que os usuários filtrem dados de vendas por produto, região ou período de tempo e exibam os resultados em várias tabelas e gráficos.

No geral, a visualização de dados é uma ferramenta eficaz para examinar e compartilhar as conclusões da análise de dados. Analistas e tomadores de decisão podem fazer julgamentos fundamentados e agir com base em insights de dados, produzindo representações visuais de dados claros e úteis.

Testar a correlação e associação

Os testes de correlação e associação são empregados para verificar o grau e a direção de uma ligação entre duas ou mais variáveis. Na maioria das vezes queremos entender a relação das variáveis para identificar e conhecer quais delas conseguem explicar a variável resposta, para a construção de um modelo.

Porém, entender como as variáveis explicativas do modelo se relacionam é importante para evitar colinearidade no modelo, isto é, quando identificado que duas ou mais variáveis explicativas tem correlação moderada ou alta, é necessário fazer uma redução de dimensionalidade.

A seguir estão alguns dos testes de correlação e associação mais comuns:

  • Coeficiente de correlação de Pearson: Quantifica a relação linear entre duas variáveis ​​contínuas. Tem um valor entre -1 e +1, com 0 indicando nenhuma correlação, -1 representando correlação negativa perfeita e +1 indicando correlação positiva perfeita.

  • Coeficiente de correlação de Spearman: Esta é uma medida não paramétrica da correlação de duas variáveis. É aplicável para dados contínuos e ordinais e é baseado nas classificações dos dados em vez dos valores reais.

  • Coeficiente de correlação de Kendall: Esta é outra medida não paramétrica de correlação baseada em classificações de dados. É comparável ao coeficiente de correlação de classificação de Spearman, embora seja mais adequado para tamanhos de amostra menores.

  • O teste Qui-quadrado: É usado para verificar se existe uma relação significativa entre duas variáveis ​​de categoria. Ele compara as frequências observadas e antecipadas dos dados sob a hipótese nula de independência.

  • O teste de Fisher: Este é outro outro teste para determinar a relação entre duas variáveis ​​de categoria. É comparável ao teste qui-quadrado, embora seja mais adequado para tamanhos de amostra pequenos.

Esses testes de correlação e associação podem ajudá-lo a identificar e determinar a força e a significância das correlações entre as variáveis. Para mais informações sobre correlação e associação, leia o artigo O que é coeficiente de correlação e associação.

Como aplicar EDA na sua empresa

Existem várias soluções de mercado que podem fornecer um projeto completo de Data Science, incluindo análise exploratória de dados, para aumentar sua inteligência de mercado.

No entanto, nem todos podem monitorar e coletar dados em tempo real, ter uma interface fácil de usar e fornecer insights para ajudar a orientar as escolhas de negócios.

A plataforma de dados Scora Journey, por outro lado, é capaz de gerenciar as mais avançadas análises de dados exploratórios, bem como algoritmos de aprendizado de máquina, para aumentar a eficiência e as receitas da empresa.

Existem várias ferramentas disponíveis para aplicar a análise exploratória de dados ao seu negócio. Aqui estão algumas das principais ferramentas:

  1. Excel: O Excel é uma ferramenta de planilha amplamente usada que pode ser usada para análise exploratória básica de dados. Ele permite classificar e filtrar dados, criar tabelas e gráficos e realizar análises estatísticas simples.

  2. Tableau: Tableau é uma poderosa ferramenta de visualização de dados que pode ser usada para análise exploratória de dados. Ele permite criar painéis interativos, explorar dados em tempo real e criar visualizações complexas.

  3. Python: Python é uma linguagem de programação popular para análise de dados e aprendizado de máquina. Possui várias bibliotecas e estruturas, como Pandas e NumPy, que podem ser usadas para análise exploratória de dados.

  4. R: R é outra linguagem de programação popular para análise de dados e computação estatística. Possui várias bibliotecas e pacotes, como dplyr e ggplot2, que podem ser usados ​​para análise exploratória de dados.

  5. SPSS: SPSS é um pacote de software estatístico que pode ser usado para análise exploratória de dados. Possui várias ferramentas integradas para visualização de dados e análise estatística.

  6. SAS: SAS é outro pacote de software estatístico popular que pode ser usado para análise exploratória de dados. Possui várias ferramentas integradas para visualização de dados e análise estatística.

A escolha da ferramenta dependerá das necessidades específicas do seu negócio, do tamanho e complexidade dos seus dados e do seu nível de conhecimento técnico. É importante escolher uma ferramenta que seja fácil de usar, flexível e que possa lidar com grandes conjuntos de dados.

Exemplos de gráficos usando python

Para exemplificar os gráficos citados, segue abaixo alguns exemplos utilizando o valor de fechamento das açoes da Petrobras e também um dataset público sobre gorjetas. 


Os códigos foram escritos utilizando a linguagem python, as bibliotecas utilizadas são encontradas no próprio código.


- Gráfico de dispersão:

import seaborn as sns

import yfinance as yf

import matplotlib.pyplot as plt


# Define os valores padrão para os parâmetros de configuração

plt.rcParams['figure.figsize'] = (12, 6)

plt.rcParams['figure.dpi'] = 75

plt.rcParams['font.size'] = 20

# Carrega o dataset de gorjetas

tips_df = sns.load_dataset("tips")


# Cria um gráfico de dispersão com o relacionamento entre a quantidade de pessoas na mesa e o valor total da conta

plt.scatter(tips_df['size'], tips_df['total_bill'])

plt.title('Quantidade de pessoas na mesa X Valor total da conta')

plt.xlabel('Quantidade de pessoas')

plt.ylabel('Total da conta')

plt.show()



- Mapa de calor:


# Cria um mapa de calor com a correlação entre as variáveis do dataset de gorjetas

corr = tips_df.corr()

sns.heatmap(corr, cmap='coolwarm', annot=True)

plt.title('Correlação entre as variáveis do dataset de gorjetas')

plt.show()


- Gráfico de barra:


# Cria um gráfico de barras com a média da gorjeta em relação ao sexo do pagador

mean_tip = tips_df.groupby('sex')['tip'].mean()

plt.bar(['Feminino', 'Masculino'], mean_tip)

plt.title('Média da gorjeta em relação ao sexo do pagador')

plt.show()


- Gráfico de linha:


# Busca os dados da ação da Petrobras na B3 (Bolsa de Valores do Brasil)

petrobras = yf.Ticker('PETR4.SA')


# Obtém os valores históricos de fechamento das ações nos últimos 5 anos

petrobras_historic = petrobras.history(period='5y')['Close']


# Cria uma figura com um único subplot

fig, ax = plt.subplots()


# Faz o gráfico de linhas para os valores de fechamento das ações

ax.plot(petrobras_historic.index, petrobras_historic)


# Define os rótulos dos eixos e o título do gráfico

ax.set_xlabel('Data')

ax.set_ylabel('Valor de fechamento das ações')

ax.set_title('Valores das ações da Petrobras nos últimos 5 anos')


# Rotaciona os rótulos do eixo x para facilitar a visualização

plt.xticks(rotation=45)


# Mostra o gráfico

plt.show()


- Gráfico de caixa:


# Cria uma figura com um único subplot

fig, ax = plt.subplots()


# Faz o boxplot para os valores de fechamento das ações

ax.boxplot(petrobras_historic)


# Define o título do gráfico

ax.set_title('Boxplot dos valores de fechamento das ações da Petrobras nos últimos 5 anos')


# Mostra o gráfico

plt.show()



Comentários