Desapontamento para evitar a superfície em gráficos estatísticos (2024)

13

PorRick WicklinsobreO loop Do

Estalando.Para um estatístico, é mais do que acontece quando você bebe muito café.

O tremor é o ato de adicionar ruído aleatório aos dados, a fim de evitar a sobrecarga em gráficos estatísticos.O excesso de exibição pode ocorrer quando uma medição contínua é arredondada para alguma unidade conveniente.Isso tem o efeito de alterar uma variável contínua em uma variável ordinal discreta.Por exemplo, a idade é medida em anos e o peso corporal é medido em libras ou quilogramas.Se você construir um gráfico de peso em relação à idade para uma amostra suficientemente grande de pessoas, pode haver muitas pessoas registradas como, digamos, 29 anos e 70 kg e, portanto, muitos marcadores plotados no ponto (29, 70).

Para aliviar o excesso de exibição, você pode adicionar um pequeno ruído aleatório aos dados.O tamanho do ruído é frequentemente escolhido para ser a largura da unidade de medição.Por exemplo, para o valor 70 kg, você pode adicionar a quantidadevocê, ondevocêé uma variável aleatória uniforme no intervalo [-0,5, 0,5].Você pode justificar o tremor assumindo que o verdadeiro peso de uma pessoa de 70 kg é igualmente provável de estar em qualquer lugar do intervalo [69,5, 70.5].

O contexto dos dados é importante ao decidir como tremer.Por exemplo, as idades geralmente são arredondadas: uma pessoa de 29 anos pode estar comemorando seu 29º aniversário hoje ou pode estar completando 30 anos amanhã, mas ela ainda está gravada como 29 anos.Portanto, você pode prender uma idade adicionando a quantidadev, ondevé uma variável aleatória uniforme no intervalo [0,1]. (Ignoramos o caso estatisticamente significativo de mulheres que permanecem 29 por muitos anos!)

Existem outras razões pelas quais os marcadores são superLonados em parcelas de dispersão, incluindo a tendo muitos milhares de pontos de dados.O tremor não impede esse tipo de sobrecarga, mas você podeUse a transparência para ajudar a aliviar a sobrecarga em grandes conjuntos de dados.

Plotar dados que são arredondados para a unidade mais próxima

O conjunto de dados sashelp.iris, que é distribuído como parte do SAS 9.2, ilustra o problema de sobrecarga e foi usado por Chambers, Cleveland, Kleiner e Tukey (1983, p. 107,Métodos gráficos para análise de dados) para discutir o tremor. O gráfico a seguir mostra a largura e os comprimentos das pétalas para 50 flores da espécieIris Silky.Também estão incluídas uma linha de regressão e a banda de confiança de 95% para a média da variável de largura.Este gráfico é criado automaticamente pelo procedimento Reg.

Alguém que olha para o gráfico pode fazer duas perguntas:

  1. Existem 50 observações.Por que apenas 22 são visíveis na trama da dispersão?
  2. Por que a linha de regressão parece tão baixa e plana?Um observador casual pode esperar que os pontos "altos" em (16, 6) e (17, 5) "puxem" a linha de regressão.

Ambas as questões são resolvidas apontando que existem medições repetidas nos dados e, portanto, o gráfico sofre demais. Sim, existem 50 observações, mas apenas 22 pares exclusivos de valores.Além disso, a maioria dos pontos duplicados tem valores com largura de petal = 2 mm.Esses valores estão abaixo da linha de regressão, e é por isso que a linha parece muito baixa.

É menos provável que essas perguntas sejam feitas se você prejudica os dados.

Dados de estreia no SAS

Existem muitas técnicas e abordagens para os dados de tremer. O mais simples é adicionar ruído uniforme aleatório a cada variável, como mostrado na etapa de dados a seguir:

dadosíris(derrubar= s);definirsashelp.iris(onde=(Espécie ="Symbrush"));/** Adicione ruído uniforme aleatório em [-0,5, 0,5] **/s =1;/** fator de escala **/jpetalWidth = PetalWidth + s* (Heales (1) -0,5);jpetalngth = petallength + s* (Heales (1) -0,5);rótulojpetalWidth ="Largura da pétala (mm)"JPETALL Length ="Comprimento da pétala (mm)";correr;Proc sgplot dados= íris;título "Plotagem de dispersão de dados inviados"; dispersãox= JPETALL comprimento y = jpetalWidth;correr;

Defino a "escala" desse problema como 1 porque, para esses dados, posso justificar a adição de uma variável aleatória no intervalo [-0,5, 0,5].No entanto, você também pode impedir a superfície de desgaste em uma escala menor.(Por exemplo, para visualizar clusters nos dados, você pode definirsPara um valor como 0,2.) Você também pode usar escalas separadas para as variáveis x e y, se necessário.

O jittering cria um conjunto fictício de comprimentos e larguras de pétalas que, quando arredondadas, concorda com os dados originais.O gráfico mostra que todas as 50 observações agora estão visíveis.(Há uma ligeira sobrecarga de dois pontos próximos (15,2).) No entanto, o gráfico de dispersão não mostra mais os dados registrados.

Analisar os dados gravados;Exibir os dados trocadores

O tremor é principalmente uma técnica de visualização de dados.Se você deseja exibir o resultado de uma análise estatística (como a análise de regressão mostrada anteriormente), você deve executar a análise nooriginalDados, mas sobreponha a análise nos dados vagos.Esse tipo de gráfico não é criado automaticamente pelos procedimentos estatísticos do SAS, mas você pode criá -lo com o procedimento SGPLOT: use um procedimento estatístico para criar um conjunto de dados de saída e usar o procedimento SGPLOT para sobrepor os resultados e os dados de estalos.Por exemplo, as instruções a seguir calculam a análise de regressão nos dados originais, mas exibem os resultados nos dados de estufa:

Proc Sort dados= íris;porPetallength;correr;Proc Reg dados= íris;Modelo PetalWidth = Petallength;/** Orig Vars **/ saídaout = regout p = pred lclm = lclm uclm = uclm;correr;Proc sgplot dados= Regout;título "Plotagem de dispersão de dados inviados";Título2"Regressão de dados não jitred";banda x= Petallength inferior = lclm superior = uclm / legendlabel ="Limites de confiança de 95%";Seriesx= Petallength y = pred / legendlabel ="Ajustar";dispersãox= JPETALL comprimento y = jpetalWidth;correr;

A linha de regressão é exatamente a mesma que no primeiro gráfico, mas não parece mais "muito baixa" porque é exibida na parte superior dos dados de estalos.

Tremor unidimensional

Além de lotes de dispersão, é comum as parcelas de pontos unidimensionais.Para gráficos de pontos, às vezes é usado um "tremor sistemático", é usado.(Veja Theus e Urbanek (2009),Gráficos interativos para análise de dados, pp. 31-32.Também Chambers et al.(1983), p.20.) No tremor sistemático, nenhum ruído aleatório é usado.Em vez disso, os valores repetidos são compensados para que todas as observações sejam visíveis.Essa abordagem funciona apenas para pequenos conjuntos de dados, mas pode ser uma exibição eficaz para as estatísticas de ensino, porque o gráfico de pontos pode ser sobreposto em um gráfico de caixa.Show de Kleinman e Hortonum exemplo de estofamento sistemáticoem seu blog SAS e R.

Outras abordagens para tremer

Para os dados da íris, uso 1 para o fator de escala, porque essa é a unidade de arredondamento. Cambers, Cleveland, Kleiner e Tukey (1983) apresentam uma segunda opção para os dados de estalos: eles escolhem uma escala que depende da extensão dos dados.SeR= max (x) –Min (x) é a faixa de x, eles usam 4% ou 10% deRcomo fator de escala.Nas palavras deles, "queremos que a fração seja grande o suficiente para aliviar a sobreposição, mas não tão grande quanto corromper seriamente os dados".

Outra abordagem que às vezes é usada é deixardser a menor distância entre valores únicos de x e defina a escala comod/5.

Michael Friendly tem um SAS%Macro de jitterpara o qual você pode especificar as unidades apropriadas para cada variável.

O trilho repetido é uma boa ideia?Emmeu próximo post no blog, Discuto alguns argumentos a favor e contra o tremor.

Nota do editor(11SEP2013): no SAS 9.4, oDeclaração de dispersão no Proc SGPlot suporta a opção Jitter, que abriga automaticamente marcadores.

Tag9.4 Análise de dados Programação SAS Gráficos estatísticos

Desapontamento para evitar a superfície em gráficos estatísticos (2024)

References

Top Articles
Latest Posts
Article information

Author: Rueben Jacobs

Last Updated:

Views: 6056

Rating: 4.7 / 5 (77 voted)

Reviews: 84% of readers found this page helpful

Author information

Name: Rueben Jacobs

Birthday: 1999-03-14

Address: 951 Caterina Walk, Schambergerside, CA 67667-0896

Phone: +6881806848632

Job: Internal Education Planner

Hobby: Candle making, Cabaret, Poi, Gambling, Rock climbing, Wood carving, Computer programming

Introduction: My name is Rueben Jacobs, I am a cooperative, beautiful, kind, comfortable, glamorous, open, magnificent person who loves writing and wants to share my knowledge and understanding with you.