Medidas de Posição
Medidas de posição, também chamadas de medidas de tendência central, referem-se à média, à moda e à mediana, que apresentam formas de obtenção e aplicação diferentes. As medidas de tendência central, ou de posição, fornecem um resumo dos dados estatísticos e dão ideia do centro em torno do qual os dados se distribuem, indicando, assim, um valor que melhor representa todo o conjunto de dados.
Para estudar essas medidas, precisamos antes conhecer alguns símbolos matemáticos que são utilizados em suas definições e cálculo.
Símbolos matemáticos
Para a representação dos valores de uma variável utilizamos x1, x2, x3, ...xn.
O subscrito indica a posição do valor da variável na sequência e, dessa forma, x1 representa o primeiro valor observado, x2 o segundo e assim por diante e xi é o iésimo valor no conjunto de n valores.
A letra grega sigma (∑) é utilizada para indicar a soma dos n valores assumidos pela variável xi , e lemos como “somatório de”, conforme mostrado a seguir:
Média da Amostra
A média aritmética, ou simplesmente média, é a medida de tendência central mais conhecida e utilizada para resumir a informação contida em um conjunto de dados (VIEIRA, 2011).
A média de um conjunto de dados é obtida somando todos os dados e dividindo o resultado pelo número total de dados.
Média de dados apresentados em tabela de distribuição de frequência
A média de dados discretos agrupados em uma tabela de distribuição de frequências é dada pelo somatório dos produtos dos valores da variável (xi) pelas respectivas frequências (fi), dividido pela soma das frequências.
Dados contínuos podem estar agrupados em classes e ser apresentados em tabelas de distribuição de frequências. Para calcularmos a média é necessário antes calcular o valor central de cada classe. Relembre que o valor central de cada classe, ou ponto médio da classe, é dado pela soma dos limites inferior e superior, dividida por dois.
Onde xi* é o valor central de cada classe ou ponto médio da classe.
Mediana da amostra
A mediana (Me) de um conjunto de dados é o valor cuja posição separa o conjunto de dados em duas partes iguais. Metade do número de elementos possui valor maior que a mediana e a outra metade possui valores menores do que a mediana.
Se o número de dados é ímpar, existe um único valor na posição central. Esse valor é a mediana dos dados.
Exemplo 1: Sejam os valores 2, 3, 5, 6 e 7, a mediana tem valor 5.
Se fossemos calcular a média, essa seria igual a 4,6.
Se o número de dados é par, existem dois valores na posição central e a mediana é a média desses dois valores.
Exemplo 2: Sejam os valores 2, 3, 5 e 6, a mediana é a média entre 3 e 5, logo, a mediana tem valor 4. A média calculada será 16 / 4 = 4.
Quando ocorrem dados discrepantes (valores muito maiores ou menores que os demais), esses valores podem alterar a média, distorcendo essa medida de posição. Para esses casos, o mais correto será usar a mediana para descrever a tendência central dos dados.
Exemplo 3: Sejam os valores 2, 3, 5, 6, 7, 9, 9, 38.
A média calculada será: (2+3+5+6+7+9+9+38)/8 = 79/8 = 9,87.
É fácil notar que a média é maior do que 7 dos 8 dados que compõem a amostra.
A mediana será: a média dos valores 6 e 7, logo, a mediana é 6,5.
Se o valor discrepante (38) fosse substituído por um valor mais coerente com a série de dados, por exemplo, 11, o cálculo da média seria:
(2+3+5+6+7+9+9+11)/8 = 52/8 = 6,5. Note que o valor da mediana não seria alterado, permanecendo igual a 6,5.
O valor da mediana pode coincidir ou não com o valor de um elemento da série de dados. Quando o número de elementos da série é ímpar, haverá coincidência entre a mediana e um valor da série, entretanto, se o número de elementos é par, não haverá coincidência.
Moda
A moda (Mo) é o valor que ocorre com maior frequência em um conjunto de dados.
A moda é muito informativa quando o conjunto de dados é grande, mas se o conjunto de dados for relativamente pequeno (20 ou 30 observações), a moda não tem, em geral, sentido prático (VIEIRA, 2011).
A moda também pode ser utilizada para descrever dados qualitativos. Nesse caso, a moda é a categoriaque ocorre com maior frequência, ou seja, a categoria que concentra a maior quantidade de dados.
Um conjunto de dados pode não ter moda, ou ter duas ou mais modas.
Exemplo 4- Seja o conjunto de dados: 3, 5, 7, 6, 4, 9, 8. Este conjunto de dados não possui moda, pois todos os valores ocorrem uma única vez. Nesse caso, o conjunto apresenta uma distribuição amodal.
Exemplo 5- Seja o conjunto de dados: 3, 5, 4, 6, 4, 9, 8. Nesse caso o conjunto apresenta moda igual a 4 e a distribuição é unimodal, pois apresenta uma única moda.
Exemplo 6- Seja o conjunto de dados: 2, 7, 7, 13, 15, 15, 22. Este conjunto apresenta duas modas, Mo1= 7 e Mo2= 15, sendo denominada distribuição bimodal.
Quando a distribuição apresenta mais de uma moda, como no exemplo 6, o histograma tem mais de um pico. Conjunto de dados com três modas é denominado trimodal e com quatro ou mais modas é dito multimodal
A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou quando a medida de posição deve ser o valor mais típico da distribuição (CRESPO, 2009).
Para calcular a moda de uma variável em uma série de dados, precisamos apenas da distribuição de frequências (contagem). Já para a mediana necessitamos minimamente ordenar as realizações da variável. Finalmente, a média só pode ser calculada para variáveis quantitativas (BUSSAB & MORETTIN, 2010).
As condições citadas limitam bastante o cálculo de medidas-resumos para as variáveis qualitativas. Para as variáveis nominais somente podemos trabalhar com a moda e para as variáveis ordinais, além da moda, podemos usar também a mediana.