« RELAÇÕES PÚBLICAS 22 | Entrada | COMUNICAÇÃO EMPRESARIAL 1 »
april 26, 2005
ESTUDOS E ANÁLISE DE MERCADOS I
A primeira fase de tratamento dos dados é a análise univariada, através da verificação das frequências e o cálculo das medidas de localização central e de dispersão para cada variável isoladamente.
Geralmente, não se calculam mais que as seguintes medidas:
• as frequências absolutas (números absolutos de cada valor) e as frequências relativas (as proporções em percentagens ou permilagens, etc.).
• a média e desvio-padrão
• a mediana e desvio-quartil
• a moda.
Investigação e Estatística
A Estatística descritiva
Quando queremos investigar, o primeiro objectivo é descrever o fenómeno. Por isso, a primeira fase de tratamento dos dados é a análise univariada, através da verificação das frequências e o cálculo das medidas de localização central e de dispersão para cada variável isoladamente.
Geralmente, não se calculam mais que as seguintes medidas:
• as frequências absolutas (números absolutos de cada valor) e as frequências relativas (as proporções em percentagens ou permilagens, etc.).
• a média e desvio-padrão
• a mediana e desvio-quartil
• a moda.
No entanto, as medidas atrás referidos não poderão ser calculadas para qualquer tipo de variável. Tudo depende da escala de valores de cada variável, pelo que aqui será importante fazer um pequeno parêntesis para classificarmos as variáveis quanto à sua escala. Compreender esta classificação é de importância crucial para utilizarmos de forma adequada a estatística.
Sumariamente, poderemos classificar as variáveis da seguinte forma:
1- Variáveis qualitativas nominais: são variáveis cujos valores não tem uma relação de ordem entre eles, por ex., o Sexo e Raça.
Para este tipo de variáveis poder-se-á fazer o estudo das frequências absolutas e relativas
2- Variáveis qualitativas ordinais, cujos valores não são métricos mas incluem relações de ordem. É o caso da variável "Peso" medida em 3 níveis (pouco pesados, pesados, muito pesados).
Para este tipo de variáveis poder-se-á fazer tudo quanto é possível fazer-se para as variáveis nominais, mas também adicionalmente é possível estudar as medianas, quartis, modas
3- Variáveis quantitativas, cujos valores são medidos numa escala métrica, como por ex., a "Idade", ou o "Peso" medido em gramas.
Para este tipo de variáveis poder-se-á fazer tudo quanto é possível fazer-se para as variáveis nominais e ordinais, mas também adicionalmente é possível estudar as médias e desvios-padrão
Nome Data de Nascimento Data Actual Peso Sexo
João 13-12-1973 15-12-2000 60 homem
Maria 10-07-1961 15-12-2000 55 mulher
Manuel 20-11-1980 15-12-2000 80 homem
Luís 11-05-1950 15-12-2000 75 homem
Ana 15-08-1985 15-12-2000 50 mulher
Com esta base de dados criada será mais fácil compreender as provas estatísticas.
1. Interpretar as frequências absolutas e relativas.
No caso de variáveis nominais como o sexo ou a raça, só poderão ser calculadas as frequências. É totalmente impossível calcular a média ou a mediana do sexo porque a escala destas variáveis não tem sequer uma relação de ordem. Repare-se que por vezes codificam-se as variáveis com números para introdução no computador, o que torna possível pedir erradamente médias para variáveis nominais, embora tais resultados, evidentemente, não tenham significado nenhum!
No entanto, claro que é também possível calcular as frequências para todas as outras variáveis ordinais ou quantitativas!
Por exemplo, suponhamos que sabemos o Peso medido em Kg de 1000 pessoas. Será possível calcular as frequências de quem tem 40 Kg, 41 Kg, 42 Kg, ..., etc., mas atendendo ao elevado número de pessoas, será preferível agrupá-las em grupos com o mesmo intervalo, por exemplo, grupo A (40-45 Kg), grupo B (46-49 Kg), etc., de forma a calcular as frequências para cada grupo.
Convém que o intervalo de amplitude dos diferentes grupos seja sempre o mesmo, caso contrário, os resultados poderão confundir-nos, pois tenderemos a comparar grupos que não são comparáveis!
2. Interpretar as médias, desvios-padrão, medianas, etc.
No Quadro seguinte, encontram-se as medidas geralmente calculadas para variáveis ordinais ou quantitativas.
Escala da variável....Med. localização central...Med.dispersão
Ordinal ou Quant.................Mediana..................Amplitudeinterquartil / Desvio interquartil
Quantitativa.........Média.....................Variância /Desv padrão
Qualquer escala Moda -
A Média aritmética assim como o Desvio-padrão que lhe está associado, são conceitos que geralmente oferecem poucas dúvidas. São calculados apenas em variáveis com a escala quantitativa. Por exemplo, não tem significado calcular a média para o Sexo (variável nominal) ou para o Peso medido em escala ordinal.
O conceito de Mediana, no entanto, gera muitas confusões: a Mediana é simplesmente o valor que se situa a meio da fila ordenada de valores, desde o mais baixo ao mais alto. Assim, tem que haver uma relação de ordem nos valores, pelo que a Mediana pode ser calculada tanto para as variáveis ordinais como para as quantitativas puras. A partir do exemplo relacionado com a base de dados poderemos criar uma nova variável idade a partir da data de nascimento e data actual, Neste exemplo, temos cinco pessoas com as seguintes idades já ordenadas:
15 20 27 39 50
O número 27 representa o valor que está a meio, ou seja, é a Mediana. Isto significa que 50% das pessoas têm uma idade igual ou maior que 27 e, evidentemente, os outros 50% têm uma idade igual ou menor que 27.
O número 20 representa o valor que está a meio da primeira metade, ou seja, é o primeiro Quartil ou Percentil 25. Isto significa que 75% das pessoas têm uma idade igual ou maior que 20 e, evidentemente, os outros 25% têm uma idade igual ou menor que 20.
O número 39 representa o valor que está a meio da segunda metade, ou seja, é o terceiro Quartil ou Percentil 75. Isto significa que 75% das pessoas têm uma idade igual ou menor que 39 e, evidentemente, os outros 25% têm uma idade igual ou maior que 39.
Claro que a mediana é também o segundo Quartil e o Percentil 50. No caso deste exemplo, com um número ímpar de valores ordenados (cinco), a mediana é o valor que está a meio, mas no caso de um número par de valores ordenados, a mediana terá ser calculado fazendo-se a média entre os dois valores que estão a meio.
A Moda é o valor mais frequente (ou seja, o que "está na moda"...). Podem existir várias Modas : ex: numa amostra existem 10 pessoas com 20 anos e 10 pessoas com 30 anos, sendo todas as outras idades menos frequentes.
Qual a diferença de interpretação entre a Mediana e a Média?Em primeiro lugar a Mediana pode ser utilizada tanto em variáveis quantitativas como em variáveis qualitativas ordinais, enquanto a Média só pode ser utilizada em variáveis quantitativas.
Em segundo lugar, no caso das variáveis quantitativas, embora a Média seja um valor mais fácil de entender, tem o defeito de nos induzir em erro se a nossa amostra tiver valores muito extremos. Por exemplo, na distribuição de idades da nossa amostra a Média é de 30,2 e a Mediana de 27. Imagine que o indivíduo mais velho tinha não 50 anos de idade mas sim 100 anos. Isto faria com que a Média saltasse para 40,2, ou seja, seria superior a quase todos os valores individuais, mas a Mediana continuaria a ser 27. Se olharmos para todos os 5 valores individuais da nossa amostra, verificamos que o número 27 é melhor representante da distribuição global da idade na nossa amostra que o erróneo número 40,2.
Assim, no caso das variáveis quantitativas, quando o valor da Mediana é muito diferente da Média, é aconselhável considerar sempre a Mediana como valor de referência mais importante.
Além das medidas de localização central (média, mediana, moda) existem as medidas de dispersão que nos dão a ideia da variação dos dados.
Quando se calcula a média dever-se-á sempre calcular o desvio-padrão, apresentando-se a sua fórmula apenas para ficar-se com uma ideia do que representa:
Desvio-padrão =
em que
Xi = Cada valor individual
N = Número de todos os valores
Ou seja, para calcular o Desvio-padrão é necessário primeiro calcular a Média e depois calcular todas as diferenças entre cada valor individual e a média. É um erro dizer que o desvio-padrão é a média de todas as diferenças, mas podemos senti-lo como algo aproximado.
Por vezes, queremos comparar duas variáveis quantitativas quanto ao seu grau de dispersão, por exemplo, o Peso (em Kg) e a Idade (em Anos). Esta comparação não poderá ser feita comparando simplesmente os Desvios-padrão respectivos, porque estes estão expressos em unidades de medida diferentes, i.e., não se pode comparar a dispersão de Kg com a de Anos! No entanto, é possível fazer esta comparação em termos relativos, se calcularmos o coeficiente de variação, da seguinte forma:
Coeficiente de variação = X 100%
convencionando alguns autores que um coeficiente variação maior que 10% significa que a dispersão é forte.
Nas variáveis ordinais, como não é possível calcular médias ou desvios-padrão, para avaliar o grau de dispersão, poder-se-á calcular a Amplitude interquartil e o Desvio-quartil.
A Amplitude interquartil é simplesmente a diferença entre o 3º e o 1º Quartil, ou seja, no exemplo anterior, 39-20= 19. Repare-se que nesta Amplitude inter-quartil situam-se os 50% centrais dos valores.
O Desvio interquartil é sempre metade da Amplitude interquartil, ou seja, 19/2=9,5.
Também é possível, calcular a o coeficiente de variação quartil da seguinte forma:
Coeficiente de variação quartil= X 100%
Claro que estes cálculos também podem ser efectuados para as variáveis quantitativas.
©António Paula Brito de Pina - 2001
Publicado por james stewart às april 26, 2005 12:51 EM