jueves, 7 de noviembre de 2013

Medidas de tendencia central

Medidas de tendencia central: Media, Mediana, Moda


Las medidas de tendencia central (media, mediana y moda) sirven como puntos de referencia para interpretar las calificaciones que se obtienen en una prueba.
Volviendo a nuestro ejemplo, digamos que la calificación promedio en la prueba que hizo el alumno  fue de 20 puntos. Con este dato podemos decir que la calificación del alumno se ubica notablemente sobre el promedio. Pero si la calificación promedio fue de 65 puntos, entonces la conclusión sería muy diferente, debido a que se ubicaría muy por debajo del promedio de la clase.
En resumen, el propósito de las medidas de tendencia central es:
Mostrar en qué lugar se ubica la persona promedio o típica del grupo.
Sirve como un método para comparar o interpretar cualquier puntaje en relación con el puntaje central o típico.
Sirve como un método para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones.
Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos.
Las medidas de tendencia central más comunes son:
La media aritmética: comúnmente conocida como media o promedio. Se representa por medio de una letra M o por una X con una línea en la parte superior.
La mediana: la cual es el puntaje que se ubica en el centro de una distribución. Se representa como Md.
La moda: que es el puntaje que se presenta con mayor frecuencia en una distribución. Se representa Mo.



La media es considerada como la mejor medida de tendencia central, por las siguientes razones:
De estas tres medidas de tendencia central, la media es reconocida como la mejor y más útil. Sin embargo, cuando en una distribución se presentan casos cuyos puntajes son muy bajos o muy altos respecto al resto del grupo, es recomendable utilizar la mediana o la moda. (Porque dadas las características de la media, esta es afectada por los valores extremos).
Los puntajes contribuyen de manera proporcional al hacer el cómputo de la media.
Es la medida de tendencia central más conocida y utilizada.  
Las medias de dos o más distribuciones pueden ser fácilmente promediadas mientras que las medianas y las modas de las distribuciones no se promedian.
La media se utiliza en procesos y técnicas estadísticas más complejas mientras que la mediana y la moda en muy pocos casos.

Cómo calcular, la media, la moda y la mediana
Media aritmética PyE_001o promedio
Es aquella medida que se obtiene al dividir la suma de todos los valores de una variable por la frecuencia total. En palabras más simples, corresponde a la suma de un conjunto de datos dividida por el número total de dichos datos.
PyE_002
Ejemplo 1:
En matemáticas, un alumno tiene las siguientes notas:  4, 7, 7, 2, 5, 3
n = 6 (número total de datos)
PyE_003
La media aritmética de las notas de esa asignatura es 4,8. Este número representa el promedio.
Ejemplo 2:
Cuando se tienen muchos datos es más conveniente agruparlos en una tabla de frecuencias y luego calcular la media aritmética. El siguiente cuadro con las medidas de 63 varas de pino lo ilustra.
Largo (en m)
Frecuencia absoluta
Largo por Frecuencia absoluta
5
10
5          .       10  =   50
6
15
6          .        15 =   90
7
20
7          .        20 =  140
8
12
8          .        12 =    96
9
6
9            .          6 = 54

Frecuencia total = 63
430

PyE_004
Se debe recordar que la frecuencia absoluta indica cuántas veces se repite cada valor, por lo tanto, la tabla es una manera más corta de anotar los datos (si la frecuencia absoluta es 10, significa que el valor a que corresponde se repite 10 veces).
Moda (Mo)
Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos; o sea, cual se repite más.
Ejemplo 1:
Determinar la moda en el siguiente conjunto de datos que corresponden a las edades de niñas de un Jardín Infantil.
                  5, 7, 3, 3, 7, 8, 3, 5, 9, 5, 3, 4, 3
La edad que más se repite es 3, por lo tanto, la Moda es 3 (Mo = 3)
Ejemplo 2:
               20, 12, 14, 23, 78, 56, 96
En este conjunto de datos no existe ningún valor que se repita, por lo tanto, este conjunto de valores no tiene moda.
Mediana (Med)
Para reconocer la mediana, es necesario tener ordenados los valores sea de mayor a menor o lo contrario. Usted divide el total de casos (N) entre dos, y el valor resultante corresponde al número del caso que representa la mediana de la distribución.
Es el valor central de un conjunto de valores ordenados en forma creciente o decreciente. Dicho en otras palabras, la Mediana corresponde al valor que deja igual número de valores antes y después de él en un conjunto de datos agrupados.
Según el número de valores que se tengan se pueden presentar dos casos:
Si el número de valores es impar, la Mediana corresponderá al valor central de dicho conjunto de datos.
Si el número de valores es par, la Mediana corresponderá al promedio de los dos valores centrales (los valores centrales se suman y se dividen por 2).
Ejemplo 1:
Se tienen los siguientes datos:  5, 4, 8, 10, 9, 1, 2
Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene:  1, 2, 4,  5, 8, 9, 10
El 5 corresponde a la Med, porque es el valor central en este conjunto de datos impares.
Ejemplo 2: 
El siguiente conjunto de datos está ordenado en forma decreciente, de mayor a menor, y corresponde a un conjunto de valores pares, por lo tanto, la Med será el promedio de los valores centrales.
     21, 19, 18, 15,  13, 11, 10, 9, 5, 3
PyE_005          
Ejemplo 3:
                  estadística004

Interpretando el gráfico de barras podemos deducir que:
 5 alumnos obtienen puntaje de 62
5 alumnos obtienen puntaje de 67
8 alumnos obtienen puntaje de 72
12 alumnos obtienen puntaje de 77
16 alumnos obtienen puntaje de 82
4 alumnos obtienen puntaje de 87
lo que hace un total de 50 alumnos
Sabemos que la mediana se obtiene haciendo
estadistica004a
 lo cual significa que la mediana se ubica en la posición intermedia entre los alumnos 25 y 26 (cuyo promedio es 25,5), lo cual vemos en el siguiente cuadro:

puntaje
alumnos
62
1
62
2
62
3
62
4
62
5
67
6
67
7
67
8
67
9
67
10
72
11
72
12
72
13
72
14
72
15
72
16
72
17
72
18
77
19
77
20
77
21
77
22
77
23
77
24
77
25
77
26
77
27
77
28
77
29
77
30
82
31
82
32
82
33
82
34
82
35
82
36
82
37
82
38
82
39
82
40
82
41
82
42
82
43
82
44
82
45
82
46
87
47
87
48
87
49
87
50

El alumno 25 obtuvo puntaje de 77
El alumno 26  obtuvo puntaje de 77
Entonces, como el total de alumnos es par debemos promediar esos puntajes:
estadistica005a
La mediana es 77, lo cual significa que 25 alumnos obtuvieron puntaje desde 77 hacia abajo (alumnos 25 hasta el 1 en el cuadro)  y 25 alumnos obtuvieron puntaje de 77 hacia arriba (alumnos 26 hasta el 50 en el cuadro).

ANÁLISIS DE DATOS DE DOS VARIABLES

Datos de dos variables: 
Estos datos constan de valores diferentes que se obtienen del mismo elemento de la población.
Cada una de las dos variables puede ser naturaleza cualitativa o cuantitativa. Como resultado, los datos de dos variables pueden formarse mediante tres combinaciones de tipos de variables:
* Ambas variables son cualitativas (de atributo): Cuando los datos bivariados resultan de dos variables cualitativas (de atributo o categóricas), a menudo los datos se disponen en una tabla de clasificación o de contingencia
* Una variable es cualitativa (de atributo) y otra es cuantitativa (numérica): Cuando los datos se obtienen de una variable cuantitativa y otra cualitativa, los valores cuantitativos se consideran como muestras ajenas, cada una identificada por niveles de la variable cualitativa.
* Ambas variables son cuantitativas (numéricas):Cuando los datos son resultados de dos variables cuantitativas, los datos suelen expresarse matemáticamente como pares ordenados (X, Y), donde X es la variable de entrada (algunas veces se denomina variable independiente) y Y es la variable de salida (algunas veces se denomina variable dependiente). Se dice que los datos están ordenados porque siempre se escribe primero un valor X, y se explica que están pareados porque para cada valor X existe un valor Y correspondiente que proviene de la misma fuente.



 Tabla de Contingencia:
La tabla de contingencia es una tabla de doble entrada, donde en cada casilla figurará el número de casos o individuos que poseen un nivel de uno de los factores o características analizadas y otro nivel del otro factor analizado.

La tabla de contingencia se define por el número de atributos o variables que se analizan conjuntamente y el número de modalidades o niveles de los mismos.
Las tablas de contingencia tienen dos objetivos fundamentales:

* Organizar la información contenida en un experimento cuando ésta es de carácter bidimensional, es decir, cuando está referida a dos factores (variables cualitativas).
* A partir de la tabla de contingencia se puede además analizar si existe alguna relación de dependencia o independencia entre los niveles de las variables cualitativas objeto de estudio. El hecho de que dos variables sean independientes significa que los valores de una de ellas no están influidos por la modalidad o nivel que adopte la otra.
Diagrama de Dispersión:
Es la grafica de todos los pares ordenados de datos de dos variables que están en un sistema de ejes coordenados. La variable de entrada, X, se grafica en el eje horizontal; la variable, Y, se grafica en el eje vertical.
Un diagrama de dispersión se emplea cuando existe una variable que está bajo el control del experimentador. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro de control o variable independiente = eje de X y habitualmente se representa a lo largo del eje horizontal. La variable medida o dependiente = eje de y usualmente se representa a lo largo del eje vertical. Si no existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables.
Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlación puede ser positiva (aumento), negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables.