jueves, 2 de abril de 2009

Introducción a la Estadística y Distribunciones de Frecuencia

INTRODUCCIÓN A LA ESTADÍSTICA

La estadística actual no es sólo un conjunto de técnicas para resumir y transmitir información cuantitativa, sino que sirve también, y fundamentalmente, para hacer inferencias, generalizaciones y extrapolaciones de un conjunto relativamente pequeño de datos a uno mayor. Una de las aplicaciones más importantes es en la actualidad el propio trabajo de adquisición de conocimientos mediante la investigación científica, a la que ha proporcionado poderosos instrumentos para el análisis de datos y la toma de decisiones.

En la grafología aplicamos la estadística, aunque a veces sin saberlo claramente, en el análisis mismo de la escritura, el cual es en sí mismo una investigación. Por ejemplo, al medir sólo algunas letras y no todas, pero tomando esa muestra al azar. Podremos ser más precisos si conocemos en profundidad los instrumentos que utilizamos.

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL

La Estadística se divide en dos grandes áreas (descripción de datos y realización de inferencias) que reflejan la propia historia del desarrollo de esta ciencia. La Estadística actual es el producto del encuentro de dos ramas distintas del saber, la antigua estadística y el cálculo de probabilidades, que se encontraron en el siglo XIX. Etimológicamente, la palabra estadística procede de la palabra estado, ya que desde la antigüedad los romanos hicieron recolecciones de datos que posteriormente tenían que resumir de una forma comprensiva y que permitiera proporcionar informaciones útiles. Este tipo de estudios dio lugar a la estadística descriptiva cuya misión consiste en describir situaciones y procesos dados; para ello se sirve de tablas, representaciones gráficas, proporciones, números índice y medidas típicas.

Sin embargo las conclusiones extraídas se agotaban en el propio conjunto de datos observados, pues el objetivo consistía en hacerse una idea clara de lo que había, y lo que había se contaba y se medía. Lo que posibilitó el cálculo de probabilidades fue, precisamente, el desarrollo de un conjunto de métodos para extrapolar las conclusiones a entidades no observadas. Es decir, proporcionó el instrumento adecuado para poder hacer inferencias acerca de grandes cantidades de observaciones potenciales a partir de unas pocas observaciones reales. Estas técnicas tuvieron su fundamento en el desarrollo de la curva normal por Gauss, en su aplicación por Galton a los problemas de herencia,etc. Sin embargo los auténticos fundadores de estas técnicas fueron Karl Pearson (1857-1936) y Sir Ronald Fisher (1890-1962). Así se ha desarrollado la estadística analítica o inferencial basada en la teoría de probabilidades que trata de obtener leyes generales a partir de la observación de algunos datos. Precisamente este fundamento probabilístico condiciona el que los resultados obtenidos se vean sujetos a unos márgenes de error.

Ahora se puede dar una definición de Estadística en la que aparecen algunos términos no definidos lo cual no impedirá entender su significado.

Estadística es la ciencia que se ocupa de la ordenación y análisis de datos procedentes de muestras, y de la realización de inferencias acerca de las poblaciones de las que éstas proceden.

Estadística Descriptiva

La primer parte de la definición de estadística, es comúnmente conocida como Estadística Descriptiva. La definición es la siguiente:

Estadística Descriptiva es el conjunto de procedimientos utilizados para organizar, resumir y presentar grupos de datos numéricos

Los grupos de datos numéricos no organizados son de poca utilidad. Sin embargo, técnicas estadísticas están disponibles para organizar estos datos en distribuciones de frecuencia, presentarlos en gráficas, resumirlos en promedios y medidas de dispersión.

Estadística Inferencial

Otra faceta de las estadísticas es la estadística inferencial también llamada estadística inductiva. La principal utilidad de la estadística inferencial es conocer algo acerca de una población basándose en una muestra tomada de esa población.

Estadística Inferencial es el conjunto de métodos utilizados para obtener conclusiones relativas a una población, basándose en el conocimiento de las características de una muestra.

CONCEPTOS ESTADÍSTICOS BÁSICOS: POBLACIÓN Y MUESTRA

Una población puede consistir de individuos, tales como todos los estudiantes de la universidad, todos los estudiantes que estudian Estadísticas o todos los internos de la penitenciaria. Una población puede también consistir de objetos, tales como todos los motores producidos por la planta Ford o todas las truchas en un estanque. Una población también puede consistir en un grupo de medidas, tales como las estaturas equipo de básquetbol “Dorados de Chihuahua”.

Población es el conjunto de todos los individuos (personas, objetos, animales, etc.) que porten información sobre el fenómeno que se estudia.

Para inferir algo acerca de una población, usualmente tomamos una muestra de ella.

Muestra es un subconjunto de la población de interés.

En la grafología, por ejemplo, todos los tamaños de todas las alturas de las letras de un escrito pueden constituir una población de interés, mientras que por economía tomo una muestra de los tamaños para evaluar dicho género.

CONCEPTOS ESTADÍSTICOS BÁSICOS: VARIABLE

Variable es toda característica que puede asumir diferentes valores o modalidades. En la grafología, los géneros mismos son variables. Por ejemplo, la variable “Forma” puede adquirir los valores “tipográfica”, “caligráfica”, etc.

Tipos de variables

Variable Cualitativa

Cuando la variable estudiada es no numérica, esta es llamada variable cualitativa también llamada atributo (p.ej. lugar de nacimiento, religión, color de ojos, etc.)

Variable Cuantitativa

Cuando la variable estudiada puede expresarse en forma numérica, esta es llamada variable cuantitativa (p.ej. el saldo de una cuenta bancaria, la duración de una batería, la velocidad de los automóviles).

ESTADÍSTICA DESCRIPTIVA: DISTRIBUCIONES DE FRECUENCIAS

Las distribuciones de frecuencias son agrupaciones de los datos en tablas, para de esta forma mostrarlos en forma resumida (en una investigación las muestras se realizan con 100 sujetos como mínimo) y poder sacar conclusiones acerca de ellos más rápidamente.

En las distribuciones de frecuencias se puede agrupar o no en intervalos.

Por ejemplo, se determina la forma de una muestra de escritos y me encuentro con la siguiente matriz de datos (es decir, los datos “sueltos”, tal cual los observé ): 1) Escritura Bizarra – 2) Escritura Tipográfica – 3) Escritura Tipográfica – 4) Escritura Filiforme - 5) Escritura Tipográfica – 6) Escritura Tipográfica – 7) Escritura filiforme – 8) Escritura Caligráfica – 9) Escritura Bizarra – 10) Escritura Filiforme.

Sabemos que “Bizarra”, “Tipográfica”, etc, son valores o modalidades de la Variable “Forma de la Escritura”, variable cualitativa cuya escala de medición es nominal. Por lo tanto, es imposible una agrupación en intervalos, y se construye la distribución de frecuencias de la siguiente manera:

Xi

Frec. Absoluta

Frec. Relativa

Frec. Porcentual

Frec. Acumulada

Bizarra

2

0,2

20%

2

Tipográfica

4

0,4

40%

6

Filiforme

3

0,3

30%

9

Caligráfica

1

0,1

10%

10

Total (n)

10

1

100%


Xi = Valores de la variable.

Frecuencia absoluta es la cantidad de veces que se repite ese valor de variable.

Frecuencia relativa es la frecuencia absoluta dividida por el número total de observaciones (n).

Frecuencia porcentual es la frecuencia relativa multiplicada por 100.

Frecuencia acumulada es la frecuencia absoluta acumulada hasta ese punto. Las distribuciones de frecuencia acumulada se usan cuando queremos determinar cuantas observaciones, o que porcentaje de observaciones están debajo de cierto valor. La distribución de frecuencia acumulada de cierto intervalo se calcula sumando las frecuencias absolutas desde el primer intervalo hasta la frecuencia absoluta del intervalo de interés.

Ahora bien , en el caso de variables cuantitativas, es decir, cuyos valores son numéricos (escalas de medición intervalar y de razón), es factible agrupar en intervalos. Por ejemplo, mido el tamaño de diferentes letras dentro de un escrito, que arroja la siguiente matriz de datos (en mm.):

2,3 – 2,4 – 2,1- 2,3 – 2,6 – 2,7 – 1,7 – 2 – 1,8 – 2,8 – 3,6 – 3,8 – 4 – 1,6.

Xi

Frec. Absoluta

Frec. Relativa

Frec. Porcentual

Frec. Acumulada

1,5 – 2,5

8

0,57...

57,14 %

8

2,5 – 3,5

3

0,21...

21, 42%

11

3,5 – 4,5

3

0,21...

21,42%

14

TOTAL

14

1

100%


Cuando se construye una distribución de frecuencias con intervalos, la AMPLITUD de todos los intervalos debe ser igual, dicha amplitud se obtiene restando el límite superior – el límite superior, por ejemplo: 2, 5 – 1,5 = 1. Es decir, en este caso la amplitud del intervalo es 1, pero puede tomas cualquier valor mientras se mantenga constante.

EJERCICIOS:

A partir de los siguientes tamaños de letras correspondientes a una escritura, realice un a distribución de frecuencias:

1.5 - 1.2 - 1.39 – 2- 1.50 - 3.33 - 1 - 2.2 - 2.3 - 1,89 - 3 - 0.98 – 1.2 – 3.14 – 2,9

A partir de las siguientes abreacciones de óvalos, correspondientes a una escritura, realice una distribución de frecuencias:

Óvalo abierto arriba – óvalo cerrado – óvalo cerrado – óvalo abierto a derecha – óvalo cerrado – óvalo abierto arriba – óvalo cerrado – óvalo abierto izaquierda – óvalo abierto arriba - óvalo abierto arriba – óvalo cerrado – óvalo cerrado - óvalo cerrado.

Fuente:

Botella, J.; León, O. y San Martín, R.: Análisis de Datos en Psicología I. Madrid. Ediciones Pirámide

viernes, 27 de febrero de 2009

El Efecto Barnum y la Grafologia

Imagina que te realizan un examen grafológico y /o psicológico y luego te devuelven el siguiente informe:

"Tienes la necesidad de que otras personas te quieran y admiren, y sin embargo eres crítico contigo mismo. Aunque tienes algunas debilidades en tu personalidad, generalmente eres capaz de compensarlas. Tienes una considerable capacidad sin usar que no has aprovechado. Disciplinado y controlado hacia afuera, tiendes a ser preocupado e inseguro por dentro. A veces tienes serias dudas sobre si has obrado bien o tomado las decisiones correctas. Prefieres una cierta cantidad de cambios y variedad y te sientes defraudado cuando te ves rodeado de restricciones y limitaciones. También estás orgulloso de ser un pensador independiente; y de no aceptar las afirmaciones de los otros sin pruebas suficientes. Pero encuentras poco sabio el ser muy franco en revelarte a los otros. A veces eres extrovertido, afable, y sociable, mientras que otras veces eres introvertido, precavido y reservado. Algunas de tus aspiraciones tienden a ser bastante irrealistas."

Leelo cuidadosamente y pensá si es adecuado...

El efecto Barnum es la tendencia general a aceptar enunciados ambiguos como descripción acerca de uno mismo, tal como este- la grafología es susceptible a este efecto, por ello las corroboraciones de los evaluados no son un buen método de validación cuando lo que prima es la generalidad en el informe.

Lo mejor es un informe específico, del cual las afirmaciones se encuentren basadas en recurrencias inter e intra test.

Para saber más sobre el efecto Barnum o Forer: http://es.wikipedia.org/wiki/Efecto_Forer

miércoles, 24 de diciembre de 2008

Medidas de Posición y de tendencia central

MEDIDAS DE POSICIÓN

Las puntuaciones, por solas, no nos informan nada. Por ejemplo, sabemos que una letra mide 3 mm. Es evidente que ese número, por sí solo, no despeja ninguna interpretación. Normalmente lo que nos interesa es hacer una valoración de las puntuaciones, y esto sólo puede hacerse en términos relativos. Es decir, por ejemplo, yo puedo saber que actualmente, y para nuestra cultura implicaría un tamaño mediano, pero sólo lo puedo afirmar con respecto a ese grupo de referencia. En otro país, por ejemplo, ese puede ser un tamaño pequeño (la misma medida).

Para hacer estas valoraciones relativas se pueden utilizar las medidas de posición, que son índices diseñados especialmente para revelar la situación de una puntuación con respecto a un grupo, utilizando a éste como marco de referencia. La medida de posición más utilizada es el centil.

CENTILES: son 99 valores dentro del recorrido de la variable que dividen a la distribución en 100 secciones, cada una conteniendo la centésima parte de las observaciones. Se representa como Ck (k = 1, 2, ... 99). Así, se simboliza por C28 a aquella puntuación que deja por debajo de sí al 28% de las observaciones, y que es superada por el 72 %. Si un individuo obtiene la puntuación 35 y sabemos que C90 = 35, quiere decir que la puntuación de ese sujeto coincide con la del centil 90 y, por lo tanto, supera al 90% de las observaciones del grupo de referencia, mientras que es superada solamente por el 10 %.

Los centiles no suelen calcularse con cantidades pequeñas de datos, y cuando es necesario hacerlo se obtienen sencillamente ordenando las puntuaciones y calculando la proporción de éstas que superan al valor que se quiere comparar. Normalmente los centiles se obtienen sobre datos agrupados en intervalos, y en su cálculo se asume el supuesto de distribución homogénea intraintervalo.

Supongamos, por ejemplo, que queremos hallar el C70 en la siguiente distribución de frecuencias:

Xi

Frec. Absoluta

Frec. Acumulada

2.5 – 5.5

20

20

5.5 - 8.5

30

50

8.5 – 11.5

40

90

11.5 – 14.5

60

150

14.5 – 17.5

30

180

17.5 – 20.5

20

200

Total

200

El centil 70 es, por definción, aquella puntuación que tiene por debajo de sí al 70 % de las observaciones y es superada por el 30% de ellas. Como se trata de un grupo de 200 observaciones, el 70% son 140 ((200 x 70) /100); por tanto, buscamos a aquella puntuación que deja por debajo a 140 observaciones, y por encima alas otras 60. En la columna de frecuencias acumuladas podemos observar que el número de observaciones que deja por debajo el intervalo 8.5 –11.5, incluido él mismo, es 90, mientras que los que deja el intervalo 11.5 – 14.5 son 150.

El procedimiento para buscar el centil se resume en la siguiente fórmula:

Ck = Li + I x ((k x N) – Na)

Ni 100

Ck es la puntuación correspondiente al centil k.

Li es el límite exacto inferior del intervalo crítico.

I es la amplitud de los intervalos.

Ni es la frecuencia absoluta del intervalo crítico.

K es el porcentaje de observaciones inferiores a Ck.

N es el número de observaciones hechas.

Na es la frecuencia absoluta acumulada hasta Li.

APLICACIÓN AL T.P: en la distribución de frecuencias realizada, calcule el C 90.

PRÁCTICA (a realizar en clase)

Calcule el C10 y el C50 en la siguiente distribución de frecuencias, para ello complete también el total y las frec.acumuladas:

Xi

Frec. Absolutas.

1.5 –3.5

5

3.5 - 5.5

20

5.5 – 7.5

30

7.5 – 9.5

15

Total

MEDIDAS DE TENDENCIA CENTRAL

De todas las posiciones hay una, la que representa la posición central, que suele despertar mayor interés que las demás. Se trata de un tipo de medida de posición cuyo nombre es, precisamente, medidas de tendencia central. Y es que uno de los aspectos de los conjuntos de datos que con mayor frecuencia despiertan el interés son aquellos que se refieren a la magnitud general de los valores observados. Estos índices actúan como resúmenes numéricos de las puntuaciones hechas. Deben ser valores únicos que capten y comuniquen mejor la distribución como un todo.

Los tres índices de tendencia central más conocidos y utilizados son la media aritmética, la mediana y la moda.

MEDIA: Se utiliza sólo para variables cuantitativas, y siempre es preferible por su exactitud. Se define como la suma de los valores observados, dividida por el número de ellos. Para calcularla en una distribución de frecuencias, se asume el supuesto de concentración en el punto medio del intervalo. Por ejemplo, si el intervalo es 15 – 17 el P.M. es 16. Los puntos medios de cada intervalo se multiplican por su respectiva frec. Absoluta. Estos resultados se suman, dividiéndose por el total de observaciones.. Podemos resumir todo esto en la siguiente fórmula:

x es igual a E (FA . Pm) / n

x es la simbolización de media muestral

E implica sumatoria.

Fa= frecuencia absoluta de determinado intervalo.

PM= punto medio de determinado intervalo.

N= total de observaciones.

La MEDIANA

Es aquella puntuación que fue superada por el 50% de las observaciones, y que supera a su vez al 50%, es decir, es equivalente al Centil 50, y se calcula del mismo modo, en su aplicación a las variables cuantitativas (escalas intervalar y de razón). También se aplica a variables cuasi – cuantitativas, es decir, de escala de medición ordinal.

La MODA

Es simplemente el valor de variable con mayor frecuencia absoluta, el que más se repite. Se aplica a todo tipo de variables. Si nos encontramos con una variable cualitativa, de escala de medición nominal, sólo podremos utilizar como medida de tendencia central la moda.

Existen conjuntos de valores que son bimodales, cuando los dos valores de mayor f.absoluta tienen igual frecuencia, y también existen conjuntos de valores amodales, caso que ocurre cuando todos los valores tienen igual frecuencia.

APLICACIÓN

A T.P.

Determine, en base a la escala de medición correspondiente a sus variables, la o las medidas de tendencia central a utilizar.

Aplique la M.T.C correspondiente en forma inter – escrito, y si considera necesario, en forma intra – escrito.



Fuente:

Botella, J.; León, O. y San Martín, R.: Análisis de Datos en Psicología I. Madrid. Ediciones Pirámide


Adaptación propia a la grafología