lunes, 16 de junio de 2008

Regresión y correlación

Regresión:es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda medición. La regresión se utiliza para predecir una medida basándonos en el conocimiento de otra.

Origen del concepto

El término regresión fue introducido por Francis Galton en su libro Natural inheritance (1889), partiendo de los análisis estadísticos de karl Pearson. Su trabajo se centró en la descripción de los rasgos físicos de los descendientes (variable A) a partir de los de sus padres (variable B). Estudiando la altura de padres e hijos a partir de más de mil registros de grupos familiares, se llegó a la conclusión de que los padres muy altos tenían una tendencia a tener hijos que heredaban parte de esta altura, pero que revelaban también una tendencia a regresar a la media. Galton generalizó esta tendencia bajo la "ley de la regresión universal": «Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.»

Modelos de regresión

Regresión lineal

  • Regresión lineal simple

Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una función simple (lineal) de X que nos permita aproximar Y mediante: Ŷ = a + bX

a (ordenada en el origen, constante)
b (pendiente de la recta)
A la cantidad e=Y-Ŷ se le denomina residuo o error residual.

Así, en el ejemplo de Pearson: Ŷ = 85 cm + 0,5X

Donde Ŷ es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del padre.
  • Regresión lineal múltiple

Regresión no lineal

En estadistica, la regresión no lineal es un problema de inferencia para un modelo tipo:

 y = f(x,\theta) + \varepsilon

basado en datos multidimensionales x,y, donde f es alguna función no lineal, respecto a algunos parámetros desconocidos θ. Como mínimo, se pretende obtener los valores de los parámetros asociados con la mejor curva de ajuste (habitualmente, con el método de los minimos cuadrados ). Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadística tales como intervalos de confianza para los parámetros así como pruebas de bondad de ajuste.

El objetivo de la regresión no lineal se puede clarificar al considerar el caso de la regresión polinomial, la cual es mejor no tratar como un caso de regresión no lineal. Cuando la función f toma la forma:

f(x) = ax2 + bx + c

la función f es no lineal en función de x pero lineal en función de los parámetros desconocidos a, b, yc. Este es el sentido del término "lineal" en el contexto de la regresión estadística. Los procedimientos computacionales para la regresión polinomial son procedimientos de (múltiple), en este caso con dos variables predictoras x y x2. Sin embargo, en ocasiones se sugiere que la regresión no lineal es necesaria para ajustar polinomios. Las consecuencias practicas de esta mala interpretación conducen a que un procedimiento de optimización no lineal sea usado cuando en realidad hay una solución disponible en términos de regresión lineal. Paquetes (software) estadísticos consideran, por lo general, más alternativas de regresión lineal que de regresión no lineal en sus procedimientos.


Correlación

En probabilidad y estadistica, la correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad.


Fuerza, sentido y forma de la correlación

La relación entre dos variables cuantitativas queda representada mediante la linea mejor de ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:

  • La fuerza mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.
  • El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la relación es negativa.
  • La forma establece el tipo de línea que define el mejor ajuste: la linea recta, la curva monotonica o la curva no monotonica.

Coeficientes de correlación

Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es el coeficiente de Pearson (introducido en realidad por Fransis Galton), que se obtiene dividiendo la covarianza de dos variables por el producto de sus desviaciones estándar.

  • Coeficiente de correlación de Pearson
    Coeficiente de correlación de Spearman
    Correlación canónica

REGRESIÓN Y CORRELACION

lunes, 5 de mayo de 2008

PORTAFOLIO ELECTRONICO

Esta herramienta se conoce como “portafolios electrónico” (eP – por sus siglas en inglés). Este espacio en línea permite que cada estudiante de nuevo ingreso pueda colocar los materiales realizados durante cada semestre para su reflexión y evaluación. De la misma forma, cada profesor que labore en la UDLA tiene un espacio similar donde podrá describir su trayectoria docente, su filosofía de enseñanza y almacenar evidencia de sus aportaciones y logros.
Generalidades
A mediados de los ochentas, los portafolios eran empleados para ilustrar el trabajo de artistas, fotógrafos, arquitectos, diseñadores, etc. Estos portafolios mostraban en papel una colección de los mejores trabajos individuales, es decir, una selección de ejemplos que reflejaban lo que habían aprendido y saben hacer.

DEFINICIONES

  • Los e-portafolios han surgido como una valiosa herramienta en línea que los estudiantes, la facultad, y las instituciones pueden utilizar para recolectar, almacenar, actualizar y compartir información. Los e-portafolios permiten que los estudiantes reflejen su aprendizaje, se comuniquen con sus instructores, tengan información escolar, y muestren ejemplos de su trabajo a empleadores potenciales. Los e-portafolios de profesores, permiten capturar y compartir métodos de enseñanza y avances en su pedagogía para obtener un ascenso. Las universidades utilizan e-portafolios institucionales para proporcionar acceso a sus colecciones de datos, almacenarlos, analizarlos, y ejemplificar los logros de sus estudiantes y de la facultad para demostrar su éxito institucional.”
  • “Un portafolios electrónico es una colección de materiales digitalizados que incluyen demostraciones, recursos y logros que representan a un individuo, un grupo o una institución. Este texto puede comprender texto, gráficos o elementos multimedia que se pueden consultar en Internet o en otro medio electrónico como un CD-ROM o un DVD. Un eP es más que una simple colección – también sirve como herramienta para administrar, organizar y controlar los trabajos creados con diferentes aplicaciones. Los e-portafolios incluyen reflexión personal y por lo regular promueven el intercambio de ideas y retroalimentación.”
  • Es una publicación académica, personal y profesional de ti mismo, como estudiante, en el Internet. Es una colección de tus trabajos académicos, acompañados de una reflexión sobre tu esfuerzo y sobre tu propio proceso de aprendizaje, mostrando así tu desarrollo a través del tiempo en que serás estudiante. Funciona también como una evidencia de tus competencias profesionales, una vez que ya seas egresado del Tecnológico. Es un espacio en donde expresarás tus ideas como persona y como estudiante. Es una publicación en la que reflejarás tu personalidad académica y profesional en la Web”
  • El portafolios de aprendizaje es un repositorio de información sobre un particular aprendiz, provisto por él mismo y otras personas y organizaciones, incluye productos en diversos medios que el aprendiz ha creado o contribuido en su realización y ha seleccionado para ser evaluado o mostrar sus logros”.

lunes, 28 de abril de 2008

AREA BAJO LA CURVA

Área bajo la curva:

Al iniciar el análisis estadístico de una serie de datos, y después de la etapa de detección y corrección de errores, un primer paso consiste en describir la distribución de las variables estudiadas y, en particular, de los datos numéricos. Además de las medidas descriptivas correspondientes, el comportamiento de estas variables puede explorarse gráficamente de un modo muy simple. Consideremos, como ejemplo, los datos de la Figura 1a, que muestra un histograma de la tensión arterial sistólica de una serie de pacientes isquémicos ingresados en una unidad de cuidados intensivos. Para construir este tipo de gráfico, se divide el rango de valores de la variable en intervalos de igual longitud, representando sobre cada intervalo un rectángulo con área proporcional al número de datos en ese rango1. Uniendo los puntos medios del extremo superior de las barras, se obtiene el llamado polígono de frecuencias. Si se observase una gran cantidad de valores de la variable de interés, se podría construir un histograma en el que las bases de los rectángulos fuesen cada vez más pequeñas, de modo que el polígono de frecuencias tendría una apariencia cada vez más suavizada. Esta curva suave "asintótica" representa de modo intuitivo la distribución teórica de la característica observada. Es la llamada función de densidad.
Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y más utilizada en la práctica es la distribución normal, también llamada distribución gaussiana
2,3,4,5. Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso), o psicológicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen una distribución normal. No obstante, y aunque algunos autores6,7 han señalado que el comportamiento de muchos parámetros en el campo de la salud puede ser descrito mediante una distribución normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo de comportamiento.
El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por otras razones. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución normal. La simple exploración visual de los datos puede sugerir la forma de su distribución. No obstante, existen otras medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal. Cuando los datos no sean normales, podremos o bien transformarlos
8 o emplear otros métodos estadísticos que no exijan este tipo de restricciones (los llamados métodos no paramétricos).
A continuación se describirá la distribución normal, su ecuación matemática y sus propiedades más relevantes, proporcionando algún ejemplo sobre sus aplicaciones a la inferencia estadística. En la
sección 3 se describirán los métodos habituales para contrastar la hipótesis de normalidad.

La Distribución Normal
La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la "campana de Gauss". La distribución de una variable normal está completamente determinada por dos parámetros, su media y su desviación estándar, denotadas generalmente por y . Con esta notación, la densidad de la normal viene dada por la ecuación:
Ecuación 1:
que determina la curva en forma de campana que tan bien conocemos
Así, se dice que una característica sigue una distribución normal de media y varianza , y se denota como , si su función de densidad viene dada por la Ecuación 1.
Al igual que ocurría con un histograma, en el que el área de cada rectángulo es proporcional al número de datos en el rango de valores correspondiente si, tal y como se muestra en la
Figura 2, en el eje horizontal se levantan perpendiculares en dos puntos a y b, el área bajo la curva delimitada por esas líneas indica la probabilidad de que la variable de interés, X, tome un valor cualquiera en ese intervalo. Puesto que la curva alcanza su mayor altura en torno a la media, mientras que sus "ramas" se extienden asintóticamente hacia los ejes, cuando una variable siga una distribución normal, será mucho más probable observar un dato cercano al valor medio que uno que se encuentre muy alejado de éste.
Propiedades de la distribución normal:
La distribución normal posee ciertas propiedades importantes que conviene destacar:
Tiene una única moda, que coincide con su media y su mediana.
La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre y es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1.
Es simétrica con respecto a su media . Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.
La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una desviación típica (). Cuanto mayor sea , más aplanada será la curva de la densidad.
El área bajo la curva comprendido entre los valores situados aproximadamente a dos desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo .
La forma de la campana de Gauss depende de los parámetros y (
Figura 3). La media indica la posición de la campana, de modo que para diferentes valores de la gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de , más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.
Como se deduce de este último apartado, no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de su media y su varianza. De entre todas ellas, la más utilizada es la distribución normal estándar, que corresponde a una distribución de media 0 y varianza 1. Así, la expresión que define su densidad se puede obtener de la
Ecuación 1, resultando:
Es importante conocer que, a partir de cualquier variable X que siga una distribución , se puede obtener otra característica Z con una distribución normal estándar, sin más que efectuar la transformación:
Ecuación 2:
Esta propiedad resulta especialmente interesante en la práctica, ya que para una distribución existen tablas publicadas (
Tabla 1) a partir de las que se puede obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto valor z, y que permitirán resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribución aproximadamente normal.
Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de los sujetos de una determinada población sigue una distribución aproximadamente normal, con una media de 80 Kg y una desviación estándar de 10 Kg. ¿Podremos saber cuál es la probabilidad de que una persona, elegida al azar, tenga un peso superior a 100 Kg?
Denotando por X a la variable que representa el peso de los individuos en esa población, ésta sigue una distribución . Si su distribución fuese la de una normal estándar podríamos utilizar la
Tabla 1 para calcular la probabilidad que nos interesa. Como éste no es el caso, resultará entonces útil transformar esta característica según la Ecuación 2, y obtener la variable:
para poder utilizar dicha tabla. Así, la probabilidad que se desea calcular será:
Como el área total bajo la curva es igual a 1, se puede deducir que:
Esta última probabilidad puede ser fácilmente obtenida a partir de la
Tabla 1, resultando ser . Por lo tanto, la probabilidad buscada de que una persona elegida aleatoriamente de esa población tenga un peso mayor de 100 Kg , es de 1–0.9772=0.0228, es decir, aproximadamente de un 2.3%.
De modo análogo, podemos obtener la probabilidad de que el peso de un sujeto esté entre 60 y 100 Kg:
De la
Figura 2, tomando a=-2 y b=2, podemos deducir que:
Por el ejemplo previo, se sabe que . Para la segunda probabilidad, sin embargo, encontramos el problema de que las tablas estándar no proporcionan el valor de para valores negativos de la variable. Sin embargo, haciendo uso de la simetría de la distribución normal, se tiene que:
Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%. Resulta interesante comprobar que se obtendría la misma conclusión recurriendo a la propiedad (
iii) de la distribución normal.
No obstante, es fácil observar que este tipo de situaciones no corresponde a lo que habitualmente nos encontramos en la práctica. Generalmente no se dispone de información acerca de la distribución teórica de la población, sino que más bien el problema se plantea a la inversa: a partir de una muestra extraída al azar de la población que se desea estudiar, se realizan una serie de mediciones y se desea extrapolar los resultados obtenidos a la población de origen. En un ejemplo similar al anterior, supongamos que se dispone del peso de n=100 individuos de esa misma población, obteniéndose una media muestral de Kg, y una desviación estándar muestral Kg, querríamos extraer alguna conclusión acerca del valor medio real de ese peso en la población original. La solución a este tipo de cuestiones se basa en un resultado elemental de la teoría estadística, el llamado teorema central del límite. Dicho axioma viene a decirnos que las medias de muestras aleatorias de cualquier variable siguen ellas mismas una distribución normal con igual media que la de la población y desviación estándar la de la población dividida por . En nuestro caso, podremos entonces considerar la media muestral , con lo cual, a partir de la propiedad (
iii) se conoce que aproximadamente un 95% de los posibles valores de caerían dentro del intervalo . Puesto que los valores de y son desconocidos, podríamos pensar en aproximarlos por sus análogos muestrales, resultando . Estaremos, por lo tanto, un 95% seguros de que el peso medio real en la población de origen oscila entre 75.6 Kg y 80.3 Kg. Aunque la teoríaestadística subyacente es mucho más compleja, en líneas generales éste es el modo de construir un intervalo de confianza para la media de una población.

jueves, 27 de marzo de 2008

que es estadistica

ESTADISTICA

Estadística, rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones.Concepto sobre estadísticaLa estadística tiene como función principal reunir y analizar datos numéricos sobre algún fenómeno que se desea realizar. La estadística interviene cuando se quiere conocer un fenómeno como la tasa de mortalidad de X pais.

VARIABLE

Se llaman variables a las letras (x, y…) que se relacionan mediante las funciones.

Concepto sobre variableLa variable es algo que va a variar o cambiar como su mismo nombre lo indica.

VARIABLES

VARIABLE CUANTITATIVAEs la variable que representa a una característica o propiedad del objeto de estudio que se refiere a cantidades, por lo que puede ser medida directamente en la práctica.Concepto sobre variable cuantitativaLas variables cuantitativas son aquellas que se pueden contar.VARIABLE CUANTITATIVA CONTINUAAl tomar valores, estos pueden ser representados con números enteros o fraccionarios, ya que entre dos valores cualesquiera pueden existir un número infinitos de valores intermedios.Conceptos sobre la variable cuantitativa continúaEn la variable continua puede tomar cualquier valor en una escala de números, como expresar una altura podría ser 1.6502 m.VARIABLE CUANTITATIVA DISCRETASon las que al tomar valores, estos solamente pueden ser representados con números enteros ya que los datos se generan al efectuar operaciones de conteo.Concepto sobre la variable cuantitativa discretaEn la variable discreta los valores se pueden contar como el número de hijos.
VARIABLE CUALITATIVASon aquellas que no aparecen en forma numérica, sino como categorías o atributos (sexo, profesión, color de ojos).Conceptos sobre la variable cualitativaEsta variable expresa cualidades de un fenómeno que se desea estudiar, como por ejemplo la honestidad.VARIABLE CUALITATIVA ORDINALRecogen la idea de orden pero no tiene sentido realizar operaciones aritméticas, no puede medirse la distancia entre una categoría y otra. Ejemplo, grados de desnutrición.Concepto sobre la variable cualitativa ordinalLa variable ordinal no tiene jerarquía porque no se puede medir una distancia entre un objeto y otro.VARIABLE CUALITATIVA ORDINAL POLITOMICAPuede tomar tres o mas valores posibles, los cuales pueden ser ordenados siguiendo un criterio establecido por una Escala Ordinal, la cual se caracteriza porque no es preciso que el intervalo entre mediciones consecutivas sea uniforme.Ejemplo característico de este tipo de variable es el Estadio de la Enfermedad, en el cual se clasifica a una entidad nosológica determinada en estadios que generalmente van del I al IV, donde cada uno representa un grado mas avanzado de la enfermedad que el estadio precedente, pero no podemos afirmar que, digamos, la diferencia entre el Estadio II y el III sea igual que la que existe entre el III y el IV.Concepto sobre la variable cualitativa ordinal polítomicaEn la variable cualitativa ordinal polítomica no se pude afirmar datos exactos.VARIABLE CUALITATIVA ORDINAL DICOTOMICASSolo puede tomar dos valores posibles, pero entre estos se puede establecer un criterio de orden porque uno representa ventaja o superioridad sobre el otro. Ejemplo: Vivo-Fallecido, Pobres – Ricos, etc.Concepto sobre la variable cualitativa ordinal DicotomicaLa variable cualitativa ordinal Dicotomica se caracteriza de las demás ya que siempre va a tener una ventaja de una cualidad a otra, como por ejemplo sanos y enfermos los sanos tienen una ventaja sobre las personas que se encuentran enfermos (as).VARIABLE CUALITATIVA NOMINALEste tipo de variable se caracteriza porque los valores que toma no pueden ser sometidos a un criterio de orden. Ejemplos la raza y el sexo.Concepto sobre la variable cualitativa nominalLa variable cualitativa nominal no puede ser sometida a un orden ya que en esta escala solo se puede ordenar los datos con su debida frecuencia de cada cualidad.Como por ejemplo tenemos una variable de religión y se lo realizamos a 6 personas y obtenemos que 2 son católicos, 3 protestantes y 1 judío, solo de esta manera se pueden clasificar las variables nominales.
DECODIFICAR

Aplicar inversamente las reglas de su código a un mensaje codificado para obtener la forma primitiva de este.CODIFICADO
Concepto sobre decodificarLa decodificación nos sirve para facilitarnos trabajar con datos que contengan decimales, esto nos permite tener una facilidad para poder procesar datos.
DIAGRAMA DE TALLOS Y HOJAS

Un diagrama de tallo y hojas es una modalidad relativamente simple de organización y presentación de medidas en un formato de gráfica de barras jerárquicamente ordenado. Se trata de una técnica común en el análisis exploratorio de datos.Ejemplo: DIADRAMA DE TALLOS Y HOJAS24 17 10 14 19 21 25 41 12 24 10 3434 45 59 51 78

Concepto de Diagrama de Tallos y HojasEl diagrama de tallos y hojas va representado jerárquicamente ordenado, es fácil para poder organizar los datos de esta forma ya que se puede obtener el puntaje individual de cada uno de los datos.
NOTACION SUMATORIA
En estadística se requiere la suma de grandes masas de datos y es pertinente tener una notación simplificada para indicar la suma de estos datos. Así, si una variable se puede denotar por X, entonces las observaciones sucesivas de esta variable se escriben.

Concepto sobre notacion sumatoriaDe la sumatoria podemos extraer grandes cantidades.
PROPIEDADES DE LA SUMATORIA



Concepto sobre propiedades de la sumatoria.Esta propiedades de la sumatoria nos sirven para poder simplificar sumatorias
MEDIDAS DE TENDENCIA CENTRAL
Al analizar la información estadistica, observamos un significativo comporta miento de los datos en cuanto a la frecuencia en que se presentan los valores y que la mayor densidad de las frecuencias esta en la parte central de las graficas y ahí se deriva el nombre de medidas de tendencia central o promedios centrales.Concepto sobre medidas de tendencia centralLas medidas de tendencia central estan compuestas por media, moda y mediana. Se le llama medidas de tendencia central porque se encuentran casi en el centro de la distribución.MEDIAEs el promedio aritmético de las observaciones, es decir, el cociente entre la suma de todos los datos y el numero de ellos.Concepto sobre la mediaLa media es en promedio de la distribución, ósea la sumatoria de todos los datos dividido entre el número de todos los datos.



MODA Es el valor de la variable que más veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. No tiene porque ser única.



Concepto sobre la modaLa moda es el valor que más veces se repite dentro de la distribución. Pueden existir uno, dos o tres o mas modas en una distribución.



MEDIANAEs el valor que separa por la mitad las observaciones ordenadas de menor a mayor, de tal forma que el 50% de estas son menores que la mediana y el otro 50% son mayores.
Concepto sobre la medianaLa Mediana es el valor que se encuentra en medio de la distribución, tambien se dice que es el punto de equilibrio de la distribución, en la mediana el 50% son menores y el otro restante son mayores por eso se dice que es el punto de equilibrio de tal manera que queda en el centro
MEDIA ARMONICALa media armónica , representada por H, de una cantidad finita de números es igual al
recíproco, o inverso, de la media aritmética de los recíprocos de dichos númerosConcepto sobre media armonicaLa media armonica es sencible a los valores pequeños.MEDIA CUADRATICA (Mc)La media cuadrática es igual a la raíz cuadrada de la suma de los cuadrados de los valores dividida entre el número de datos
Concepto sobre la media cuadraticaConsiste en elevar al cuadrado todas las observaciones (así los signos negativos desaparecen), en obtener después su media aritmética y en extraer, finalmente, la raíz cuadrada de dicha media para volver a la unidad de medida original.
MEDIA GEOMETRICA
Media geométrica de una cantidad finita de números (digamos n números) es la raíz n-ésima del producto de todos los números
Concepto sobre la media geometricaLa media geométrica es relevante cuando varias cantidades son sumadas para producir un total

MEDIDAS DE ASIMETRIA
SESGO Es el grado de asimetría o falta de simetría de una distribución.Concepto sobre sesgoEl sesgo nos muestra para donde va la curva si a la derecha o izquierda, si es positiva o negativa.CURTOSISMiden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de distribuciones según su grado de curtosis: leptocúrtica, mesocúrtica y platicúrtica.Concepto sobre curtosisNos muestra la altura de los datos para ello se aplica la formula de 0.5(Q3 – Q1)/ P90 –P10. Con el resultado de la formula podemos determinar si es leptocúrtica, mesocúrtica o platicúrtica. Si nos sale :> que 0.263 leptocúrtica= que 0.263 mesocúrtica> que 0.263 platicurtica.
MEDIDAS DE DISPERCION

DESVIACION TIPICA O ESTANDAR

Es la medida cuadrática de las desviaciones con respecto al promedio aritmético, es la raíz cuadrada de la varianza, la raíz cuadrada de la media aritmética de los cuadrados de las desviaciones de los datos de la serie respecto a su media aritmética.Concepto de la desviación estándarLa desviación estándar es el promedio de las desviaciones, es el promedio de las distancias.DESVIACION MEDIA

Es la media aritmética de las desviaciones, respecto a las medias tomadas en calor absoluto de todas las observaciones desde su media aritmética, la cual es dividida entre el número de observaciones.Concepto de la desviación mediaLa mide cuanto hay de espacio entre un dato y la media.

MEDIDAS DE POSICION

CUARTILES: son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales.

DECILES: son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales.PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados.

Concepto sobre las medidas de posicion

Las mediadas de posicion nos sirven para encontrar datos en porcentajes. Para eso nos siven los cuartiles, deciles y percentiles.
CONCEPTO DE TERMINOS ESTADISTICOS

ESTADISTICAEs una ciencia que estudia los métodos para recoger, organizar, resumir y analizar datos y así poder sacar conclusiones.INDIVIDUO O UNIDAD ESTADISTICASon los elementos que componen la población, no necesariamente tiene que ser una persona, puede ser un objeto o algo abstracto.POBLACIONLo compone todo lo que deseamos estudiar sobre algún fenómeno.MUESTRAEs un grupo que se saca de del total de la población.PARAMETROCaracterística de la población.ESTIMADOR O ESTADISTICOUnidad de medida que se extrae de la muestra.VARIABLES Y SU CLASIFICACIONLas variables son características que se van a variar (magnitud o peso).VARIABLE CUNATITATIVASon las variables que se expresan en números.VARIABLE CUALITATIVAVariable que se representa en cualidades o características.VARIABLE DISCRETAEsta variable se caracteriza por sus separaciones, es decir valores exactos.VARIABLE CONTINUAEsta puede adquirir cualquier valor dentro de un intervalo.ESCALAS DE MEDICIONESCALA NOMINALSirven como indicativos.ESCALA ORDINALRefleja una jerarquía de <> y de > a <.


NFORMACION CUANTITATIVAInformación en formato numérico.ESCALA DE INTERVALOTienen un mismo orden natural se puede medir la diferencia entre una medida y otra.ESCALAS DE RAZONSirve para medir valores y magnitudes y tiene un cero absoluto.ESTADIGRAFOPersona que se dedica a la estadística.

ESCALA DE LIKERT

Para medir un objeto se requiere una escala de medida. Definimos una escala como una serie de ítems o frases que han sido cuidadosamente seleccionados, de forma que constituyan un criterio válido, fiable y preciso para medir de alguna forma los fenómenos sociales. Un ítem es una frase o proposición que expresa una idea positiva o negativa respecto a un fenómeno que nos interesa conocer.Competo sobre la escala de likertLa escala de likert nos sirve para medir datos cualitativos, se elabora con una serie de ítems o preguntas que deben de ir bien estructuradas de manera que al encuestar se nos sea de una manera más fácil.
DIAGRAMA DE CAJAS

Presentación visual que describe al mismo tiempo varias características importantes de un conjunto de datos, tales como el centro, la dispersión, el alejamiento de la simetría, y la identificación de valores extremos (puntos atípicos), es decir, de valores que se alejan de una manera poco usual del resto de los datos.Rango intercuartílico = RIC = 92.2-88.25 = 3.95 Þ Paso = 5.925Cercas interna inferior = 88.25 - 5.925 = 82.325Cerca interna superior = 92.20 + 5.925 = 98.125Cerca externa inferior = 82.325 - 5.925 = 76.40Cerca externa superior = 98.125 + 5.925 = 104.0
Concepto sobre el diagrama de cajasEl diagrama de cajas describe tres características especiales entre las que se encuentran el Q1, Q2 y Q3 estas medidas son primordiales para poder elaborar el diagrama de cajas o bigotes, el cuartil 1 es el 25%, el cuartil 2 es el 50% y tambien es la media, el cuartil 3 es el 75% de la distribución, En base a estas medidas de posición se puede realizar el diagrama de cajas.
DIAGRAMAS DE PUNTOS

Un diagrama de puntos se asemeja a un histograma en el sentido de que consiste en una representación gráfica de una distribución de los valores de los datos. Sin embargo, se diferencia de éste en que los valores se representan individualmente, en lugar de agruparse en clases. Los diagramas de puntos se aplican preferentemente a pequeños conjuntos de datos, en cuyo caso no se garantiza el agrupamiento de valores en clases de una distribución de frecuencias. Son particularmente útiles en la comparación de dos conjuntos de datos diferentes, o de dos subgrupos de un conjunto de datos.Concepto sobre el diagrama de puntosEl diagrama de puntos se parece a un histograma con el diagrama de puntos podemos observar que datos son mas fiables unos de otros.