From the category archives:

Estadística

Electrocardiograma de un sitio de Internet

by Jorge Machin on August 23, 2008 · 0 comments

in Estadística, Linux

¿Cómo se puede conocer la salud de un sitio de Internet? La respuesta es con estadísticas. Si trazamos las gráficas de visitas, usuarios conectados, tiempo en el sitio podemos obtener mucha información sobre como se comporta nuestro sitio. ¡Incluso hasta corregir algunos errores!

 
 


Gráfica de visitas por día de un sitio nacional

 
 


Gráfica de uso de un servicio por hora

 
 
Algunos programas que sirven para llevar estadísticas son cacti, google analytics, webtrends entre otros muchos más.

{ 0 comments }

La estadística es una de las ciencias que me ha sido de mucha utilidad desde la escuela y ahora en mi vida laboral. Me ha ayudado a presentar a mis clientes datos, ideas y proyectos de forma profesional y ordenada. Me abrió la mente a recolectar todos los datos posibles cuando quiero entender un fenómeno y plantear mis hipótesis y experimentos como lo marca el metódo científico.

Los técnicas de regresión y pronósticos me han ayudado a prepararme al futuro con datos de hoy, detectar tendencias a tiempo e incluso cuando he sufrido perdidas accidentales de datos, los he podido recuperar usando interpolaciones. Lo mejor, es que muchas de sus matemáticas y conceptos son en realidad muy sencillos; pero hay que tener cuidado de no caer en la trampa de manipular los datos a nuestra conveniencia. Pero bueno, en este post sólo las primeras fórmulas y definiciones:

Medidas de tendencia central

Media aritmética

Es el promedio de las mediciones.

mu = frac { sum_{i=1}^n {y_i}}{n}

Se utiliza una letra, por lo general la letra y, con una línea arriba de ella si nos referimos a la media de una muestra. Si estamos hablando de la media de la población, entonces se usa la letra mu.

Mediana

Es el numero central de un conjunto de n determinaciones.

m = y_{[(n+1)/2]}

 Si n es nón
m = frac{y_{[n/2]}+y_{[n/2+1]}}{2}  Si n es par

Moda

Es el valor que ocurre con mayor frecuencia.

Medidas de variación

Intervalo

Es la diferencia entre el valor más alto y el menor de nuestra muestra.

Varianza y desviación estándar

La varianza de una muestra es una medida para saber que tan dispersos están nuestros datos. Se define como:

s^2 = frac{sum _{i = 1}^n {(y_i  - bar y)^2 }}{n-1}

o bien

s^2 = frac {sum _{i = 1}^n {y_i}^2 - frac{(sum _{i = 1}^n {y_i})^2}{n}}{n-1}

Si se trata de la población la fórmula es:

sigma^2 = frac{sum _{i = 1}^n {(y_i  - mu )^2 }}{n}

La desviación estándar es la raíz cuadrada de la varianza:

s  = sqrt { s^2 }

Similarmente para la población:

sigma  = sqrt { sigma^2 }

Empíricamente se puede utilizar las siguientes reglas si tenemos una distribución con "joroba":

- El 68% de las determinaciones caen dentro de la primera desviación estándar de la media.
- El 95% de las determinaciones caen dentro de la segunda desviación estándar de la media.

Es recomendable primero gráficar los datos antes de hechar números para "ver" como esta nuestra información.

{ 0 comments }