PARTE II: NOCIONES DE CÁLCULO NUMÉRICO
Jhon Alexánder Monsalve Flórez
Esta reseña surge de conversaciones sobre el libro mantenidas con ChatGPT
La
segunda parte del libro marca el paso de la reflexión crítica a la aplicación
técnica: el lector deja de observar los números con sospecha para comenzar a
operarlos. Si en la primera parte Rumsey enseñaba a “pensar como un detective
estadístico”, en esta ofrece las herramientas concretas del oficio, aquellas
que permiten describir, resumir y representar los datos con sentido. Los
capítulos 5, 6 y 7 conforman un bloque dedicado a la estadística descriptiva,
en el que la autora explica cómo calcular medidas de tendencia central,
dispersión y posición, así como a representar información mediante gráficos
adecuados para cada tipo de variable.
Desde
el punto de vista didáctico, Rumsey conserva su tono accesible y su estilo
visualmente pedagógico: cada nuevo concepto aparece acompañado de ejemplos
familiares —desde salarios y notas escolares hasta estadísticas deportivas o de
transporte—, lo que mantiene la lectura amena y cercana. Sin embargo, esta
parte también pone en evidencia los límites del enfoque divulgativo: la
simplificación de procedimientos (por ejemplo, en la construcción de
histogramas o el cálculo de la mediana para datos agrupados) puede dejar vacíos
en lectores que buscan una comprensión más formal.
La
Parte II profundiza en tres ejes principales. Primero, en el cálculo numérico
(capítulo 5), donde se estudian la media, la mediana, la desviación estándar,
los percentiles y el resumen pentanumérico, consolidando las nociones básicas
de variabilidad y posición. Segundo, en la representación gráfica de datos
categóricos (capítulo 6), donde se revisan los diagramas de sectores y los
gráficos de barras, junto con los riesgos de manipulación visual mediante
escalas o truncamientos. Y tercero, en la representación gráfica de datos
numéricos (capítulo 7), que incorpora histogramas, diagramas de cajas y
cronogramas, permitiendo interpretar la forma, la dispersión y la evolución de
los datos a lo largo del tiempo.
En
conjunto, esta segunda parte cumple una función de puente entre la comprensión
conceptual y la práctica estadística. Rumsey muestra que detrás de cada gráfico
y de cada número hay decisiones metodológicas, criterios éticos y supuestos
teóricos que deben hacerse visibles. Con sus aciertos y omisiones, “Nociones de
cálculo numérico” enseña que la estadística no es solo calcular, sino también
representar, interpretar y comunicar con honestidad.
Sobre
el capítulo 5: “Medias, medianas y más”
El
capítulo 5, titulado “Medias, medianas y más”, abre la segunda parte del libro
(“Nociones de cálculo numérico”) y marca el paso de la autora desde los
ejemplos cotidianos hacia el trabajo con cálculos concretos. Rumsey presenta
con un estilo didáctico varios instrumentos de estadística descriptiva: medidas
de centralidad, medidas de dispersión y medidas de posición. A lo largo del
capítulo, combina fórmulas básicas con ejemplos cercanos (como estadísticas de
la NBA o datos poblacionales de Estados Unidos), lo que refuerza el carácter
accesible de la obra.
Uno
de los aspectos más llamativos es que Rumsey sigue relegando a la moda, pues el
título solo menciona media y mediana. Esto confirma una decisión pedagógica de
centrar el discurso en las medidas más usadas en inferencia, aunque, como se
observa en educación, la moda resulta muy útil para variables cualitativas. El
capítulo introduce también las tablas de contingencia como recurso para
comparar categorías, aunque sin dar el paso hacia pruebas de asociación como el
chi-cuadrado. Allí surgió una reflexión crítica: estas tablas sirven para
organizar y comparar porcentajes, pero no equivalen a un coeficiente de
correlación.
En
cuanto a medidas de centralidad, Rumsey subraya que “la media no siempre dice
toda la verdad” y que la mediana ofrece un centro más robusto ante valores
extremos. Sin embargo, afirma tajantemente que “cuando los datos están sesgados
a la izquierda, la media es menor que la mediana”. Con un ejemplo de notas
escolares (0,0,0,0,30,60,70,70,90), mostramos que en la práctica puede suceder
lo contrario: allí la media (35,5) es mayor que la mediana (30). Este
contraejemplo revela que la afirmación de Rumsey es una regla general y no una
ley universal, lo que enriquece la lectura crítica.
La
autora dedica varias páginas a la desviación estándar, enfocándose en la
fórmula muestral. Presenta sus propiedades básicas y la conecta con la regla
empírica (68-95-99,7): en distribuciones normales, el 68% de los datos se
encuentra a una desviación de la media, el 95% a dos y el 99,7% a tres. Aunque
esta regla es didáctica, aclaramos que solo aplica en escenarios de normalidad.
Para distribuciones sesgadas, la herramienta más prudente es la desigualdad de
Chebyshev (formulada por Pafnuty Chebyshev en el siglo XIX), que garantiza al
menos un 75% de los datos en ±2σ y un 89% en ±3σ, sin importar la forma de la
distribución. Rumsey no menciona esta desigualdad, pero incluirla permite
ampliar el panorama y reconocer que la regla empírica proviene de los cálculos
de la distribución normal estudiada por De Moivre y Gauss, sin un autor único.
Más
adelante, el capítulo introduce los percentiles como medida de posición
relativa. Rumsey explica paso a paso cómo calcularlos, con ejemplos muy claros
(como ordenar 25 notas y ubicar el percentil 90). Su estilo es didáctico,
aunque anota que “un percentil no es un porcentaje”, lo que resulta
contradictorio: los percentiles se definen justamente como porcentajes
acumulados de datos (ejemplo: estar en el percentil 80 significa estar por
encima del 80% de los compañeros). Rumsey quiso evitar la confusión con
“acertar el 80% de un examen”, pero terminó cayendo en una ambigüedad
discursiva. Aun así, el ejemplo del examen ACT en EE. UU. es valioso: explica
que si se publicaran medias y desviaciones estándar de esas pruebas, habría
comparaciones injustas entre cohortes. En cambio, al usar percentiles, cada
estudiante conoce su posición relativa frente a su grupo, lo que neutraliza las
diferencias de dificultad entre años.
El
capítulo culmina con un enfoque crítico y social: al mostrar percentiles de
ingresos familiares en EE. UU. (2001–2007), Rumsey evidencia cómo los más ricos
aumentan sus ingresos a un ritmo mucho mayor que los más pobres. Este ejemplo
ilustra cómo los percentiles no solo son técnicas numéricas, sino también
ventanas para leer desigualdades sociales. Finalmente, introduce el resumen de
cinco números (mínimo, Q1, mediana, Q3 y máximo) y el rango intercuartílico
(Q3–Q1), que concentran el 50% de los datos centrales y permiten analizar la
dispersión sin verse afectados por valores extremos.
Este
capítulo consolida la primera inmersión formal en cálculos estadísticos del
libro. Rumsey logra explicar con sencillez la media, la mediana, la desviación
estándar, los percentiles y el resumen pentanumérico. Sus ejemplos (NBA,
ingresos familiares, exámenes) hacen cercano el aprendizaje. Sin embargo, la
omisión de la moda, la confusión de notación en la traducción (donde aparece x̅ en
lugar de x͂
para la mediana) y la afirmación tajante sobre la media y la mediana en
distribuciones sesgadas son puntos que merecen ser señalados críticamente. Con
todo, el capítulo cumple con su objetivo: dotar al lector de herramientas
descriptivas básicas y, a la vez, mostrar cómo los números permiten ver
realidades sociales más amplias.
Sobre
el capítulo 6: “Representación gráfica de datos categóricos”
El
capítulo 6, titulado “Representación gráfica de datos categóricos”, continúa la
segunda parte del libro, dedicada a las nociones de cálculo numérico. Es un
capítulo eminentemente práctico, en el que Rumsey explica cómo mostrar
visualmente la información a través de gráficos de sectores (o diagramas
circulares) y gráficos de barras. La autora retoma su tono divulgativo y
crítico, invitando al lector a mirar los gráficos con cautela, pues la forma en
que se presentan los datos puede condicionar la interpretación de quien los
observa.
Rumsey
comienza con los diagramas de sectores, advirtiendo que los porcentajes de un
gráfico solo son válidos para las personas encuestadas y que su
representatividad depende del tamaño de la muestra. Aunque su llamado a incluir
siempre “n = …” bajo el título es acertado, su explicación resulta incompleta,
porque el tamaño por sí solo no garantiza representatividad. Como se aclaró en
esta lectura, el factor decisivo es la aleatoriedad del muestreo: una muestra
grande pero sesgada sigue siendo poco fiable. El tamaño contribuye a la
precisión, no a la representatividad.
A
continuación, Rumsey presenta el gráfico de barras, señalando su utilidad para
comparar categorías. Sin embargo, se limita a estos dos tipos de representación
(sectores y barras), lo que deja fuera otros recursos válidos para datos
categóricos, como los pictogramas, las barras apiladas o agrupadas, el gráfico
de Pareto o los diagramas de mosaico, herramientas que ampliarían el repertorio
visual del lector. En este punto, puede decirse que la autora simplifica
demasiado la enseñanza visual de la estadística, quizá por motivos didácticos.
Uno
de los ejemplos más llamativos es el gráfico de barras que muestra los ingresos
familiares y gastos en transporte. Rumsey concluye que “aunque quienes ganan
más gastan más dólares, el gasto no aumenta en proporción a sus ingresos”. No
obstante, al revisar sus propios datos, se observa una inconsistencia: las
familias que ganan más de 50.000 dólares gastan 10.400 en transporte, lo que
equivale al 20,39% de sus ingresos, un porcentaje mayor que el de los grupos de
ingresos medios (15–20%). Es decir, sus propios cálculos contradicen su
conclusión general. Este hallazgo demuestra la importancia de leer los gráficos
críticamente, sin conformarse con las interpretaciones del autor.
Rumsey
también explica el fenómeno del truncamiento del eje, advirtiendo que modificar
la escala puede alterar la percepción de las diferencias entre barras. Este
punto se complementó aquí con una simulación: al representar los mismos datos
en una escala de 100 y otra de 500, se evidencia que aumentar la escala aplana
las diferencias visuales, lo que puede usarse para suavizar la percepción de
cambios. Esta aclaración práctica permite comprender mejor el ejemplo del
político que, según la autora, intenta “ocultar” un incremento de delitos
modificando la escala.
En
las páginas finales, Rumsey comenta los gráficos de barras horizontales, menos
frecuentes pero igualmente válidos, sobre todo cuando los nombres de las
categorías son largos. También retoma la importancia de evaluar los gráficos,
ofreciendo pautas útiles: comprobar si los datos se presentan como frecuencias
absolutas o relativas y verificar el tamaño de la muestra cuando se muestran
porcentajes. Estas recomendaciones apuntan a formar un lector crítico capaz de
identificar si un gráfico comunica datos reales o manipulados.
Finalmente,
el capítulo cierra con una afirmación interesante: Rumsey sostiene que en los
diagramas circulares es difícil exagerar una porción para manipular la
información. Si bien hoy, con programas como SPSS, R o Excel, eso es cierto
—porque los cálculos se automatizan con precisión—, históricamente no lo era.
Antes de la era digital, los gráficos se elaboraban a mano con transportador y
compás, y era fácil alterar los ángulos o el tamaño de las porciones para
influir en la percepción del lector. Por tanto, la digitalización de la
estadística no solo trajo comodidad, sino también mayor objetividad gráfica.
El
capítulo 6 es un excelente recordatorio de que toda visualización implica una
interpretación. Rumsey cumple con su propósito didáctico al enseñar cómo leer e
interpretar los gráficos más comunes, aunque se limita a los más básicos. Los
ejemplos y advertencias son valiosos, especialmente los relacionados con
escalas, truncamientos y tamaños muestrales. No obstante, se echan de menos
otros tipos de representaciones categóricas y una reflexión más profunda sobre
el diseño visual. En conjunto, el capítulo combina claridad, espíritu crítico y
utilidad práctica, y ayuda a que el lector aprenda a mirar los gráficos no como
adornos, sino como argumentos visuales que deben ser leídos con rigor.
Sobre
el capítulo 7: “Representación gráfica de datos numéricos”
El
capítulo 7 concluye la segunda parte del libro Estadística para Dummies,
titulada Nociones de cálculo numérico, reuniendo tres de las representaciones
más relevantes para el análisis descriptivo: los histogramas, los diagramas de
cajas y los cronogramas o gráficos de series temporales. Deborah Rumsey
mantiene su tono accesible y su estilo pedagógico característico, aunque en
esta sección se evidencian vacíos teóricos que afectan la profundidad del
tratamiento de los temas.
Cada
parte del libro inicia con una caricatura de Rich Tennant, quien aporta un
elemento humorístico y crítico. En esta segunda parte, la viñeta muestra a un
empleado que, con la boca manchada de tarta de moras, afirma: “He evaluado
nuestro último gráfico de tarta. Yo diría que es de moras.” La imagen juega con
la ambigüedad entre el gráfico circular —denominado “de tarta” o “de torta”— y
una tarta real, lo que establece una metáfora visual coherente con los
contenidos de esta sección. El humor de Tennant introduce al lector en los
capítulos sobre gráficos recordando que toda representación estadística es, en
última instancia, una porción de la realidad.
Histogramas
Rumsey
define el histograma como el gráfico más adecuado para representar datos
numéricos continuos y explica su utilidad para visualizar la forma de la
distribución mediante intervalos. No obstante, limita su alcance al presentar
el histograma como la única alternativa para datos numéricos, omitiendo que los
gráficos de barras también pueden emplearse para representar datos discretos,
como edades o calificaciones.
A
pesar de mencionar que la media y la mediana pueden deducirse a partir de un
histograma, la autora no explica cómo se calculan estos valores cuando los
datos se encuentran agrupados, lo que deja un vacío metodológico para el
lector. Asimismo, al indicar que la elección de los intervalos puede realizarse
a criterio personal, se omite la presentación de métodos básicos como la regla
de Sturges o el uso de la raíz cuadrada del número total de observaciones,
herramientas sencillas que habrían aportado mayor rigor.
Un
acierto importante es la advertencia sobre el riesgo de manipulación gráfica.
Rumsey muestra cómo la selección de escalas, intervalos y puntos iniciales o
finales puede distorsionar la percepción visual de las frecuencias. Sus
ejemplos con los datos del Old Faithful Geyser ilustran claramente cómo un
número inadecuado de intervalos puede alterar la interpretación de la
distribución.
Diagramas
de cajas
En
la segunda sección del capítulo, la autora desarrolla el diagrama de cajas o
boxplot, destacando su función para representar de forma sintética la posición,
dispersión y simetría de los datos. Expone con claridad la importancia del
rango intercuartílico (IQR), que representa la variabilidad del 50 % central de
los datos, y explica paso a paso el procedimiento de construcción del gráfico.
Rumsey
señala con acierto que un lado más largo de la caja no implica mayor cantidad
de datos, sino mayor dispersión, y enseña a identificar los valores atípicos
mediante la regla de 1,5 × IQR, representándolos con asteriscos o puntos.
También insiste en la necesidad de conocer el tamaño de la muestra (n) para una
interpretación adecuada.
Sin
embargo, el capítulo omite detallar cómo dividir conjuntos amplios de datos en
cuartiles y no explica la relación del rango intercuartílico con otros
indicadores de variabilidad, como la desviación estándar. A pesar de ello, el
apartado constituye una introducción clara a la interpretación gráfica de la
dispersión y la detección de valores extremos.
Cronogramas
o gráficos de series temporales
La
última parte del capítulo presenta los cronogramas, gráficos que muestran la
evolución de una variable a lo largo del tiempo. Rumsey destaca correctamente
que el eje horizontal debe representar el tiempo y el eje vertical, la variable
observada, y que las líneas que conectan los puntos permiten identificar
tendencias y variabilidad.
La
autora explica que una línea estable sugiere baja variabilidad, mientras que
una muy ondulada indica fluctuaciones significativas. Advierte, además, que es
fundamental respetar la escala temporal —por ejemplo, no asignar la misma
distancia entre años desiguales— y distinguir entre el número absoluto de casos
y las tasas. También recomienda reducir el número de datos mediante promedios
cuando la serie es extensa, práctica conocida como suavizado de series
(smoothing), que facilita la legibilidad del gráfico.
El
capítulo 7, junto con toda la Parte II del libro, constituye una aproximación
introductoria al cálculo numérico y la representación gráfica en estadística
descriptiva. Aunque la autora mantiene su enfoque didáctico y ofrece ejemplos
concretos, el tratamiento de algunos conceptos resulta incompleto y puede
generar confusión en lectores principiantes. A pesar de estas limitaciones,
Rumsey logra transmitir un mensaje fundamental: los gráficos no solo
representan datos, sino también interpretaciones, y su lectura debe ser
crítica, cuidadosa y contextual.
La
Parte II, en conjunto, enseña que ningún gráfico es absolutamente fiel ni
completamente falso: su valor depende de la precisión técnica y la honestidad
con que se construya. En este sentido, el texto promueve una alfabetización
estadística que combina rigor, claridad y una mirada ética hacia la información
visual.
Comentarios
Publicar un comentario