Temas Selectos de Métodos Cuantitativos
Otoño 2006

Francisco Javier Aparicio

Ésta página: http://www.cide.edu/investigadores/aparicio/metodos.html        E-mail:  javier.aparicio@cide.edu

Ésta es la página del curso optativo de métodos cuantitativos, impartido por Javier Aparicio en el CIDE.
Aquí encontrarán información relevante sobre los temas cubiertos en clase, el calendario de lecturas,
tareas, ejercicios y otros avisos importantes.

Temario / Bibliografía Notas de clase  Datos y Bitácoras Lecturas Asignadas

Temario

Objetivo y motivación

Este curso optativo ofrece una continuación y extensión de algunos temas vistos en la secuencia de “introducción al análisis empírico” y “métodos cuantitativos” del tercer año de la licenciatura en ciencia política y relaciones internacionales.

Los objetivos del curso son al menos cuatro:

  1. Comprender qué tipo de preguntas empíricas pueden responderse usando métodos cuantitativos, y cuáles no tanto.
  2. Profundizar en el uso de métodos tradicionales (OLS) e introducir algunos métodos nuevos (análisis panel, máxima verosimilitud, y simulaciones, etc.)
  3. Aprender cómo pasar de los resultados estadísticos brutos a la interpretación y presentación persuasiva de los mismos.
  4. Un objetivo indirecto del curso será ayudarlos a explotar estos métodos dentro de sus proyectos de tesis o tesina--pero cabe aclarar que este curso no es un sustituto del seminario de tesis ni transfiere responsabilidad del alumno hacia el profesor en cuanto al análisis estadístico de sus tesis.

Comenzaremos con un breve repaso de la lógica subyacente al análisis cuantitativo, el manejo y exploración de bases de datos, y los modelos de regresión lineal (OLS).  Después estudiaremos los problemas más comunes de OLS y sus soluciones, así como métodos de máxima verosimilitud y análisis de datos panel.

Metodología y evaluación

Tendremos una clase por semana los días miércoles de 12 a 2.30pm en el salón Santa Fe 203.  En la primera mitad de la clase discutiremos aspectos teóricos de cada método, comentando las aplicaciones "del mundo real" más comunes en la literatura empírica.  Luego de un receso, en la segunda mitad de la clase tendremos una sesión práctica con Stata donde aplicaremos los conceptos vistos ese mismo día.  Sobra decir que la mayor carga del curso recaerá en cada uno de ustedes y del tiempo que dediquen a las prácticas en el laboratorio y leyendo la literatura relevante.

A lo largo del curso usaremos Stata versión 8, disponible en los laboratorios de cómputo del CIDE. Quizá puedan conseguir la versión 9, que es 100% compatible y no les producirá conflicto alguno.  Las bitácoras, ejercicios y datos usados durante las sesiones prácticas estarán disponibles aquí: http://www.cide.edu/investigadores/aparicio/data/

Durante el semestre resolverán diversos ejercicios estadísticos (40%), entregarán reportes y revisiones de literatura empírica (40%), y desarrollarán un proyecto de investigación empírico que puede estar relacionado o no con sus tesis ó tesinas (20%).  Los detalles adicionales se explicarán en clase.

Temario tentativo

El contenido tentativo del curso es como sigue (esta lista variará dependiendo del ritmo con que avancemos, y de los temas que más interesen al grupo):

  1. Lógica del análisis empírico cuantitativo (repaso)
  2. Manejo y exploración de bases de datos (repaso)
  3. Variables continuas: Regresión lineal multivariada (OLS)
    1. Supuestos subyacentes
    2. Sesgo y eficiencia de OLS
    3. Problemas: variables omitidas, sesgo muestral, heteroscedasticidad, y autocorrelación
  4. Especificación y diagnóstico de modelos y pruebas de hipótesis
  5. Efectos interactivos y cambios estructurales
  6. Análisis de datos panel con variables continuas (panel OLS)
    1. Ventajas y desventajas de los datos panel
    2. Efectos aleatorios vs. efectos fijos
    3. Problemas: heteroscedasticidad, correlación espacial y temporal
  7. Variables dependientes limitadas: Métodos de máxima verosimilitud (maximum likelihood estimation, MLE)
    1. Variables binarias: logit y probit
    2. Variables ordinales: ordered logit y probit
    3. Variables nominales: multinomial logit y probit
    4. Conteo de eventos: poisson y binomial negativo
  8. Análisis de datos panel con variables categóricas
  9. Simulación e interpretación de resultados de modelos de máxima verosimilitud (Clarify y Spost)
  10. Variables censuradas (tobit) y modelos de selección muestral (heckit)
  11. Introducción al análisis de series de tiempo (si el tiempo lo permite).

 

Subir

Bibliografía

Esta es una bibliografía básica--algunas lecturas y artículos adicionales serán proporcionados a lo largo del curso.

La mayor parte del curso será a nivel de Wooldridge1, el cual ofrece una muy buena introducción a métodos de regresión en general.  El análisis de datos panel será al nivel de los capítulos 13 y 14 de Wooldridge1, y algunos temas avanzados provendrán de Wooldridge2. El tratamiento teórico de métodos de máxima verosimilitud seguirá a Long (1997).  Las aplicaciones con Stata seguirán a Wooldridge1 y un poco a Long & Freese (2001).

Recursos disponibles en la web:

 

Subir
 
 

Lecturas asignadas

16-ago Wooldridge1, cap. 1. (presentaciones powerpoint)
23-ago Wooldridge1, caps. 2 -- Regresión lineal simple.
30-ago Wooldridge1, caps. 3 y 4 -- Regresión multivariada e inferencia, supuestos Gauss-Markov.
6-sep Wooldridge1, cap. 6 -- Forma funcional, bondad de ajuste, residuales.
13-sep Wooldridge1, cap. 7 -- Variables dummy, categóricas y efectos interactivos.
20-sep Wooldridge1, cap. 8 -- Heteroscedasticidad
27-sep Wooldridge1, caps. 13 y 14 -- Métodos panel, efectos fijos y aleatorios.
4-oct Métodos panel para variables continuas

Márquez, Javier. Diagnostico y especificación de modelos Panel

Notas de  apoyo (optativas) de Junsoo Lee:

11-oct Máxima Verosimilitud / Variables dependientes limitadas

Wooldridge1, cap. 17.

Dougherty (2002). Introduction to Econometrics, 2nd ed.

Ch. 11: Binary choice and limited dependent models, and maximum likelihood estimation

1) Introduction to maximum liklihood estimation
2) Maximum liklihood estimation of regression coefficients
3) Binary choice models: linear probability model
4) Binary choice models: logit analysis
5) Binary choice models: probit analysis
6) Tobit analysis
7) Sample selection bias
18-oct David Leblang:

Linear Probability Model/Logit/Probit
Measures of Fit / Interpretation / Diagnostics / CLARIFY
Ordered and Multinomial Logit
Selection Models/Conditional Logit/Bivariate Logit/Rare Events Logit

William Greene:  Measures of fit in binary choice models
25-oct Gary King, Michael Tomz, and Jason Wittenberg. "Making the Most of Statistical Analyses: Improving Interpretation and Presentation," American Journal of Political Science, Vol. 44, No. 2 (April, 2000): 341-355.

Clarify: Software for Interpreting and Presenting Statistical Results (version pdf).

1-nov No hubo clase
8-nov Métodos panel para variables binarias / conteo de eventos
15-nov Endogeneidad y variables instrumentales (2SLS)
Wooldridge1, cap. 15.
22-nov

Modelos de selección muestral (Heckman)
Wooldridge1, cap. 17, sección 5.

29-nov   
 
 
 

 

Notas de clase

 

Miércoles 16 de Agosto

Durante la primera clase presentamos el curso y discutimos el temario.  Entre las ideas principales tuvimos:

Comentamos algunas de las características y/o vicios y/o virtudes tanto de la investigación cualitativa como la cuantitativa.  Al final de cuentas, el método idóneo depende tanto de tu pregunta de investigación como del tipo de respuesta que quieres ofrecer.

Breviario metodológico

La investigación cuantitativa seria tiene al menos cuatro elementos (King et al., cap. 1):

  1. Inferencia descriptiva (exploración de datos) e inferencia explicativa (exploración de mecanismos causales).
  2. Procedimientos de recolección de datos, codificación y análisis explícitos, claros y generalizables.
  3. Ofrece conclusiones "inciertas": de datos inciertos sólo pueden seguirse conclusiones ídem.
  4. "The content is the method": Tu investigación será más o menos científica dependiendo de si sigues el método ídem.

Los estudios de small n vs. large n imponen retos diferentes: 

"The curse of dimensionality"

Los objetivos e ingredientes de un buen diseño de investigación  (King et al., cap. 1)

  1. Depura tu pregunta de investigación
  2. Mejorar las teorías existentes
  3. Mejorar la calidad de los datos y la evidencia existente
  4. Mejorar el uso de los datos y evidencia existente

Algunos problemas típicos de un mal diseño de investigación

  1. Muestra demasiado pequeña: ofrece pocos grados de libertad para estimar parámetros de interés (ie, las betas), lo cual hace que éstos sean imprecisos, es decir que tengan demasiada varianza y por ello resulten no significativas.

  2. Muestra no representativa o no aleatoria: produce un sesgo en los parámetros estimados.

  3. Errores de medición en la variables dependiente o independientes: puede producir un sesgo en los parámetros estimados.

  4. Excluir una variable relevante (ie, teórica o estadísticamente significativa): puede producir un sesgo en los estimadores de las variables incluidas.

  5. Incluir (demasiadas) variables irrelevantes: desperdicias grados de libertad, lo cual hace menos eficiente tus estimadores.

  6. Endogeneidad: Existe simultaneidad o causalidad invertida (reverse causality): quizá una variable X determina a Y, pero Y también determina a X.  Otra forma del mismo problema es cuando tanto X como Y son determinadas "simultáneamente" por alguna variable omitida (ie, algún mecanismo desconocido o no observable).

La lógica de la estimación en un modelo de regresión

Tres problemas típicos de todo modelo de regresión:

Dados una muestra y un modelo a ser estimado tal como: Yi = alfa + beta1* X1i + beta2* X2i + errori

Lo que te interesa es estimar los parámetros beta.  Pero como hay un componente aleatorio en tu modelo (los errores), las betas que estimes tendrán una distribución de probabilidad similar a la de tus errores--es decir las betas estimadas tendrán una media y una varianza.  Idealmente, queremos que nuestros estimadores satisfagan las siguientes condiciones:

  1. Que no sean sesgados (unbiasedness) - es decir que en promedio las betas estimadas sean iguales a las betas "verdaderas"

  2. Que los parámetros sean de mínima varianza (efficiency) - que las betas estimadas tengan la menor dispersión (o intervalo de confianza) posible, o que sean lo más precisos posible 

  3. Así, un estimador ideal tendrá un sesgo igual a cero y, al tener varianza mínima, la mayor precisión posible.

  4. Bias vs. efficiency trade off: Por desgracia, a menudo los estimadores más eficientes son algo sesgados, y viceversa, algunos estimadores insesgados no son muy eficientes.

OLS - El modelo clásico de regresión lineal

Los supuestos Gauss-Markov

  1. Linealidad -- El modelo verdadero subyacente es lineal en sus parámetros.

  2. Aleatoriedad -- La muestra es aleatoria y representativa del universo bajo estudio -- de lo contrario los estimadores serán sesgados.

  3. Exogeneidad -- E( u | X ) = 0, o bien cov(X, u) = 0 -- es decir, que las variables explicativas y los residuales no estén relacionados, o bien que no nada de la información contenida en las X--que se presume tiene un efecto sistemático en la Y--esté relacionada con la información de los residuales, que se presume no sistemática, desconocida o inobservable.

  4. No colinealidad perfecta -- es decir, que ninguna de las X sea un múltiplo o función lineal de otras X, lo cual haría imposible la estimación de alguno de los parámetros. 

  5. Homoscedasticidad -- var(u | X) = sigma cuadrada -- la varianza de los residuales, es decir la parte no explicada del modelo, es constante para todas las observaciones.  Esto quiere decir que las observaciones sean básicamente comparables entre sí y/o que no hay una fuente de heterogeneidad no controlada por la regresión--ie, heteroscedasticidad.

  6. Normalidad -- u ~ Normal(0, sigma cuadrada) -- los residuales tienen una distribución normal con media cero y varianza constante.  (Si se fijan, el supuesto 6 implica que 3 y 5 se cumplen por fuerza).

...Si los supuestos 1 al 4 se cumplen, los estimadores de OLS son insesgados.

Teorema de Gauss-Markov
Cuando además se cumple el supuesto 5, OLS es insesgado y de mínima varianza. Por eso, cuando los supuestos 1 al 5 se cumple, decimos que OLS es MELI--el mejor estimador lineal insesgado (o BLUE, best linear unbiased estimator). 

Y, si además de los supuestos 1 al 5, el supuesto de normalidad 6 también se cumple, resulta que OLS no sólo es un estimador lineal insesgado de varianza mínima, sino que es el mejor estimador de entre todos los estimadores lineales o no lineales conocidos.

 

Tareas

Las tareas y datos requeridos estarán disponibles en la página de datos del curso: http://www.cide.edu/investigadores/aparicio/data/

 

 

Subir

Regresar a homepage

 

Última revisión: Noviembre 21, 2006.