ANALISIS EMPIRICO II - Javier Aparicio

Análisis Empírico-Cuantitativo II
Otoño 2005

Francisco Javier Aparicio

Ésta página: http://www.cide.edu/investigadores/aparicio/empirico2.html E-mail: javier.aparicio@cide.edu

Ésta es la página del curso optativo de Análisis Empírico II, impartido por Javier Aparicio en el CIDE.
Aquí encontrarán información relevante sobre los temas cubiertos en clase, el calendario de lecturas,
ejercicios y otros avisos importantes.

Temario / Bibliografía

Notas de clase

Datos y Bitácoras

Lecturas Asignadas

Temario

Objetivo y motivación

Este curso optativo ofrece una continuación y extensión de algunos temas vistos en la secuencia de “introducción al análisis empírico” y “métodos cuantitativos” del tercer año de la licenciatura en CP/RI.

Los objetivos del curso son cuatro:

Comprender qué tipo de preguntas empíricas pueden responderse usando métodos cuantitativos, y cuáles no tanto.
Profundizar en el uso de métodos tradicionales e introducir métodos nuevos.
Aprender cómo pasar de los resultados estadísticos brutos a la interpretación y presentación persuasiva de los mismos.
Un objetivo indirecto del curso será ayudarlos a explotar estos métodos dentro de sus proyectos de tesis o tesina, pero cabe aclarar que este curso no es un sustituto del seminario de tesis.

Comenzaremos con un breve repaso de la lógica subyacente al análisis empírico cuantitativo, del manejo de bases de datos, y los modelos de regresión lineal (OLS). Después estudiaremos los problemas más comunes de OLS, y sus soluciones, así como métodos de máxima verosimilitud y análisis de datos panel.

Metodología y evaluación

Tendremos una clase por semana--los martes de 2 a 5pm en el salón Santa Fe 102--donde discutiremos aspectos teóricos de cada método, y los estudiantes presentarán aplicaciones, tanto existentes en la literatura como potenciales, a problemas del mundo real. Cada par de semanas tendremos una sesión de ejercicios con Stata. Sobra decir que la mayor carga del curso recaerá en cada uno de ustedes y del tiempo que dediquen al laboratorio y leyendo la literatura relevante.

Durante el semestre resolverán diversos ejercicios como tarea (30%), criticarán la literatura existente (30%), y desarrollarán un proyecto de investigación empírico que puede estar relacionado o no con sus tesis ó tesinas (40%).

Temario tentativo

El contenido tentativo del curso es como sigue (esta lista es podrá crecer o disminuir dependiendo del ritmo con que avancemos):

Lógica del análisis empírico cuantitativo (repaso)
Manejo y exploración de bases de datos (repaso)
Regresión lineal multivariada (OLS)
1. Supuestos subyacentes
2. Sesgo y eficiencia de OLS
3. Problemas: variables omitidas, sesgo muestral, heteroscedasticidad, y autocorrelación
Especificación y diagnóstico de modelos y pruebas de hipótesis
Efectos interactivos y cambios estructurales
Análisis de datos panel con variables continuas
1. Efectos aleatorios vs. efectos fijos
2. Problemas: heteroscedasticidad, correlación espacial y temporal
Variables dependientes limitadas y métodos de máxima verosimilitud (maximum likelihood estimation, MLE)
1. Variables binarias: logit y probit
2. Variables ordinales: ordered probit y logit
3. Variables nominales: multinomial logit y probit
4. Conteo de eventos: poisson y binomial negativo
Análisis de datos panel con variables categóricas
Simulación e interpretación de resultados de modelos MLE (Clarify y Spost)
Introducción al análisis de series de tiempo
Variables censuradas y selección de muestra: tobit y heckit

Subir

Bibliografía

Esta es una bibliografía preliminar. Algunas lecturas y artículos adicionales serán proporcionados a lo largo del curso.

Long, J. Scott, 1997, Regression Models for Categorical and Limited Dependent Variables. Advanced Quantitative Techniques in the Social Sciences, Volume 7. Sage Publications. ISBN 0-8039-7374-8. (Creo que existe una versión en español).
Long, J. Scott and Jeremy Freese, 2001, Regression Models for Categorical Dependent Variables Using Stata. College Station, TX: Stata Press.
Wooldridge, Jeffrey M. Introductory Econometrics: A modern approach, South-Western, 2001 ó 2003 (1a ó 2a edición). La primera edición está en español: Introducción a la econometría: un enfoque moderno. Thomson Learning, 2001. [Wooldridge1]
Wooldridge, Jeffrey M. Econometric Analysis of Cross Section and Panel Data. Cambridge, MA: MIT Press, 2002. [Wooldridge2]

La primera parte del curso será a nivel de Wooldridge1, el cual es una muy buena introducción a métodos de regresión en general. El análisis de datos panel será al nivel de los capítulos 13 y 14 de Wooldridge1, y algunos temas avanzados provendrán de Wooldridge2. El tratamiento teórico de métodos de máxima verosimilitud seguirá a Long (1997). Las aplicaciones con Stata seguirán a Wooldridge1 y Long & Freese (2001).

Subir

Lecturas asignadas

30-ago	Wooldridge1, caps. 1-3.
6-sep	Wooldridge1, cap. 4.
13-sep	Wooldridge1, cap. 6.
20-sep	Wooldridge1, cap. 7.
27-sep	Wooldridge1, cap. 8.
4-oct	Wooldridge1, cap. 8.
11-oct	Wooldridge1, cap. 13 y 14. (powerpoints: 13 y 14)
18-oct	Wooldridge1, cap. 13 y 14. Lecturas de apoyo (gracias a Junsoo Lee ): panel_notes1.pdf Panel data panel_notes2.pdf Fixed effects panel_notes3.pdf Random effects panel_notes4.pdf Fixed vs. random effects
25-oct	Wooldridge1, cap. 13 y 14. Márquez, Javier. Diagnostico y especificación de modelos Panel Lecturas de apoyo (gracias a Junsoo Lee ): panel_notes5.pdf GLS models panel_notes6.pdf Temporal Dependence
1-nov	Wooldridge1, cap. 17 (powerpoint)
8-nov	Dougherty, C. "Binary choice and limited dependent models, and maximum likelihood estimation", in: Introduction to Econometrics, Oxford Univ. Press, 2nd ed., Chapter 11 (powerpoints)
15-nov	Gary King, Michael Tomz, and Jason Wittenberg. "Making the Most of Statistical Analyses: Improving Interpretation and Presentation,"' American Journal of Political Science, Vol. 44, No. 2 (April, 2000): 341-355. Presentación PDF-PPT del mismo paper: Documentación de Clarify, incluyendo instrucciones para su instalación en stata, en HTML y en PDF.
22-nov

Notas de clase

Jeffrey M. Wooldridge tiene una serie de presentaciones powerpoint para cada capítulo de su libro Introductory Econometrics.

Martes 16 y 23 de Agosto

Durante la primera clase presentamos el curso y discutimos el temario. Entre las ideas principales discutidas tuvimos:

Comentamos algunas de las características y/o vicios y/o virtudes tanto de la investigación cualitativa como la cuantitativa. Al final de cuentas, el método idóneo depende tanto de tu pregunta de investigación como del tipo de respuesta que quieres ofrecer.

Breviario metodológico

La investigación cuantitativa seria tiene al menos cuatro elementos (King et al., cap. 1):

Inferencia descriptiva (exploración de datos) e inferencia explicativa (exploración de mecanismos causales).
Procedimientos de recolección de datos, codificación y análisis explícitos, claros y generalizables.
Ofrece conclusiones "inciertas": de datos inciertos sólo pueden seguirse conclusiones ídem.
"The content is the method": Tu investigación será más o menos científica dependiendo de si sigues el método ídem.

Los estudios de small n vs. large n imponen retos diferentes:

Las muestras grandes te permiten identificar patrones fácilmente generalizables, mientras que las muestras pequeñas (como los estudios de uno o varios casos) te permiten estudiar a profundidad cada caso.
Una observación puede ser tan simple como un punto en un plano de k dimensiones--mismo que sólo puede entenderse comparado con otros casos y manteniendo constantes k-1 variables--o tan denso como el universo de fenómenos contenidos en un episodio histórico.

"The curse of dimensionality"

A mayor número de observaciones, mejores serán los estimadores de un modelo de regresión, lo cual fortalecerá tus resultados...
...pero a mayor número de observaciones, el número de posibles variables relevantes también aumenta, lo que puede debilitar tu teoría o tus resultados iniciales.

Los objetivos e ingredientes de un buen diseño de investigación (King et al., cap. 1)

Depura tu pregunta de investigación
- La PI debe ser "importante" para el "mundo real"
- La PI debe hacer una contribución específica a la literatura existente (ver algunas posibilidades en la pág. 16s).
Mejorar las teorías existentes
- Busca teorías falsificables (diría Popper) o que podrían estar equivocadas--¿qué evidencia te bastaría para demostrarte que tu teoría/creencia está equivocada?)
- Para asegurar lo anterior, busca teorías con las mayores "implicaciones observables" posibles--¿cuántas hipótesis se desprenden de tu teoría?
- En la medida de lo posible, tu teoría debe ser clara y concreta, quizá elegante, quizá parsimoniosa.
Mejorar la calidad de los datos y la evidencia existente
- Registra el proceso mediante el cual recabaste todos tus datos. Sin ello, nadie podrá replicar tu estudio.
- Recaba datos sobre el mayor número de "implicaciones observables" posibles, dados tus recursos. Ello te ayudará a someter tu teoría a muchas pruebas--y si sobrevive, tendrás una investigación más robusta. ¿Podrías recabar más datos o más variables? ¿Puedes usar alguna otra variable dependiente?
- Maximiza la validez de tus observaciones: asegúrate de que tus datos en verdad midan lo que tú quieres medir.
- Asegúrate de que tu método de recolección de datos es confiable.
- Pero sobre todo: tanto la recopilación de todos tus datos, así como todo tu análisis debe ser replicable.
Mejorar el uso de los datos y evidencia existente
- Elimina sesgos: Usa tus datos para generar inferencias no sesgadas, es decir, que en promedio sean inferencias correctas.
- Maximiza la eficiencia: Explota la mayor cantidad posible de información contenida en tus datos, es decir, minimiza la varianza de tus inferencias.

Algunos problemas típicos de un mal diseño de investigación

Muestra demasiado pequeña: ofrece pocos grados de libertad para estimar parámetros de interés (ie, las betas), lo cual hace que éstos sean imprecisos, es decir que tengan demasiada varianza y por ello resulten no significativas.
Muestra no representativa o no aleatoria: produce un sesgo en los parámetros estimados.
Errores de medición en la variables dependiente o independientes: puede producir un sesgo en los parámetros estimados.
Excluir una variable relevante (ie, teórica o estadísticamente significativa): puede producir un sesgo en los estimadores de las variables incluidas.
Incluir (demasiadas) variables irrelevantes: desperdicias grados de libertad, lo cual hace menos eficiente tus estimadores.
Endogeneidad: Existe simultaneidad o causalidad invertida (reverse causation): quizá una variable X determina a Y, pero Y también determina a X. Otra forma del mismo problema es cuando tanto X como Y son determinadas "simultáneamente" por variables omitidas (ie, algún mecanismo desconocido o no observable).

La lógica de la estimación en un modelo de regresión

Podemos pensar en una regresión como un sistema de ecuaciones donde cada observación es una ecuación y a cada variable explicativa le corresponde una incógnita (un parámetro o beta, pues) a ser calculada:
Y_i = alfa + beta₁* X_1i + beta₂* X_2i + error_i
Como ningún modelo es perfecto y el mundo no es 100% determinístico, tales incógnitas sólo pueden ser "estimadas" con diferentes grados de precisión.
Si tienes más incógnitas/variables que ecuaciones/observaciones, es obvio que no podrás estimar todas las incógnitas.
Y mientras más ecuaciones/observaciones tengas con respecto al número de variables, mayor precisión tendrán los parámetros estimados.
Otra forma de decir esto es que mientras más observaciones tengas, mayores "grados de libertad" tendrás para estimar los parámetros de interés.
Grados de libertad = n - k - 1 (G.L.= # obs. - # variables - otro grado--usado para estimar alfa)

Tres problemas típicos de todo modelo de regresión:

Dados una muestra y un modelo a ser estimado tal como: Y_i = alfa + beta₁* X_1i + beta₂* X_2i + error_i
Lo que te interesa es estimar los parámetros beta. Pero como hay un componente aleatorio en tu modelo (los errores), las betas que estimes tendrán una distribución de probabilidad similar a la de tus errores--es decir las betas estimadas tendrán una media y una varianza. Idealmente, queremos que nuestros estimadores satisfagan las siguientes condiciones:

Que no sean sesgados (unbiasedness) - es decir que en promedio las betas estimadas sean iguales a las betas "verdaderas"

Que los parámetros sean de mínima varianza (efficiency) - que las betas estimadas tengan la menor dispersión (o intervalo de confianza) posible, o que sean lo más precisos posible Así, un estimador ideal tendrá un sesgo igual a cero y, al tener varianza mínima, la mayor precisión posible.

Bias vs. efficiency trade off: Por desgracia, a menudo los estimadores más eficientes son algo sesgados, y viceversa, algunos estimadores insesgados no son muy eficientes.

OLS - El modelo clásico de regresión lineal

Los supuestos Gauss-Markov

Linealidad -- El modelo verdadero subyacente es lineal en sus parámetros.
Aleatoriedad -- La muestra es aleatoria y representativa del universo bajo estudio -- de lo contrario los estimadores serán sesgados.
Exogeneidad -- E( u | X ) = 0, o bien cov(X, u) = 0 -- es decir, que las variables explicativas y los residuales no estén relacionados, o bien que no nada de la información contenida en las X--que se presume tiene un efecto sistemático en la Y--esté relacionada con la información de los residuales, que se presume no sistemática, desconocida o inobservable.
- Cuando este supuesto no se cumple es síntoma de que una o más cosas pueden estar mal--volveremos a esto más adelante.
No colinealidad perfecta -- es decir, que ninguna de las X sea un múltiplo o función lineal de otras X, lo cual haría imposible la estimación de alguno de los parámetros.
- A menudo existe colinealidad imperfecta entre dos o más variables lo cual, aunque no imposibilita la estimación, si la hace más imprecisa pues es difícil estimar el impacto independiente (o ceteris paribus) de dos variables que "se parecen" entre si.
- Por sí mismo, este no es un problema tan grave como muchos creen. Lo que sí es un problema es cuando introduces dos o más variables que prácticamente están midiendo lo mismo y aún así deseas distinguir el efecto de una y otra.
Homoscedasticidad -- var(u | X) = sigma cuadrada -- la varianza de los residuales, es decir la parte no explicada del modelo, es constante para todas las observaciones. Esto quiere decir que las observaciones sean básicamente comparables entre sí y/o que no hay una fuente de heterogeneidad no controlada por la regresión--ie, heteroscedasticidad.
- Cuando hay heteroscedasticidad los estimadores y la varianza de los mismos pueden ser sesgada, produciendo sesgo o ineficiencia (CHECK THIS)
Normalidad -- u ~ Normal(0, sigma cuadrada) -- los residuales tienen una distribución normal con media cero y varianza constante. (Si se fijan, el supuesto 6 implica que 3 y 5 se cumplen por fuerza).
- Cuando esto no es cierto, la varianza o el error estándar de los parámetros estimados no es necesariamente confiable y/o eficiente.

Si los supuestos 1 al 4 se cumplen, los estimadores de OLS son insesgados.

Teorema de Gauss-Markov: Cuando además se cumple el supuesto 5, OLS es insesgado y de mínima varianza. Por eso, cuando los supuestos 1 al 5 se cumple, decimos que OLS es MELI--el mejor estimador lineal insesgado (o BLUE, best linear unbiased estimator).

Y, si además de los supuestos 1 al 5, el supuesto de normalidad 6 también se cumple, resulta que OLS no sólo es un estimador lineal insesgado de varianza mínima, sino que es el mejor estimador de entre todos los estimadores lineales o no lineales conocidos.

...more later...

Tarea 1

Usando la base de datos wage1.dta, responde lo siguiente:

¿Qué porcentaje de mujeres hay en la muestra?
¿Qué porcentaje de hombres casados hay en la muestra?
¿Cuál es el salario promedio en cada una de las regiones (este, oeste, sur, norte)
¿Hay una diferencia estadísticamente significativa en el salario promedio de hombres y mujeres con más de 15 años de educación?
Compara si las diferencias en el salario promedio de hombres y mujeres son estadísticamente significativas en cada una de las regiones (este, oeste, sur, norte). Reporta en una tabla los promedios de cada grupo/región y el p-value de la diferencia de medias.
Compara si las diferencias salariales entre individuos casados y solteros son estadísticamente significativas en cada una de los sectores productivos. Reporta en una tabla los promedios de cada grupo/región y el p-value de la diferencia de medias.

Fecha de entrega: Martes 6-Sep antes de clase

Deberás enviar tus respuestas por email en un documento de word que incluya tus respuestas puntuales y las tablas requeridas con un formato bonito. Pega o anexa el log de stata al final del documento.

Tarea 2

Usando la base de datos panelusa50-89.dta responde estas preguntas tarea2metodos_fall05.doc.

Fecha de entrega: Lunes 3-Oct a las 12pm.

Tarea 3

Usando la base de datos panelusa50-89.dta, respondan lo siguiente, esta vez usando el total de impuestos per cápita como variable dependiente (tax):

Usando pooled-OLS, encuentra una regresión que explique la variable dependiente TAX a tu satisfacción.
Calcula el mismo modelo con efectos fijos por estado y con efectos aleatorios. Compara tus resultados con los modelos anteriores.
¿Cuál es el modelo más adecuado para explicar el nivel de impuestos per cápita, pooled-OLS, efectos fijos o efectos aleatorios? ¿Por qué?
Introduce ahora efectos fijos y temporales al mismo tiempo. Compara tus resultados con los modelos anteriores.
Calcula un modelo con "efectos aleatorios por estado" y efectos temporales. Compara tus resultados con los modelos anteriores.
¿Qué modelo prefieres, el de la pregunta 4 o el de la 5? ¿Por qué?

Reporta los modelos 1, 2, 4 y 5 en una sola tabla tipo journal y coméntalos en un documento de word.
Reporta los diagnósticos de las preguntas 3 y 6 en el cuerpo del documento.
No hace falta reportar en las tablas los coeficientes de las dummies.
Añade un apéndice con el do-file con los comandos que utilizaste.
Envia tu archivo por email con un attachment titulado "tarea3_tuapellido.doc" a javier.aparicio@cide.edu y javier.marquez@cide.edu

Fecha de entrega: Martes 1o-Nov a las 12pm.

Subir

Regresar a homepage

Última revisión: Octubre 27, 2005.

Análisis Empírico-Cuantitativo II Otoño 2005

Francisco Javier Aparicio

Objetivo y motivación

Metodología y evaluación

Temario tentativo

Análisis Empírico-Cuantitativo II
Otoño 2005