Predicción de Clientes
Problemáticos


Luis Manuel Román García

Madeleine Leon Sosa

Mario Becerra


Contenido

  1. Introducción
  2. Hipótesis
  3. Base de datos
  4. Análisis exploratorio de datos
  5. Análisis confirmatorio
  6. Resultados
  7. Conclusión



Introducción

El siglo XXI ha sido llamado por muchos el siglo de la información. El volumen, la variedad y la velocidad con la que los datos circulan la red no tiene precedente histórico.

Eric Schmidt: Every two days we create as much information as we did from the dawn of civilization up until 2003.

Es evidente que el problema ya no es la escasez de datos, sino la capacidad para explotarlos de manera adecuada y poder extraer contenido de entre todo ese ruido.

Una de las principales aplicaciones del análisis de grandes bases de datos es la mejora del servicio que las compañías ofrecen a sus clientes. Explorar los resultados de encuestas de servicio o identificar las principales quejas de los clientes les permite entender cuales son sus puntos débiles y descubrir campos de oportunidad. Por otro lado, una correcta evaluación de los gustos y preferencias de los individuos les permite desarrollar productos acordes a sus necesidades, lo que les permite diferenciarse de la competencia.

Esto es particularmente importante en sectores con alta volatilidad y rotación de clientes. El mercado financiero es un buen ejemplo, ya que en este, el precio es muchas veces un factor determinante, de tal forma que si no quieres perder margen de utilidad la atención a clientes debe ser tu principal objetivo.

Goldman Sachs: Our experience shows that if we serve our clients well, our own success will follow.

En este trabajo exploramos una gran base de datos que contiene las principales quejas de individuos sobre productos financieros. Nuestro objetivo es determinar que variables se correlacionan con el descontento de los clientes y construir un modelo que nos permita predecir dicho fenómeno.


Hipótesis

Dada una serie de variables referentes a: un cliente, el producto que consumió, la empresa de la cual lo hizo y el tratamiento que se le dió a su asunto. Se puede estimar la probabilidad de que dicho cliente vuelva a presentar una queja.


Base de datos

La base de datos que utilizamos está disponible en el sitio oficial de datos públicos del gobierno de Estados Unidos de América . Esta consta de 314,949 quejas de individuos sobre productos financieros y cuenta con registros desde el 2011 hasta el 8 de julio del 2014. Cada observación cuenta con 13 variables. Estas contienen información del individuo: Código postal y estado de residencia. Información sobre el producto financiero: compañía vendedora, tipo de producto y el problema que encontraron. Información referente a la queja: fecha de elaboración, respuesta de la compañía, fecha de respuesta, puntualidad de la respuesta y posteriores reclamaciones.

Valores faltantes

Uno de los primeros problemas que encontramos en la base de datos fue que aproximadamente el \(8.7\%\) de los registros referentes a la variable de interés consumer.disputed. eran datos faltantes. Dado que esto resulta no informativo para el fenómeno que se quiere modelar y dado que los valores faltantes representan una pequeña porción de los datos, estos registros fueron eliminados.

Además de esto, observamos que dos variables ( sub.issue, sub.product ) contaban con una gran cantidad de registros faltantes \(74.52\%\), \(29.02\%\) respectivamente. Para decidir que tratamiento darle a estas variables, hicimos una prueba gráfica y una prueba \(\chi^2\) para determinar si la variable respuesta era estadísticamente independiente de la presencia o ausencia de dichos datos.

Al momento de explorar la base de datos nos encontramos con dos variables cuyo porcentaje de valores faltantes las volvía

plot of chunk unnamed-chunk-3

plot of chunk unnamed-chunk-4

Al ver las gráficas y los resultados de las pruebas, notamos que el comportamiento de la variable respuesta es independiente de la presencia o ausencia de de ambas variables, esto justifica que dichas variables no sean tomadas en cuente para futuro análisis.

Recodificación de variables y observaciones

En esta sección se describen los distintos tratamientos y recodificaciones que se le dieron a las distintas variables con tal de mejorar el ajuste de nuestro modelo.

Product & Issue

Por un lado, la variable product consta de 9 niveles, mientras que la variable issue cuenta con 78. Si las clases fueran independientes uno esperaria observar al rededor de \(9 \times 78 = 702\) configuraciones distintas. Sin embargo, en la base se observan únicamente \(80\) configuraciones. Esto indica una alta correspondencia entre ambas variables y nos sugiere que cada producto tiene sus propias quejas.