sábado, 25 de octubre de 2014

TEORÍA DE LA INFORMACIÓN

Que es la teoría de la información:

La teoría de la información, también conocida como teoría matemática de la comunicación o teoría matemática de la información, es una propuesta teórica presentada por Claude E. Shannon y Warren Weaver a finales de la década de los 40. Esta teoría está relacionada con las leyes matemáticas que rigen la transmisión y el procesamiento de la información y se ocupa de la medición de la información y de la representación de la misma, así como también de la capacidad de los sistemas de comunicación para transmitir y procesar información.
Otro aspecto importante dentro de esta teoría es la resistencia a la distorsión que provoca el ruido, la facilidad de codificación y des-codificación, así como la velocidad de transmisión. Es por esto que se dice que el mensaje tiene muchos sentidos, y el destinatario extrae el sentido que debe atribuirle al mensaje, siempre y cuando haya un mismo código en común.

Su estudio:
  1.   Proporciona una serie de conceptos y formulaciones desde el punto de vista matemático, que permiten en última instancia plantear alternativas para el manejo inteligente del proceso de comunicación.
  2. Permite conocer las técnicas de cifrado, corrección y detección de errores y procesos de eliminación de redundancia en una información.


Componentes o Elementos de la informacion:

Fuente: Una fuente es todo aquello que emite mensajes. Por ejemplo, una fuente puede ser una computadora y mensajes sus archivos.

Clases de fuentes:

  1. Una fuente es aleatoria: cuando no es posible predecir cuál es el próximo mensaje a emitir por la misma.              
  2. Una fuente es estructurada: cuando posee un cierto nivel de redundancia;   
  3. Una fuente no estructurada o de información pura: es aquella en que todos los mensajes son absolutamente aleatorios sin relación alguna ni sentido aparente. Este tipo de fuente emite mensajes que no se pueden comprimir; un mensaje, para poder ser comprimido, debe poseer un cierto grado de redundancia; la información pura no puede ser comprimida sin que haya una pérdida de conocimiento sobre el mensaje.

 
Mensaje: es un conjunto de ceros y unos. Un archivo, un paquete de datos que viaja por una red y cualquier cosa que tenga una representación binaria puede considerarse un mensaje.

Código: es un conjunto de unos y ceros que se usan para representar un cierto mensaje de acuerdo a reglas o convenciones preestablecidas.
Información: La información contenida en un mensaje es proporcional a la cantidad de bits que se requieren como mínimo para representar al mensaje.

Entropía de una fuente


 


Promedio ponderado de las longitudes de los códigos de acuerdo a sus probabilidades de ocurrencia, al número H se lo denomina "Entropía de la fuente" y tiene gran importancia. La entropía de la fuente determina el nivel de compresión que podemos obtener como máximo para un conjunto de datos, si consideramos como fuente a un archivo y obtenemos las probabilidades de ocurrencia de cada carácter en el archivo podremos calcular la longitud promedio del archivo comprimido, se demuestra que no es posible comprimir estadísticamente un mensaje/archivo más allá de su entropía. Lo cual implica que considerando únicamente la frecuencia de aparición de cada carácter la entropía de la fuente nos da el límite teórico de compresión, mediante otras técnicas no-estadísticas puede, tal vez, superarse este límite.
El objetivo de la compresión de datos es encontrar los Li que minimizan a H, además los Li se deben determinar en función de los Pi, pues la longitud de los códigos debe depender de la probabilidad de ocurrencia de los mismos (los más ocurrentes queremos codificarlos en menos bits). Se plantea pues:
 



A partir de aquí y tras intrincados procedimientos matemáticos que fueron demostrados por Shannon oportunamente se llega a que H es mínimo cuando f(Pi) = log2 (1/Pi). Entonces:
 


La longitud mínima con la cual puede codificarse un mensaje puede calcularse como Li=log2(1/Pi) = -log2(Pi). Esto da una idea de la longitud a emplear en los códigos a usar para los caracteres de un archivo en función de su probabilidad de ocurrencia. Reemplazando Li podemos escribir H como:

 

De aquí se deduce que la entropía de la fuente depende únicamente de la probabilidad de ocurrencia de cada mensaje de la misma, por ello la importancia de los compresores estadísticos (aquellos que se basan en la probabilidad de ocurrencia de cada carácter). Shannon demostró, oportunamente que no es posible comprimir una fuente estadísticamente más allá del nivel indicado por su entropía.



CODIGO DECODIFICABLE
Un código es decodificable sí y solo sí un código solo puede corresponder a un único mensaje.
Ejemplo:
a=0
b=10
c=11
Es un código prefijo, notar que si agregamos mas códigos estos no pueden comenzar con "0" ni "10" ni "11" pues el decodificador los confundiría con "a" "b" o "c", en consecuencia a este código no podríamos agregarle nuevos códigos.

CODIGO NO DECODIFICABLE
Todo el proceso de codificación en sí deja de tener sentido pues no es posible decodificar correctamente los mensajes.
Ejemplo:
Sea el siguiente esquema de codificación:
a=0
b=01
c=10
Si el decodificador recibe el código: "0010" no puede distinguir si el mensaje original fue "aba" o "aac", ya que puede interpretarlo como 0 01 0 o como 0 0 10.

CODIGOS HUFFMAN

Es un algoritmo usado para compresión de datos. La compresión Huffman es un sistema de longitud variable que asigna los códigos más pequeños a aquellos caracteres más frecuentemente usados y los códigos más largos a aquellos menos frecuentes. Esto sirve para reducir el tamaño de los archivos.


glosario:


  1. Claude Elwood Shannon: (Míchigan, 30 de abril de 1916 - 24 de febrero de 2001) fue un ingeniero electrónico y matemático estadounidense, recordado como «el padre de la teoría de la información» (desarrolló la entropía de la información).            
  2. Warren Weaver: (Reedsburg, Wisconsin, 1894 - New Milford, 1978), biólogo e informatólogo estadounidense, padre de la Teoría de la Información.
  3. H: Es la entropia de la fuente.                                         
  4. Pi: Es la probabilidad de ocurrencia del mensaje i de una fuente.
  5. i: Es el mensaje de una fuente.
  6. Li: Es la longitud del código utilizado para representar dicho mensaje.
  7. Entropia "en la teoría de la información": Se dice que es como una medida de orden o restricción para llevar a cabo un trabajo.




referencias:

información:
1: http://goo.gl/DGn6rp
2:http://goo.gl/rzzHXb
3: http://goo.gl/fkhqQ7

imágenes:
1: http://goo.gl/vHFZ8K
2: http://goo.gl/RC2ZpD
3: http://goo.gl/DGn6rp
4: http://goo.gl/DGn6rp
5: http://goo.gl/DGn6rp
6: http://goo.gl/DGn6rp

vídeo:
1:http://goo.gl/WsDTwE