Que es la teoría de la información:
La
teoría de la información, también conocida como teoría matemática de la
comunicación o teoría matemática de la información, es una propuesta teórica
presentada por Claude E. Shannon y Warren Weaver a finales de la década de los
40. Esta teoría está relacionada con las leyes matemáticas que rigen la
transmisión y el procesamiento de la información y se ocupa de la medición de
la información y de la representación de la misma, así como también de la
capacidad de los sistemas de comunicación para transmitir y procesar
información.
Otro
aspecto importante dentro de esta teoría es la resistencia a la distorsión que
provoca el ruido, la facilidad de codificación y des-codificación, así como la
velocidad de transmisión. Es por esto que se dice que el mensaje tiene muchos
sentidos, y el destinatario extrae el sentido que debe atribuirle al mensaje,
siempre y cuando haya un mismo código en común.
Su estudio:
- Proporciona una serie de conceptos y formulaciones desde el punto de vista matemático, que permiten en última instancia plantear alternativas para el manejo inteligente del proceso de comunicación.
- Permite conocer las técnicas de cifrado, corrección y detección de errores y procesos de eliminación de redundancia en una información.
Componentes o Elementos de la informacion:
Fuente: Una fuente es todo aquello que emite
mensajes. Por ejemplo, una fuente puede ser una computadora y mensajes sus
archivos.
Clases de fuentes:
- Una fuente es aleatoria: cuando no es posible predecir cuál es el próximo mensaje a emitir por la misma.
- Una fuente es estructurada: cuando posee un cierto nivel de redundancia;
- Una fuente no estructurada o de información pura: es aquella en que todos los mensajes son absolutamente aleatorios sin relación alguna ni sentido aparente. Este tipo de fuente emite mensajes que no se pueden comprimir; un mensaje, para poder ser comprimido, debe poseer un cierto grado de redundancia; la información pura no puede ser comprimida sin que haya una pérdida de conocimiento sobre el mensaje.
Mensaje: es un conjunto de ceros y unos. Un
archivo, un paquete de datos que viaja por una red y cualquier cosa que tenga
una representación binaria puede considerarse un mensaje.
Código: es un conjunto de unos y ceros que se
usan para representar un cierto mensaje de acuerdo a reglas o convenciones
preestablecidas.
Información: La información contenida en
un mensaje es proporcional a la cantidad de bits que se requieren como mínimo
para representar al mensaje.
Entropía de una fuente
Promedio ponderado de las longitudes de los códigos de acuerdo a sus probabilidades de ocurrencia, al número H se lo denomina "Entropía de la fuente" y tiene gran importancia. La entropía de la fuente determina el nivel de compresión que podemos obtener como máximo para un conjunto de datos, si consideramos como fuente a un archivo y obtenemos las probabilidades de ocurrencia de cada carácter en el archivo podremos calcular la longitud promedio del archivo comprimido, se demuestra que no es posible comprimir estadísticamente un mensaje/archivo más allá de su entropía. Lo cual implica que considerando únicamente la frecuencia de aparición de cada carácter la entropía de la fuente nos da el límite teórico de compresión, mediante otras técnicas no-estadísticas puede, tal vez, superarse este límite.
El
objetivo de la compresión de datos es encontrar los Li que minimizan a H,
además los Li se deben determinar en función de los Pi, pues la longitud de los
códigos debe depender de la probabilidad de ocurrencia de los mismos (los más
ocurrentes queremos codificarlos en menos bits). Se plantea pues:
A
partir de aquí y tras intrincados procedimientos matemáticos que fueron
demostrados por Shannon oportunamente se llega a que H es mínimo cuando f(Pi) =
log2 (1/Pi). Entonces:
La
longitud mínima con la cual puede codificarse un mensaje puede calcularse como
Li=log2(1/Pi) = -log2(Pi). Esto da una idea de la longitud a emplear en los
códigos a usar para los caracteres de un archivo en función de su probabilidad
de ocurrencia. Reemplazando Li podemos escribir H como:
De
aquí se deduce que la entropía de la fuente depende únicamente de la
probabilidad de ocurrencia de cada mensaje de la misma, por ello la importancia
de los compresores estadísticos (aquellos que se basan en la probabilidad de
ocurrencia de cada carácter). Shannon demostró, oportunamente que no es posible
comprimir una fuente estadísticamente más allá del nivel indicado por su
entropía.
CODIGO DECODIFICABLE
Un código es decodificable sí y solo sí un código solo
puede corresponder a un único mensaje.
Ejemplo:
a=0
b=10
c=11
b=10
c=11
Es un código prefijo, notar que si agregamos mas
códigos estos no pueden comenzar con "0" ni "10" ni
"11" pues el decodificador los confundiría con "a"
"b" o "c", en consecuencia a este código no podríamos
agregarle nuevos códigos.
CODIGO NO DECODIFICABLE
Todo el proceso de codificación en sí deja de tener
sentido pues no es posible decodificar correctamente los mensajes.
Ejemplo:
Sea el siguiente esquema de codificación:
a=0
b=01
c=10
b=01
c=10
Si el decodificador recibe el código: "0010"
no puede distinguir si el mensaje original fue "aba" o
"aac", ya que puede interpretarlo como 0 01 0 o como 0 0 10.
CODIGOS HUFFMAN
PREZI:
("Cibernetica, teoría de la información, teoría de los juegos, teoría de la desicion, topologia o matemática racional, análisis factorial, ingeniería de sistemas, investigación de operaciones, ingeniería humana.").
glosario:
- Claude Elwood Shannon: (Míchigan, 30 de abril de 1916 - 24 de febrero de 2001) fue un ingeniero electrónico y matemático estadounidense, recordado como «el padre de la teoría de la información» (desarrolló la entropía de la información).
- Warren Weaver: (Reedsburg, Wisconsin, 1894 - New Milford, 1978), biólogo e informatólogo estadounidense, padre de la Teoría de la Información.
- H: Es la entropia de la fuente.
- Pi: Es la probabilidad de ocurrencia del mensaje i de una fuente.
- i: Es el mensaje de una fuente.
- Li: Es la longitud del código utilizado para representar dicho mensaje.
- Entropia "en la teoría de la información": Se dice que es como una medida de orden o restricción para llevar a cabo un trabajo.
referencias:
información:
1: http://goo.gl/DGn6rp
2:http://goo.gl/rzzHXb
3: http://goo.gl/fkhqQ7
imágenes:
No hay comentarios.:
Publicar un comentario