# Actividad 26: Caso de Estudio de Aprendizaje Automatizado

En esta actividad, se analizará un caso de estudio fundamental en el ámbito de la seguridad informática: la detección de malware en aplicaciones móviles mediante técnicas de aprendizaje automatizado. El creciente uso de dispositivos móviles, junto con la sofisticación de las amenazas cibernéticas, ha intensificado la necesidad de contar con herramientas eficaces para proteger la información personal y la integridad de los sistemas.

A lo largo de la clase, se examinarán métodos de clasificación que permiten identificar aplicaciones maliciosas en archivos APK, aplicando algoritmos de aprendizaje automatizado para diferenciar entre aplicaciones seguras y aquellas que representan un riesgo. Se profundizará en la selección y evaluación de modelos, así como en la implementación de un modelo de clasificación que pueda emplearse en la detección de malware.

Finalmente, el trabajo realizado se documentará en un repositorio de GitHub, siguiendo prácticas de desarrollo colaborativo y brindando una base sólida para el análisis práctico en seguridad informática. Esta actividad está orientada a fortalecer tanto el conocimiento técnico en ciencia de datos como las habilidades de trabajo en equipo y documentación.

## Indicaciones

En este ejercicio, se utilizarán los conocimientos adquiridos durante el curso para analizar APKs y crear un pequeño “antivirus”, así como para responder a varias preguntas relacionadas con los datos.

A continuación, se detallan las indicaciones para llevar a cabo el análisis, teniendo en cuenta que son instrucciones generales y no un “paso a paso” para solucionar el ejercicio:

- **Paso 1: Configuración del entorno**
  - Configura tu entorno de desarrollo en Python y asegúrate de tener instaladas las bibliotecas necesarias, como Pandas, Scikit-Learn y Matplotlib.

- **Paso 2: Descarga de los datos**
  - Descarga el archivo “apk_samples.csv” de la ubicación que el profesor te dará, que contiene muestras de APKs maliciosas y benignas.

- **Paso 3: Exploración de datos**
  - Carga el archivo CSV y realiza una exploración inicial de los datos para comprender su estructura y contenido.
  - Genera visualizaciones que te ayuden a entender la distribución de las etiquetas y las características.

- **Paso 4: Preprocesamiento de datos**
  - Trata cualquier valor faltante, si los hay.
  - Codifica las etiquetas “0” y “1” de la columna `type` como “maliciosa” y “benigna”, respectivamente.
  - Divide los datos en conjuntos de entrenamiento y prueba.

- **Paso 5: Selección de algoritmos de clasificación**
  - Investiga al menos 3 algoritmos de clasificación adecuados para la detección de malware (por ejemplo, SVM, Regresión Logística, Random Forest).
  - Elige los algoritmos que consideres más apropiados y justifica tu elección.

- **Paso 6: Entrenamiento y evaluación de modelos**
  - Divide el conjunto de entrenamiento en subconjuntos para validación cruzada.
  - Entrena los algoritmos seleccionados mediante un pipeline utilizando validación cruzada y evalúa su rendimiento utilizando métricas como precisión, exhaustividad y F1-score.

- **Paso 7: Selección del mejor clasificador**
  - Compara los resultados de los algoritmos y determina cuál ofrece el mejor rendimiento.
  - Explica las razones detrás de la elección del mejor clasificador.

- **Paso 8: Implementación del modelo de clasificación**
  - Utiliza el mejor clasificador para crear un modelo de detección de malware.
  - Demuestra cómo se puede emplear este modelo para determinar si una APK desconocida es maliciosa o benigna.

- **Paso 9: Documentación en GitHub**
  - Crea o utiliza un repositorio en GitHub para este ejercicio.
  - Sube el código fuente, los conjuntos de datos y la documentación necesaria al repositorio.

- **Paso 10: Elaboración del informe**
  - Prepara un informe que incluya los resultados de la evaluación de los algoritmos, la selección del mejor clasificador y la implementación del modelo de clasificación.
  - Agrega comentarios y consideraciones sobre el análisis realizado durante la práctica.

- **Paso 11: Presentación y evaluación**
  - Presenta tus resultados y hallazgos.

## Entendiendo los datos

El conjunto de datos utilizado en este ejercicio contiene 398 muestras de aplicaciones Android (APKs), divididas en 199 aplicaciones maliciosas y 199 aplicaciones benignas. Estas aplicaciones se representaron por los permisos que solicitan durante su instalación y funcionamiento. La solicitud de permisos específicos es una de las características más relevantes para analizar el comportamiento potencial de una aplicación en Android.

### Tipos de Permisos en Android

En el sistema operativo Android, existen aproximadamente 330 permisos distintos que los desarrolladores pueden solicitar al crear una aplicación. Estos permisos regulan el acceso de las aplicaciones a funciones y datos específicos en el dispositivo, y se dividen en diferentes categorías que reflejan su nivel de riesgo y su potencial impacto en la privacidad y seguridad del usuario.

#### Permisos de Bajo Riesgo

Algunos permisos son considerados relativamente inocuos, ya que no otorgan acceso a información sensible ni permiten acciones que afecten la seguridad del dispositivo o la privacidad del usuario. Ejemplos de estos permisos incluyen:

- `ACCESS_NETWORK_STATE`: permite a la aplicación saber si hay conexión a Internet, sin conectarse.
- `VIBRATE`: permite a la aplicación activar la vibración en el dispositivo.
- `SET_WALLPAPER`: permite a la aplicación cambiar el fondo de pantalla del dispositivo.

Estos permisos son necesarios para ciertas funciones menores de la aplicación y, en general, no presentan riesgos importantes para el usuario.

#### Permisos de Alto Riesgo

Otros permisos, sin embargo, pueden permitir a una aplicación acceder a información privada o realizar acciones críticas que, en manos de aplicaciones maliciosas, comprometen la seguridad del usuario. Ejemplos de estos permisos son:

- `READ_CONTACTS`: permite acceder a la lista de contactos, lo cual es sensible si se usa para recopilación de datos o spam.
- `ACCESS_FINE_LOCATION`: permite rastrear la ubicación precisa del usuario, lo cual puede ser problemático en términos de privacidad.
- `SEND_SMS`: permite enviar mensajes SMS desde el dispositivo, lo cual puede derivar en cargos no autorizados o incluso fraude.
- `RECORD_AUDIO`: permite la grabación de audio, que podría ser usado para espiar al usuario.

#### Representar las APKs por sus Permisos: Justificación

La representación de aplicaciones a través de los permisos que solicitan es útil para la detección de comportamientos potencialmente maliciosos. En Android, los permisos sirven como una interfaz pública que todas las aplicaciones deben utilizar para acceder a recursos específicos del sistema operativo. Debido a esta uniformidad, la solicitud de ciertos permisos puede indicar, de forma medible, el comportamiento esperado de una aplicación.

La premisa de que las aplicaciones maliciosas tienden a solicitar permisos similares y de mayor peligrosidad es respaldada por el hecho de que el malware generalmente necesita acceder a funciones sensibles para realizar acciones malintencionadas. Por ejemplo, muchas aplicaciones maliciosas solicitan permisos como `READ_CONTACTS`, `SEND_SMS`, o `ACCESS_FINE_LOCATION`, que pueden ser explotados para obtener datos personales, interceptar comunicaciones o realizar acciones no autorizadas. Esto las diferencia de aplicaciones benignas, que suelen limitarse a permisos esenciales y menos invasivos.

#### Limitaciones de Este Enfoque

Si bien esta representación es efectiva, también presenta limitaciones, ya que no todos los permisos solicitados por una aplicación determinan por sí solos su intencionalidad. Algunas aplicaciones benignas pueden requerir permisos sensibles debido a sus funcionalidades (por ejemplo, una aplicación de mapas que requiere acceso a la ubicación). Asimismo, algunos malware avanzados logran evadir la detección solicitando permisos aparentemente inocuos.

Este contexto ayudará a construir un modelo de clasificación que, basándose en los permisos, pueda ofrecer una aproximación para diferenciar entre aplicaciones benignas y potencialmente maliciosas.

### Etiquetas

En el conjunto de datos utilizado en este ejercicio, las aplicaciones Android (APKs) están etiquetadas como **maliciosas** o **benignas**. Estas etiquetas son cruciales para el propósito de la clasificación, ya que permiten distinguir entre aplicaciones que representan una amenaza potencial y aquellas que no.

Las etiquetas en el conjunto de datos son binarias, representadas por los valores:

- **0**: Representa una **aplicación benigna**, es decir, una aplicación que no presenta comportamientos maliciosos conocidos y que no pone en riesgo la seguridad o privacidad del usuario.
- **1**: Representa una **aplicación maliciosa**, es decir, una aplicación que ha sido identificada como una amenaza, ya sea por sus permisos solicitados, su comportamiento sospechoso, o la presencia de código malicioso como virus o spyware.

Es importante señalar que las etiquetas en este conjunto de datos han sido predefinidas y verificadas por expertos en seguridad, lo que les da fiabilidad. Sin embargo, en la práctica, el etiquetado puede ser un desafío debido a la constante evolución de las amenazas. Nuevas formas de malware pueden no estar etiquetadas correctamente en el conjunto de datos, lo que puede influir en la capacidad del modelo para generalizar. Por ello, es fundamental mantener los conjuntos de datos actualizados para reflejar las amenazas actuales.

## Análisis de Datos

En esta fase, el objetivo es cargar el conjunto de datos y explorar su estructura, distribuciones y cualquier posible anomalía o patrón que pueda influir en el modelo de clasificación. Primeramente se debe establecer el entorno de trabajo adecuado para poder solucionar el ejercicio.

### Configuración del Entorno (Paso 1)

Se debe configurar el entorno de desarrollo en Python y asegurarse de tener instaladas las bibliotecas necesarias.

In [None]:
%pip install pandas scikit-learn matplotlib seaborn