# **5101.Análisis de Datos con Python**🐍   
Duración total de **75 horas**.    
Horas semanales: **4 horas**

## Unidad de Trabajo 1: Introducción al análisis de datos y entornos Python

**Duración aproximada:** 7.5 horas

### Objetivos de la Unidad

Esta unidad de trabajo contribuye a la consecución del **Resultado de Aprendizaje 1 (RA 1)**: *Manejo, limpieza y normalización de distintos tipos de datos en función del problema a resolver*. Al finalizar esta unidad, seréis capaces de:

* Comprender los conceptos fundamentales del análisis de datos.
* Identificar y empezar a utilizar las librerías esenciales de Python para la ciencia de datos.
* Configurar un entorno de trabajo adecuado para el análisis de datos.

### 1. Conceptos Fundamentales del Análisis de Datos

El análisis de datos es el proceso de inspeccionar, limpiar, transformar y modelar datos con el objetivo de descubrir información útil, llegar a conclusiones y apoyar la toma de decisiones. En un mundo cada vez más digital, la cantidad de datos que se generan es inmensa (lo que a menudo se denomina **Big Data**), y la capacidad de extraer conocimiento de ellos es una habilidad muy demandada.

Python se ha convertido en el lenguaje de referencia para el análisis de datos por varias razones:

* **Es un lenguaje de propósito general:** Permite construir sistemas completos, desde la obtención de los datos hasta la presentación de los resultados.
* **Facilidad de aprendizaje:** Su sintaxis es clara y legible, lo que lo hace ideal para principiantes.
* **Un ecosistema de librerías muy potente:** Dispone de herramientas especializadas que facilitan enormemente el trabajo con datos.

### 2. Librerías Esenciales para Ciencia de Datos en Python

Para el análisis de datos en Python, no partimos de cero. Nos apoyaremos en un conjunto de librerías que son el estándar en la industria. El criterio de evaluación principal de esta unidad es que "se conocen y se importan las librerías usadas en ciencia de datos". Las más importantes son:

* **NumPy:** Es la piedra angular de la computación numérica en Python. Proporciona un objeto de array multidimensional (ndarray) muy eficiente y herramientas para operar con él.
* **Pandas:** Ofrece estructuras de datos de alto nivel como el `DataFrame` y las `Series`, diseñadas para hacer el trabajo con datos estructurados o tabulares de forma fácil e intuitiva. Será nuestra herramienta principal en este módulo.
* **Matplotlib:** Es la librería más popular para crear gráficos y visualizaciones de datos estáticas, interactivas y animadas en Python.
* **IPython y Jupyter:** IPython es un intérprete de Python interactivo mejorado. Jupyter, y en concreto los **Jupyter Notebooks**, nos proporcionan un entorno de trabajo basado en web que permite combinar código, texto, ecuaciones matemáticas y visualizaciones en un único documento. Es la herramienta que usaremos en este curso.

#### **Convenciones de Importación**

En la comunidad de Python, es una práctica estándar importar estas librerías con alias específicos para que el código sea más legible y conciso. A lo largo del curso, usaremos las siguientes convenciones:

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

: 

### 3. Configuración del Entorno de Trabajo

Para empezar a trabajar, necesitamos instalar Python y las librerías mencionadas.   
Una de las formas más sencillas (y "recomendable") de hacerlo es a través de una distribución como **Anaconda** o su versión más ligera, **Miniconda**. Estas distribuciones incluyen un gestor de paquetes llamado `conda` que facilita enormemente la instalación y gestión de las librerías y sus dependencias.

#### **Pasos para la instalación con CONDA (Resumen):**

1.  Descargar e instalar Miniconda desde su página oficial (recomiendo la última versión de Python 3.x).
2.  Abrir la terminal o el "Anaconda Prompt".
3.  Crear un entorno virtual para nuestro curso. Esto es una buena práctica para aislar las dependencias de diferentes proyectos:
    ```bash
    conda create --name analisis_datos_py python=3.10
    ```
4.  Activar el nuevo entorno:
    ```bash
    conda activate analisis_datos_py
    ```
5.  Instalar las librerías necesarias dentro de este entorno:
    ```bash
    conda install numpy pandas matplotlib jupyter
    ```
6.  Una vez instalado, para iniciar nuestro entorno de trabajo, simplemente navegamos en la terminal hasta la carpeta donde queramos guardar nuestros archivos y ejecutamos:
    ```bash
    jupyter notebook
    ```
    Esto abrirá una nueva pestaña en vuestro navegador web con el panel de Jupyter, desde donde podréis crear nuevos notebooks o abrir los existentes.

También es posible, y mucho más sencillo, usar el entorno gráfico proporcionado por las distribuciones. Desde dicho entorno gráfico podremos realizar la instalación de todos aquellos elementos y librerías que consideremos necesario para realizar nuestras tareas.

#### **Gestor de paquetes PIP**
Otro modo de hacerlo es, simplemente, instalando Python en nuestro equipo y, bien usando nuestro IDE habitual para desarrollo o bien desde la consola o terminal, realizar la instalación de las librerías necesarias usando `pip`.   
La sintaxis para los comandos más comunes de PIP es la siguiente:

`pip install <nombre_paquete>`: Instala un paquete desde el Python Package Index (PyPI).    

Ejemplo: `pip install requests`   

`pip install --upgrade <nombre_paquete>`: Actualiza un paquete a la última versión.    

Ejemplo: `pip install --upgrade requests`   

`pip install <nombre_paquete>==<version>`: Instala una versión específica de un paquete.    

Ejemplo: `pip install requests==2.28.1`  

`pip uninstall <nombre_paquete>`: Elimina un paquete del entorno.    

Ejemplo: `pip uninstall requests`   

`pip list`: Muestra una lista de todos los paquetes instalados en el entorno virtual actual.    

`pip freeze`: Similar a pip list, pero suele usarse para generar un archivo requirements.txt con los paquetes y sus versiones.    

`pip show <nombre_paquete>`: Muestra información detallada sobre un paquete específico. 

### Ejemplos Prácticos

Vamos a poner en práctica estos primeros conceptos directamente en nuestro Jupyter Notebook.

**Ejemplo 1: Importar librerías y comprobar versiones**

Es una buena práctica comprobar que tenemos todo correctamente instalado y ver con qué versiones de las librerías estamos trabajando.

In [None]:
# Importar las librerías con sus alias estándar
import numpy as np
import pandas as pd
import matplotlib as mpl

# Imprimir las versiones
print(f"Versión de NumPy: {np.__version__}")
print(f"Versión de Pandas: {pd.__version__}")
print(f"Versión de Matplotlib: {mpl.__version__}")

**Ejemplo 2: Creando nuestras primeras estructuras de datos**

Vamos a crear un `DataFrame` de Pandas, que es la estructura fundamental con la que trabajaremos. Un `DataFrame` es esencialmente una tabla bidimensional con etiquetas en las filas y columnas.

In [None]:
# Crear un diccionario de Python con los datos
datos = {
    'nombre': ['Ana', 'Luis', 'Marta', 'Juan'],
    'edad': [28, 34, 29, 42],
    'ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Valencia']
}

# Crear un DataFrame a partir del diccionario
df = pd.DataFrame(datos)

# Mostrar el DataFrame
print("Mi primer DataFrame:")
print(df)

**Ejemplo 3: Un vistazo rápido a los datos**

Pandas nos ofrece métodos sencillos para obtener una primera impresión de nuestros datos.

In [None]:
# El método .head() nos muestra las primeras filas (5 por defecto)
print("\nPrimeras filas del DataFrame:")
print(df.head(2))

# El método .info() nos da un resumen técnico del DataFrame
print("\nInformación del DataFrame:")
df.info()

### Propuesta de Ejercicios

Para asentar estos primeros conocimientos, os propongo los siguientes ejercicios para que los resolváis en vuestro propio Jupyter Notebook.

**Ejercicio 1: Tu Entorno de Trabajo**

1.  Sigue los pasos descritos para instalar Miniconda y crear un entorno virtual llamado `ce_python`.
2.  Dentro de este entorno, instala las librerías `numpy`, `pandas`, `matplotlib` y `jupyter`.
3.  Crea un nuevo Jupyter Notebook llamado `Unidad1_Ejercicios.ipynb`.
4.  En la primera celda, importa las librerías con sus alias convencionales y muestra sus versiones.

**Ejercicio 2: Creación de un DataFrame**

1.  Crea un `DataFrame` de Pandas a partir de un diccionario que contenga información sobre tus asignaturas de este curso. Debe tener al menos las siguientes columnas: `nombre_modulo`, `horas_semanales` y `profesor`.
2.  Muestra el `DataFrame` completo en una celda.
3.  Utiliza el método `.tail(2)` para mostrar las dos últimas filas de tu `DataFrame`.

**Ejercicio 3: Exploración inicial**

1.  Utiliza el método `.describe()` sobre el DataFrame del ejercicio anterior. Este método proporciona estadísticas descriptivas de las columnas numéricas. ¿Qué observas?
2.  Investiga y explica en una celda de texto (Markdown) en tu notebook para qué sirve el atributo `.shape` de un DataFrame. Aplícalo a tu DataFrame de asignaturas.