### **Introducción a Ambientes Virtuales en Python**  


---

### **¿Qué es un ambiente virtual?**  
Un ambiente virtual en Python es un entorno aislado que permite instalar paquetes y librerías específicas para un proyecto, sin afectar otras configuraciones o proyectos en tu sistema.  

- **Por qué usar ambientes virtuales:**  
  - Evitar conflictos entre librerías y versiones.  
  - Facilitar la gestión de dependencias en proyectos colaborativos.  
  - Mantener un entorno controlado para proyectos específicos.  

---

### **Herramientas para crear ambientes virtuales**  

**1. `venv` (incluido en Python):**  
Es la herramienta básica para crear ambientes virtuales, incluida en Python.  

**2. `conda`:**  
Un gestor más avanzado que permite manejar no solo paquetes de Python, sino también otros lenguajes y dependencias del sistema.  

**3. `pipenv`:**  
Enfocado en la gestión de dependencias, combinando funcionalidades de `pip` y `venv`.  

---

### **Creación y Uso de Ambientes Virtuales con `conda` y `pip`**  

#### **Con `pip` y `venv`:**  
1. Crear un ambiente virtual:  
   ```bash
   python -m venv mi_ambiente
   ```  

2. Activar el ambiente:  
   - En Windows(ejecutar en terminal command prompt):  
     ```bash
     mi_ambiente\Scripts\activate 
     ```  
   - En macOS/Linux:  
     ```bash
     source mi_ambiente/bin/activate
     ```  

3. Instalar paquetes dentro del ambiente:  
   ```bash
   pip install pandas numpy
   ```  

4. Desactivar el ambiente:  
   ```bash
   deactivate
   ```  

---

#### **Con `conda`:**  
1. Crear un ambiente virtual:  
   ```bash
   conda create --name mi_ambiente python=3.9
   ```  

2. Activar el ambiente:  
   ```bash
   conda activate mi_ambiente
   ```  

3. Instalar paquetes en el ambiente:  
   ```bash
   conda install pandas numpy
   ```  

4. Desactivar el ambiente:  
   ```bash
   conda deactivate
   ```  

---

### **Ventajas de cada herramienta**  

- **`venv`:** Ligero y básico, ideal para proyectos simples.  
- **`conda`:** Excelente para proyectos complejos que requieren múltiples dependencias, como librerías científicas.  

---

### **Ejercicio Corto (5 minutos):**  
1. Crear y activar un ambiente virtual con `conda` o `venv`.  
2. Instalar la librería `pandas` dentro del ambiente.  
3. Listar los paquetes instalados:  
   - Con `pip`:  
     ```bash
     pip list
     ```  
   - Con `conda`:  
     ```bash
     conda list
     ```  

Esto les permitirá experimentar con el aislamiento y gestión de paquetes en un ambiente controlado.

### **Clase: Limpieza y Preparación de Datos con Pandas**  

#### **Duración:**  
4 horas  

---

### **Objetivo:**  
Capacitar a los estudiantes en técnicas fundamentales de limpieza y preparación de datos, utilizando Pandas para identificar y manejar datos faltantes, realizar operaciones de filtrado y selección, y trabajar con agrupamientos y combinaciones de datos.

---

### **Estructura de la Clase**  

---

### **Primera Parte: Introducción a la Limpieza de Datos**  

**1. Importancia de la limpieza de datos:**  
   - Impacto en los resultados del análisis y modelos predictivos.  
   - Ejemplos de datos inconsistentes y su efecto en análisis reales.  

**2. Identificación de datos faltantes:**  
   - Uso de métodos básicos para detectar valores faltantes:  
     ```python
     print(df.isnull().sum())
     print(df.info())
     ```  

**3. Métodos para manejar valores faltantes:**  
   - Eliminar filas o columnas:  
     ```python
     df_cleaned = df.dropna()
     ```  
   - Rellenar con valores específicos o métodos:  
     ```python
     df['price'].fillna(df['price'].mean(), inplace=True)
     ```  

**Actividad práctica:**  
   - Cargar el dataset `us_electricity_data.csv` e identificar las columnas con datos faltantes.  
   - Rellenar valores faltantes en la columna `customers` con el promedio.  

---

### **Segunda Parte: Filtrado y Selección de Datos**  

**1. Filtrado de datos con condiciones:**  
   - Filtrar por una columna:  
     ```python
     df_filtered = df[df['sectorName'] == 'Residential']
     ```  
   - Uso de múltiples condiciones:  
     ```python
     df_filtered = df[(df['year'] > 2020) & (df['price'] < 15)]
     ```  

**2. Selección de columnas:**  
   - Seleccionar columnas específicas:  
     ```python
     df_subset = df[['stateDescription', 'price', 'sales']]
     ```  

**3. Reindexar y reorganizar datos:**  
   - Cambiar el índice de un DataFrame:  
     ```python
     df.set_index('stateDescription', inplace=True)
     ```  

**Actividad práctica:**  
   - Filtrar datos del sector residencial entre 2020 y 2024, y seleccionar solo las columnas `stateDescription`, `sales` y `revenue`.  

---

### **Tercera Parte: Agrupamiento, Fusiones y Joins**  

**1. Agrupamiento de datos:**  
   - Uso de `groupby` para calcular estadísticas agregadas:  
     ```python
     df_grouped = df.groupby('sectorName')['sales'].sum()
     print(df_grouped)
     ```  

**2. Operaciones de pivoteo:**  
   - Crear tablas pivote:  
     ```python
     pivot_table = df.pivot_table(values='sales', index='year', columns='sectorName', aggfunc='sum')
     print(pivot_table)
     ```  

**3. Fusiones y combinaciones:**  
   - Combinar DataFrames:  
     ```python
     merged_df = pd.merge(df1, df2, on='stateDescription', how='inner')
     ```  
   - Concatenación:  
     ```python
     concatenated = pd.concat([df1, df2], axis=0)
     ```  

**Actividad práctica:**  
   - Agrupar los datos por estado y calcular el consumo promedio (`sales`) por cliente (`customers`).  
   - Crear una tabla pivote con el consumo anual por sector (`sales`).  

---

### **Cuarta Parte: Taller de Práctica (1 hora 20 minutos)**  

**Ejercicio 1:**  
Identificar los valores faltantes en el dataset y aplicar estrategias de limpieza adecuadas para cada columna.  

**Ejercicio 2:**  
Filtrar datos de los estados con un precio promedio mayor a 20 centavos y calcular el ingreso total (`revenue`).  

**Ejercicio 3:**  
Agrupar los datos por año y sector, y calcular las ventas totales y el precio promedio para cada grupo.  

**Ejercicio 4:**  
Fusionar un nuevo DataFrame con información adicional sobre los estados (como región geográfica) y realizar análisis comparativos entre regiones.  

---

### **Cierre y Reflexión**  

**1. Discusión grupal:**  
   - ¿Qué estrategias de limpieza encontraron más útiles?  
   - ¿Cómo usarían estas técnicas en proyectos reales?  

**2. Introducción a la próxima clase:**  
   - Técnicas avanzadas de análisis y visualización con Pandas.  

---  

**Nota:** Esta clase les permitirá trabajar datos reales de forma eficiente y preparar un dataset limpio y listo para análisis.

In [1]:
a = 2+ 1