# Introducción a Pandas - Series y DataFrames
## Profesor: Kevin Sossa
## Estudiante: 

#### Objetivo
> Iniciar a los estudiantes en el uso de Pandas para la manipulación de datos, mostrando cómo los DataFrames pueden facilitar operaciones repetitivas y análisis complejos.

## ¿Qué es Pandas?
- Biblioteca para análisis de datos.
- Herramienta clave en Data Science para manipulación y limpieza.


### Conceptos Clave:

- Series: Estructura unidimensional (similar a un vector o lista).
- DataFrame: Tabla bidimensional con filas y columnas.

###  Instalación y Configuración
    
    ```bash
    pip install pandas
    ```
    
    ```python
    import pandas as pd
    ```


pip no se reconoce como un comando interno o externo, programa o archivo por lotes ejecutable

In [17]:
!py -m ensurepip --upgrade

Looking in links: c:\Users\HP\AppData\Local\Temp\tmp2a23ch10
Requirement already up-to-date: setuptools in c:\users\hp\desktop\analisis con python\mi_ambiente\lib\site-packages (49.2.1)
Requirement already up-to-date: pip in c:\users\hp\desktop\analisis con python\mi_ambiente\lib\site-packages (20.2.3)


In [18]:
!pip install pandas



You should consider upgrading via the 'c:\users\hp\desktop\analisis con python\mi_ambiente\scripts\python.exe -m pip install --upgrade pip' command.


In [19]:
# importar pandas y numpy
import numpy as np
import pandas  as pd


In [20]:
# una serie
s = pd.Series([1, 3, 5, 6, 8])
print(s)

0    1
1    3
2    5
3    6
4    8
dtype: int64


In [21]:
np.random.randn(5)

array([-0.32555257,  0.46379656,  0.41419043,  1.05913571, -0.80748785])

In [22]:
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
s

a    1.229927
b   -0.243482
c    0.134118
d    0.830292
e   -0.043618
dtype: float64

In [23]:
#indice
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [74]:
s["a"]

np.float64(1.229927398772002)

In [24]:
# editar un valor 
s["c"] = 12

In [25]:
s

a     1.229927
b    -0.243482
c    12.000000
d     0.830292
e    -0.043618
dtype: float64

In [26]:
# iterar sobre los indices de una serie
for i in s.index:
    print(i)

a
b
c
d
e


In [27]:
[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [28]:
# un DataFrame con listas
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(df)


   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9


In [29]:
diccionario_1 = {
    "nombre": ["Juan", "Ana", "Pedro"],
    "edad": [23, 34, 45],
    "ciudad": ["Bogotá", "Medellín", "Cali"]
}
diccionario_1

{'nombre': ['Juan', 'Ana', 'Pedro'],
 'edad': [23, 34, 45],
 'ciudad': ['Bogotá', 'Medellín', 'Cali']}

In [30]:
# cada una de las listas se convierte en una columna, deben tener la misma longitud
pd.DataFrame(diccionario_1)

Unnamed: 0,nombre,edad,ciudad
0,Juan,23,Bogotá
1,Ana,34,Medellín
2,Pedro,45,Cali


In [31]:
# diccionario con Series
diccionario_2 = {
    "nombre": pd.Series(["Juan", "Ana", "Pedro", "Sofía"]),
    "edad": pd.Series([23, 34, 45]),
    "ciudad": pd.Series(["Bogotá", "Medellín", "Cali"])
}
diccionario_2

{'nombre': 0     Juan
 1      Ana
 2    Pedro
 3    Sofía
 dtype: object,
 'edad': 0    23
 1    34
 2    45
 dtype: int64,
 'ciudad': 0      Bogotá
 1    Medellín
 2        Cali
 dtype: object}

In [32]:
pd.DataFrame(diccionario_2)

Unnamed: 0,nombre,edad,ciudad
0,Juan,23.0,Bogotá
1,Ana,34.0,Medellín
2,Pedro,45.0,Cali
3,Sofía,,


In [33]:
# diccionario con Series y listas
diccionario_3 = {"ciudad": ["Bogotá", "Medellín", "Cali"],
    "nombre": pd.Series(["Juan", "Ana", "Pedro"]),
    "edad": pd.Series([23, 34, 45]),
    
}
diccionario_3


{'ciudad': ['Bogotá', 'Medellín', 'Cali'],
 'nombre': 0     Juan
 1      Ana
 2    Pedro
 dtype: object,
 'edad': 0    23
 1    34
 2    45
 dtype: int64}

In [34]:
# la lista debe tener la misma cantidad de elementos que la serie
pd.DataFrame(diccionario_3)

Unnamed: 0,ciudad,nombre,edad
0,Bogotá,Juan,23
1,Medellín,Ana,34
2,Cali,Pedro,45


In [35]:
#diccionario
diccionario = {"clave":"valor"}
d = {
    "uno": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "dos": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
    "nombre": pd.Series(["Juan", "Pedro", "Luis"]),
}
d

{'uno': a    1.0
 b    2.0
 c    3.0
 dtype: float64,
 'dos': a    1.0
 b    2.0
 c    3.0
 d    4.0
 dtype: float64,
 'nombre': 0     Juan
 1    Pedro
 2     Luis
 dtype: object}

In [36]:
# es recomendable que los valores de las series tengan los mismos indices
df_2 = pd.DataFrame(d)
df_2

Unnamed: 0,uno,dos,nombre
a,1.0,1.0,
b,2.0,2.0,
c,3.0,3.0,
d,,4.0,
0,,,Juan
1,,,Pedro
2,,,Luis


In [37]:
# edit a single cell value in a DataFrame
df.iloc[0, 1] = 10
print(df)

   0   1  2
0  1  10  3
1  4   5  6
2  7   8  9


In [38]:
# un dataframe, lista de consumos, nombres de clientes y fechas
df = pd.DataFrame({
    'Cliente': ['A', 'B', 'C', 'D'],
    'Consumo': [100, 200, 300, 400],
    'Fecha': pd.date_range('20200101', periods=4)
})
df

Unnamed: 0,Cliente,Consumo,Fecha
0,A,100,2020-01-01
1,B,200,2020-01-02
2,C,300,2020-01-03
3,D,400,2020-01-04


In [39]:
data = [10, 20, 30, 40]
series = pd.Series(data, name="Energía (kWh)")
print(series)


0    10
1    20
2    30
3    40
Name: Energía (kWh), dtype: int64


In [40]:
data = {'Estado': ['Texas', 'California'], 'Consumo (kWh)': [500, 700]}
df = pd.DataFrame(data)
print(df)


       Estado  Consumo (kWh)
0       Texas            500
1  California            700


### Actividad Práctica Inicial:

Crear una Series y un DataFrame simple con datos ficticios de electricidad:
- Consumos mensuales.
- Tarifas por kWh.


## Cargar y Explorar el Dataset

In [41]:
# Definir las posiciones de inicio y fin de cada campo
colspecs = [(0, 14), (20, 34)]

# Definir los nombres de las columnas
names = ['N1', 'N2']

# Leer el archivo
df = pd.read_fwf("datos\ejemplo.txt", colspecs=colspecs, names=names, encoding='latin-1')
df


Unnamed: 0,N1,N2
0,1O.C. TURBACO,CL REAL -34


In [42]:
# Cargar dataset en un DataFrame
ruta = r'C:\Users\HP\Desktop\Analisis con Python\datos\clean_data.csv'
datos = pd.read_csv(ruta )

In [43]:
datos_1 = pd.read_csv(ruta)

In [44]:
# Explorar el DataFrame:
# Ver primeras filas
datos.head(15
           )

Unnamed: 0,year,mes,estado,sectorName,clientes,precio,ingresos,ventas
0,2001,1,Wyoming,all sectors,,4.31,48.1284,1116.17208
1,2001,1,Wyoming,commercial,,5.13,12.67978,247.08691
2,2001,1,Wyoming,industrial,,3.26,19.60858,602.30484
3,2001,1,Wyoming,other,,4.75,0.76868,16.17442
4,2001,1,Wyoming,residential,,6.01,15.07136,250.60591
5,2001,1,New England,all sectors,,10.73,1139.8952,10622.88375
6,2001,1,South Carolina,other,,6.57,5.28332,80.41336
7,2001,1,South Carolina,residential,,7.36,225.81673,3066.25911
8,2001,1,South Dakota,all sectors,,5.85,46.98518,803.24177
9,2001,1,South Dakota,commercial,,5.95,15.92044,267.66283


In [45]:
datos.tail(5)

Unnamed: 0,year,mes,estado,sectorName,clientes,precio,ingresos,ventas
85865,2024,1,Arkansas,all sectors,1717720.0,9.63,442.98773,4598.63147
85866,2024,1,Arkansas,commercial,208669.0,10.26,97.79467,953.02154
85867,2024,1,Arkansas,industrial,34951.0,7.08,109.92656,1553.02838
85868,2024,1,Arkansas,residential,1474098.0,11.24,235.26399,2092.56172
85869,2024,1,Arkansas,transportation,2.0,12.7,0.00252,0.01984


In [46]:
#Información del dataset:
datos.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85870 entries, 0 to 85869
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   year        85870 non-null  int64  
 1   mes         85870 non-null  int64  
 2   estado      85870 non-null  object 
 3   sectorName  85870 non-null  object 
 4   clientes    59830 non-null  float64
 5   precio      85870 non-null  float64
 6   ingresos    85870 non-null  float64
 7   ventas      85870 non-null  float64
dtypes: float64(4), int64(2), object(2)
memory usage: 5.2+ MB


In [47]:
ruta = r'C:\Users\HP\Desktop\Analisis con Python\datos\clean_data.xlsx'
datos_excel = pd.read_excel(ruta)
datos_excel.head(5)

Unnamed: 0,year,mes,estado,sectorName,clientes,precio,ingresos,ventas
0,2001,1,Wyoming,all sectors,,4.31,481284.0,111617208.0
1,2001,1,Wyoming,commercial,,5.13,1267978.0,24708691.0
2,2001,1,Wyoming,industrial,,3.26,1960858.0,60230484.0
3,2001,1,Wyoming,other,,4.75,0.76868,1617442.0
4,2001,1,Wyoming,residential,,6.01,1507136.0,25060591.0


In [48]:
datos_excel.shape 


(85870, 8)

In [49]:
datos_excel.shape
print("El número de filas es : ", datos_excel.shape[0])
print("El número de columnas es : ", datos_excel.shape[1])

El número de filas es :  85870
El número de columnas es :  8


In [50]:
datos_excel.columns

Index(['year', 'mes', 'estado', 'sectorName', 'clientes', 'precio', 'ingresos',
       'ventas'],
      dtype='object')

In [51]:
datos_excel.columns[0]

'year'

In [52]:
datos_excel.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85870 entries, 0 to 85869
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   year        85870 non-null  int64  
 1   mes         85870 non-null  int64  
 2   estado      85870 non-null  object 
 3   sectorName  85870 non-null  object 
 4   clientes    59830 non-null  float64
 5   precio      85870 non-null  float64
 6   ingresos    85870 non-null  float64
 7   ventas      85870 non-null  float64
dtypes: float64(4), int64(2), object(2)
memory usage: 5.2+ MB


In [53]:
datos_excel.isnull().sum() # Cantidad de valores nulos por columna

year              0
mes               0
estado            0
sectorName        0
clientes      26040
precio            0
ingresos          0
ventas            0
dtype: int64

Los estudiantes cargan el dataset y realizan las siguientes tareas:
- Contar las filas y columnas.
- Identificar el tipo de datos en cada columna.
- Verificar si hay valores nulos.


## Aplicación de Ciclos para Operaciones Básicas

- Calcular ingresos promedio por sector utilizando for
- Crear un ciclo para encontrar el promedio del precio por estado (stateDescription).   

In [54]:
# acceder a una sola columna del DataFrame
datos_excel["mes"].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [55]:
sectores = datos_excel['sectorName'].unique()
sectores

array(['all sectors', 'commercial', 'industrial', 'other', 'residential',
       'transportation'], dtype=object)

In [56]:
datos_excel['sectorName'] == 1  

0        False
1        False
2        False
3        False
4        False
         ...  
85865    False
85866    False
85867    False
85868    False
85869    False
Name: sectorName, Length: 85870, dtype: bool

In [57]:
# filtrar el DataFrame por un sector
filtro_sector = datos_excel['sectorName'] == 'Agriculture'  
filtro_estado = datos_excel['estado'] == 'Texas' 
filtro_anual = datos_excel['year'] == 2001

datos_excel[filtro_sector & filtro_estado & filtro_anual]

Unnamed: 0,year,mes,estado,sectorName,clientes,precio,ingresos,ventas


In [58]:
filtro_sector = datos_excel["sectorName"] == "commercial"
datos_excel[filtro_sector]["ventas"].sum()

np.float64(8239068391780.22)

In [63]:
# Ejemplo: Calcular el total de ventas por sector.
sectores = datos_excel['sectorName'].unique()

for sector in sectores:

    ventas = datos_excel[datos_excel['sectorName'] == sector]['ventas'].sum()

    print(f"Sector: {sector}, Ventas Totales: ${ventas:,}")



Sector: all sectors, Ventas Totales: $23,610,616,532,637.703
Sector: commercial, Ventas Totales: $8,239,068,391,780.22
Sector: industrial, Ventas Totales: $6,268,849,353,033.55
Sector: other, Ventas Totales: $60,289,556,332.35
Sector: residential, Ventas Totales: $8,715,013,158,609.261
Sector: transportation, Ventas Totales: $41,790,194,244.26722


In [72]:
lista = [1, 2, 3, 4, 5]
lista[0]

1

In [65]:
datos_excel[datos_excel['estado'] == 'Wyoming']['ventas']

0        111617208.0
1         24708691.0
2         60230484.0
3          1617442.0
4         25060591.0
            ...     
85746    163247508.0
85747     34530161.0
85748      9151941.0
85749     37197937.0
85750            0.0
Name: ventas, Length: 1385, dtype: float64

In [71]:
for fila in datos_excel.index:
    print(datos_excel.loc[fila, 'estado'], datos_excel.loc[fila, 'ventas'])
    

Wyoming 111617208.0
Wyoming 24708691.0
Wyoming 60230484.0
Wyoming 1617442.0
Wyoming 25060591.0
New England 1062288375.0
South Carolina 8041336.0
South Carolina 306625911.0
South Dakota 80324177.0
South Dakota 26766283.0
South Dakota 11968236.0
South Dakota 3974549.0
South Dakota 37615108.0
Tennessee 964854559.0
Tennessee 199033357.0
Tennessee 293715583.0
Tennessee 9180923.0
Tennessee 462924696.0
Texas 2758376887.0
Texas 702681769.0
Texas 796900543.0
Texas 114937586.0
Texas 114385699.0
Utah 203995489.0
Utah 66416908.0
Utah 72316958.0
Utah 6859977.0
Utah 58401646.0
Vermont 52178491.0
Vermont 16865645.0
Vermont 14085795.0
Vermont 366406.0
Vermont 20860644.0
Virginia 957583865.0
Virginia 254230495.0
Virginia 162286999.0
Virginia 89663378.0
Virginia 451402993.0
Washington 920463376.0
Washington 221559752.0
Washington 268858893.0
Washington 33231713.0
Washington 396813018.0
West Virginia 297323837.0
West Virginia 65358717.0
West Virginia 100801762.0
West Virginia 725289.0
West Virginia 13043

In [None]:
#Promedio de ventas por estado:

estados = datos_excel['estado'].unique() # la lista de estados


for estado in estados:
    filtro = datos_excel['estado'] == estado
    datos_filtrado = datos_excel[filtro]
    lista_ventas = datos_filtrado['ventas']
    promedio = lista_ventas.mean()
    promedio = datos_excel[datos_excel['estado'] == estado]['ventas'].mean()
    print(f"Estado: {estado}, Promedio de Ventas: {promedio} millones de kWh")


In [85]:
ventas_por_sector = datos_excel.groupby('sectorName')['ventas'].sum()
ventas = pd.DataFrame(ventas_por_sector)
ventas

Unnamed: 0_level_0,ventas
sectorName,Unnamed: 1_level_1
all sectors,23610620000000.0
commercial,8239068000000.0
industrial,6268849000000.0
other,60289560000.0
residential,8715013000000.0
transportation,41790190000.0


In [84]:
# Acceder a una fila df.iloc[indice_numerico]
ventas.iloc[0]

ventas    2.361062e+13
Name: all sectors, dtype: float64

In [81]:
# acceder a una fila por su índice
ventas.loc["all sectors"]

ventas    2.361062e+13
Name: all sectors, dtype: float64

In [None]:
for indice in ventas.index:
    print(indice, ventas.loc[indice, 'ventas'])

## Métodos de DataFrame para Simplificar

- totales sin ciclos:


In [101]:
# data_frame.gropuby('columna')['columna_numerica'].metodo()
ventas_por_sector = datos_excel.groupby('sectorName')['ventas'].sum()
print(ventas_por_sector)
# transformar serie en dataframe(tabla)
ventas = pd.DataFrame(ventas_por_sector)
ventas["ventas_2"] = ventas["ventas"].apply(lambda x: f"${x:,.2f}") # formatear a string
ventas[['ventas_2']]

sectorName
all sectors       2.361062e+13
commercial        8.239068e+12
industrial        6.268849e+12
other             6.028956e+10
residential       8.715013e+12
transportation    4.179019e+10
Name: ventas, dtype: float64


Unnamed: 0_level_0,ventas_2
sectorName,Unnamed: 1_level_1
all sectors,"$23,610,616,532,637.70"
commercial,"$8,239,068,391,780.22"
industrial,"$6,268,849,353,033.55"
other,"$60,289,556,332.35"
residential,"$8,715,013,158,609.26"
transportation,"$41,790,194,244.27"


In [None]:
ventas.to_clipboard() # copiar al portapapeles

In [107]:
ventas.to_csv("resultados/ventas_por_sector.csv") # guardar en un archivo csv

In [108]:
ventas.to_excel("resultados/ventas_por_sector.xlsx") # guardar en un archivo excel

In [109]:
ventas.to_html("resultados/ventas_por_sector.html") # guardar en un archivo html

In [None]:
import os
os.getcwd() # obtiene del directorio de trabajo actual 

'c:\\Users\\HP\\Desktop\\Analisis con Python'

In [112]:
os.mkdir("resultados_1") # crear un directorio

GroupBy y Agregaciones:

Simplificar operaciones usando métodos:

In [None]:
ventas_por_sector = df.groupby('sectorName')['sales'].sum()
print(ventas_por_sector)


Filtrar y ordenar:

Filtros simples y compuestos:

In [None]:
df_filtrado = df[(df['sales'] > 50) & (df['stateDescription'] == 'California')]
print(df_filtrado)


In [114]:
# Ordenar por columna ingresos:
df_ordenado = datos_excel.sort_values(by='ingresos', ascending=False)
df_ordenado.head()



Unnamed: 0,year,mes,estado,sectorName,clientes,precio,ingresos,ventas
80361,2022,8,U.S. Total,all sectors,160950031.0,13.44,5236145000.0,3896263000.0
84194,2023,8,U.S. Total,all sectors,162239464.0,13.3,5213202000.0,39190000000.0
83707,2023,7,U.S. Total,all sectors,161130838.0,13.1,5061758000.0,38643180000.0
84390,2023,9,U.S. Total,all sectors,161461888.0,13.19,4564020000.0,34612850000.0
79933,2022,6,U.S. Total,all sectors,160432545.0,12.75,4427198000.0,34710630000.0


Los estudiantes cargarán el archivo y explorarán:
- Total de filas y columnas.
- Tipos de datos.
- Valores faltantes.

In [None]:
avg_revenue_per_sector = df.groupby('sectorName')['revenue'].mean()
print(avg_revenue_per_sector)


In [None]:
#Filtro por sector:

residential_data = df[df['sectorName'] == 'residential']
print(residential_data.head())


In [None]:
#Usar métodos para encontrar el total de ventas (sales) por estado y año.


# Ejercicio Final: Exploración de Datos (20 minutos)
Problema: Los estudiantes deben responder estas preguntas usando Pandas:

- ¿Cuál es el sector con el precio promedio más alto en 2023?
- ¿Cuál fue el total de ingresos en 2024 para el sector industrial?
- ¿Cuál es el estado con la mayor cantidad de clientes en 2024?
- Sugerencia: Usar combinaciones de filtros, groupby, y métodos como mean() o sum().

## Cuarta Parte: Taller de Práctica 
- Ejercicio 1: Análisis de Tarifas por Estado y Sector
Filtrar los datos para encontrar el estado con la tarifa promedio más alta en el sector residencial.

- Ejercicio 2: Clasificación de Ventas
Recorrer la columna sales y clasificar las ventas como "Bajas", "Medias" o "Altas" según estos criterios:

    - Baja: < 50 millones de kWh.
    - Media: 50-100 millones de kWh.
    - Alta: > 100 millones de kWh.
Crear una nueva columna con la clasificación.
- Ejercicio 3: Consumo y Clientes
Calcular el consumo promedio por cliente en cada sector y mostrar los resultados.

- Ejercicio 4: Tendencias Temporales
Usar los datos de los años 2023 y 2024 para calcular el crecimiento porcentual del ingreso en cada estado.

Ejercicio 1: Resumen por Sector
Calcular las ventas, ingresos totales y el precio promedio por sector usando métodos.

Ejercicio 2: Top Estados con Mayor Ingreso
Filtrar los 5 estados con mayores ingresos en 2024.

Ejercicio 3: Tendencias Temporales
Calcular el crecimiento porcentual de ventas entre 2020 y 2024 para cada estado.

Ejercicio 4: Consumo por Cliente
Crear una nueva columna que calcule el consumo promedio por cliente para observaciones donde esta información esté disponible.



### **Clase 5: Introducción a Pandas - Series y DataFrames**  

#### **Duración:**  
4 horas  

---

### **Objetivo:**  
Iniciar a los estudiantes en el uso de Pandas para la manipulación de datos, aprendiendo a crear, importar, manipular y exportar datos usando Series y DataFrames.

---

### **Estructura de la Clase**  

---

### **Primera Parte: Introducción a Pandas (40 minutos)**  

**1. ¿Qué es Pandas?**  
   - Librería de Python para la manipulación y análisis de datos.  
   - Ideal para trabajar con datos tabulares (estructurados).  

**2. Configuración del entorno:**  
   - Instalar Pandas:  
     ```bash
     !pip install pandas
     ```  
   - Importar Pandas:  
     ```python
     import pandas as pd
     ```  

**3. Creación de objetos básicos:**  
   - **Series**:  
     ```python
     datos = [10, 20, 30, 40]
     serie = pd.Series(datos, name="Ejemplo de Serie")
     print(serie)
     ```  
   - **DataFrames**:  
     ```python
     datos = {
         "Nombre": ["Ana", "Luis", "María"],
         "Edad": [23, 45, 34],
         "Ciudad": ["Bogotá", "Cali", "Medellín"]
     }
     df = pd.DataFrame(datos)
     print(df)
     ```  

**Actividad práctica inicial:**  
   - Crear una Serie con los precios de electricidad y un DataFrame con las ventas por estado.  

---

### **Segunda Parte: Importación y Exportación de Datos (40 minutos)**  

**1. Importación de datos:**  
   - Cargar datos desde un archivo CSV:  
     ```python
     df = pd.read_csv("us_electricity_data.csv")
     print(df.head())
     ```  
   - Inspección inicial:  
     ```python
     print(df.info())
     print(df.describe())
     ```  

**2. Exportación de datos:**  
   - Guardar un DataFrame en un archivo CSV:  
     ```python
     df.to_csv("salida.csv", index=False)
     ```  

**Actividad práctica:**  
   - Importar el archivo `us_electricity_data.csv` y guardar una versión filtrada solo con datos del sector residencial (`sectorName == 'Residential'`).  

---

### **Tercera Parte: Acceso y Manipulación de Datos (1 hora)**  

**1. Selección de datos:**  
   - Acceso a columnas:  
     ```python
     print(df['stateDescription'])
     ```  
   - Selección por filas:  
     ```python
     print(df.loc[0])  # Primera fila
     ```  
   - Filtros básicos:  
     ```python
     df_residencial = df[df['sectorName'] == 'Residential']
     print(df_residencial.head())
     ```  

**2. Operaciones comunes:**  
   - Creación de columnas:  
     ```python
     df['ingreso_por_kwh'] = df['revenue'] / df['sales']
     print(df.head())
     ```  
   - Ordenamiento:  
     ```python
     df_sorted = df.sort_values(by='price', ascending=False)
     print(df_sorted.head())
     ```  

**Actividad práctica:**  
   - Filtrar datos por estado, crear una nueva columna con el consumo promedio por cliente (`sales/customers`), y ordenar por el promedio más alto.  

---

### **Cuarta Parte: Taller de Práctica (1 hora)**  

**Ejercicio 1:**  
Crear un DataFrame que contenga los datos de consumo (`sales`), ingresos (`revenue`) y precios (`price`) para los cinco estados con más ventas.  

**Ejercicio 2:**  
Calcular el ingreso promedio (`revenue`) por sector y exportar el resultado a un archivo CSV.  

**Ejercicio 3:**  
Filtrar datos de los años 2020 a 2024, calcular el promedio de consumo por año, y crear un DataFrame con los resultados.  

**Ejercicio 4:**  
Añadir una columna que clasifique los precios (`price`) en "Alto", "Medio" y "Bajo", según el percentil en el que se encuentren.  

---

### **Cierre y Reflexión (20 minutos)**  

**1. Repaso:**  
   - ¿Qué aprendieron sobre Series y DataFrames?  
   - ¿Cómo Pandas facilita la manipulación de datos comparado con otros métodos?  

**2. Preparación para la próxima clase:**  
   - Introducción a operaciones avanzadas con Pandas: agrupaciones, pivotes y manejo de datos faltantes.  





### **Código para crear un archivo Excel con múltiples hojas**
```python
import pandas as pd

# Crear algunos DataFrames de ejemplo
df1 = pd.DataFrame({
    'Producto': ['A', 'B', 'C'],
    'Ventas': [100, 150, 200]
})

df2 = pd.DataFrame({
    'Mes': ['Enero', 'Febrero', 'Marzo'],
    'Ganancias': [1000, 1200, 1100]
})

df3 = pd.DataFrame({
    'Empleado': ['Juan', 'Ana', 'Luis'],
    'Horas Trabajadas': [40, 35, 50]
})

# Nombre del archivo Excel
archivo_excel = 'datos_multiples_hojas.xlsx'

# Guardar los DataFrames en un archivo Excel con múltiples hojas
with pd.ExcelWriter(archivo_excel, engine='openpyxl') as writer:
    df1.to_excel(writer, sheet_name='Ventas', index=False)
    df2.to_excel(writer, sheet_name='Ganancias', index=False)
    df3.to_excel(writer, sheet_name='HorasTrabajadas', index=False)

print(f'Archivo "{archivo_excel}" creado con éxito.')
```

### **Explicación del código**:
1. **Creación de DataFrames**: 
   - `df1`, `df2`, y `df3` representan datos diferentes que queremos guardar en el archivo Excel.
2. **Uso de `ExcelWriter`**:
   - `ExcelWriter` permite escribir múltiples DataFrames en diferentes hojas del mismo archivo Excel.
   - El argumento `sheet_name` define el nombre de cada hoja.
3. **Exportación**:
   - Cada DataFrame se guarda en una hoja separada usando `to_excel`.

### **Resultado**:
Al ejecutar este código, se genera un archivo llamado `datos_multiples_hojas.xlsx` con tres hojas:
- **Ventas**
- **Ganancias**
- **HorasTrabajadas**

### **Requisitos previos**:
Asegúrate de tener instalada la biblioteca `openpyxl` para escribir en formato Excel. Si no la tienes, instálala con:
```bash
pip install openpyxl
```