# Introducción a Pandas - Series y DataFrames
## Profesor: Kevin Sossa
## Estudiante: 

#### Objetivo
> Iniciar a los estudiantes en el uso de Pandas para la manipulación de datos, mostrando cómo los DataFrames pueden facilitar operaciones repetitivas y análisis complejos.

## ¿Qué es Pandas?
- Biblioteca para análisis de datos.
- Herramienta clave en Data Science para manipulación y limpieza.


### Conceptos Clave:

- Series: Estructura unidimensional (similar a un vector o lista).
- DataFrame: Tabla bidimensional con filas y columnas.

###  Instalación y Configuración
    
    ```bash
    pip install pandas
    ```
    
    ```python
    import pandas as pd
    ```


In [None]:
# importar pandas y numpy
import numpy as np
import pandas as pd


In [None]:
# una serie
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)

In [None]:
# un DataFrame con listas
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(df)


In [None]:
# un dataframe, lista de consumos, nombres de clientes y fechas
df = pd.DataFrame({
    'Cliente': ['A', 'B', 'C', 'D'],
    'Consumo': [100, 200, 300, 400],
    'Fecha': pd.date_range('20200101', periods=4)
})

In [None]:
data = [10, 20, 30, 40]
series = pd.Series(data, name="Energía (kWh)")
print(series)


In [None]:
data = {'Estado': ['Texas', 'California'], 'Consumo (kWh)': [500, 700]}
df = pd.DataFrame(data)
print(df)


### Actividad Práctica Inicial:

Crear una Series y un DataFrame simple con datos ficticios de electricidad:
- Consumos mensuales.
- Tarifas por kWh.


## Cargar y Explorar el Dataset

In [None]:
# Cargar dataset en un DataFrame
datos = pd.read_csv('datos\clean_data.csv')

In [None]:
# Explorar el DataFrame:
# Ver primeras filas
print(datos.head())

In [None]:
#Información del dataset:
print(datos.info())


Los estudiantes cargan el dataset y realizan las siguientes tareas:
- Contar las filas y columnas.
- Identificar el tipo de datos en cada columna.
- Verificar si hay valores nulos.


## Aplicación de Ciclos para Operaciones Básicas

- Calcular ingresos promedio por sector utilizando for
- Crear un ciclo para encontrar el promedio del precio por estado (stateDescription).   

In [None]:
sectores = df['sectorName'].unique()


In [None]:
# Ejemplo: Calcular el total de ventas por sector.
sectores = df['sectorName'].unique()
for sector in sectores:
    ventas = df[df['sectorName'] == sector]['sales'].sum()
    print(f"Sector: {sector}, Ventas Totales: {ventas}")



In [None]:
#Promedio de ventas por estado:

estados = df['stateDescription'].unique()
for estado in estados:
    promedio = df[df['stateDescription'] == estado]['sales'].mean()
    print(f"Estado: {estado}, Promedio de Ventas: {promedio} millones de kWh")


## Métodos de DataFrame para Simplificar

- totales sin ciclos:


In [None]:
ventas_por_sector = df.groupby('sectorName')['sales'].sum()
print(ventas_por_sector)


GroupBy y Agregaciones:

Simplificar operaciones usando métodos:

In [None]:
ventas_por_sector = df.groupby('sectorName')['sales'].sum()
print(ventas_por_sector)


Filtrar y ordenar:

Filtros simples y compuestos:

In [None]:
df_filtrado = df[(df['sales'] > 50) & (df['stateDescription'] == 'California')]
print(df_filtrado)


In [None]:
# Ordenar por columna:
df_ordenado = df.sort_values(by='revenue', ascending=False)
print(df_ordenado.head())



Los estudiantes cargarán el archivo y explorarán:
- Total de filas y columnas.
- Tipos de datos.
- Valores faltantes.

In [None]:
avg_revenue_per_sector = df.groupby('sectorName')['revenue'].mean()
print(avg_revenue_per_sector)


In [None]:
#Filtro por sector:

residential_data = df[df['sectorName'] == 'residential']
print(residential_data.head())


In [None]:
#Usar métodos para encontrar el total de ventas (sales) por estado y año.


# Ejercicio Final: Exploración de Datos (20 minutos)
Problema: Los estudiantes deben responder estas preguntas usando Pandas:

- ¿Cuál es el sector con el precio promedio más alto en 2023?
- ¿Cuál fue el total de ingresos en 2024 para el sector industrial?
- ¿Cuál es el estado con la mayor cantidad de clientes en 2024?
- Sugerencia: Usar combinaciones de filtros, groupby, y métodos como mean() o sum().

## Cuarta Parte: Taller de Práctica 
- Ejercicio 1: Análisis de Tarifas por Estado y Sector
Filtrar los datos para encontrar el estado con la tarifa promedio más alta en el sector residencial.

- Ejercicio 2: Clasificación de Ventas
Recorrer la columna sales y clasificar las ventas como "Bajas", "Medias" o "Altas" según estos criterios:

    - Baja: < 50 millones de kWh.
    - Media: 50-100 millones de kWh.
    - Alta: > 100 millones de kWh.
Crear una nueva columna con la clasificación.
- Ejercicio 3: Consumo y Clientes
Calcular el consumo promedio por cliente en cada sector y mostrar los resultados.

- Ejercicio 4: Tendencias Temporales
Usar los datos de los años 2023 y 2024 para calcular el crecimiento porcentual del ingreso en cada estado.

Ejercicio 1: Resumen por Sector
Calcular las ventas, ingresos totales y el precio promedio por sector usando métodos.

Ejercicio 2: Top Estados con Mayor Ingreso
Filtrar los 5 estados con mayores ingresos en 2024.

Ejercicio 3: Tendencias Temporales
Calcular el crecimiento porcentual de ventas entre 2020 y 2024 para cada estado.

Ejercicio 4: Consumo por Cliente
Crear una nueva columna que calcule el consumo promedio por cliente para observaciones donde esta información esté disponible.

