# Clase: Introducción a Estadística Descriptiva y Visualización de Datos con Plotly y Pandas
## Profesor: Kevin Sossa
## Estudiante: 

> **Objetivo** : Proveer a los estudiantes herramientas para calcular estadísticas descriptivas y crear visualizaciones interactivas con Plotly y Pandas.

# Estadística descriptiva:
- Medidas de tendencia central (media, mediana, moda)
- y dispersión (varianza, desviación estándar).

In [1]:
import pandas as pd
import numpy as np

# Cargar datos
ruta = r'C:\Users\HP\Desktop\Analisis con Python\datos\clean_data_excel.csv'
df = pd.read_csv(ruta)
# Ver los primeros registros
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85870 entries, 0 to 85869
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   year        85870 non-null  int64  
 1   mes         85870 non-null  int64  
 2   estado      85870 non-null  object 
 3   sectorName  85870 non-null  object 
 4   clientes    59830 non-null  float64
 5   precio      85870 non-null  float64
 6   ingresos    85870 non-null  float64
 7   ventas      85870 non-null  float64
dtypes: float64(4), int64(2), object(2)
memory usage: 5.2+ MB


-Calcular estadísticas básicas:



- Medidas de Tenencia Central:
    - Media
    - Mediana
    - Moda
- Medidas de Dispersión:
    - Varianza
    - Desviación Estándar
    - Rango
    - Rango Intercuartílico
    - Coeficiente de Variación
- Medidas de ¨Posición:
    - Cuartiles
    - Deciles
    - Percentiles
- Medidas de Forma:
    - Asimetría
    - Curtosis

In [2]:
# calcular la media de una variable
media = df['ventas'].mean()
mediana = df['ventas'].median()
moda = df['ventas'].mode()[0]

# Calcular la varianza
varianza = df['ventas'].var()
desv_est = df['ventas'].std()

In [3]:
print("Media de ventas:", df['ventas'].mean())
print("Mediana de ingresos:", df['ingresos'].median())
print("Desviación estándar de precios:", df['precio'].std())


Media de ventas: 5980.048970081286
Mediana de ingresos: 121.64150000000001
Desviación estándar de precios: 5.010381570306953


In [4]:
# vamos a ver el resumen estdistico
df.describe()

Unnamed: 0,year,mes,clientes,precio,ingresos,ventas
count,85870.0,85870.0,59830.0,85870.0,85870.0,85870.0
mean,2012.043321,6.480144,2916013.0,9.300193,586.627155,5980.04897
std,6.660304,3.461589,12005670.0,5.010382,2161.047702,21302.453181
min,2001.0,1.0,0.0,0.0,-1e-05,0.0
25%,2006.0,3.0,4998.0,6.65,29.475195,289.144572
50%,2012.0,6.0,299754.0,8.84,121.6415,1447.518085
75%,2018.0,9.0,2028716.0,11.38,421.320628,4339.950965
max,2024.0,12.0,162505000.0,116.67,52361.45097,391900.00897


### Actividad práctica inicial:
- En equipos, calcular las estadísticas descriptivas de las columnas sales y price por estado (stateDescription).
- Identificar estados con mayor y menor promedio de consumo (sales).

## Fundamentos de Plotly
¿Qué es Plotly?
- Librería de visualización interactiva en Python.
- Ideal para gráficos como líneas, barras, dispersión y mapas.

In [5]:
# Instalación y configuración básica:
#!pip install plotly
import plotly.express as px


In [6]:
%pip install nbformat==5.10.4

Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'c:\Users\HP\Desktop\Analisis con Python\mi_ambiente\Scripts\python.exe -m pip install --upgrade pip' command.


In [7]:
px.scatter(df,x="ventas",y = "precio", title = "Ventas vs Precio")

In [8]:
#Primer gráfico: Dispersión de ventas vs. ingresos:
fig = px.scatter(df, x='ventas', y='ingresos',  title="Ventas vs Ingresos por Estado")
fig.show()


- Crear un gráfico de barras que muestre las ventas totales por sector (sectorName)

In [10]:
ventas_por_sector = df.groupby('sectorName')['ventas'].sum()
ventas = pd.DataFrame(ventas_por_sector).reset_index()
ventas

Unnamed: 0,sectorName,ventas
0,all sectors,256753400.0
1,commercial,90496240.0
2,industrial,68915530.0
3,other,656176.8
4,residential,96219180.0
5,transportation,466267.2


In [11]:
# mayor qu
px.bar(ventas, x='sectorName', y='ventas', title="Ventas por Estado")

Histogramas:

Distribución de precios de electricidad

In [None]:
fig = px.histogram(df, x='price', nbins=20, title="Distribución de Precios de Electricidad")
fig.show()


Gráficos de líneas:

Tendencia de ventas por año

In [None]:
ventas_por_año = df.groupby('year')['sales'].sum().reset_index()
fig = px.line(ventas_por_año, x='year', y='sales', title="Tendencia de Ventas por Año")
fig.show()


Crear un gráfico de líneas que muestre la evolución del precio promedio (price) por año para el sector residencial (sectorName == 'Residential').

### Taller Final de Práctica 

- Ejercicio 1: Comparación por Sector.
Crear un gráfico de barras que compare el ingreso promedio (revenue) por sector.

- Ejercicio 2: Tendencia de Ventas en Estados Clave.
Seleccionar 3 estados clave y crear un gráfico de líneas con la tendencia de ventas (sales) por año.

- Ejercicio 3: Distribución de Clientes por Sector.
Crear un histograma que muestre la distribución del número de clientes (customers) por sector.

- Ejercicio 4: Interactividad con Filtros.
Usar Plotly Express para crear un gráfico que permita filtrar ventas (sales) por estado y sector.

Para exportar gráficos creados con **Plotly** a un archivo de Excel, puedes usar la biblioteca **`openpyxl`** junto con **`Pandas`**. :

---

### **Código para exportar gráficos de Plotly a Excel**
```python
import pandas as pd
import plotly.express as px
from openpyxl import Workbook
from openpyxl.drawing.image import Image
import plotly.io as pio

# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'Mes': ['Enero', 'Febrero', 'Marzo', 'Abril'],
    'Ventas': [150, 200, 250, 300]
})

# Crear un gráfico con Plotly
fig = px.bar(df, x='Mes', y='Ventas', title='Ventas Mensuales', labels={'Ventas': 'Cantidad'})

# Guardar el gráfico como imagen
fig_path = "grafico_plotly.png"
pio.write_image(fig, fig_path, format='png', width=800, height=400)

# Crear un archivo Excel con openpyxl
wb = Workbook()
ws = wb.active
ws.title = "Datos y Gráfica"

# Agregar datos al Excel
for i, col in enumerate(df.columns, start=1):
    ws.cell(row=1, column=i, value=col)

for i, row in enumerate(df.itertuples(index=False), start=2):
    for j, value in enumerate(row, start=1):
        ws.cell(row=i, column=j, value=value)

# Insertar la imagen del gráfico en Excel
img = Image(fig_path)
img.anchor = "E2"  # Posición en la hoja
ws.add_image(img)

# Guardar el archivo Excel
excel_path = "datos_con_grafico.xlsx"
wb.save(excel_path)
print(f"Archivo Excel guardado en {excel_path}")
```

---

### **Explicación del código**:
1. **Crear el gráfico**:
   - Se usa Plotly Express para generar un gráfico de barras (`fig`).
   - Se guarda el gráfico como imagen en formato PNG usando `pio.write_image`.

2. **Agregar datos a Excel**:
   - Utilizamos `openpyxl` para crear un archivo Excel.
   - Los datos del DataFrame se escriben celda por celda en la hoja de cálculo.

3. **Insertar la imagen en Excel**:
   - La imagen del gráfico se carga con `Image` y se posiciona en una celda específica (`E2` en este caso).
   - Finalmente, se guarda el archivo Excel.

---

### **Salida**:
El archivo Excel generado incluirá:
1. **Datos**: Los datos tabulares en las columnas iniciales.
2. **Gráfico**: El gráfico de Plotly insertado como imagen en la hoja.

---

### **Requisitos adicionales**:
Para guardar imágenes desde Plotly, debes instalar `kaleido`:
```bash
pip install -U kaleido
```

