# Taller de Pandas - Fundamentos con Ejercicios

## 1. Introducción a Pandas

Pandas es una biblioteca de Python utilizada para la manipulación y análisis de datos.

Para instalar Pandas, usa el siguiente comando:

In [None]:
!pip install pandas

### Importar Pandas

In [None]:
import pandas as pd
print(pd.__version__)

## 2. Estructuras de Datos en Pandas

### Creación de una Serie

In [None]:
serie = pd.Series([10, 20, 30, 40])
print(serie)

### Creación de un DataFrame

In [None]:
datos = {'Nombre': ['Ana', 'Luis', 'Carlos'], 'Edad': [25, 30, 35]}
df = pd.DataFrame(datos)
print(df)

## 3. Operaciones Básicas con DataFrames

### Cargar un dataset público: Titanic

In [None]:
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)
df.head()

### Seleccionar una columna

In [None]:
print(df['Name'].head())

### Ejercicio

In [None]:
## Extrae y muestra las primeras 10 filas de la columna 'Age'.

### Seleccionar múltiples columnas

In [None]:
print(df[['Name', 'Age', 'Sex']].head())

### Seleccionar una fila por índice

In [None]:
print(df.iloc[4])

### Seleccionar una fila por condición

In [None]:
print(df[df['Age'] > 50].head())

### Ejercicio

In [None]:
## Filtra los pasajeros que sobrevivieron (columna 'Survived') y muéstralos.

## 4. Filtrado y Transformaciones

### Filtrar datos con condiciones

In [None]:
df_filtrado = df[df['Fare'] > 100]
print(df_filtrado.head())

### Aplicar funciones a columnas

Una función lambda es una forma compacta de escribir una función en una sola línea. Se usa principalmente cuando la función es simple y no necesita un nombre.

In [None]:
df['Age_double'] = df['Age'].apply(lambda x: x * 2 if pd.notnull(x) else x)
print(df[['Name', 'Age', 'Age_double']].head())

### Ejercicio

In [None]:
## Crea una nueva columna que contenga la tarifa ('Fare') multiplicada por 1.1 y muéstrala.

### Agrupar datos con `groupby()`

In [None]:
df_grouped = df.groupby('Pclass')['Survived'].mean()
print(df_grouped)

### Ejercicio

In [None]:
## Agrupa los pasajeros por 'Sex' y calcula la media de edad para cada grupo.

## 5. Visualización de Datos con Pandas

### Generar un gráfico de barras de sobrevivientes por clase

In [None]:
import matplotlib.pyplot as plt
df.groupby('Pclass')['Survived'].sum().plot(kind='bar')
plt.xlabel('Clase de Pasajero')
plt.ylabel('Sobrevivientes')
plt.title('Sobrevivientes por Clase de Pasajero')
plt.show()

### Generar un histograma de edades

In [None]:
df['Age'].plot(kind='hist', bins=20, edgecolor='black')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.title('Distribución de Edades en el Titanic')
plt.show()

### Extraer datos PDF

In [None]:
# Extraer la tabla de la página 6 del PDF usando pdfplumber
import pdfplumber

pdf_path = "/mnt/data/CifrasPyme-diciembre2024.pdf"

# Abrir el PDF y extraer la tabla de la página 6
with pdfplumber.open(pdf_path) as pdf:
    page = pdf.pages[5]  # Las páginas en pdfplumber son base 0
    table = page.extract_table()

# Convertir la tabla en un DataFrame
df_pdf = pd.DataFrame(table)

# Renombrar las columnas correctamente
df_pdf.columns = ["Nombre", "PYME sin asalariados", "Microempresas (1-9)", "Pequeñas (10-49)", 
                  "Medianas (50-249)", "Grandes (250 o más)", "Total Trabajadores"]

# Eliminar filas vacías o incorrectas
df_pdf = df_pdf.dropna().reset_index(drop=True)

# Mostrar la tabla al usuario
tools.display_dataframe_to_user(name="Tabla Extraída del PDF", dataframe=df_pdf)

# Guardar como archivo Excel
excel_pdf_path = "/mnt/data/tabla_extraida_desde_pdf.xlsx"
df_pdf.to_excel(excel_pdf_path, index=False)

# Proporcionar el enlace de descarga del archivo Excel
excel_pdf_path