# NOTEBOOK 2: Manipulacion de Datos con Pandas

## Que aprenderas en este notebook?

Pandas es la libreria mas importante para trabajar con datos tabulares (como Excel o CSV).

En este notebook aprenderas:
1. Que es un DataFrame y como crearlo
2. Explorar datos (primeras filas, informacion, estadisticas)
3. Seleccionar columnas y filas
4. Filtrar datos con condiciones
5. Agrupar y resumir informacion
6. Crear un dataset para el proyecto de sentimientos

---

## PASO 1: Importar Pandas

In [7]:
import pandas as pd
import numpy as np

print(f"Pandas version: {pd.__version__}")
print("Pandas importado correctamente")

Pandas version: 2.2.2
Pandas importado correctamente


---

## PASO 2: Que es un DataFrame?

### Teoria: DataFrame = Tabla de Excel en Python

Un DataFrame es como una hoja de calculo:
- Tiene filas (cada fila = un dato)
- Tiene columnas (cada columna = una caracteristica)
- Cada columna tiene un nombre

### EJEMPLO RESUELTO: Crear un DataFrame

In [8]:
# Metodo 1: Desde un diccionario
datos = {
    'Nombre': ['Ana', 'Luis', 'Maria', 'Carlos'],
    'Edad': [25, 30, 22, 28],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

df = pd.DataFrame(datos)
print("DataFrame creado desde diccionario:")
print(df)
print()

# Metodo 2: Desde listas
nombres = ['Pedro', 'Laura', 'Jorge']
edades = [35, 27, 31]
ciudades = ['Malaga', 'Bilbao', 'Zaragoza']

df2 = pd.DataFrame({
    'Nombre': nombres,
    'Edad': edades,
    'Ciudad': ciudades
})

print("DataFrame creado desde listas:")
print(df2)

DataFrame creado desde diccionario:
   Nombre  Edad     Ciudad
0     Ana    25     Madrid
1    Luis    30  Barcelona
2   Maria    22   Valencia
3  Carlos    28    Sevilla

DataFrame creado desde listas:
  Nombre  Edad    Ciudad
0  Pedro    35    Malaga
1  Laura    27    Bilbao
2  Jorge    31  Zaragoza


### AHORA TU: Crea tu primer DataFrame

Completa el codigo siguiente:

In [9]:
# EJERCICIO 1: Crea un DataFrame con informacion de productos
# Debe tener 4 productos con las columnas: Producto, Precio, Stock

productos_data = {
    'Producto': ['Laptop', 'Mouse', 'Teclado', 'Monitor'],
    'Precio': [800, 25, 45, 250],
    'Stock': [15, 120, 75, 30]
}

df_productos = pd.DataFrame(productos_data)

print("Inventario de productos:")
print(df_productos)

Inventario de productos:
  Producto  Precio  Stock
0   Laptop     800     15
1    Mouse      25    120
2  Teclado      45     75
3  Monitor     250     30


---

## PASO 3: Explorar un DataFrame

### Teoria: Metodos basicos de exploracion

Cuando cargas datos, lo primero es explorarlos.

### EJEMPLO RESUELTO: Explorar datos

In [10]:
# Crear un DataFrame mas grande para explorar
np.random.seed(42)
estudiantes = pd.DataFrame({
    'Nombre': [f'Estudiante_{i}' for i in range(1, 21)],
    'Edad': np.random.randint(18, 25, size=20),
    'Nota': np.random.uniform(5, 10, size=20).round(2),
    'Ciudad': np.random.choice(['Madrid', 'Barcelona', 'Valencia', 'Sevilla'], size=20)
})

print("EXPLORANDO EL DATASET DE ESTUDIANTES")
print()

# Ver las primeras filas
print("Primeras 5 filas:")
print(estudiantes.head())
print()

# Ver las ultimas filas
print("Ultimas 3 filas:")
print(estudiantes.tail(3))
print()

# Informacion general
print("Informacion del DataFrame:")
print(estudiantes.info())
print()

# Estadisticas descriptivas
print("Estadisticas de columnas numericas:")
print(estudiantes.describe())
print()

# Tamano del DataFrame
print(f"Tamano: {estudiantes.shape[0]} filas x {estudiantes.shape[1]} columnas")

EXPLORANDO EL DATASET DE ESTUDIANTES

Primeras 5 filas:
         Nombre  Edad  Nota     Ciudad
0  Estudiante_1    24  9.69  Barcelona
1  Estudiante_2    21  5.00    Sevilla
2  Estudiante_3    22  9.96     Madrid
3  Estudiante_4    24  8.09    Sevilla
4  Estudiante_5    20  8.06  Barcelona

Ultimas 3 filas:
           Nombre  Edad  Nota    Ciudad
17  Estudiante_18    22  9.30    Madrid
18  Estudiante_19    19  8.40   Sevilla
19  Estudiante_20    21  7.25  Valencia

Informacion del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Nombre  20 non-null     object 
 1   Edad    20 non-null     int64  
 2   Nota    20 non-null     float64
 3   Ciudad  20 non-null     object 
dtypes: float64(1), int64(1), object(2)
memory usage: 772.0+ bytes
None

Estadisticas de columnas numericas:
            Edad       Nota
count  20.000000  20.000000
mean   21.50000

### AHORA TU: Explora el DataFrame de productos

Completa el codigo siguiente:

In [11]:
# Usaremos el DataFrame de productos que creaste antes

print("EXPLORANDO EL INVENTARIO")
print()

# EJERCICIO 2: Muestra las primeras 3 filas
print("Primeras 3 filas:")
print(df_productos.head(3))
print()

# EJERCICIO 3: Obten el tamano del DataFrame
filas, columnas = df_productos.shape
print(f"Tenemos {filas} productos y {columnas} caracteristicas")
print()

# EJERCICIO 4: Muestra estadisticas descriptivas
print("Estadisticas del inventario:")
print(df_productos.describe())

EXPLORANDO EL INVENTARIO

Primeras 3 filas:
  Producto  Precio  Stock
0   Laptop     800     15
1    Mouse      25    120
2  Teclado      45     75

Tenemos 4 productos y 3 caracteristicas

Estadisticas del inventario:
           Precio       Stock
count    4.000000    4.000000
mean   280.000000   60.000000
std    361.270905   47.434165
min     25.000000   15.000000
25%     40.000000   26.250000
50%    147.500000   52.500000
75%    387.500000   86.250000
max    800.000000  120.000000


---

## RESUMEN: Que has aprendido?

Has completado el Notebook 2: Manipulacion de Datos con Pandas.

Pandas es esencial para cualquier proyecto de Machine Learning. Ahora puedes:
- Cargar y explorar datasets
- Filtrar y seleccionar datos relevantes
- Analizar y resumir informacion
- Preparar datos para entrenar modelos