# Introducción a Pandas y DataFrames

## Importando Pandas

In [91]:
import pandas as pd

## Series en Pandas
### Crear una Serie

In [92]:
data = [10, 20, 30, 40]
series = pd.Series(data)
print("Serie:")
print(series)

Serie:
0    10
1    20
2    30
3    40
dtype: int64


In [93]:
type(data)

list

In [94]:
type(series)

pandas.core.series.Series

### Acceso a elementos de una Serie

In [95]:
print("Elemento en la posición 2:", series[2])

Elemento en la posición 2: 30


In [96]:
display(series)

0    10
1    20
2    30
3    40
dtype: int64

In [97]:
print("Elemento en la posición 2:", series[3])

Elemento en la posición 2: 40


### Ejercicio Práctico (Series):
1. Crea una Serie que contenga los nombres de 5 estudiantes.
2. Accede al tercer estudiante usando su índice.



In [98]:
est=['Jostin','Jennifer', 'Washington','Walter', 'Joseph']

s_est=pd.Series(est)

display(s_est)

0        Jostin
1      Jennifer
2    Washington
3        Walter
4        Joseph
dtype: object

## DataFrames en Pandas
### Crear un DataFrame

In [99]:
data = {
    'Nombre': ['Juan', 'Ana', 'Luis'],
    'Edad': [23, 21, 25],
    'Ciudad': ['Quito', 'Guayaquil', 'Cuenca']
}

df = pd.DataFrame(data)
print("DataFrame:")
display(df)

DataFrame:


Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,23,Quito
1,Ana,21,Guayaquil
2,Luis,25,Cuenca


In [100]:
type(data)

dict

In [101]:
type(df)

pandas.core.frame.DataFrame

### Acceso a columnas

In [102]:
# Acceso por índice posicional
print("Primera fila usando iloc:")
print(df.iloc[0:2])

Primera fila usando iloc:
  Nombre  Edad     Ciudad
0   Juan    23      Quito
1    Ana    21  Guayaquil


In [103]:
# Acceso por etiqueta (si el índice es nombrado)
print("Fila con etiqueta 'a' usando loc (modifica el índice para probar):")

Fila con etiqueta 'a' usando loc (modifica el índice para probar):


In [104]:
display(df)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,23,Quito
1,Ana,21,Guayaquil
2,Luis,25,Cuenca


In [105]:
df.index=['a','b','c']
display(df)

Unnamed: 0,Nombre,Edad,Ciudad
a,Juan,23,Quito
b,Ana,21,Guayaquil
c,Luis,25,Cuenca


In [106]:
df.loc['a':'b']

Unnamed: 0,Nombre,Edad,Ciudad
a,Juan,23,Quito
b,Ana,21,Guayaquil


### Ejercicio Práctico (DataFrames):
1. Crea un DataFrame con información ficticia de productos: nombre, precio y cantidad.
2. Filtra los productos con un precio mayor a 50.
3. Ordena el DataFrame por cantidad en orden descendente.

In [107]:

productos = {
    "producto1": {"nombre": "Laptop", "precio": 1200.99, "cantidad": 15},
    "producto2": {"nombre": "Smartphone", "precio": 799.49, "cantidad": 30},
    "producto3": {"nombre": "Auriculares", "precio": 49.99, "cantidad": 100},
    "producto4": {"nombre": "Monitor", "precio": 199.99, "cantidad": 25},
    "producto5": {"nombre": "Teclado", "precio": 29.99, "cantidad": 50},
    "producto6": {"nombre": "Ratón", "precio": 19.99, "cantidad": 60},
    "producto7": {"nombre": "Tablet", "precio": 299.99, "cantidad": 20},
    "producto8": {"nombre": "Cámara", "precio": 499.99, "cantidad": 10},
    "producto9": {"nombre": "Impresora", "precio": 89.99, "cantidad": 12},
    "producto10": {"nombre": "Altavoces", "precio": 99.99, "cantidad": 40},
}

In [108]:
store = pd.DataFrame.from_dict(productos, orient="index")
display(store)

Unnamed: 0,nombre,precio,cantidad
producto1,Laptop,1200.99,15
producto2,Smartphone,799.49,30
producto3,Auriculares,49.99,100
producto4,Monitor,199.99,25
producto5,Teclado,29.99,50
producto6,Ratón,19.99,60
producto7,Tablet,299.99,20
producto8,Cámara,499.99,10
producto9,Impresora,89.99,12
producto10,Altavoces,99.99,40


In [109]:
store.index=[0,1,2,3,4,5,6,8,9,10]
display(store)

Unnamed: 0,nombre,precio,cantidad
0,Laptop,1200.99,15
1,Smartphone,799.49,30
2,Auriculares,49.99,100
3,Monitor,199.99,25
4,Teclado,29.99,50
5,Ratón,19.99,60
6,Tablet,299.99,20
8,Cámara,499.99,10
9,Impresora,89.99,12
10,Altavoces,99.99,40


In [110]:
store[store['cantidad']>=50]

Unnamed: 0,nombre,precio,cantidad
2,Auriculares,49.99,100
4,Teclado,29.99,50
5,Ratón,19.99,60


In [111]:
store_ord=store.copy()

In [112]:
store_ord = store.sort_values(by="precio", ascending=True)
display(store_ord)

Unnamed: 0,nombre,precio,cantidad
5,Ratón,19.99,60
4,Teclado,29.99,50
2,Auriculares,49.99,100
9,Impresora,89.99,12
10,Altavoces,99.99,40
3,Monitor,199.99,25
6,Tablet,299.99,20
8,Cámara,499.99,10
1,Smartphone,799.49,30
0,Laptop,1200.99,15


In [113]:
store_ord.iloc[0]

nombre      Ratón
precio      19.99
cantidad       60
Name: 5, dtype: object

## Operaciones Básicas con DataFrames
### Añadir una nueva columna

In [114]:
display(df)

Unnamed: 0,Nombre,Edad,Ciudad
a,Juan,23,Quito
b,Ana,21,Guayaquil
c,Luis,25,Cuenca


In [115]:
df['Saludo'] = 'Hola ' + df['Nombre']
print("DataFrame con nueva columna:")
display(df)

DataFrame con nueva columna:


Unnamed: 0,Nombre,Edad,Ciudad,Saludo
a,Juan,23,Quito,Hola Juan
b,Ana,21,Guayaquil,Hola Ana
c,Luis,25,Cuenca,Hola Luis


### Filtrado de filas

In [116]:
# Filtrar personas mayores de 22 años
print("Filtrar filas donde Edad > 22:")
print(df[df['Edad'] > 22])

Filtrar filas donde Edad > 22:
  Nombre  Edad  Ciudad     Saludo
a   Juan    23   Quito  Hola Juan
c   Luis    25  Cuenca  Hola Luis


### Estadísticas descriptivas

In [117]:
print("Resumen estadístico:")
print(df.describe())

Resumen estadístico:
       Edad
count   3.0
mean   23.0
std     2.0
min    21.0
25%    22.0
50%    23.0
75%    24.0
max    25.0


### Ejercicio Práctico (Operaciones):
1. Agrega una nueva columna a un DataFrame que calcule un descuento de 10% sobre un precio inicial.
2. Filtra las filas donde la cantidad sea mayor que 10.
3. Calcula la media de los precios en el DataFrame.

In [118]:
display(store)

Unnamed: 0,nombre,precio,cantidad
0,Laptop,1200.99,15
1,Smartphone,799.49,30
2,Auriculares,49.99,100
3,Monitor,199.99,25
4,Teclado,29.99,50
5,Ratón,19.99,60
6,Tablet,299.99,20
8,Cámara,499.99,10
9,Impresora,89.99,12
10,Altavoces,99.99,40


In [127]:
store['Descuento'] = store.apply(lambda row: row['precio'] * 0.9 if row['cantidad'] > 10 else 0, axis=1)

display(store)


Unnamed: 0,nombre,precio,cantidad,Descuento
0,Laptop,1200.99,15,1080.891
1,Smartphone,799.49,30,719.541
2,Auriculares,49.99,100,44.991
3,Monitor,199.99,25,179.991
4,Teclado,29.99,50,26.991
5,Ratón,19.99,60,17.991
6,Tablet,299.99,20,269.991
8,Cámara,499.99,10,0.0
9,Impresora,89.99,12,80.991
10,Altavoces,99.99,40,89.991



## Selección y Acceso Avanzado
### Selección con condiciones

In [128]:
display(df)

Unnamed: 0,Nombre,Edad,Ciudad,Saludo
a,Juan,23,Quito,Hola Juan
b,Ana,21,Guayaquil,Hola Ana
c,Luis,25,Cuenca,Hola Luis


In [120]:
print("Selección condicional:")
print(df[(df['Edad'] > 22) & (df['Ciudad'] == 'Quito')])

Selección condicional:
  Nombre  Edad Ciudad     Saludo
a   Juan    23  Quito  Hola Juan


### Acceso por índices y etiquetas

In [129]:
# Seleccionar una celda específica
print("Acceso a celda específica (iloc[0, 1]):")
print(df.iloc[0, 1])  # Fila 0, columna 1

Acceso a celda específica (iloc[0, 1]):
23


### Ejercicio Práctico (Selección):
1. Crea un DataFrame que represente las ventas de una tienda con columnas: producto, ventas, y ganancias.
2. Filtra los productos con ganancias mayores a 6000.
3. Selecciona las primeras 2 filas y las columnas "producto" y "ventas".

In [130]:
data = [
    {'producto': 'Laptop', 'ventas': 150, 'ganancias': 4500},
    {'producto': 'Smartphone', 'ventas': 200, 'ganancias': 6000},
    {'producto': 'Televisor', 'ventas': 300, 'ganancias': 9000},
    {'producto': 'Tablet', 'ventas': 250, 'ganancias': 7500},
    {'producto': 'Audífonos', 'ventas': 100, 'ganancias': 3000}
]

In [132]:
df_tienda = pd.DataFrame(data)

display(df_tienda)

Unnamed: 0,producto,ventas,ganancias
0,Laptop,150,4500
1,Smartphone,200,6000
2,Televisor,300,9000
3,Tablet,250,7500
4,Audífonos,100,3000


In [134]:
df_filtered=df_tienda[df_tienda['ganancias']>5000]
display(df_filtered)

Unnamed: 0,producto,ventas,ganancias
1,Smartphone,200,6000
2,Televisor,300,9000
3,Tablet,250,7500


In [136]:
df_selected=df_tienda.iloc[0:2,0:2]
display(df_selected)

Unnamed: 0,producto,ventas
0,Laptop,150
1,Smartphone,200


## Guardar y Cargar Datos
### Guardar un DataFrame en un archivo CSV

In [137]:
store.to_csv('store.csv', index=False)
print("DataFrame guardado como 'store.csv'")

DataFrame guardado como 'store.csv'


### Cargar un DataFrame desde un archivo CSV

In [139]:
df_loaded = pd.read_csv('store.csv')
print("DataFrame cargado desde 'store.csv':")
display(df_loaded)

DataFrame cargado desde 'store.csv':


Unnamed: 0,nombre,precio,cantidad,Descuento
0,Laptop,1200.99,15,1080.891
1,Smartphone,799.49,30,719.541
2,Auriculares,49.99,100,44.991
3,Monitor,199.99,25,179.991
4,Teclado,29.99,50,26.991
5,Ratón,19.99,60,17.991
6,Tablet,299.99,20,269.991
7,Cámara,499.99,10,0.0
8,Impresora,89.99,12,80.991
9,Altavoces,99.99,40,89.991


### Ejercicio Práctico (Guardar y Cargar):
1. Guarda un DataFrame con datos ficticios en un archivo CSV.
2. Carga el archivo y muestra su contenido.


### Ejercicio Adicional 

In [140]:
notas_data = {
    "estudiante": ["Ana", "Carlos", "María", "Luis", "Sofía", "Pedro", "Lucía", "Javier", "Valeria", "Diego"],
    "nota_1": [18, 15, 17, 16, 20, 14, 19, 13, 17, 16],
    "nota_2": [17, 16, 18, 15, 19, 14, 20, 12, 18, 15],
    "nota_3": [19, 14, 16, 18, 20, 15, 17, 13, 16, 14]
}

In [142]:
df_n=pd.DataFrame(notas_data)
display(df_n)

Unnamed: 0,estudiante,nota_1,nota_2,nota_3
0,Ana,18,17,19
1,Carlos,15,16,14
2,María,17,18,16
3,Luis,16,15,18
4,Sofía,20,19,20
5,Pedro,14,14,15
6,Lucía,19,20,17
7,Javier,13,12,13
8,Valeria,17,18,16
9,Diego,16,15,14


In [146]:
df_n['Promedio']=df_n[['nota_1','nota_2','nota_3']].mean(axis=1)
display(df_n)

Unnamed: 0,estudiante,nota_1,nota_2,nota_3,Promedio
0,Ana,18,17,19,18.0
1,Carlos,15,16,14,15.0
2,María,17,18,16,17.0
3,Luis,16,15,18,16.333333
4,Sofía,20,19,20,19.666667
5,Pedro,14,14,15,14.333333
6,Lucía,19,20,17,18.666667
7,Javier,13,12,13,12.666667
8,Valeria,17,18,16,17.0
9,Diego,16,15,14,15.0


In [148]:
df_n['Estado']=df_n['Promedio'].apply(lambda x: 'Aprueba' if x >= 15 else 'No aprueba')
display(df_n)

Unnamed: 0,estudiante,nota_1,nota_2,nota_3,Promedio,Estado
0,Ana,18,17,19,18.0,Aprueba
1,Carlos,15,16,14,15.0,Aprueba
2,María,17,18,16,17.0,Aprueba
3,Luis,16,15,18,16.333333,Aprueba
4,Sofía,20,19,20,19.666667,Aprueba
5,Pedro,14,14,15,14.333333,No aprueba
6,Lucía,19,20,17,18.666667,Aprueba
7,Javier,13,12,13,12.666667,No aprueba
8,Valeria,17,18,16,17.0,Aprueba
9,Diego,16,15,14,15.0,Aprueba


In [150]:
df_n['Sobre 10']=df_n['Promedio']*0.5
display(df_n)

Unnamed: 0,estudiante,nota_1,nota_2,nota_3,Promedio,Estado,Sobre 10
0,Ana,18,17,19,18.0,Aprueba,9.0
1,Carlos,15,16,14,15.0,Aprueba,7.5
2,María,17,18,16,17.0,Aprueba,8.5
3,Luis,16,15,18,16.333333,Aprueba,8.166667
4,Sofía,20,19,20,19.666667,Aprueba,9.833333
5,Pedro,14,14,15,14.333333,No aprueba,7.166667
6,Lucía,19,20,17,18.666667,Aprueba,9.333333
7,Javier,13,12,13,12.666667,No aprueba,6.333333
8,Valeria,17,18,16,17.0,Aprueba,8.5
9,Diego,16,15,14,15.0,Aprueba,7.5


In [152]:
df_n['Nota_max']=df_n[['nota_1','nota_2','nota_3']].max(axis=1)
display(df_n)


Unnamed: 0,estudiante,nota_1,nota_2,nota_3,Promedio,Estado,Sobre 10,Nota_max
0,Ana,18,17,19,18.0,Aprueba,9.0,19
1,Carlos,15,16,14,15.0,Aprueba,7.5,16
2,María,17,18,16,17.0,Aprueba,8.5,18
3,Luis,16,15,18,16.333333,Aprueba,8.166667,18
4,Sofía,20,19,20,19.666667,Aprueba,9.833333,20
5,Pedro,14,14,15,14.333333,No aprueba,7.166667,15
6,Lucía,19,20,17,18.666667,Aprueba,9.333333,20
7,Javier,13,12,13,12.666667,No aprueba,6.333333,13
8,Valeria,17,18,16,17.0,Aprueba,8.5,18
9,Diego,16,15,14,15.0,Aprueba,7.5,16
