# Ejemplos y Ejercicios de Pandas

## Introducción a Pandas

Pandas es una biblioteca poderosa para análisis de datos en Python. Permite trabajar con estructuras de datos como DataFrames y Series, facilitando tareas como la limpieza, manipulación y análisis de datos.

### Ejemplos

In [23]:
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['New York', 'Los Angeles', 'Chicago']}

df = pd.DataFrame(data)
print(df)

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago


In [24]:
df = pd.read_csv('file.csv')
print(df.head())

      Name  Age         City  Salary
0    Alice   25     New York   50000
1      Bob   30  Los Angeles   60000
2  Charlie   35      Chicago   70000
3    David   40      Houston   80000
4      Eva   28      Phoenix   55000


In [25]:
filtered = df[df['Age'] > 30]
print(filtered)

      Name  Age     City  Salary
2  Charlie   35  Chicago   70000
3    David   40  Houston   80000


In [26]:
columns = df[['Name', 'City']]
print(columns)

      Name         City
0    Alice     New York
1      Bob  Los Angeles
2  Charlie      Chicago
3    David      Houston
4      Eva      Phoenix


In [28]:
df['Salary'] = [50000, 60000, 70000, 80000, 55000]
print(df)

      Name  Age         City  Salary
0    Alice   25     New York   50000
1      Bob   30  Los Angeles   60000
2  Charlie   35      Chicago   70000
3    David   40      Houston   80000
4      Eva   28      Phoenix   55000


In [29]:
df = df.drop('City', axis=1)
print(df)

      Name  Age  Salary
0    Alice   25   50000
1      Bob   30   60000
2  Charlie   35   70000
3    David   40   80000
4      Eva   28   55000


In [30]:
grouped = df.groupby('Age').sum()
print(grouped)

        Name  Salary
Age                 
25     Alice   50000
28       Eva   55000
30       Bob   60000
35   Charlie   70000
40     David   80000


In [31]:
sorted_df = df.sort_values('Age', ascending=False)
print(sorted_df)

      Name  Age  Salary
3    David   40   80000
2  Charlie   35   70000
1      Bob   30   60000
4      Eva   28   55000
0    Alice   25   50000


In [13]:
#df['City'] = df['City'].replace({'New York': 'NYC'})
print(df)

      Name  Age  Salary
0    Alice   25   50000
1      Bob   30   60000
2  Charlie   35   70000
3    David   40   80000
4      Eva   28   55000


In [14]:
df['Age'] = df['Age'].fillna(0)
print(df)

      Name  Age  Salary
0    Alice   25   50000
1      Bob   30   60000
2  Charlie   35   70000
3    David   40   80000
4      Eva   28   55000


In [15]:
df['Age_in_2025'] = df['Age'].apply(lambda x: x + 1)
print(df)

      Name  Age  Salary  Age_in_2025
0    Alice   25   50000           26
1      Bob   30   60000           31
2  Charlie   35   70000           36
3    David   40   80000           41
4      Eva   28   55000           29


In [16]:
df['Age'] = df['Age'].astype(float)
print(df.dtypes)

Name            object
Age            float64
Salary           int64
Age_in_2025      int64
dtype: object


In [20]:
#pivot = df.pivot_table(values='Salary', index='City', aggfunc='mean')
#print(pivot)

In [21]:
df1 = pd.DataFrame({'ID': [1, 2], 'Name': ['Alice', 'Bob']})
df2 = pd.DataFrame({'ID': [1, 2], 'Age': [25, 30]})

merged = pd.merge(df1, df2, on='ID')
print(merged)

   ID   Name  Age
0   1  Alice   25
1   2    Bob   30


In [22]:
df.to_csv('output.csv', index=False)

### Ejercicios

**Ejercicio 1:** 1. Crea un DataFrame con los datos de nombres, edades y ciudades. Luego, muestra el DataFrame.

In [89]:
import pandas as pd

data = {'Name': ['Aang', 'Katara', 'Sokka'],
        'Age': [12, 14, 16],
        'City': ['Air Nomads', 'Water Tribe', 'Water Tribe']}

df = pd.DataFrame(data)
print(df)

     Name  Age         City
0    Aang   12   Air Nomads
1  Katara   14  Water Tribe
2   Sokka   16  Water Tribe


**Ejercicio 2:** 2. Lee un archivo CSV llamado `data.csv` y muestra los primeros 5 registros.

In [90]:
df = pd.read_csv('data.csv')
print(df.head())

      Name  Age         City  Salary
0    Alice   25     New York   50000
1      Bob   30  Los Angeles   60000
2  Charlie   35      Chicago   70000
3    David   40      Houston   80000
4      Eva   28      Phoenix   55000


**Ejercicio 3:** 3. Filtra los datos de un DataFrame para mostrar solo las filas donde la edad sea mayor a 25.

In [91]:
df[df['Age']>25]

Unnamed: 0,Name,Age,City,Salary
1,Bob,30,Los Angeles,60000
2,Charlie,35,Chicago,70000
3,David,40,Houston,80000
4,Eva,28,Phoenix,55000


**Ejercicio 4:** 4. Selecciona solo las columnas 'Name' y 'City' de un DataFrame.

In [92]:
df[['Name', 'City']]

Unnamed: 0,Name,City
0,Alice,New York
1,Bob,Los Angeles
2,Charlie,Chicago
3,David,Houston
4,Eva,Phoenix


**Ejercicio 5:** 5. Añade una nueva columna llamada 'Salary' al DataFrame con valores aleatorios.

In [93]:
import random
import numpy as np
df['Salary'] = np.random.randint(10000, size=(len(df)))
df

Unnamed: 0,Name,Age,City,Salary
0,Alice,25,New York,7380
1,Bob,30,Los Angeles,8522
2,Charlie,35,Chicago,4099
3,David,40,Houston,4498
4,Eva,28,Phoenix,8466


**Ejercicio 6:** 6. Elimina la columna 'City' del DataFrame.

In [94]:
df.drop('City', axis=1)

Unnamed: 0,Name,Age,Salary
0,Alice,25,7380
1,Bob,30,8522
2,Charlie,35,4099
3,David,40,4498
4,Eva,28,8466


**Ejercicio 7:** 7. Agrupa los datos por una columna y calcula el promedio de otra columna.

In [95]:
df.groupby('Name')[['Salary']].mean()

Unnamed: 0_level_0,Salary
Name,Unnamed: 1_level_1
Alice,7380.0
Bob,8522.0
Charlie,4099.0
David,4498.0
Eva,8466.0


**Ejercicio 8:** 8. Ordena un DataFrame basado en la columna 'Age' de manera descendente.

In [96]:
df.sort_values('Age', ascending=False)

Unnamed: 0,Name,Age,City,Salary
3,David,40,Houston,4498
2,Charlie,35,Chicago,4099
1,Bob,30,Los Angeles,8522
4,Eva,28,Phoenix,8466
0,Alice,25,New York,7380


**Ejercicio 9:** 9. Reemplaza los valores de una columna, cambiando 'New York' por 'NYC'.

In [97]:
df['City'] = df['City'].replace('New York', 'NYC')
df

Unnamed: 0,Name,Age,City,Salary
0,Alice,25,NYC,7380
1,Bob,30,Los Angeles,8522
2,Charlie,35,Chicago,4099
3,David,40,Houston,4498
4,Eva,28,Phoenix,8466


**Ejercicio 10:** 10. Maneja los valores nulos en una columna rellenándolos con ceros.

In [98]:
df_new = df.copy()
df_new['Nulos'] = None
df_new

Unnamed: 0,Name,Age,City,Salary,Nulos
0,Alice,25,NYC,7380,
1,Bob,30,Los Angeles,8522,
2,Charlie,35,Chicago,4099,
3,David,40,Houston,4498,
4,Eva,28,Phoenix,8466,


In [100]:
df_new['Nulos'] = df_new['Nulos'].fillna(0)
df_new

Unnamed: 0,Name,Age,City,Salary,Nulos
0,Alice,25,NYC,7380,0
1,Bob,30,Los Angeles,8522,0
2,Charlie,35,Chicago,4099,0
3,David,40,Houston,4498,0
4,Eva,28,Phoenix,8466,0


**Ejercicio 11:** 11. Aplica una función lambda para crear una nueva columna llamada 'Age_in_2025'.

In [102]:
df['Age_in_2025'] = df['Age'].apply(lambda x: x + 1)
df

Unnamed: 0,Name,Age,City,Salary,Age_in_2025
0,Alice,25,NYC,7380,26
1,Bob,30,Los Angeles,8522,31
2,Charlie,35,Chicago,4099,36
3,David,40,Houston,4498,41
4,Eva,28,Phoenix,8466,29


**Ejercicio 12:** 12. Convierte los valores de una columna a tipo flotante.

In [103]:
df['Salary'] = df['Salary'].astype(float)
df.dtypes

Name            object
Age              int64
City            object
Salary         float64
Age_in_2025      int64
dtype: object

**Ejercicio 13:** 13. Crea una tabla pivote basada en una columna.

In [104]:
pivot = df.pivot_table(values='Salary', index='City', aggfunc='mean')
pivot

Unnamed: 0_level_0,Salary
City,Unnamed: 1_level_1
Chicago,4099.0
Houston,4498.0
Los Angeles,8522.0
NYC,7380.0
Phoenix,8466.0


**Ejercicio 14:** 14. Combina dos DataFrames usando una clave común.

In [105]:
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Name': ['Aang', 'Katara', 'Sokka']})
df2 = pd.DataFrame({'ID': [1, 2, 3], 'Age': [12, 14, 16]})
merged = pd.merge(df1, df2, on='ID')
merged

Unnamed: 0,ID,Name,Age
0,1,Aang,12
1,2,Katara,14
2,3,Sokka,16


**Ejercicio 15:** 15. Guarda un DataFrame en un archivo CSV llamado `output.csv`.

In [107]:
df.to_csv('output.csv')