# Manejo de datos con Pandas
**Hecho por**: Andrés Sebastián Ospina Guzmán.

## Dataset utilizado para la actividad
El siguiente dataset sera utilizado para el análisis del mismo:

In [1]:
import pandas as pd
import numpy as np

datos = {
    'Nombre':  ['Ana', 'Bob', 'Clara', 'Diego', 'Eva'],
    'Edad':    [25, 30, 22, None, 28],
    'Ciudad':  ['Madrid', 'Lima', 'Bogotá', 'Medellin', None],
    'Ingreso': [3000, 4500, 2800, 5000, None]
}

df = pd.DataFrame(datos)
df.to_csv('actividad_semana5.csv', index=False)
print("Dataset base:")
print(df.head())
print("\n" + "="*60 + "\n")

Dataset base:
  Nombre  Edad    Ciudad  Ingreso
0    Ana  25.0    Madrid   3000.0
1    Bob  30.0      Lima   4500.0
2  Clara  22.0    Bogotá   2800.0
3  Diego   NaN  Medellin   5000.0
4    Eva  28.0      None      NaN




## Ejercicios por tema
1. Series — crear y operar
* Crea una Series desde una lista y otra desde un diccionario.
* Accede por índice/clave, modifica un valor y aplica una operación (p. ej., multiplicar por 2).

In [2]:
print("1) SERIES — CREAR Y OPERAR")
print("-" * 60)

# Series desde lista
serie_lista = pd.Series([100, 200, 300, 400, 500])
print("Serie desde lista:")
print(serie_lista)

# Series desde diccionario
serie_dict = pd.Series({'x': 10, 'y': 20, 'z': 30})
print("\nSerie desde diccionario:")
print(serie_dict)

# Acceder por índice/clave
print(f"\nElemento en índice 2: {serie_lista[2]}")
print(f"Elemento con clave 'y': {serie_dict['y']}")

# Modificar valor
serie_lista[2] = 350
print(f"\nSerie modificada (índice 2 = 350):")
print(serie_lista)

# Operación matemática
serie_multiplicada = serie_lista * 2
print("\nSerie multiplicada por 2:")
print(serie_multiplicada)
print("\n" + "="*60 + "\n")

1) SERIES — CREAR Y OPERAR
------------------------------------------------------------
Serie desde lista:
0    100
1    200
2    300
3    400
4    500
dtype: int64

Serie desde diccionario:
x    10
y    20
z    30
dtype: int64

Elemento en índice 2: 300
Elemento con clave 'y': 20

Serie modificada (índice 2 = 350):
0    100
1    200
2    350
3    400
4    500
dtype: int64

Serie multiplicada por 2:
0     200
1     400
2     700
3     800
4    1000
dtype: int64




2. DataFrame — crear y explorar
* Crea un DataFrame pequeño desde un diccionario (puedes reutilizar `datos`).
* Asigna nombres de columnas y verifica el tipo de cada columna.

In [3]:
print("2) DATAFRAME — CREAR Y EXPLORAR")
print("-" * 60)

# DataFrame desde diccionario
df_nuevo = pd.DataFrame(datos)
print("DataFrame creado:")
print(df_nuevo)

# Nombres de columnas
print(f"\nNombres de columnas: {list(df_nuevo.columns)}")

# Tipo de cada columna
print("\nTipo de cada columna:")
print(df_nuevo.dtypes)
print("\n" + "="*60 + "\n")

2) DATAFRAME — CREAR Y EXPLORAR
------------------------------------------------------------
DataFrame creado:
  Nombre  Edad    Ciudad  Ingreso
0    Ana  25.0    Madrid   3000.0
1    Bob  30.0      Lima   4500.0
2  Clara  22.0    Bogotá   2800.0
3  Diego   NaN  Medellin   5000.0
4    Eva  28.0      None      NaN

Nombres de columnas: ['Nombre', 'Edad', 'Ciudad', 'Ingreso']

Tipo de cada columna:
Nombre      object
Edad       float64
Ciudad      object
Ingreso    float64
dtype: object




3. Inspeccionar y explorar
* Muestra las primeras y últimas filas con `head` y `tail`.
* Obtén `info`, `shape` y `describe`.

In [4]:
print("3) INSPECCIONAR Y EXPLORAR")
print("-" * 60)

# Primeras filas
print("Primeras 3 filas (head):")
print(df.head(3))

# Últimas filas
print("\nÚltimas 3 filas (tail):")
print(df.tail(3))

# Info
print("\nInformación del DataFrame (info):")
print(df.info())

# Shape
print(f"\nDimensiones (shape): {df.shape}")

# Describe
print("\nEstadísticas descriptivas (describe):")
print(df.describe())
print("\n" + "="*60 + "\n")

3) INSPECCIONAR Y EXPLORAR
------------------------------------------------------------
Primeras 3 filas (head):
  Nombre  Edad  Ciudad  Ingreso
0    Ana  25.0  Madrid   3000.0
1    Bob  30.0    Lima   4500.0
2  Clara  22.0  Bogotá   2800.0

Últimas 3 filas (tail):
  Nombre  Edad    Ciudad  Ingreso
2  Clara  22.0    Bogotá   2800.0
3  Diego   NaN  Medellin   5000.0
4    Eva  28.0      None      NaN

Información del DataFrame (info):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Nombre   5 non-null      object 
 1   Edad     4 non-null      float64
 2   Ciudad   4 non-null      object 
 3   Ingreso  4 non-null      float64
dtypes: float64(2), object(2)
memory usage: 292.0+ bytes
None

Dimensiones (shape): (5, 4)

Estadísticas descriptivas (describe):
        Edad      Ingreso
count   4.00     4.000000
mean   26.25  3825.000000
std     3.50  1090.489187
m

4. Acceder a columnas y filas
* Obtén la columna `Nombre` como Series.
* Obtén la fila con índice 1 usando `loc` y `iloc`.
* Accede al valor específico (fila 1, columna `Edad`).

In [5]:
print("4) ACCEDER A COLUMNAS Y FILAS")
print("-" * 60)

# Obtener columna Nombre como Series
columna_nombre = df['Nombre']
print("Columna 'Nombre' como Series:")
print(columna_nombre)

# Fila con índice 1 usando loc
print("\nFila con índice 1 (loc):")
print(df.loc[1])

# Fila con índice 1 usando iloc
print("\nFila en posición 1 (iloc):")
print(df.iloc[1])

# Valor específico (fila 1, columna Edad)
valor_especifico = df.loc[1, 'Edad']
print(f"\nValor en fila 1, columna 'Edad': {valor_especifico}")
print("\n" + "="*60 + "\n")

4) ACCEDER A COLUMNAS Y FILAS
------------------------------------------------------------
Columna 'Nombre' como Series:
0      Ana
1      Bob
2    Clara
3    Diego
4      Eva
Name: Nombre, dtype: object

Fila con índice 1 (loc):
Nombre        Bob
Edad         30.0
Ciudad       Lima
Ingreso    4500.0
Name: 1, dtype: object

Fila en posición 1 (iloc):
Nombre        Bob
Edad         30.0
Ciudad       Lima
Ingreso    4500.0
Name: 1, dtype: object

Valor en fila 1, columna 'Edad': 30.0




5. Operaciones básicas
* Incrementa `Edad` en 5 años.
* Crea una columna `Ingreso_anual` multiplicando `Ingreso` por 12 (maneja nulos con 0).

In [6]:
print("5) OPERACIONES BÁSICAS")
print("-" * 60)

# Incrementar Edad en 5 años
df['Edad'] = df['Edad'] + 5
print("Edad incrementada en 5 años:")
print(df[['Nombre', 'Edad']])

# Crear columna Ingreso_anual (maneja nulos con 0)
df['Ingreso_anual'] = df['Ingreso'].fillna(0) * 12
print("\nColumna 'Ingreso_anual' creada:")
print(df[['Nombre', 'Ingreso', 'Ingreso_anual']])
print("\n" + "="*60 + "\n")

5) OPERACIONES BÁSICAS
------------------------------------------------------------
Edad incrementada en 5 años:
  Nombre  Edad
0    Ana  30.0
1    Bob  35.0
2  Clara  27.0
3  Diego   NaN
4    Eva  33.0

Columna 'Ingreso_anual' creada:
  Nombre  Ingreso  Ingreso_anual
0    Ana   3000.0        36000.0
1    Bob   4500.0        54000.0
2  Clara   2800.0        33600.0
3  Diego   5000.0        60000.0
4    Eva      NaN            0.0




6. Filtrar datos
* Filtra filas con `Edad > 30`.
* Filtra filas donde `Ciudad` es `'Madrid'` o `'Lima'`.

In [7]:
print("6) FILTRAR DATOS")
print("-" * 60)

# Filtrar Edad > 30
filtro_edad = df[df['Edad'] > 30]
print("Filas con Edad > 30:")
print(filtro_edad)

# Filtrar Ciudad es Madrid o Lima
filtro_ciudad = df[df['Ciudad'].isin(['Madrid', 'Lima'])]
print("\nFilas donde Ciudad es 'Madrid' o 'Lima':")
print(filtro_ciudad)
print("\n" + "="*60 + "\n")

6) FILTRAR DATOS
------------------------------------------------------------
Filas con Edad > 30:
  Nombre  Edad Ciudad  Ingreso  Ingreso_anual
1    Bob  35.0   Lima   4500.0        54000.0
4    Eva  33.0   None      NaN            0.0

Filas donde Ciudad es 'Madrid' o 'Lima':
  Nombre  Edad  Ciudad  Ingreso  Ingreso_anual
0    Ana  30.0  Madrid   3000.0        36000.0
1    Bob  35.0    Lima   4500.0        54000.0




7. Manejo de valores faltantes
* Detecta nulos con `isna` y cuenta faltantes por columna.
* Rellena nulos: `Edad` con 0, `Ciudad` con `'Desconocido'`, `Ingreso` con la mediana.

In [8]:
print("7) MANEJO DE VALORES FALTANTES")
print("-" * 60)

# Detectar nulos
print("Valores nulos por columna:")
print(df.isna().sum())

# Rellenar nulos
df['Edad'] = df['Edad'].fillna(0)
df['Ciudad'] = df['Ciudad'].fillna('Desconocido')
df['Ingreso'] = df['Ingreso'].fillna(df['Ingreso'].median())

print("\nDataFrame con nulos rellenados:")
print(df)
print("\n" + "="*60 + "\n")

7) MANEJO DE VALORES FALTANTES
------------------------------------------------------------
Valores nulos por columna:
Nombre           0
Edad             1
Ciudad           1
Ingreso          1
Ingreso_anual    0
dtype: int64

DataFrame con nulos rellenados:
  Nombre  Edad       Ciudad  Ingreso  Ingreso_anual
0    Ana  30.0       Madrid   3000.0        36000.0
1    Bob  35.0         Lima   4500.0        54000.0
2  Clara  27.0       Bogotá   2800.0        33600.0
3  Diego   0.0     Medellin   5000.0        60000.0
4    Eva  33.0  Desconocido   3750.0            0.0




8. Leer y guardar datos
* Lee el CSV creado (`actividad_semana5.csv`) y muestra las primeras filas.
* Guarda un CSV con columnas seleccionadas (`Nombre`, `Edad`, `Ciudad`).

In [9]:
print("8) LEER Y GUARDAR DATOS")
print("-" * 60)

# Leer CSV
df_leido = pd.read_csv('actividad_semana5.csv')
print("Primeras filas del CSV leído:")
print(df_leido.head())

# Guardar CSV con columnas seleccionadas
df[['Nombre', 'Edad', 'Ciudad']].to_csv('personas_seleccion.csv', index=False)
print("\nCSV 'personas_seleccion.csv' guardado exitosamente.")
print("\n" + "="*60 + "\n")

8) LEER Y GUARDAR DATOS
------------------------------------------------------------
Primeras filas del CSV leído:
  Nombre  Edad    Ciudad  Ingreso
0    Ana  25.0    Madrid   3000.0
1    Bob  30.0      Lima   4500.0
2  Clara  22.0    Bogotá   2800.0
3  Diego   NaN  Medellin   5000.0
4    Eva  28.0       NaN      NaN

CSV 'personas_seleccion.csv' guardado exitosamente.




9. Ejercicio integrado
* Incrementa `Edad` en 5, filtra personas con `Ingreso_anual > 36000`, ordena por `Ingreso_anual` descendente y guarda como `personas_filtradas.csv`.

In [10]:
print("9) EJERCICIO INTEGRADO")
print("-" * 60)

# Recargar datos originales
df_integrado = pd.read_csv('actividad_semana5.csv')

# Incrementar Edad en 5
df_integrado['Edad'] = df_integrado['Edad'] + 5

# Crear Ingreso_anual
df_integrado['Ingreso_anual'] = df_integrado['Ingreso'].fillna(0) * 12

# Filtrar Ingreso_anual > 36000
df_integrado = df_integrado[df_integrado['Ingreso_anual'] > 36000]

# Ordenar por Ingreso_anual descendente
df_integrado = df_integrado.sort_values('Ingreso_anual', ascending=False)

# Guardar CSV
df_integrado.to_csv('personas_filtradas.csv', index=False)

print("Personas filtradas (Ingreso_anual > 36000):")
print(df_integrado)
print("\nCSV 'personas_filtradas.csv' guardado exitosamente.")

9) EJERCICIO INTEGRADO
------------------------------------------------------------
Personas filtradas (Ingreso_anual > 36000):
  Nombre  Edad    Ciudad  Ingreso  Ingreso_anual
3  Diego   NaN  Medellin   5000.0        60000.0
1    Bob  35.0      Lima   4500.0        54000.0

CSV 'personas_filtradas.csv' guardado exitosamente.
