# Básico

## Selección y Filtrado de Datos

Descripción: Uso de loc, iloc, at e iat para acceder a datos específicos.


In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'Marta'],
    'Edad': [23, 35, 45, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}
df = pd.DataFrame(data)

# Selección con loc (por etiqueta)
print(df.loc[1, 'Nombre'])  # Output: Luis

# Selección con iloc (por posición)
print(df.iloc[2, 2])        # Output: Valencia

# Filtrado de filas
mayores_30 = df[df['Edad'] > 30]
print(mayores_30)


## Manejo de Datos Faltantes

Descripción: Uso de dropna, fillna e interpolate para gestionar valores ausentes.

In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame con valores faltantes
data = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)

# Eliminar filas con cualquier valor faltante
df_drop = df.dropna()
print(df_drop)

# Rellenar valores faltantes con un valor específico
df_fill = df.fillna(0)
print(df_fill)

# Interpolar valores faltantes
df_interpolate = df.interpolate()
print(df_interpolate)


## Agrupación de Datos con groupby

Descripción: Agrupar datos y aplicar funciones de agregación.


In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Departamento': ['Ventas', 'Ventas', 'HR', 'HR', 'IT'],
    'Empleado': ['Ana', 'Luis', 'Carlos', 'Marta', 'Pedro'],
    'Salario': [50000, 60000, 45000, 52000, 58000]
}
df = pd.DataFrame(data)

# Agrupar por Departamento y calcular el salario promedio
promedio_salario = df.groupby('Departamento')['Salario'].mean()
print(promedio_salario)


## Fusión y Unión de DataFrames

Descripción: Uso de merge, join y concat para combinar DataFrames.


In [None]:
import pandas as pd

# Crear dos DataFrames de ejemplo
df1 = pd.DataFrame({
    'Empleado': ['Ana', 'Luis', 'Carlos'],
    'Departamento': ['Ventas', 'Ventas', 'HR']
})

df2 = pd.DataFrame({
    'Empleado': ['Ana', 'Luis', 'Carlos'],
    'Salario': [50000, 60000, 45000]
})

# Fusionar los DataFrames en base a 'Empleado'
df_merged = pd.merge(df1, df2, on='Empleado')
print(df_merged)


## Manejo de Tipos de Datos y Conversión

Descripción: Convertir tipos de datos y optimizar el uso de memoria.


In [None]:
import pandas as pd

# Crear un DataFrame con diferentes tipos de datos
data = {
    'A': [1, 2, 3],
    'B': ['4', '5', '6'],
    'C': ['2024-01-01', '2024-02-01', '2024-03-01']
}
df = pd.DataFrame(data)

# Convertir columna B a entero
df['B'] = df['B'].astype(int)

# Convertir columna C a datetime
df['C'] = pd.to_datetime(df['C'])

print(df.dtypes)


# Avanzado

## Manipulación de Datos con pivot y melt

Descripción: Reshape de datos para análisis

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Empleado': ['Ana', 'Luis', 'Carlos'],
    'Mes': ['Enero', 'Enero', 'Febrero'],
    'Ventas': [2500, 3000, 2800]
}
df = pd.DataFrame(data)

# Pivotar el DataFrame
df_pivot = df.pivot(index='Empleado', columns='Mes', values='Ventas')
print(df_pivot)

# Fundir el DataFrame (melt)
df_melt = df.pivot_table(index='Empleado', columns='Mes', values='Ventas').reset_index()
df_melt = pd.melt(df_melt, id_vars=['Empleado'], value_vars=['Enero', 'Febrero'], var_name='Mes', value_name='Ventas')
print(df_melt)


## Aplicación de Funciones con apply, map y applymap

Descripción: Transformar datos aplicando funciones personalizadas.


In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [23, 35, 45],
    'Salario': [50000, 60000, 45000]
}
df = pd.DataFrame(data)

# Aplicar una función a una columna usando apply
df['Edad_doble'] = df['Edad'].apply(lambda x: x * 2)
print(df)

# Mapear valores usando map
df['Nombre_mayus'] = df['Nombre'].map(str.upper)
print(df)

# Aplicar una función elemento a elemento usando applymap
df_num = df[['Edad', 'Salario']]
df_num = df_num.applymap(lambda x: x + 1000)
print(df_num)


## Optimización del Rendimiento

Descripción: Uso de operaciones vectorizadas y evitar bucles.


In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame grande
df = pd.DataFrame({
    'A': np.random.randint(0, 100, size=1000000)
})

# Método ineficiente: usar un bucle
# Sumar 1 a cada elemento
# Este método es lento y no recomendado
# df['A_plus1'] = 0
# for i in range(len(df)):
#     df.at[i, 'A_plus1'] = df.at[i, 'A'] + 1

# Método eficiente: usar operaciones vectorizadas
df['A_plus1'] = df['A'] + 1
print(df.head())
