<h2>Importar Pandas</h2>

In [None]:
import pandas as pd


<h2>Creación de DataFrames y Series
</h2>

In [None]:
# Crear un DataFrame desde un diccionario
data = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data)

# Crear una Serie desde una lista
s = pd.Series([1, 3, 5, 7, 9])

<h2>Operaciones de Selección
</h2>

In [None]:
# Seleccionar una columna (devuelve una Serie)
df['col1']

# Seleccionar múltiples columnas (devuelve un DataFrame)
df[['col1', 'col2']]

# Selección de filas por índice
df.iloc[0]  # Primera fila
df.iloc[0:2]  # Primeras dos filas

# Selección de filas por etiqueta
df.loc[0]

# Seleccionar filas con condiciones
df[df['col1'] > 1]

# Seleccionar una celda específica
df.at[0, 'col1']
df.iat[0, 0]

<h2>Manipulación de Datos</h2>

In [None]:
# Añadir una nueva columna
df['col3'] = df['col1'] + df['col2']

# Eliminar columnas
df.drop('col3', axis=1, inplace=True)

# Eliminar filas
df.drop(0, axis=0, inplace=True)

# Renombrar columnas
df.rename(columns={'col1': 'A', 'col2': 'B'}, inplace=True)

<h2>Operaciones de Agregación</h2>

In [None]:
# Calcular la suma de una columna
df['col1'].sum()

# Calcular la media de una columna
df['col1'].mean()

# Calcular la desviación estándar
df['col1'].std()

# Estadísticas descriptivas
df.describe()

<h2>Manejo de Datos Faltantes</h2

In [None]:
# Identificar datos faltantes
df.isna()

# Rellenar datos faltantes
df.fillna(0, inplace=True)

# Eliminar filas con datos faltantes
df.dropna(inplace=True)

<h2>Operaciones de Ordenamiento</h2

In [None]:
# Ordenar por valores de una columna
df.sort_values(by='col1', ascending=True, inplace=True)

# Ordenar por índice
df.sort_index(inplace=True)

<h2>Fusión y Unión de Datos</h2>

In [None]:
# Concatenar DataFrames (apilar verticalmente)
pd.concat([df1, df2], axis=0)

# Concatenar DataFrames (apilar horizontalmente)
pd.concat([df1, df2], axis=1)

# Unir DataFrames por claves comunes (join)
df1.join(df2, on='key')

# Mezclar DataFrames (merge)
pd.merge(df1, df2, on='key')

<h2>Operaciones de Agrupamiento</h2>

In [None]:
# Agrupar por una columna y calcular la media
df.groupby('col1').mean()

# Agrupar y aplicar múltiples funciones de agregación
df.groupby('col1').agg({'col2': 'sum', 'col3': 'mean'})

<h2>Operaciones de Fecha y Hora</h2>

In [None]:
# Convertir una columna a tipo datetime
df['date'] = pd.to_datetime(df['date'])

# Extraer año, mes, día de una columna datetime
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day

<h2>Entrada y Salida de Datos</h2>

In [None]:
# Leer datos desde un archivo CSV
df = pd.read_csv('archivo.csv')

# Guardar DataFrame en un archivo CSV
df.to_csv('archivo.csv', index=False)

# Leer datos desde un archivo Excel
df = pd.read_excel('archivo.xlsx', sheet_name='Sheet1')

# Guardar DataFrame en un archivo Excel
df.to_excel('archivo.xlsx', sheet_name='Sheet1', index=False)

<h2>Índices Avanzados</h2>

In [None]:
# Establecer una columna como índice
df.set_index('col1', inplace=True)

# Reiniciar el índice
df.reset_index(inplace=True)

# Índices jerárquicos (MultiIndex)
df_multi = df.set_index(['col1', 'col2'])

# Selección en MultiIndex
df_multi.loc[(index1, index2)]

<h2>Manipulación de Strings</h2>

In [None]:
# Convertir a minúsculas
df['col1'] = df['col1'].str.lower()

# Reemplazar caracteres
df['col1'] = df['col1'].str.replace('old', 'new')

# Dividir cadenas
df[['first', 'second']] = df['col1'].str.split(' ', expand=True)

# Extraer con expresiones regulares
df['numbers'] = df['col1'].str.extract('(\d+)')

<h2>Categorización de Datos</h2>

In [None]:
# Crear datos categóricos
df['category'] = df['col1'].astype('category')

# Categorización con cut
df['bins'] = pd.cut(df['col1'], bins=[0, 10, 20, 30], labels=['Low', 'Medium', 'High'])

# Categorización con qcut (cortes por cuantiles)
df['quantiles'] = pd.qcut(df['col1'], q=4, labels=['Q1', 'Q2', 'Q3', 'Q4'])

<h2>Visualización con Pandas</h2>

In [None]:
# Graficar directamente con Pandas
df['col1'].plot(kind='line')  # Línea
df['col1'].plot(kind='bar')   # Barra
df['col1'].plot(kind='hist')  # Histograma
df.plot(x='col1', y='col2', kind='scatter')  # Dispersión

# Mostrar gráficos
import matplotlib.pyplot as plt
plt.show()

<h2>Condiciones Complejas</h2>

In [None]:
# Usar np.where para asignación condicional
import numpy as np
df['new_col'] = np.where(df['col1'] > 0, 'Positive', 'Negative')

# Asignación condicional con loc
df.loc[df['col1'] > 0, 'new_col'] = 'Positive'