<h2>Query</h2>

In [None]:
#--SINTAXIS--
df.query('columna > 10 and columna2 == "A"')
df.query('columna not in ["A", "B"]')

#--EJEMPLOS--
# Filtrar filas donde "edad" sea mayor a 30
df.query('edad > 30')

# Filtrar filas donde "ciudad" esté en una lista
ciudades = ["Madrid", "Sevilla"]
df.query('ciudad in @ciudades')

# Mostrar filas donde columna no sea nula
df.query('columna.notnull()')

#seleccionar columnas despues de la consulta
df.query('edad > 30')[['nombre', 'ciudad']]

<h2>Limpieza y preparacion de datos</h2>

<h4>Eliminar filas o columnas</h4>

In [None]:
df.drop(columns=['columna1', 'columna2'], inplace=True)   # Eliminar columnas
df.drop(index=[2, 4], inplace=True)                        # Eliminar filas

<h4>Gestion de Nulos</h4>

In [None]:
#Deteccion
df.isnull()        # True si el valor es nulo
df.notnull()       # True si el valor no es nulo

#Eliminacion de nulos
df.dropna()                    # Elimina filas con algún NaN
df.dropna(axis='columns')      # Elimina columnas con NaN
df.dropna(thresh=3)            # Mantiene filas con al menos 3 datos válidos

#Rellenado de NUlos
df.fillna(0)                             # Rellena todos los NaN con 0
df['edad'].fillna(df['edad'].mean())     # Rellena con la media
df.fillna(method='ffill', limit=1)       # Rellenado hacia adelante

<h2>Eliminacion de duplicados</h2>

In [None]:
df.duplicated()                           # Booleanos indicando duplicados
df.drop_duplicates(inplace=True)          # Elimina duplicados
df.drop_duplicates(subset=['col1', 'col2'], keep='last')

<h2>Transformacion de datos</h2>

In [None]:
#con map
animales = {'perro': 'mamífero', 'gato': 'mamífero', 'loro': 'ave'}
df['tipo'] = df['animal'].map(animales)

#reemplazar valores
df['columna'].replace(['A', 'B'], ['X', 'Y'], inplace=True)

#renombrar columnas o indices
df.rename(columns={'old_name': 'new_name'}, inplace=True)
df.columns = ['Col1', 'Col2', 'Col3']

<h2>Discretizacion</h2>

In [None]:
#con cut()
bins = [0, 15, 25, 65, 130]
labels = ['niño', 'joven', 'adulto', 'mayor']
df['grupo_edad'] = pd.cut(df['edad'], bins=bins, labels=labels)

#con qcut() (cuantiles)
df['qcut'] = pd.qcut(df['ingresos'], q=4, labels=['bajo', 'medio-bajo', 'medio-alto', 'alto'])

<h2>Deteccion de valores atipicos</h2>

In [None]:
#con condiciones
df.query('columna > columna.mean() + 3 * columna.std()')

#manualmente
df[df['columna'] < 100]   # Ejemplo de filtrado de outliers

<h2>Variables Dummies</h2>

In [None]:
pd.get_dummies(df['categoria'], prefix='cat')
df = pd.DataFrame({'precio': ['alto', 'medio', 'bajo']})
pd.get_dummies(df, columns=['precio'])

#Dummies a partir de cadenas con separadores
df['género'].str.get_dummies(sep=',')

<h2>Combinacion y fusion de datasets</h2>

In [None]:
#MERGE
pd.merge(df1, df2, on='id', how='inner') #on="" es en la columna que se unen, how="" es como se unen
    #tipos:
        # 'inner': Solo filas coincidentes
        # 'left': Todas las de la izquierda
        # 'right': Todas las de la derecha
        # 'outer': Todas las filas, con NaN si no hay coincidencia

#CONCAT()
pd.concat([df1, df2], axis=0)  # Apilar filas
pd.concat([df1, df2], axis=1)  # Juntar columnas

#COMBINE_FIRST()
#Rellena los NaN de un DataFrame con los valores del otro:
df1.combine_first(df2)

#JOIN()
#Similar a merge, pero puede usar índices:
df1.join(df2, how='inner')

<h2>GROUP BY</h2>

In [None]:
#sintaxis
df.groupby('columna')['otra'].sum()

#ejemplos
# Suma total por tipo
df.groupby('tipo')['unidades_vendidas'].sum()

# Agrupar por 2 columnas
df.groupby(['producto', 'region'])['precio'].mean()

# Aplicar varias funciones
df.groupby('tipo')[['precio', 'ventas']].agg(['sum', 'mean'])

# Asignar funciones diferentes a cada columna
df.groupby('tipo').agg({'precio': ['mean', 'min'], 'ventas': 'sum'})


<h2>Funciones de str en Pandas</h2>

In [None]:
series.str.contains('patron')#contiene el patron
series.str.replace('viejo', 'nuevo')#reemplaza el viejo por el nuevo
series.str.contains('patron')#str a mayusculas
series.str.contains('patron')#str a minusculas
series.str.contains('patron')#str primera letra mayuscula resto en minusculas
series.str.strip()#elimina espacios a izquierda y derecha
series.str.lstrip()#elimina espacios a la izquierda
series.str.rstrip()#elimina espacios a la derecha
series.str.count('a')#cuenta la cantidad de 'a'
series.str.startswith(string)#devuelve true si empieza con string
series.str.endswith(string)#devuelve true si termina con string
series.str.split(' ').str[-1]       # Última palabra
series.str.extract('(\d+)')         # Extrae números con regex