Basicos de pandas para data analyst

In [2]:
#Importación de librerías
import pandas as pd

In [3]:
#1. Crear un DataFrame con datos de ejemplo
data = {
    "nombre": ["Ana", "Luis", "Carlos", "Lucía", "Pedro"],
    "edad": [23, 35, 30, 29, None],
    "ciudad": ["CDMX", "GDL", "CDMX", "MTY", "GDL"],
    "salario": [12000, 15000, None, 18000, 16000]
}

df = pd.DataFrame(data)

In [4]:
#2. Explorar el DataFrame
print("Primeras filas:")
print(df.head())  # Muestra las primeras 5 filas

print("\nInformación general del DataFrame:")
print(df.info())  # Tipos de datos y valores nulos

print("\nEstadísticas del DataFrame:")
print(df.describe())  # Estadísticas de columnas numéricas

Primeras filas:
   nombre  edad ciudad  salario
0     Ana  23.0   CDMX  12000.0
1    Luis  35.0    GDL  15000.0
2  Carlos  30.0   CDMX      NaN
3   Lucía  29.0    MTY  18000.0
4   Pedro   NaN    GDL  16000.0

Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   nombre   5 non-null      object 
 1   edad     4 non-null      float64
 2   ciudad   5 non-null      object 
 3   salario  4 non-null      float64
dtypes: float64(2), object(2)
memory usage: 292.0+ bytes
None

Estadísticas del DataFrame:
            edad  salario
count   4.000000      4.0
mean   29.250000  15250.0
std     4.924429   2500.0
min    23.000000  12000.0
25%    27.500000  14250.0
50%    29.500000  15500.0
75%    31.250000  16500.0
max    35.000000  18000.0


In [5]:
#3. Seleccionar columnas
print("\nSeleccionar solo la columna 'nombre':")
print(df["nombre"])

print("\nSeleccionar las columnas 'nombre' y 'edad':")
print(df[["nombre", "edad"]])


Seleccionar solo la columna 'nombre':
0       Ana
1      Luis
2    Carlos
3     Lucía
4     Pedro
Name: nombre, dtype: object

Seleccionar las columnas 'nombre' y 'edad':
   nombre  edad
0     Ana  23.0
1    Luis  35.0
2  Carlos  30.0
3   Lucía  29.0
4   Pedro   NaN


In [6]:
#4. Filtrar filas
print("\nFiltrar personas con edad mayor a 30:")
print(df[df["edad"] > 30])

print("\nFiltrar hombres mayores de 30 en GDL (suponiendo que sean Luis y Pedro):")
print(df[(df["edad"] > 30) & (df["ciudad"] == "GDL")])


Filtrar personas con edad mayor a 30:
  nombre  edad ciudad  salario
1   Luis  35.0    GDL  15000.0

Filtrar hombres mayores de 30 en GDL (suponiendo que sean Luis y Pedro):
  nombre  edad ciudad  salario
1   Luis  35.0    GDL  15000.0


In [7]:
#5. Reemplazar valores
df["ciudad"].replace("CDMX", "Ciudad de México", inplace=True)
print("\nReemplazamos 'CDMX' por 'Ciudad de México':")
print(df)


Reemplazamos 'CDMX' por 'Ciudad de México':
   nombre  edad            ciudad  salario
0     Ana  23.0  Ciudad de México  12000.0
1    Luis  35.0               GDL  15000.0
2  Carlos  30.0  Ciudad de México      NaN
3   Lucía  29.0               MTY  18000.0
4   Pedro   NaN               GDL  16000.0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["ciudad"].replace("CDMX", "Ciudad de México", inplace=True)


In [8]:
#6. Eliminar filas con valores nulos
df_sin_nulos = df.dropna()
print("\nDataFrame sin valores nulos:")
print(df_sin_nulos)


DataFrame sin valores nulos:
  nombre  edad            ciudad  salario
0    Ana  23.0  Ciudad de México  12000.0
1   Luis  35.0               GDL  15000.0
3  Lucía  29.0               MTY  18000.0


In [9]:
#7. Llenar valores faltantes
df.fillna({"edad": 0, "salario": 0}, inplace=True)
print("\nLlenamos valores faltantes con 0:")
print(df)


Llenamos valores faltantes con 0:
   nombre  edad            ciudad  salario
0     Ana  23.0  Ciudad de México  12000.0
1    Luis  35.0               GDL  15000.0
2  Carlos  30.0  Ciudad de México      0.0
3   Lucía  29.0               MTY  18000.0
4   Pedro   0.0               GDL  16000.0


In [10]:
#8. Agregar nueva columna calculada
df["salario_doble"] = df["salario"] * 2
print("\nNueva columna 'salario_doble':")
print(df)


Nueva columna 'salario_doble':
   nombre  edad            ciudad  salario  salario_doble
0     Ana  23.0  Ciudad de México  12000.0        24000.0
1    Luis  35.0               GDL  15000.0        30000.0
2  Carlos  30.0  Ciudad de México      0.0            0.0
3   Lucía  29.0               MTY  18000.0        36000.0
4   Pedro   0.0               GDL  16000.0        32000.0


In [11]:
#9. Agrupar datos por ciudad y calcular promedio de salario
print("\nPromedio de salario por ciudad:")
print(df.groupby("ciudad")["salario"].mean())


Promedio de salario por ciudad:
ciudad
Ciudad de México     6000.0
GDL                 15500.0
MTY                 18000.0
Name: salario, dtype: float64


In [12]:
#10. Ordenar por edad descendente
df_ordenado = df.sort_values("edad", ascending=False)
print("\nDataFrame ordenado por edad (descendente):")
print(df_ordenado)


DataFrame ordenado por edad (descendente):
   nombre  edad            ciudad  salario  salario_doble
1    Luis  35.0               GDL  15000.0        30000.0
2  Carlos  30.0  Ciudad de México      0.0            0.0
3   Lucía  29.0               MTY  18000.0        36000.0
0     Ana  23.0  Ciudad de México  12000.0        24000.0
4   Pedro   0.0               GDL  16000.0        32000.0


In [13]:
#Eliminar columnas
df.drop(columns=["salario_doble"], inplace=True)
print("\nEliminamos la columna 'salario_doble':")
print(df)


Eliminamos la columna 'salario_doble':
   nombre  edad            ciudad  salario
0     Ana  23.0  Ciudad de México  12000.0
1    Luis  35.0               GDL  15000.0
2  Carlos  30.0  Ciudad de México      0.0
3   Lucía  29.0               MTY  18000.0
4   Pedro   0.0               GDL  16000.0


In [14]:
#12. Simulamos un segundo DataFrame para hacer un merge (como JOIN en SQL)
extra_data = {
    "nombre": ["Ana", "Luis", "Carlos", "Lucía", "Pedro"],
    "departamento": ["Ventas", "TI", "Recursos Humanos", "TI", "Marketing"]
}

df_extra = pd.DataFrame(extra_data)

In [15]:
# Hacemos un inner join por la columna 'nombre'
df_combinado = pd.merge(df, df_extra, on="nombre", how="inner")
print("\nDataFrame combinado con información extra (JOIN):")
print(df_combinado)


DataFrame combinado con información extra (JOIN):
   nombre  edad            ciudad  salario      departamento
0     Ana  23.0  Ciudad de México  12000.0            Ventas
1    Luis  35.0               GDL  15000.0                TI
2  Carlos  30.0  Ciudad de México      0.0  Recursos Humanos
3   Lucía  29.0               MTY  18000.0                TI
4   Pedro   0.0               GDL  16000.0         Marketing
