# Ejercicios de pandas
Notebook con ejemplos prácticos para cada punto.

## 1. Introducción a pandas

In [1]:
import pandas as pd
import numpy as np
pd.__version__

'2.3.3'

## 2. Series y DataFrames

In [None]:
s = pd.Series([10, 20, 30], index=['a','b','c'])

print(s.head(1))
print(s.tail(1))
print(s.shape)
print(s.index)
print(s.info)
print(s.describe())
print(s.dtypes)


In [None]:
df = pd.DataFrame({'pais':['MX','AR','MX'], 'ventas':[100,200,150]})

print(df.head(1))
print(df.tail(1))
print(df.shape)
print(df.index)
print(df.info)
print(df.describe())
print(df.dtypes)


## 3. Importación y limpieza

In [None]:
url="https://github.com/Twoeme/Prueba2/raw/refs/heads/main/Pandas%20Class/layoffs.csv"
df = pd.read_csv(url)#sep=";"
df.head()

#Limpieza de datos
•	Valores faltantes

•	Tipos incorrectos

•	Errores de formato

•	Nombres de columnas inconsistentes


In [None]:
df.isna()
df.isna().sum()

df.dropna(how='all', subset=["col1"])
df.dropna(how='any')
df.fillna(0)
#df.fillna(method="bfill", "ffill")
#Rellenar con un número
#Rellenar con la media de la columna
#Rellenar con el valor anterior (method="ffill")
#Rellenar con el siguiente (method="bfill")


In [None]:
df = pd.DataFrame({'col':[1,2,np.nan,4], 'duplicado':[1,1,2,2]})
df

In [None]:
df.duplicated()
df.drop_duplicates()
#subset=["col1","col2"] → considerar duplicadas solo esas columnas
#keep="first" o keep="last"


In [None]:
df.rename(columns={"old":"new"})

In [None]:
df.columns = df.columns.str.lower()

In [None]:
df.columns = df.columns.str.replace(" ", "_")

In [None]:
df.columns = df.columns.str.replace(" ", "_")

In [None]:
df["col"] = df["col"].astype(int)
df["fecha"] = pd.to_datetime(df["fecha"])


In [None]:
df["col"] = df["col"].astype("category") #No es buena practica

# Flujo típico de limpieza
1.	Cargar archivo (CSV, Excel, JSON).

2.	Explorar estructura con .head(), .info(), .describe().

3.	Renombrar columnas.

4.	Tratar valores nulos.

5.	Eliminar duplicados.

6.	Arreglar tipos de datos.

7.	Verificar resultados.


## 4. Selección y filtrado

In [None]:
df = pd.DataFrame({'A':[1,2,3,4], 'B':[10,20,30,40]}, index=['a','b','c','d'])
df.loc['b':'d']

In [None]:
df.iloc[1:3]

In [None]:
df[df['A']>2]

## 5. Transformación de datos

In [None]:
df = pd.DataFrame({'A':[1,2,3], 'B':[10,20,30]})
df['C']=df['A']+df['B']
df

In [None]:
df.apply(lambda x: x*2)

## 6. Agrupaciones y análisis

In [None]:
df = pd.DataFrame({'pais':['MX','MX','AR'], 'ventas':[100,200,300]})
df.groupby('pais').sum()

In [None]:
df.groupby('pais').agg({'ventas':['sum','mean']})

## 7. Unión y combinación

In [None]:
df1 = pd.DataFrame({'id':[1,2], 'A':[10,20]})
df2 = pd.DataFrame({'id':[1,3], 'B':[100,300]})
pd.merge(df1, df2, on='id', how='outer')

## 8. Visualización básica (conceptual)

Los siguientes comandos funcionarían si matplotlib estuviera configurado:
```
df['A'].plot()
```

## 9. Optimización

In [None]:
df = pd.DataFrame({'x':np.random.randint(0,100,size=1000)})
df.info()

In [None]:
df['x'] = df['x'].astype('int32')
df.info()

## 10. Mini proyecto final

In [None]:
df = pd.DataFrame({'pais':['MX','AR','MX','CL'], 'ventas':[100,200,150,300]})
df