# 📊 Introducción a Pandas: Preprocesamiento de Datos para IA
---

¡Bienvenid@! En este taller aprenderás a utilizar **Pandas**, una de las bibliotecas más poderosas de Python para el análisis y preprocesamiento de datos, especialmente útil en proyectos de **Inteligencia Artificial (IA)**.



## 🧠 ¿Por qué es importante el preprocesamiento de datos?

En el mundo de la Inteligencia Artificial y el *Machine Learning*, los datos son el combustible. Pero, al igual que un motor no puede funcionar con combustible sucio, los modelos de IA no pueden aprender correctamente si los datos están desordenados, incompletos o mal estructurados.

Aquí es donde entra **Pandas**, una biblioteca esencial de Python para la manipulación y análisis de datos. Con Pandas, puedes:

✅ Cargar datos de diversas fuentes (CSV, Excel, bases de datos, etc.)  
✅ Limpiar y transformar tus datos fácilmente  
✅ Explorar estadísticas básicas y estructuras de los datos  
✅ Preparar conjuntos de datos listos para el modelado de IA

---

## 🎯 Objetivo del taller

Aprender a limpiar, transformar y optimizar datos con Pandas para mejorar el rendimiento de modelos de Inteligencia Artificial.

Aprenderás a dominar las funciones clave de Pandas para:

- Entender la estructura de un DataFrame
- Detectar y tratar valores faltantes o inconsistencias
- Realizar transformaciones útiles para el modelado
- Dejar tus datos listos para alimentar algoritmos de IA

---

## 🚀 ¡Comencemos!

Prepárate para convertir datos crudos en conocimientos listos para la acción.  
La aventura con Pandas empieza ahora. 🐼✨

# 🧱 ¿Qué es un DataFrame en Pandas?
Un DataFrame es una estructura de datos bidimensional (es decir, con filas y columnas) que se parece mucho a una tabla de Excel o una tabla de base de datos.

Es la estructura principal de Pandas para almacenar, analizar y manipular datos.



## 🐼 Tipos de datos en Pandas (DataFrames y Series)
Para ver los tipos de datos de nuestro df  usamos df.dtypes

| Tipo en Pandas       | Tipo en Python / NumPy | ¿Qué representa?                  | Ejemplo de dato          |
|----------------------|-------------------------|-----------------------------------|--------------------------|
| `int64`              | `int`                   | Números enteros                   | `42`                     |
| `float64`            | `float`                 | Números decimales                 | `3.1416`                 |
| `object`             | `str`                   | Texto o datos mixtos              | `"Hola mundo"`           |
| `bool`               | `bool`                  | Valores lógicos                   | `True or False`                   |
| `datetime64[ns]`     | `datetime`              | Fechas y horas                    | `2023-01-01 12:00:00`    ||
| `category`           | `category`              | Valores categóricos               | `"bajo"`, `"medio"`      |
| `str`             | Pandas `string` dtype   | Cadenas modernas (texto)          | `"texto"`                |


## 🐼 Funciones Principales de Pandas
Primero debes importar la librería:

In [2]:
import pandas as pd

# 🧱 Pasos para crear un DataFrame en Pandas

1.- Creas un diccionario de listas, donde:

* Cada clave es el nombre de una columna

* Cada lista es el contenido de esa columna

In [3]:
datos = {
    "Nombre": ["Ana", "Luis", "Sofía"],
    "Edad": [25, 30, 28],
    "Ciudad": ["Madrid", "Lima", "Bogotá"]
}


In [4]:
dfDatos = pd.DataFrame(datos) # Convertimos a df 

In [5]:
dfDatos

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,25,Madrid
1,Luis,30,Lima
2,Sofía,28,Bogotá


# ✅ Para leér un archivo en Google Colab

## 🔹  Subir tu archivo al entorno de Colab

In [6]:
#from google.colab import files
#uploaded = files.upload()

# 📥  Leér archivos de datos

df = pd.read_csv("archivo.csv")         # Leer archivo CSV

df = pd.read_excel("archivo.xlsx")      # Leer archivo Excel

df = pd.read_json("archivo.json")       # Leer archivo JSON

In [7]:
df = pd.read_csv("nfl.csv")  

In [8]:
df.dtypes # Tipos de datos de nuestro df

Name        object
Team        object
Position    object
Birthday    object
Salary       int64
dtype: object

# 👀  Explorar el DataFrame

In [9]:
df.head()           # Ver las primeras 5 filas

Unnamed: 0,Name,Team,Position,Birthday,Salary
0,Tremon Smith,Philadelphia Eagles,RB,7/20/1996,570000
1,Shawn Williams,Cincinnati Bengals,SS,5/13/1991,3500000
2,Adam Butler,New England Patriots,DT,4/12/1994,645000
3,Derek Wolfe,Denver Broncos,DE,2/24/1990,8000000
4,Jake Ryan,Jacksonville Jaguars,OLB,2/27/1992,1000000


In [10]:
df.head(8)           # Ver las primeras n filas

Unnamed: 0,Name,Team,Position,Birthday,Salary
0,Tremon Smith,Philadelphia Eagles,RB,7/20/1996,570000
1,Shawn Williams,Cincinnati Bengals,SS,5/13/1991,3500000
2,Adam Butler,New England Patriots,DT,4/12/1994,645000
3,Derek Wolfe,Denver Broncos,DE,2/24/1990,8000000
4,Jake Ryan,Jacksonville Jaguars,OLB,2/27/1992,1000000
5,Ezekiel Elliott,Dallas Cowboys,RB,7/22/1995,3853137
6,John Jenkins,Miami Dolphins,DE,7/11/1989,805000
7,Andrew Wingard,Jacksonville Jaguars,FS,12/5/1996,495000


In [11]:
df.tail()           # Ver las últimas 5 filas

Unnamed: 0,Name,Team,Position,Birthday,Salary
1650,Bashaud Breeland,Kansas City Chiefs,CB,1/30/1992,805000
1651,Craig James,Philadelphia Eagles,CB,4/29/1996,570000
1652,Jonotthan Harrison,New York Jets,C,8/25/1991,1500000
1653,Chuma Edoga,New York Jets,OT,5/25/1997,495000
1654,Tajae Sharpe,Tennessee Titans,WR,12/23/1994,2025000


In [12]:
df.tail(2)           # Ver las últimas n filas

Unnamed: 0,Name,Team,Position,Birthday,Salary
1653,Chuma Edoga,New York Jets,OT,5/25/1997,495000
1654,Tajae Sharpe,Tennessee Titans,WR,12/23/1994,2025000


In [13]:
df.shape            # (número de filas, número de columnas)

(1655, 5)

In [14]:
df.columns          # Nombres de columnas

Index(['Name', 'Team', 'Position', 'Birthday', 'Salary'], dtype='object')

# 📌 ¿Qué es el índice?
El índice es la etiqueta única que identifica a cada fila en un DataFrame.
Por defecto, es una secuencia de números (0, 1, 2, ...), pero puedes personalizarlo con nombres, fechas, IDs, etc.



El índice numérico de un DataFrame no siempre se muestra como una columna normal, pero sí existe internamente.

In [15]:
df.index            #  Te muestra (o te permite modificar) el índice de un DataFrame.

RangeIndex(start=0, stop=1655, step=1)

Esto significa que el índice va desde 0 hasta 1655 (1655 filas).

In [16]:
df.index.name # ver el nombre de la columna usada como índice

## ✅ ¿Cómo poner una columna como índice?

In [17]:
df = df.set_index("Name")

In [18]:
df.index.name

'Name'

In [19]:
df.index  # Muestra las etiquetas del índice

Index(['Tremon Smith', 'Shawn Williams', 'Adam Butler', 'Derek Wolfe',
       'Jake Ryan', 'Ezekiel Elliott', 'John Jenkins', 'Andrew Wingard',
       'John Jerry', 'Matt Barkley',
       ...
       'Bo Scarbrough', 'Raekwon McMillan', 'Ryan Smith', 'Anthony Averett',
       'Cameron Johnston', 'Bashaud Breeland', 'Craig James',
       'Jonotthan Harrison', 'Chuma Edoga', 'Tajae Sharpe'],
      dtype='object', name='Name', length=1655)

In [20]:
df = df.reset_index() # Devolvemos la columna normal

In [21]:
df.index.name

## 🗂️¿Qué te devuelve  df.info( ) ?

Nos proporciona un resumen compacto de su contenido, útil para conocer el estado general de tus datos.
| Elemento mostrado por `df.info()`     | ¿Qué significa?                                                                 |
|--------------------------------------|----------------------------------------------------------------------------------|
| Tipo de objeto (`<class '...'>`)     | Tipo del objeto (`pandas.core.frame.DataFrame`)                                 |
| `RangeIndex`                         | Tipo de índice, número total de filas y rango (ej. 0 a 99)                       |
| Número total de columnas             | Cuántas columnas hay en el DataFrame                                            |
| Lista de columnas                    | Nombres de las columnas (una por línea)                                         |
| Non-null Count                       | Cuántos valores **no nulos** hay en cada columna (útil para ver si hay vacíos)  |
| `Dtype`                              | Tipo de dato de cada columna (`int64`, `float64`, `object`, etc.)               |
| Resumen de tipos (`dtypes`)          | Cantidad de columnas por tipo de dato                                           |
| Uso de memoria (`memory usage`)      | Cuánta memoria ocupa el DataFrame en RAM                                        |


In [22]:
df.info()           # Información general del DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1655 entries, 0 to 1654
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Name      1655 non-null   object
 1   Team      1655 non-null   object
 2   Position  1655 non-null   object
 3   Birthday  1655 non-null   object
 4   Salary    1655 non-null   int64 
dtypes: int64(1), object(4)
memory usage: 64.8+ KB


## 📈 ¿Qué hace df.describe( )?
El método df.describe() muestra estadísticas resumidas de las columnas numéricas (por defecto), aunque también puede usarse con variables categóricas (include='object', include='all', etc.).

| Métrica   | ¿Qué significa?                                                                 |
|-----------|----------------------------------------------------------------------------------|
| `count`   | Cantidad de valores no nulos (cuántos datos hay en la columna)                  |
| `mean`    | Promedio de todos los valores                                                   |
| `std`     | Desviación estándar: qué tanto varían los valores respecto al promedio          |
| `min`     | Valor mínimo                                                                    |
| `25%`     | Primer cuartil (Q1): el 25% de los datos está por debajo de este valor          |
| `50%`     | Segundo cuartil o mediana (Q2): el 50% de los datos está por debajo             |
| `75%`     | Tercer cuartil (Q3): el 75% de los datos está por debajo de este valor          |
| `max`     | Valor máximo                                                                    |


## 🧮 ¿Qué son los cuartiles?
Los cuartiles son una forma de dividir tus datos en 4 partes iguales. Te ayudan a entender cómo están distribuidos los datos: si están más concentrados en los valores bajos, altos, o bien repartidos.

Imagina que tienes esta lista de edades ordenadas: [25, 28, 30, 35, 40]

# Ahora la divides en 4 partes:

📦 Q1 (25%) → El valor debajo del cual está el 25% de los datos

🎯 Q2 (50%) → La mediana, el valor en el medio de todos los datos

📦 Q3 (75%) → El valor debajo del cual está el 75% de los datos


# 🎯 En df.describe(), ¿qué significan?
|Nombre en describe()  |Cuartil	Significado                                                                |
|-----------|----------------------------------------------------------------------------------|
| `25%	Q1	`   | El 25% de los datos está por debajo de este valor                  |
| `50%	Q2`    |La mediana: el valor central                                            |
| `75%	Q3`     | 	El 75% de los datos está por debajo de este valor         |
	


## 📊 ¿Para qué sirven los cuartiles?

Los cuartiles dividen tus datos en partes iguales para ayudarte a ver cómo están distribuidos, no solo cuántos hay, sino dónde se concentran los valores y te ayudan a:

✅ Ver la distribución de los datos (si están concentrados en valores bajos o altos)

✅ Detectar valores atípicos (outliers)

✅ Comparar grupos de datos

✅ Hacer gráficos como boxplots, que se basan en los cuartiles



## 🗂️ Ejemplo

In [23]:
# Paso 1: Importar la librería pandas
import pandas as pd

# Paso 2: Crear un DataFrame con una columna llamada "Edad"
data = {
    "Edad": [25, 30, 28, 35, 40]  # Estos son los datos de ejemplo
}

df_2 = pd.DataFrame(data)

# Paso 3: Mostrar el DataFrame
print(" DataFrame original:")
print(df_2)

# Paso 4: Usar describe() para ver estadísticas
print("\n Estadísticas descriptivas con df.describe():")
print(df_2.describe())

# Paso 5: Explicar cada valor
print("\n🧠 Explicación paso a paso:")
print(f"- count: {df_2['Edad'].count()} → Total de datos (no nulos)")
print(f"- mean: {df_2['Edad'].mean()} → Promedio")
print(f"- std: {df_2['Edad'].std():.2f} → Desviación estándar")
print(f"- min: {df_2['Edad'].min()} → Valor mínimo")
print(f"- 25%: {df_2['Edad'].quantile(0.25)} → Primer cuartil (25%)")
print(f"- 50%: {df_2['Edad'].median()} → Mediana (50%)")
print(f"- 75%: {df_2['Edad'].quantile(0.75)} → Tercer cuartil (75%)")
print(f"- max: {df_2['Edad'].max()} → Valor máximo")


 DataFrame original:
   Edad
0    25
1    30
2    28
3    35
4    40

 Estadísticas descriptivas con df.describe():
           Edad
count   5.00000
mean   31.60000
std     5.94138
min    25.00000
25%    28.00000
50%    30.00000
75%    35.00000
max    40.00000

🧠 Explicación paso a paso:
- count: 5 → Total de datos (no nulos)
- mean: 31.6 → Promedio
- std: 5.94 → Desviación estándar
- min: 25 → Valor mínimo
- 25%: 28.0 → Primer cuartil (25%)
- 50%: 30.0 → Mediana (50%)
- 75%: 35.0 → Tercer cuartil (75%)
- max: 40 → Valor máximo


In [24]:
df.describe()       # Estadísticas resumen de columnas numéricas

Unnamed: 0,Salary
count,1655.0
mean,1861569.0
std,2748519.0
min,378000.0
25%,570000.0
50%,800000.0
75%,1839952.0
max,27500000.0


## 📘 Interpretación
* Hay 1,655 personas o casos con datos de salario.

* El salario promedio es de $1,861,569, pero este número puede estar afectado por algunos salarios muy altos (outliers).

* El mínimo salario registrado es de $378,000 y el máximo es $27,500,000 → hay mucha diferencia entre ambos.

* El 50% de las personas gana $800,000 o menos.

* El 75% gana menos de $1.83 millones, lo que indica que la mayoría está muy por debajo del máximo.

* La desviación estándar de casi $2.7 millones indica que los salarios están muy dispersos o varían mucho.

In [25]:
len(df)             # Número total de filas

1655

# 🔍  Seleccionar datos
## ✅ Formas de seleccionar una columna en Pandas

In [26]:
df["Position"]                 # ✅ Por nombre de columna

0        RB
1        SS
2        DT
3        DE
4       OLB
       ... 
1650     CB
1651     CB
1652      C
1653     OT
1654     WR
Name: Position, Length: 1655, dtype: object

In [27]:
df.Position #✅ Usando notación punto

0        RB
1        SS
2        DT
3        DE
4       OLB
       ... 
1650     CB
1651     CB
1652      C
1653     OT
1654     WR
Name: Position, Length: 1655, dtype: object

In [28]:
df[["Name", "Position"]]          # Seleccionar varias columnas

Unnamed: 0,Name,Position
0,Tremon Smith,RB
1,Shawn Williams,SS
2,Adam Butler,DT
3,Derek Wolfe,DE
4,Jake Ryan,OLB
...,...,...
1650,Bashaud Breeland,CB
1651,Craig James,CB
1652,Jonotthan Harrison,C
1653,Chuma Edoga,OT


## ✅ Formas de seleccionar Filas en Pandas

## 🔹 .loc[ ] → Selección por etiqueta
* Usa nombres de filas y columnas.
* Muy útil cuando el índice o los nombres de columna son textos.


In [29]:
df.loc[0]                     # Seleccionar fila por etiqueta (índice)

Name               Tremon Smith
Team        Philadelphia Eagles
Position                     RB
Birthday              7/20/1996
Salary                   570000
Name: 0, dtype: object

In [30]:
df.loc[0,"Salary"]   # El Salario de la persona 0

570000

In [31]:
df.loc[df["Salary"] > 4000000] # Salario mayor a 40millones

Unnamed: 0,Name,Team,Position,Birthday,Salary
3,Derek Wolfe,Denver Broncos,DE,2/24/1990,8000000
15,Ryan Kerrigan,Washington Redskins,OLB,8/16/1988,10500000
26,Melvin Ingram,Los Angeles Chargers,DE,4/26/1989,17000000
31,Malcolm Jenkins,Philadelphia Eagles,SS,12/20/1987,8100000
45,Joel Bitonio,Cleveland Browns,G,10/11/1991,6500000
...,...,...,...,...,...
1597,Kelvin Beachum,New York Jets,OT,6/8/1989,8000000
1623,Jameis Winston,Tampa Bay Buccaneers,QB,1/6/1994,20922000
1629,Benardrick McKinney,Houston Texans,ILB,6/1/1994,6000000
1640,Richard Sherman,San Francisco 49Ers,CB,3/30/1988,7000000


In [32]:
df.loc[:, "Position"]      # Todas las filas, columna "Position"

0        RB
1        SS
2        DT
3        DE
4       OLB
       ... 
1650     CB
1651     CB
1652      C
1653     OT
1654     WR
Name: Position, Length: 1655, dtype: object

## 🔸 .iloc[ ] → Selección por posición
* Usa números de posición, como si fuera una lista.
* Muy útil cuando no sabes el nombre exacto o estás trabajando con datos sin etiquetas.

In [33]:
df.iloc[0]                    # Seleccionar fila por posición

Name               Tremon Smith
Team        Philadelphia Eagles
Position                     RB
Birthday              7/20/1996
Salary                   570000
Name: 0, dtype: object

In [34]:
df.iloc[[0, 2]]	# Filas en posición 0 y 2

Unnamed: 0,Name,Team,Position,Birthday,Salary
0,Tremon Smith,Philadelphia Eagles,RB,7/20/1996,570000
2,Adam Butler,New England Patriots,DT,4/12/1994,645000


In [35]:
df.iloc[1, 2]	# Valor en fila 1, columna 2 (Position)

'SS'

In [36]:
df.iloc[:, 1]          # Todas las filas, columna en posición 1


0        Philadelphia Eagles
1         Cincinnati Bengals
2       New England Patriots
3             Denver Broncos
4       Jacksonville Jaguars
                ...         
1650      Kansas City Chiefs
1651     Philadelphia Eagles
1652           New York Jets
1653           New York Jets
1654        Tennessee Titans
Name: Team, Length: 1655, dtype: object

## 🧼  Filtrar datos (condiciones)

In [37]:
df[df["Salary"] == 3000000]                      # Edad mayor a 3 millones


Unnamed: 0,Name,Team,Position,Birthday,Salary
419,Michael Bennett,Dallas Cowboys,DE,11/13/1985,3000000
527,Michael Bennett,Atlanta Falcons,DT,2/24/1993,3000000
549,Gerald McCoy,Carolina Panthers,DE,2/25/1988,3000000
553,Willie Snead,Baltimore Ravens,WR,10/17/1992,3000000
610,Colt McCoy,Washington Redskins,QB,9/5/1986,3000000
682,Clay Matthews,Los Angeles Rams,OLB,5/14/1986,3000000
688,Terrell Suggs,Kansas City Chiefs,DE,10/11/1982,3000000
780,Jaquiski Tartt,San Francisco 49Ers,SS,2/18/1992,3000000
886,Kareem Jackson,Denver Broncos,SS,4/10/1988,3000000
1040,Cordarrelle Patterson,Chicago Bears,WR,3/17/1991,3000000


In [38]:
df[(df["Salary"] >3000000) & (df["Position"] == "DE")]   # Dos condiciones (AND)

Unnamed: 0,Name,Team,Position,Birthday,Salary
3,Derek Wolfe,Denver Broncos,DE,2/24/1990,8000000
26,Melvin Ingram,Los Angeles Chargers,DE,4/26/1989,17000000
85,Shelby Harris,Denver Broncos,DE,8/11/1991,3095000
226,Vic Beasley,Atlanta Falcons,DE,7/8/1992,12810000
240,Jerry Hughes,Buffalo Bills,DE,8/13/1988,6800000
383,Leonard Williams,New York Giants,DE,6/20/1994,14200000
423,Kawann Short,Carolina Panthers,DE,2/2/1989,12500000
614,Olivier Vernon,Cleveland Browns,DE,10/7/1990,15250000
710,Dee Ford,San Francisco 49Ers,DE,3/19/1991,4750000
757,Cameron Jordan,New Orleans Saints,DE,7/10/1989,8000000


In [39]:
df[df["Team"].isin(["Denver Broncos", "Buffalo Bills"])]     # Valores dentro de una lista

Unnamed: 0,Name,Team,Position,Birthday,Salary
3,Derek Wolfe,Denver Broncos,DE,2/24/1990,8000000
9,Matt Barkley,Buffalo Bills,QB,9/8/1990,1250000
36,Colby Wadman,Denver Broncos,P,4/19/1995,570000
53,Tim Patrick,Denver Broncos,WR,11/23/1993,570000
56,Malik Reed,Denver Broncos,OLB,8/5/1996,495000
...,...,...,...,...,...
1570,Frank Gore,Buffalo Bills,RB,5/14/1983,1250000
1586,Spencer Long,Buffalo Bills,G,11/8/1990,1350000
1588,Adam Gotsis,Denver Broncos,DE,9/23/1992,986987
1589,Demarcus Walker,Denver Broncos,NT,9/30/1994,926260


In [40]:
df[df["Name"].str.contains("Adams")]         # Filtro por texto

Unnamed: 0,Name,Team,Position,Birthday,Salary
13,Andrew Adams,Tampa Bay Buccaneers,SS,10/28/1992,720000
44,Matthew Adams,Indianapolis Colts,OLB,12/12/1995,570000
166,Tyrell Adams,Houston Texans,OLB,4/11/1992,720000
195,Davante Adams,Green Bay Packers,WR,12/24/1992,2750000
359,Josh Adams,New York Jets,RB,10/29/1996,570000
651,Jerell Adams,New Orleans Saints,TE,12/31/1992,645000
665,Jamal Adams,New York Jets,SS,10/17/1995,645000
720,Montravius Adams,Green Bay Packers,NT,7/24/1995,671000


In [41]:
df[df["Name"].str.contains("josh", case=False)] # Insensible a mayusculas 


Unnamed: 0,Name,Team,Position,Birthday,Salary
10,Josh Harris,Atlanta Falcons,LS,4/27/1989,930000
62,Joshua Kalu,Tennessee Titans,FS,8/28/1995,570000
67,Josh Jones,Dallas Cowboys,FS,9/20/1994,849856
71,Josh Kline,Minnesota Vikings,G,10/29/1989,1450000
78,Josh Tupou,Cincinnati Bengals,NT,5/2/1994,645000
182,Josh Harvey-Clemons,Washington Redskins,ILB,2/20/1994,645000
244,Josh Rosen,Miami Dolphins,QB,2/10/1997,570000
301,Josh Ferguson,Washington Redskins,RB,5/23/1993,645000
304,Joshua Miles,Arizona Cardinals,OT,1/4/1996,495000
305,Josh Reynolds,Los Angeles Rams,WR,2/16/1995,645000


## ✅ ¿Cómo cambiamos los nombres de nuestras columnas?
## ✅ OPCIÓN 1: Cambiar una o más columnas con rename()

In [42]:
df.rename(columns={"Name": "Nombre"}, inplace=True);df

Unnamed: 0,Nombre,Team,Position,Birthday,Salary
0,Tremon Smith,Philadelphia Eagles,RB,7/20/1996,570000
1,Shawn Williams,Cincinnati Bengals,SS,5/13/1991,3500000
2,Adam Butler,New England Patriots,DT,4/12/1994,645000
3,Derek Wolfe,Denver Broncos,DE,2/24/1990,8000000
4,Jake Ryan,Jacksonville Jaguars,OLB,2/27/1992,1000000
...,...,...,...,...,...
1650,Bashaud Breeland,Kansas City Chiefs,CB,1/30/1992,805000
1651,Craig James,Philadelphia Eagles,CB,4/29/1996,570000
1652,Jonotthan Harrison,New York Jets,C,8/25/1991,1500000
1653,Chuma Edoga,New York Jets,OT,5/25/1997,495000


## ✅ OPCIÓN 2: Cambiar todos los nombres a la vez
Puedes asignar una nueva lista de nombres directamente a df.columns.


In [43]:
df.columns = ["Nombre","Equipo","Posicion","Cumpleaños","Salario"] ;df

Unnamed: 0,Nombre,Equipo,Posicion,Cumpleaños,Salario
0,Tremon Smith,Philadelphia Eagles,RB,7/20/1996,570000
1,Shawn Williams,Cincinnati Bengals,SS,5/13/1991,3500000
2,Adam Butler,New England Patriots,DT,4/12/1994,645000
3,Derek Wolfe,Denver Broncos,DE,2/24/1990,8000000
4,Jake Ryan,Jacksonville Jaguars,OLB,2/27/1992,1000000
...,...,...,...,...,...
1650,Bashaud Breeland,Kansas City Chiefs,CB,1/30/1992,805000
1651,Craig James,Philadelphia Eagles,CB,4/29/1996,570000
1652,Jonotthan Harrison,New York Jets,C,8/25/1991,1500000
1653,Chuma Edoga,New York Jets,OT,5/25/1997,495000


# ✅ OPCIÓN 3: Renombrar solo algunas columnas, dejando las demás igual

In [44]:
df = df.rename(columns={"Cumpleaños": "Fecha_Nacimiento","Posicion":"Pos"});df

Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario
0,Tremon Smith,Philadelphia Eagles,RB,7/20/1996,570000
1,Shawn Williams,Cincinnati Bengals,SS,5/13/1991,3500000
2,Adam Butler,New England Patriots,DT,4/12/1994,645000
3,Derek Wolfe,Denver Broncos,DE,2/24/1990,8000000
4,Jake Ryan,Jacksonville Jaguars,OLB,2/27/1992,1000000
...,...,...,...,...,...
1650,Bashaud Breeland,Kansas City Chiefs,CB,1/30/1992,805000
1651,Craig James,Philadelphia Eagles,CB,4/29/1996,570000
1652,Jonotthan Harrison,New York Jets,C,8/25/1991,1500000
1653,Chuma Edoga,New York Jets,OT,5/25/1997,495000


## 🧹  Limpiar datos

In [45]:
df.isnull()               # Ver valores nulos (True/False)

Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
...,...,...,...,...,...
1650,False,False,False,False,False
1651,False,False,False,False,False
1652,False,False,False,False,False
1653,False,False,False,False,False


In [46]:
df.isnull().sum()         # Contar nulos por columna

Nombre              0
Equipo              0
Pos                 0
Fecha_Nacimiento    0
Salario             0
dtype: int64

In [47]:
df.dropna()               # Eliminar filas con nulos

Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario
0,Tremon Smith,Philadelphia Eagles,RB,7/20/1996,570000
1,Shawn Williams,Cincinnati Bengals,SS,5/13/1991,3500000
2,Adam Butler,New England Patriots,DT,4/12/1994,645000
3,Derek Wolfe,Denver Broncos,DE,2/24/1990,8000000
4,Jake Ryan,Jacksonville Jaguars,OLB,2/27/1992,1000000
...,...,...,...,...,...
1650,Bashaud Breeland,Kansas City Chiefs,CB,1/30/1992,805000
1651,Craig James,Philadelphia Eagles,CB,4/29/1996,570000
1652,Jonotthan Harrison,New York Jets,C,8/25/1991,1500000
1653,Chuma Edoga,New York Jets,OT,5/25/1997,495000


In [48]:
df.fillna("desconocido")  # Reemplazar nulos con un valor

Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario
0,Tremon Smith,Philadelphia Eagles,RB,7/20/1996,570000
1,Shawn Williams,Cincinnati Bengals,SS,5/13/1991,3500000
2,Adam Butler,New England Patriots,DT,4/12/1994,645000
3,Derek Wolfe,Denver Broncos,DE,2/24/1990,8000000
4,Jake Ryan,Jacksonville Jaguars,OLB,2/27/1992,1000000
...,...,...,...,...,...
1650,Bashaud Breeland,Kansas City Chiefs,CB,1/30/1992,805000
1651,Craig James,Philadelphia Eagles,CB,4/29/1996,570000
1652,Jonotthan Harrison,New York Jets,C,8/25/1991,1500000
1653,Chuma Edoga,New York Jets,OT,5/25/1997,495000


In [49]:
df.duplicated()           # Ver filas duplicadas

0       False
1       False
2       False
3       False
4       False
        ...  
1650    False
1651    False
1652    False
1653    False
1654    False
Length: 1655, dtype: bool

In [50]:
df.drop_duplicates()      # Eliminar duplicados

Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario
0,Tremon Smith,Philadelphia Eagles,RB,7/20/1996,570000
1,Shawn Williams,Cincinnati Bengals,SS,5/13/1991,3500000
2,Adam Butler,New England Patriots,DT,4/12/1994,645000
3,Derek Wolfe,Denver Broncos,DE,2/24/1990,8000000
4,Jake Ryan,Jacksonville Jaguars,OLB,2/27/1992,1000000
...,...,...,...,...,...
1650,Bashaud Breeland,Kansas City Chiefs,CB,1/30/1992,805000
1651,Craig James,Philadelphia Eagles,CB,4/29/1996,570000
1652,Jonotthan Harrison,New York Jets,C,8/25/1991,1500000
1653,Chuma Edoga,New York Jets,OT,5/25/1997,495000


## 🔁 Modificar datos

In [51]:
df["Salario"] = df["Salario"].astype(int)    # Cambiar tipo de dato a entero

In [52]:
df.dtypes

Nombre              object
Equipo              object
Pos                 object
Fecha_Nacimiento    object
Salario              int32
dtype: object

In [53]:
df["Nombre"] = df["Nombre"].str.upper() ; df  # Texto a mayúsculas

Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario
0,TREMON SMITH,Philadelphia Eagles,RB,7/20/1996,570000
1,SHAWN WILLIAMS,Cincinnati Bengals,SS,5/13/1991,3500000
2,ADAM BUTLER,New England Patriots,DT,4/12/1994,645000
3,DEREK WOLFE,Denver Broncos,DE,2/24/1990,8000000
4,JAKE RYAN,Jacksonville Jaguars,OLB,2/27/1992,1000000
...,...,...,...,...,...
1650,BASHAUD BREELAND,Kansas City Chiefs,CB,1/30/1992,805000
1651,CRAIG JAMES,Philadelphia Eagles,CB,4/29/1996,570000
1652,JONOTTHAN HARRISON,New York Jets,C,8/25/1991,1500000
1653,CHUMA EDOGA,New York Jets,OT,5/25/1997,495000


In [54]:
df["Nombre"] = df["Nombre"].str.lower() ;df # Texto a mayúsculas

Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario
0,tremon smith,Philadelphia Eagles,RB,7/20/1996,570000
1,shawn williams,Cincinnati Bengals,SS,5/13/1991,3500000
2,adam butler,New England Patriots,DT,4/12/1994,645000
3,derek wolfe,Denver Broncos,DE,2/24/1990,8000000
4,jake ryan,Jacksonville Jaguars,OLB,2/27/1992,1000000
...,...,...,...,...,...
1650,bashaud breeland,Kansas City Chiefs,CB,1/30/1992,805000
1651,craig james,Philadelphia Eagles,CB,4/29/1996,570000
1652,jonotthan harrison,New York Jets,C,8/25/1991,1500000
1653,chuma edoga,New York Jets,OT,5/25/1997,495000


In [55]:
df["Salario_semestral"] = df["Salario"] / 2 ;df # Crear nueva columna

Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario,Salario_semestral
0,tremon smith,Philadelphia Eagles,RB,7/20/1996,570000,285000.0
1,shawn williams,Cincinnati Bengals,SS,5/13/1991,3500000,1750000.0
2,adam butler,New England Patriots,DT,4/12/1994,645000,322500.0
3,derek wolfe,Denver Broncos,DE,2/24/1990,8000000,4000000.0
4,jake ryan,Jacksonville Jaguars,OLB,2/27/1992,1000000,500000.0
...,...,...,...,...,...,...
1650,bashaud breeland,Kansas City Chiefs,CB,1/30/1992,805000,402500.0
1651,craig james,Philadelphia Eagles,CB,4/29/1996,570000,285000.0
1652,jonotthan harrison,New York Jets,C,8/25/1991,1500000,750000.0
1653,chuma edoga,New York Jets,OT,5/25/1997,495000,247500.0


# ✅ Convertir columna a fecha

In [74]:
# Convertir a tipo datetime
df["Fecha_Nacimiento"] = pd.to_datetime(df["Fecha_Nacimiento"])

In [75]:
df.dtypes

Nombre                       object
Equipo                       object
Pos                          object
Fecha_Nacimiento     datetime64[ns]
Salario                       int32
Salario_semestral           float64
dtype: object

In [78]:
df["Fecha_Nacimiento"].dt.year # Obtener Años

0       1996
1       1991
2       1994
3       1990
4       1992
        ... 
1650    1992
1651    1996
1652    1991
1653    1997
1654    1994
Name: Fecha_Nacimiento, Length: 1655, dtype: int32

In [79]:
df["Fecha_Nacimiento"].dt.month # mes

0        7
1        5
2        4
3        2
4        2
        ..
1650     1
1651     4
1652     8
1653     5
1654    12
Name: Fecha_Nacimiento, Length: 1655, dtype: int32

In [None]:
df["Fecha_Nacimiento"].dt.day # día

0       20
1       13
2       12
3       24
4       27
        ..
1650    30
1651    29
1652    25
1653    25
1654    23
Name: Fecha_Nacimiento, Length: 1655, dtype: int32

In [81]:
df["Fecha_Nacimiento"].dt.weekday # Número de semana

0       5
1       0
2       1
3       5
4       3
       ..
1650    3
1651    0
1652    6
1653    6
1654    4
Name: Fecha_Nacimiento, Length: 1655, dtype: int32

In [82]:
df["Fecha_Nacimiento"].dt.day_name() #Día de la semana (texto)

0       Saturday
1         Monday
2        Tuesday
3       Saturday
4       Thursday
          ...   
1650    Thursday
1651      Monday
1652      Sunday
1653      Sunday
1654      Friday
Name: Fecha_Nacimiento, Length: 1655, dtype: object

In [83]:
df["Fecha_Nacimiento"].dt.month_name() # Nombre del mes

0           July
1            May
2          April
3       February
4       February
          ...   
1650     January
1651       April
1652      August
1653         May
1654    December
Name: Fecha_Nacimiento, Length: 1655, dtype: object

In [84]:
df["Fecha_Nacimiento"].dt.dayofyear #Día del año

0       202
1       133
2       102
3        55
4        58
       ... 
1650     30
1651    120
1652    237
1653    145
1654    357
Name: Fecha_Nacimiento, Length: 1655, dtype: int32

In [85]:
df["Fecha_Nacimiento"].dt.isocalendar().week # Semana del año

0       29
1       20
2       15
3        8
4        9
        ..
1650     5
1651    18
1652    34
1653    21
1654    51
Name: week, Length: 1655, dtype: UInt32

# 🧮 Calcular edad 

🔹 import datetime
Este módulo de Python se usa para trabajar con fechas y horas. En este caso, lo importamos por si queremos usarlo, pero en realidad la función principal viene de Pandas.

🔹pd.Timestamp.today()
Esto obtiene la fecha y hora actual de hoy como un objeto tipo fecha de Pandas (Timestamp).

🔹 hoy - df["Fecha_Nacimiento"]
Esto resta la fecha de nacimiento de cada persona al día de hoy.
El resultado es un Timedelta, que representa cuántos días han pasado desde el nacimiento.

🔹 .dt.days
Esto convierte ese resultado (Timedelta) en número de días enteros.

Entonces:
(hoy - fecha).dt.days → te da algo como 12784 días vividos.

🔹 // 365
La división // es división entera (sin decimales).



In [87]:
import datetime

hoy = pd.Timestamp.today()
df["Edad"] = (hoy - df["Fecha_Nacimiento"]).dt.days // 365;df


Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario,Salario_semestral,Edad
0,tremon smith,Philadelphia Eagles,RB,1996-07-20,570000,285000.0,28
1,shawn williams,Cincinnati Bengals,SS,1991-05-13,3500000,1750000.0,33
2,adam butler,New England Patriots,DT,1994-04-12,645000,322500.0,31
3,derek wolfe,Denver Broncos,DE,1990-02-24,8000000,4000000.0,35
4,jake ryan,Jacksonville Jaguars,OLB,1992-02-27,1000000,500000.0,33
...,...,...,...,...,...,...,...
1650,bashaud breeland,Kansas City Chiefs,CB,1992-01-30,805000,402500.0,33
1651,craig james,Philadelphia Eagles,CB,1996-04-29,570000,285000.0,28
1652,jonotthan harrison,New York Jets,C,1991-08-25,1500000,750000.0,33
1653,chuma edoga,New York Jets,OT,1997-05-25,495000,247500.0,27


## 🧮 Agrupar y resumir

In [56]:
df["Pos"].value_counts()             # Conteo de valores únicos

Pos
WR     183
CB     177
OLB    136
DE     130
RB     116
OT     110
TE     107
G      107
ILB     82
DT      78
SS      75
FS      72
C       62
QB      59
NT      43
K       30
P       29
LS      28
LB      16
FB      13
DB       2
Name: count, dtype: int64

In [57]:
df.dtypes

Nombre                object
Equipo                object
Pos                   object
Fecha_Nacimiento      object
Salario                int32
Salario_semestral    float64
dtype: object

In [58]:
df.groupby("Pos")["Salario"].mean() # Promedio por grupo

Pos
C      1.933785e+06
CB     1.899429e+06
DB     5.325000e+05
DE     2.319654e+06
DT     2.148131e+06
FB     1.119231e+06
FS     1.414090e+06
G      2.173749e+06
ILB    1.620566e+06
K      1.375867e+06
LB     1.857216e+06
LS     7.705988e+05
NT     1.495682e+06
OLB    1.635419e+06
OT     2.823620e+06
P      1.353416e+06
QB     3.870457e+06
RB     1.149650e+06
SS     1.375654e+06
TE     1.266851e+06
WR     1.875392e+06
Name: Salario, dtype: float64

In [59]:
df.groupby(["Equipo", "Pos"]).sum()       # Agrupar por varias columnas

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Fecha_Nacimiento,Salario,Salario_semestral
Equipo,Pos,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Arizona Cardinals,C,mason cole,3/28/1996,570000,285000.0
Arizona Cardinals,CB,kevin petersonpatrick petersonchris jonesbyron...,3/22/19947/11/19908/13/19951/18/1998,13865000,6932500.0
Arizona Cardinals,DE,jonathan bullardcaraun reidzach kerrmichael do...,11/30/199311/23/19918/29/19905/5/19961/19/1992,4620000,2310000.0
Arizona Cardinals,FS,budda bakerchris banjocharles washington,1/10/19962/26/19903/10/1993,2580910,1290455.0
Arizona Cardinals,G,justin pughmax garcia,8/15/199011/9/1991,6100000,3050000.0
...,...,...,...,...,...
Washington Redskins,QB,dwayne haskinscolt mccoycase keenum,5/3/19979/5/19862/17/1988,6995000,3497500.0
Washington Redskins,RB,chris thompsonjosh fergusonadrian petersonwend...,10/20/19905/23/19933/21/19851/29/1994,5145000,2572500.0
Washington Redskins,SS,landon collinsdeshazor everettjeremy reaves,1/10/19942/22/19928/29/1996,2720000,1360000.0
Washington Redskins,TE,hale hentgesjerome cunninghamvernon davisjerem...,8/19/19965/25/19911/31/19848/10/1994,6535000,3267500.0


In [61]:
df["Salario"].sum()                      # Suma total

3080896769

In [62]:
df["Salario"].mean()                     # Promedio

1861569.044712991

In [63]:
df["Salario"].max(), df["Salario"].min() # Máximo / mínimo


(27500000, 378000)

## 📐 Ordenar

In [64]:
df.sort_values("Salario")                      # Ordenar ascendente

Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario,Salario_semestral
209,tyrone swoopes,Seattle Seahawks,TE,11/14/1994,378000,189000.0
1041,holton hill,Minnesota Vikings,CB,3/28/1997,435882,217941.0
1299,alex redmond,Cincinnati Bengals,G,1/18/1995,493236,246618.0
379,devin singletary,Buffalo Bills,RB,9/3/1997,495000,247500.0
1141,elgton jenkins,Green Bay Packers,G,12/26/1995,495000,247500.0
...,...,...,...,...,...,...
150,jimmy garoppolo,San Francisco 49Ers,QB,11/2/1991,17200000,8600000.0
1343,derek carr,Oakland Raiders,QB,3/28/1991,19900000,9950000.0
1623,jameis winston,Tampa Bay Buccaneers,QB,1/6/1994,20922000,10461000.0
905,marcus mariota,Tennessee Titans,QB,10/30/1993,20922000,10461000.0


In [65]:
df.sort_values("Salario", ascending=False)     # Ordenar descendente

Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario,Salario_semestral
180,kirk cousins,Minnesota Vikings,QB,8/19/1988,27500000,13750000.0
1623,jameis winston,Tampa Bay Buccaneers,QB,1/6/1994,20922000,10461000.0
905,marcus mariota,Tennessee Titans,QB,10/30/1993,20922000,10461000.0
1343,derek carr,Oakland Raiders,QB,3/28/1991,19900000,9950000.0
150,jimmy garoppolo,San Francisco 49Ers,QB,11/2/1991,17200000,8600000.0
...,...,...,...,...,...,...
1145,garrett bradbury,Minnesota Vikings,C,6/20/1995,495000,247500.0
1291,noah fant,Denver Broncos,TE,11/20/1997,495000,247500.0
1299,alex redmond,Cincinnati Bengals,G,1/18/1995,493236,246618.0
1041,holton hill,Minnesota Vikings,CB,3/28/1997,435882,217941.0


# ✅ ¿Cómo ordenar por varias columnas?
Usamos sort_values() pasando una lista de columnas en el orden en que quieres aplicar el ordenamiento.

* "columna1" → criterio principal

* "columna2" → criterio secundario (si hay empates en la primera)

* ascending acepta una lista con True o False para cada columna

In [None]:
# Ordena por Pos (A-Z), y dentro de cada Pos, por Salario (mayor a menor)
df.sort_values(by=["Pos", "Salario"], ascending=[True, False])

Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario,Salario_semestral
1036,ryan jensen,Tampa Bay Buccaneers,C,5/27/1991,10000000,5000000.0
186,alex mack,Atlanta Falcons,C,11/19/1985,8500000,4250000.0
296,rodney hudson,Oakland Raiders,C,7/12/1989,8250000,4125000.0
488,travis frederick,Dallas Cowboys,C,1/1/1991,6000000,3000000.0
550,mike pouncey,Los Angeles Chargers,C,7/24/1989,6000000,3000000.0
...,...,...,...,...,...,...
1423,diontae johnson,Pittsburgh Steelers,WR,7/5/1996,495000,247500.0
1476,rico gafford,Oakland Raiders,WR,5/23/1996,495000,247500.0
1572,n'keal harry,New England Patriots,WR,12/17/1997,495000,247500.0
1573,andy isabella,Arizona Cardinals,WR,11/18/1996,495000,247500.0


# ✅ Ordenar alfabéticamente una columna de texto 
## Orden ascendente (A → Z):

In [73]:
df.sort_values("Nombre")

Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario,Salario_semestral
160,a'shawn robinson,Detroit Lions,DT,3/21/1995,1163678,581839.0
252,a.j. brown,Tennessee Titans,WR,6/30/1997,495000,247500.0
891,a.j. moore,Houston Texans,SS,12/15/1995,570000,285000.0
1147,aaron brewer,Arizona Cardinals,LS,7/5/1990,930000,465000.0
154,aaron colvin,Washington Redskins,CB,10/2/1991,7500000,3750000.0
...,...,...,...,...,...,...
810,zack martin,Dallas Cowboys,G,11/20/1990,10000000,5000000.0
1610,zaire franklin,Indianapolis Colts,OLB,7/2/1996,570000,285000.0
881,zak deossie,New York Giants,LS,5/24/1984,1030000,515000.0
430,zane gonzalez,Arizona Cardinals,K,5/7/1995,645000,322500.0


##  Orden descendente (Z → A):

In [72]:
df.sort_values("Nombre", ascending=False)

Unnamed: 0,Nombre,Equipo,Pos,Fecha_Nacimiento,Salario,Salario_semestral
1001,zay jones,Oakland Raiders,WR,3/30/1995,1081348,540674.0
430,zane gonzalez,Arizona Cardinals,K,5/7/1995,645000,322500.0
881,zak deossie,New York Giants,LS,5/24/1984,1030000,515000.0
1610,zaire franklin,Indianapolis Colts,OLB,7/2/1996,570000,285000.0
810,zack martin,Dallas Cowboys,G,11/20/1990,10000000,5000000.0
...,...,...,...,...,...,...
154,aaron colvin,Washington Redskins,CB,10/2/1991,7500000,3750000.0
1147,aaron brewer,Arizona Cardinals,LS,7/5/1990,930000,465000.0
891,a.j. moore,Houston Texans,SS,12/15/1995,570000,285000.0
252,a.j. brown,Tennessee Titans,WR,6/30/1997,495000,247500.0


## 📤 Exportar datos



In [None]:
df.to_csv("salida.csv", index=False)        # Exportar a CSV sin índice
df.to_excel("salida.xlsx", index=False)     # Exportar a Excel
