## Pandas

- Pandas es una librería para manipular y analizar datos.
- Es una interfaz de alto nivel para procesar datos tabulares en varias formatos.
- Proporciona una amplia gama de herramientas para leer y procesar datos.
- Está diseñado para ser rápido, eficiente y fácil de usar.

In [2]:
import numpy as np
import pandas as pd

## Primeros pasos:

|función||
|-|-|
| df = pd.read_csv | para volcar los datos de un csv|
| df.columns | devuelve los nombres de las columnas |
| df.head() | 5 primeras filas (o argumento) |
| df.tail() | 5 últimas filas (o argumento) |
| df['column'] | devuelve la columna (o lista de columnas) |

### Cargar y guardar datos desde un archivo

In [25]:
''' 
usaremos pd.read_csv para leer los archivos de este tipo y dardarlos en un data_frame. 
- podemos indicar el "delimiter" como argumento. No es necesario hacerlo en este caso, ya que por defecto es coma. 
'''
df = pd.read_csv('nba_players.csv') 

# Un data frame es un tipo de objeto con ciertos métodos y atributos propio de pandas.
print(type(df))

df.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


In [58]:
'''
Para guardar los datos usaremos .to_csv. 
Para evitar que se guarden los índices, pondremos index=False. 
Podemos definir un delimitador también. 
'''
df.to_csv('nba_players_nuevo.csv', index=False)

### Columns

In [6]:
'''
df.columns -> muestra las cabeceras del dataframe df
'''
print(list(df.columns))

['Name', 'Team', 'Number', 'Position', 'Age', 'Height', 'Weight', 'College', 'Salary']


In [None]:
'''
Para mostrar solo algunas columnas, podemos seleccionar sus nombres entre corchetes. 
OJO: si seleccionamos varias columnas, necesitamos meter sus nombres en una lista. 
'''

# Muestra las columnas Name y Age del dataframe df
df[['Name','Age']]

### head y tail de un df

- head: devuelve los primeros n elementos de la serie.
- tail: devuelve los últimos n elementos de la serie.

In [13]:
'''
df.head() -> para imprimir las 5 primeras filas del dataframe. 
- podemos indicar que queremos ver más filas como argumento opcional, 
'''

# Muestra las primeras 5 filas del dataframe df
df.head()

# Muestra las primeras 10 filas del dataframe df
df.head(10)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


In [17]:
'''
df.tail -> funciona igual, pero muestra las últimas 5 filas del dataframe df
'''
# Muestra las 10 últimas filas del dataframe df
df.tail()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
452,Trey Lyles,Utah Jazz,41.0,PF,20.0,6-10,234.0,Kentucky,2239800.0
453,Shelvin Mack,Utah Jazz,8.0,PG,26.0,6-3,203.0,Butler,2433333.0
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,,900000.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,,2900000.0
456,Jeff Withey,Utah Jazz,24.0,C,26.0,7-0,231.0,Kansas,947276.0


In [40]:
# También podemos usar un rango para indicar los índices que queremos ver:
df[10:20]

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
10,JARED SULLINGER,Boston Celtics,7.0,C,24.0,6-9,260.0,Ohio State,2569260.0
11,ISAIAH THOMAS,Boston Celtics,4.0,PG,27.0,5-9,185.0,Washington,6912869.0
12,EVAN TURNER,Boston Celtics,11.0,SG,27.0,6-7,220.0,Ohio State,3425510.0
13,JAMES YOUNG,Boston Celtics,13.0,SG,20.0,6-6,215.0,Kentucky,1749840.0
14,TYLER ZELLER,Boston Celtics,44.0,C,26.0,7-0,253.0,North Carolina,2616975.0
15,BOJAN BOGDANOVIC,Brooklyn Nets,44.0,SG,27.0,6-8,216.0,,3425510.0
16,MARKEL BROWN,Brooklyn Nets,22.0,SG,24.0,6-3,190.0,Oklahoma State,845059.0
17,WAYNE ELLINGTON,Brooklyn Nets,21.0,SG,28.0,6-4,200.0,North Carolina,1500000.0
18,RONDAE HOLLIS-JEFFERSON,Brooklyn Nets,24.0,SG,21.0,6-7,220.0,Arizona,1335480.0
19,JARRETT JACK,Brooklyn Nets,2.0,PG,32.0,6-3,200.0,Georgia Tech,6300000.0


### Sort

In [None]:
'''
df.sort_values("Label") -> Muestra el dataframe ordenado por el atributo Label. 
'''
df.sort_values('Name')

In [None]:
# Muestra el dataframe ordenado por el atributo Name y Team
df.sort_values(['Name', 'Team'])

In [28]:
# Ordena alfabetiticamente los equipos y dentro de cada equipo ordena alfabeticamente por nombre (descendente)
df.sort_values(['Team', 'Name'], ascending=[True, False])

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
322,Walter Tavares,Atlanta Hawks,22.0,C,24.0,7-3,260.0,,1000000.0
310,Tim Hardaway Jr.,Atlanta Hawks,10.0,SG,24.0,6-6,205.0,Michigan,1304520.0
321,Tiago Splitter,Atlanta Hawks,11.0,C,31.0,6-11,245.0,,9756250.0
320,Thabo Sefolosha,Atlanta Hawks,25.0,SF,32.0,6-7,220.0,,4000000.0
315,Paul Millsap,Atlanta Hawks,4.0,PF,31.0,6-8,246.0,Louisiana Tech,18671659.0
...,...,...,...,...,...,...,...,...,...
374,JJ Hickson,Washington Wizards,21.0,C,27.0,6-9,242.0,North Carolina State,273038.0
380,Garrett Temple,Washington Wizards,17.0,SG,30.0,6-6,195.0,LSU,1100602.0
372,Drew Gooden,Washington Wizards,90.0,PF,34.0,6-10,250.0,Kansas,3300000.0
369,Bradley Beal,Washington Wizards,3.0,SG,22.0,6-5,207.0,Florida,5694674.0


### Añadir / eliminar columnas

In [None]:
'''
Añade una columna al dataframe df con el año de nacimiento del jugador
'''
df['Birth_Year'] = 2022 - df['Age']

In [33]:
from datetime import date

df['Birth_Year'] = date.today().year - df['Age'].astype(int)

In [48]:
'''
Elimina la columna Birth del dataframe df
'''
# df.drop no modifica el dataframe, por lo que hay que asignar el resultado a una variable
df.drop('Birth_Year', axis=1)

# Para modificar el dataframe original hay que usar inplace=True
df.drop(columns='Birth_Year', axis=1, inplace=True)

### Reordenar columnas

In [56]:
df1 = df[['Salary', 'Age', 'Weight', 'Name']]

In [None]:
'''
Reordena las columnas del dataframe df2 (elige tú el orden que quieras) Haz una copia del orignal
'''

### Trabajando con cantidades enormes de datos

In [34]:
''' 
Cuando trabajamos con grandes cantidades de datos, puede ser interesante hacerlo por "chunks"
'''
data = pd.read_csv('nba_players.csv', chunksize=5)

In [None]:

for chunk in data:
    print(chunk)

In [36]:
for chunk in data:
    df['Name'] = df['Name'].str.upper()
    print(df)

## Funciones de agregación

In [25]:
# df.describe nos muestra estadísticas de las columnas numéricas
df.describe()

Unnamed: 0,Number,Age,Weight,Salary
count,457.0,457.0,457.0,446.0
mean,17.678337,26.938731,221.522976,4842684.0
std,15.96609,4.404016,26.368343,5229238.0
min,0.0,19.0,161.0,30888.0
25%,5.0,24.0,200.0,1044792.0
50%,13.0,26.0,220.0,2839073.0
75%,25.0,30.0,240.0,6500000.0
max,99.0,40.0,307.0,25000000.0


### Group by

In [None]:
'''
Con .groupby('column')[métrica].agg() podemos agrupar los datos según el valor de cierta columna y agregarlos. 
'''
# Agrupa los jugadores por universidad y suma su salario
df.groupby('College')['Salary'].sum()

In [None]:
# Agrupa los jugadores por universidad y suma su salario y ordenalos por salario
df.groupby('College')['Salary'].sum().sort_values(ascending=False)

In [None]:
#Agrupa los jugadores por universidad y contabiliza cuántos jugadores hay en cada una

df.groupby('College')['Name'].count().sort_values(ascending=False)

## Filtrar datos

### Mostrar filas en función de una condición

In [None]:
'''
Para indicar los datos que queremos ver, podemos incluir un booleano entre corchetes:
'''
# Muestra las primeras los jugadores que tengan una edad igual o mayor a 39
df[df['Age'] >= 39]

# Muestra el nombre y la edad de los jugadores de los Minnesota Timberwolves
df[df['Team'] == 'Minnesota Timberwolves'][['Name', 'Age']]

In [None]:
'''
También podemos guardar ese booleano como si fuera una máscara y aplicarlo al data frame:
'''
#Otra forma de hacer lo mismo
minnesota_timberwolves = (df['Team'] == 'Minnesota Timberwolves')
df[minnesota_timberwolves]

### Más ejemplos de filtrado

In [61]:
'''
Carga el dataframe de jugadores en df
filtra los jugadores que tengan la universidad de Minnesota
'''
df[df['College'] == 'Minnesota']


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
313,Kris Humphries,Atlanta Hawks,43.0,PF,31.0,6-9,235.0,Minnesota,1000000.0


In [None]:
'''podemos crear máscaras con booleanos'''
# Filtra de los Atlanta Hawks los jugadores con mas de 30 años

altanta_hawks = df['Team'] == 'Atlanta Hawks'
mayores_30 = df['Age'] > 30
df[altanta_hawks & mayores_30]

# sería equivalente a: 
df_filtrado = df[(df['Team'] == 'Atlanta Hawks') & (df['Age'] > 30)]

In [None]:
'''
Podemos resetear los índices del nuevo df
'''
df_filtrado.reset_index(drop=True, inplace=True)
df_filtrado

### Expresiones regulares


Las expresiones regulares son una forma de escribir un patrón de caracteres que se puede usar para buscar una cadena de texto.


In [None]:
'''
Podemos utilizar .str.contains sobre un df (o una selección del df) para buscar cierto string. 
Para evitar coincidencias con regexp podemos usar "regex=False" como argumento
'''

#Busca los jugadores que se llamen James
df[df['Name'].str.contains('James', regex=False)]


In [83]:
'''
Por defecto, str.contains busca coincidencias con expresiones regulares:
'''

#Busca los jugadores con iniciales J. A.
df[df['Name'].str.contains('J[a-z]+\sA[a-z]+')]

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
92,Jeff Ayres,Los Angeles Clippers,19.0,PF,29.0,6-9,250.0,Arizona State,111444.0
137,James Anderson,Sacramento Kings,5.0,SG,27.0,6-6,213.0,Oklahoma State,1015421.0
181,Joel Anthony,Detroit Pistons,50.0,C,33.0,6-9,245.0,UNLV,2500000.0
227,Justin Anderson,Dallas Mavericks,1.0,SG,22.0,6-6,228.0,Virginia,1449000.0
257,Jordan Adams,Memphis Grizzlies,3.0,SG,21.0,6-5,209.0,UCLA,1404600.0


In [88]:
'''
el módulo re se utiliza para introducir flags. 
Ver: https://pandas.pydata.org/docs/reference/api/pandas.Series.str.contains.html
'''
# Busca los jugadores que se llamen James como primer nombre (ignora mayusculas)
import re
df[df['Name'].str.contains('james\s', flags=re.IGNORECASE)]

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
13,James Young,Boston Celtics,13.0,SG,20.0,6-6,215.0,Kentucky,1749840.0
65,James Johnson,Toronto Raptors,3.0,PF,29.0,6-9,250.0,Wake Forest,2500000.0
86,James Michael McAdoo,Golden State Warriors,20.0,SF,23.0,6-9,240.0,North Carolina,845059.0
137,James Anderson,Sacramento Kings,5.0,SG,27.0,6-6,213.0,Oklahoma State,1015421.0
172,James Jones,Cleveland Cavaliers,1.0,SG,35.0,6-8,218.0,Miami (FL),947276.0
249,James Harden,Houston Rockets,13.0,SG,26.0,6-5,220.0,Arizona State,15756438.0
284,James Ennis,New Orleans Pelicans,4.0,SF,25.0,6-7,210.0,Long Beach State,845059.0


### loc e iloc

In [20]:
'''
.iloc -> para acceder a ciertas celdas de un df mediante índices. 
- Acepta un entero, un array, una lista de índices, una tupla... también booleanos. 
- El primer argumento -> filas, el segundo -> columnas
'''
#Busca al jugador 65 de la tabla: 
df.iloc[65]

# Busca el nombre del jugador 65: 
df.iloc[65, 0]

# Busca los primeros datos de los jugadores impares: 
df.iloc[1::2, 0:3]

# Busca las propiedades 0,7 de los jugadores 3,14,16
df.iloc[[3,14, 16],[0,7]]

Unnamed: 0,Name,College
3,R.J. Hunter,Georgia State
14,Tyler Zeller,North Carolina
16,Markel Brown,Oklahoma State


In [5]:
''' 
con loc podemos hacer búsquedas basadas en labels. 
Primer argumento -> filas. 
Segundo argumento -> columnas. 
'''
#Busca el nombre completo y la edad de todos los jugadores llamados James
df.loc[df['Name'].str.contains("James"), ['Name', 'Age']]

Unnamed: 0,Name,Age
13,James Young,20.0
65,James Johnson,29.0
86,James Michael McAdoo,23.0
137,James Anderson,27.0
169,LeBron James,31.0
172,James Jones,35.0
249,James Harden,26.0
284,James Ennis,25.0


In [26]:
'''Al acceder a las celdas con loc e iloc, podemos redefinir su contenido'''

# Busca los jugadores del Boston Celtics y cambialo por Boston Celtics CocaCola
df.loc[(df['Team'] == 'Boston Celtics'), 'Team'] = 'Boston Celtics CocaCola'

df.loc[df['Team'].str.contains('Boston')]

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics CocaCola,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics CocaCola,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics CocaCola,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics CocaCola,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics CocaCola,8.0,PF,29.0,6-10,231.0,,5000000.0
5,Amir Johnson,Boston Celtics CocaCola,90.0,PF,29.0,6-9,240.0,,12000000.0
6,Jordan Mickey,Boston Celtics CocaCola,55.0,PF,21.0,6-8,235.0,LSU,1170960.0
7,Kelly Olynyk,Boston Celtics CocaCola,41.0,C,25.0,7-0,238.0,Gonzaga,2165160.0
8,Terry Rozier,Boston Celtics CocaCola,12.0,PG,22.0,6-2,190.0,Louisville,1824360.0
9,Marcus Smart,Boston Celtics CocaCola,36.0,PG,22.0,6-4,220.0,Oklahoma State,3431040.0


In [None]:
''' 
También podemos incluir nuevas columnas con cierto valor. 
'''
# Vuelve a renombrar el equipo como "Boston Celtics" y añade Cocacola como patreon
df.loc[df['Team'] == 'Boston Celtics CocaCola', ['Team', 'patreon']] = ['Boston Celtics', 'Cocacola']

df.loc[df['Team'].str.contains('Boston')]

In [28]:
'''Para eliminar la columna que acabamos de añadir podemos usar .drop'''
# elimina la columna patreon. 
df.drop(columns='patreon', inplace=True)
df.head()

## Creación de objetos

### Series
- Una serie es un array unidimensional de datos que puede contener cualquier tipo de datos.
- Las etiquetas también son conocidas como indices.

#### Definir una serie

In [None]:
'''
Define una serie de pandas con los valores [1,3,5,7,6,8] y los indices [a,b,c,d,e,f].
'''
s = pd.Series([1,3,5,7,6,8], index=['a','b','c','d','e','f'])
s

In [3]:
'''
Define el mismo array que antes pero ahora no indiques los indices.
'''
s = pd.Series([1,3,5,7,6,8])
s

0    1
1    3
2    5
3    7
4    6
5    8
dtype: int64

Como se puede ver, la serie es un array de datos y al no indicar una etiqueta, se asigna una etiqueta por defecto.

Ejemplo:
s = pd.Series(data, index=index)

data puede ser del tipo:
- Diccionario python
- ndarray
- un escalar




In [None]:
'''
Define una serie a pasando por parámetro un diccionario con los valores y los indices.
'''
s = pd.Series({'a':1, 'b':3, 'c':5, 'd':7, 'e':6, 'f':8})
s

In [None]:
'''
Define una serie a1 pasando por parámetro un ndarray con los valores y opcionalmente los indices.
'''
s = pd.Series(np.array([1,3,5,7,6,8]), index=['a','b','c','d','e','f'])
s

In [None]:
'''
Define una serie a2 pasando por parámetro un escalar.
'''
s = pd.Series(0, index=['a','b','c','d','e','f'])
s

#### Series como Arrays

Las Series actuan muy parecidas a un ndarray, y son un argumento válido para muchas funciones de NumPy. Sin embargo, operaciones como slicing también seleccionarán el índice.

In [None]:
'''
Dada la serie b, obtén el valor de la posición 'b'.
'''
s = pd.Series({'a':1, 'b':3, 'c':5, 'd':7, 'e':6, 'f':8})
s['b']
s

In [157]:
# Dado un diccionario con Nombres y edades, crea una serie con los datos del diccionario
diccionario = {'Juan': 20, 'Ana': 30, 'Pedro': 40}
s = pd.Series(diccionario)
s['Ana']

30

In [7]:
'''
Dada la serie b3, obtén el valor de las tres últimas posiciones 
'''
b3 = pd.Series({'a':1, 'b':3, 'c':5, 'd':7, 'e':6, 'f':8})
b3[-3:]

d    7
e    6
f    8
dtype: int64

In [165]:
'''
Dada la serie b4, obten los elementos que sean mayores que 5.
'''
b4 = pd.Series({'a':1, 'b':3, 'c':5, 'd':7, 'e':6, 'f':8})
b4[b4 > 5]

d    7
e    6
f    8
dtype: int64

In [None]:
'''
Dada la serie b5, obten los elementos que sean mayores que 5 y menores que 7.
'''


In [None]:
'''
Data la serie b6, obten los elementos correspondientes a los índices 'b' y 'c'.
'''

In [209]:
'''
Dada la serie b7, mapea los elementos de la serie con una función. (mulpliplicar por 2, por ejemplo)
'''
b7 = pd.Series({'a':1, 'b':3, 'c':5, 'd':7, 'e':6, 'f':8})
b7*2


a     2
b     6
c    10
d    14
e    12
f    16
dtype: int64

In [None]:
b7+2

Podemos consultar el tipo de datos de una serie con dtype, tal como se hacía en numpy.

In [170]:
'''
Define una serie c de tipo float64 y muestra el tipo de dato de los elementos.
'''
c = pd.Series([1,3,5,7,6,8], dtype='float64')
c.dtype

dtype('float64')

Si lo que queremos es obtener el array tal cual, podemos usar el método array.

In [172]:
'''
Define una serie c1 de tipo float64 y muestra el array de datos.
'''
c1 = pd.Series([1,3,5,7,6,8], dtype='float64')
print(c1.values)

[1. 3. 5. 7. 6. 8.]


#### Series como diccionarios

También podemos entender una serie como un diccionario.

In [8]:
'''
Dado una serie d, obtén el valor de la posición 'f'.
'''
d = pd.Series({'a':1, 'b':3, 'c':5, 'd':7, 'e':6, 'f':8})
d

d['e']

6

In [None]:
'''
Qué ocurre si el ídice no existe?
Trata de obtener el valor es una posición inexistente
'''
d['z']

In [None]:
'''
Genera un dataset con 25 valores aleatorios. Los valores se generan entre 0 y 1.
'''
d = pd.Series(np.random.rand(25))
d

### DataFrame

In [186]:
'''
Define un dataframe con dos columnas, 5 filas y valores aleatorios.
'''
d1 = pd.DataFrame(np.random.rand(5,2), columns=['valores 1','valores 2'], index=['a','b','c','d','e'])
d1


Unnamed: 0,valores 1,valores 2
a,0.67547,0.150228
b,0.348133,0.402742
c,0.489366,0.826636
d,0.762603,0.043543
e,0.378777,0.847997


In [42]:
'''
Define un dataframe partiendo de un diccionario.
'''
diccionario = { 'valores 1': [1,2,3,4,5], 'valores 2': [6,7,8,9,10]}
d2 = pd.DataFrame(diccionario, index=['a','b','c','d','e'])
d2


Unnamed: 0,valores 1,valores 2
a,1,6
b,2,7
c,3,8
d,4,9
e,5,10


In [191]:
'''
Define un dataframe partiendo de un numpy ndarray.
'''
array = np.array( [[1,6], [2,7], [3,8], [4,9], [5,10]] )
d3 = pd.DataFrame(array, columns=['valores 1','valores 2'], index=['a','b','c','d','e'])
d3

Unnamed: 0,valores 1,valores 2
a,1,6
b,2,7
c,3,8
d,4,9
e,5,10


In [193]:
'''
Muestra las columnas del dataframe del ejercicio anterior.
'''
print(list(d3.columns))

['valores 1', 'valores 2']


##### Seleccion por posición

En un array o un dataframe, podemos seleccionar uno o varios elementos por su posición.

In [199]:
'''
Define un dataframe de valores enteros con 4 columnas y 5 filas. 
A continuación seleciona los elementos de la posición 3.
'''
d4 = pd.DataFrame(np.random.randint(10, size=(5,4)), columns=['valores 1','valores 2','valores 3','valores 4'], index=['a','b','c','d','e'])
print(d4)
tercera_fila = d4.iloc[3]

tercera_fila['valores 3']

   valores 1  valores 2  valores 3  valores 4
a          2          8          5          3
b          5          7          9          6
c          9          2          1          4
d          1          4          8          8
e          3          9          0          7


8

Como hemos venido viendo hasta ahora, podemos emplear slices con iloc.

In [201]:
'''
Define un dataframe de valores enteros con 4 columnas y 5 filas. A continuación seleciona los elementos de la posición 3 y 4.
'''
d5 = pd.DataFrame(np.random.randint(10, size=(5,4)), columns=['valores 1','valores 2','valores 3','valores 4'], index=['a','b','c','d','e'])
d5
d5.iloc[3:5]

Unnamed: 0,valores 1,valores 2,valores 3,valores 4
d,3,9,4,6
e,2,9,0,1


In [12]:
# Guarda la columna 'Salary' en una variable
df = pd.read_csv('nba_players.csv')
df.head()

salary = df['Salary']
df.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


In [13]:
# Pon todos los salarios a 0
df['Salary'] = 0
df.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,0


In [15]:
# vuelve a poner los salarios originales
df['Salary'] = salary
df.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
