In [None]:
import pandas as pd, numpy as np
import yfinance as yf
import os

In [None]:
#sepan hay muchas opciones de visualizacón
pd.options.display.float_format='{:.1f}'.format
#cambia el formato de visualización de números flotantes (decimales) en pandas. 
#En este caso, le estamos diciendo, a pandas que muestre todos los números flotates
#con una sola cifra decimal

# DataFrames

In [None]:
nba=pd.read_csv('ct_nba.csv')
type(nba)

In [None]:
nba.head()

In [None]:
nba

In [None]:
nba.columns

In [None]:
len(nba)

In [None]:
nba.shape #424 filas y 9 columnas

In [None]:
nba.index

In [None]:
nba.values

In [None]:
nba.dtypes #qué tipo de información tiene el dataframe --->atributo dtype

In [None]:
nba.info()

In [None]:
nba.axes #los índices de renglones y columna

In [None]:
#extraer una columna de un df
nba.Name

In [None]:
#equivalente a lo anterior
nba['Name']

In [None]:
nba.head(3)

In [None]:
nba['Salary'].sum()

In [None]:
nba['Salary'].mean() #promedi

In [None]:
nba['Salary'].describe()

In [None]:
nba.loc[nba['Salary'].idxmax()]

In [None]:
nba.groupby('Team')['Age'].mean()

In [None]:
nba.groupby('Team')['Age'].max()

In [None]:
nba.Age.mean()

In [None]:
nba.groupby('Team')['Age'].mean().mean()

In [None]:
#extraer 2 o más columnas --> pasamos a una lista

nba[['Weight','Age']]

In [None]:
nba['Weight','Age'] #error porque piensa que es una Tupla

In [None]:
nba[['Weight','Team','Age']]

In [None]:
cols=['Weight','Team','Age']
nba[cols]

In [None]:
#Definir una nueva columna llamada Deporte ('Sport') con el valor de 'basketball' en cada
#renglón
nba['Sport']='basketball'
nba.head()

### método `insert()`

In [None]:
nba.insert(3,'País','USA')
nba.head()

In [None]:
#Breadcasting
nba['Age'].add(3) #suma 3 a cada elemento

In [None]:
nba['Age']+3

In [None]:
nba['Salary'].sub(1_000_000) #resta un millon

In [None]:
nba['Salary']-1_000_000 #resta un millon

In [None]:
#Definir una nueva columna con el peso expresado en kgs (pasamos de libras a kg)
nba['Weight_kgs']=nba['Weight'].mul(0.454)
nba.head()

In [None]:
nba['Weight_kgs'].describe()

In [None]:
nba[['Weight','Age']]*2

In [None]:
nba[['Weight','Age']].apply(lambda x:x*2)

# Máscaras Booleanas

In [None]:
nba.head(4)

In [None]:
len(nba)

In [None]:
nba['Position']=='PG'

In [None]:
#Extraer o filtrar a los jugadores cuya posicion es 'PG' (Boolean Mask)
is_PG=nba['Position']=='PG' #point guard

In [None]:
nba[is_PG] #sólo muestra aquellos registros donde is_PG es Trueb

In [None]:
nba[nba['Position']=='PG']

In [None]:
nba[nba['Position']=='PG'].groupby('Team').size()

In [None]:
nba[is_PG]['Position'].unique()

In [None]:
nba[is_PG]['Position'].nunique()

In [None]:
is_PG.sum()

In [None]:
#Queremos filtrar a todos los PG, y con edad mayor a 25 ños
cond1=nba['Position']=='PG'
cond2=nba['Age']>25
nba[cond1&cond2]

In [None]:
len(nba[cond1&cond2])

In [None]:
cond1

In [None]:
cond2

In [None]:
cond1&cond2

In [None]:
cond1|cond2

# Manejo de Valores Nulos

In [None]:
nba.head(4)

In [None]:
nba.isna()

In [None]:
nba.info()

Identificando valores nulos --> `isna()` method

In [None]:
nba['Position'].isna()
#para cada registro (renglón), nos dice si es nulo o no, sobre la variable Posicion

In [None]:
nba['Position'].isna().sum()

* Sintaxis: df.isna()

In [None]:
#equivalente del isna(), es is.null()

In [None]:
nba['Position'].isnull()

In [None]:
nba['Position'].isna()

In [None]:
nba['Position'].notna()

In [None]:
is_position_na=nba['Position'].isna()
nba[is_position_na]

In [None]:
#Para identifiar los valores no nulos ---> método notna(), en particular, en la variable Colleg
nba['College'].notna()

In [None]:
nba[nba['College'].notna()]

`dropna()`: para elimnar renglones que tienen algun nulo

In [None]:
nba.dropna()
#El default de cómo hace el dropna es 'any' 
# ---> elimina renglone que tienen al menos 1 NA, 
#o algun Nulo en su columna. 

#NaN NotaNumber. Proviene de Numpy numpy.nan
#represneta un valor indefinido en calculos numéricos. 
#dividir 0/0 NaN

#Nulo: Puede ser un None de Python o pd.Na de panda. 
#Representa un valor faltante o no definido


In [None]:
#NaN, None, pd.Na son valores faltantes. 
#cuando usamos is.na() o is.null() pandas los detecta a todos. 
#Pandas los trata igual como missin values en sus métodos
#isna fillna dropna. 

In [None]:
s=pd.Series([1,2,np.nan,4,None,pd.NA])
s

In [None]:
s.isnull()

In [None]:
s.isna()

In [None]:
s.fillna(0)

In [None]:
s.fillna(1)

In [None]:
#Cómo tratar los nulos cuando estamos por utilizar un Modelo de Machine Learning. 
# Si son pocos nulos --> rellénalos con Modas o Medias (o interpolar)
# Si son muchos nulos y quieres un dataset sólido --> construir un modelo de imputación supervisado (ej. un árbol que 
#haga la predicción de la posición). 

In [None]:
nba.tail()

In [None]:
#Insertar filas vacías (sólo para ilustrar después manejo de nulos)
nuevas_filas=pd.DataFrame(np.nan,index=[0,1,2],columns=nba.columns)
nuevas_filas

In [None]:
#Concatenar y Resetear el índice
nba=pd.concat([nba,nuevas_filas],ignore_index=True)
nba.tail()

In [None]:
#si queremos quitar los renglones que tiene NaN en todas las columnas y quiero hacer permanentemente
nba.dropna(how='all',inplace=True)

In [None]:
nba.tail()

In [None]:
nba.info()

In [None]:
#Si quiero eliminar columnas con al menos un valor nulo
nba.dropna(axis=1) #me quita posición y college

In [None]:
#equivalente
nba.dropna(axis="columns")

In [None]:
#quiero el número de registros NO nulos en la variable Colle
nba['College'].notna().sum()

In [None]:
nba['College'].notnull().sum()