In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.read_csv("titanic_1.csv")
df

### map

In [None]:
# El método .map() toma como parametro una función y aplica esa función a toda la columna.
# Se utiliza solamente para Series
# No es in-place

df["Age"].map(lambda x : np.sqrt(x))

In [None]:
df["Age"].map(lambda x : x*2)

In [None]:
df["AgeSQRT"] = df["Age"].map(lambda x : np.sqrt(x))

df.head()

In [None]:
# La función lambda nos deja aplicar muchas funciones sin tener que definir una

df["Surname"] = df["Name"].map(lambda x : x.split(",")[0])

df

In [None]:
df["AgeSQRT"].map(lambda x : "mayor" if x > 5 else "menor")

In [None]:
# .map() también acepta un diccionario como parametro
# Hace lo mismo que .replace() 

df["Sex"].map({"male" : "H", "female" : "M"})

In [None]:
# Usando .replace()

df["Sex"].replace({"male" : "H", "female" : "M"})

### applymap

In [None]:
# Con .applymap() podemos aplicar funciones a varias columnas a la vez
# Esto es un método propio de los DataFrames

df[["Name", "Sex"]].applymap(lambda x : x.lower())

In [None]:
# .map() no puede hacer esto

df[["Name", "Sex"]].map(lambda x : x.upper())

### apply

In [None]:
# .apply() Se puede utilizar para Series y DataFrames

df["Age"].apply(lambda x : np.sqrt(x))

In [None]:
df[["PassengerId", "Age"]].apply(lambda x : np.sqrt(x))

### Obtener los valors de una Serie

In [None]:
# El atributo .values retorna un array con los elementos de la columna
df["Sex"].values

### Encontrar NaN's

In [None]:
# Normalmente en casi todas las operaciones que hace pandas se omiten los valores nulos (NaN's)
# Si quisieramos ver cuantos hay podemos hacer:

df["Age"].value_counts()

# Aquí pandas está omitiendo los NaN's

In [None]:
# Si agregamos este parametro ya no omitirá los NaN's

df["Age"].value_counts(dropna = False)

In [None]:
# Con .isnull() podemos filtrar el DataFrame para ver las filas con NaN's de una columna

df[df["Age"].isnull()]

In [None]:
# Para eliminar los NaN's podemos usar .dropna()
# Esta operación no es in-place

df.dropna()

In [None]:
# Si quisieramos que fuese in-place podemos escribir:

df.dropna(inplace = True)

# NO EJECUTAR

### groupby

In [None]:
df = pd.read_excel("Canada.xlsx")

df.head(3)

In [None]:
# .groupby() se usa para agrupar filas que tienen los mismos valores.
# Obligatoriamente se usa junto con funciones agregadas para producir informes resumidos.

df.groupby("Continente")

# Me devuelve el objeto de la agrupación

In [None]:
# .first() Me devuelve un elemento de cada agrupación

df.groupby("Continente").first()

In [None]:
df.groupby("Tipo de region").head(1)

In [None]:
# Podemos agrupar por más de una columna

df.groupby(["Continente", "Tipo de region"]).first()

In [None]:
df.groupby(["Tipo de region", "Continente"]).first()

In [None]:
# .index nos retorna la forma del indice del DataFrame

df.groupby(["Continente","Tipo de region"]).first().index

In [None]:
# .last() Devuelve el último elemento de la agrupación
df.groupby(["Continente"]).last()

In [None]:
# .size() Devuelve el tamaño de cada grupo de la agrupación

df.groupby(["Continente"]).size()

In [None]:
df.groupby(["Tipo de region"]).size()

In [None]:
#  .count() Cuenta el número de elementos que no son NaN's

df.groupby(["Continente"]).count()

In [None]:
# Agrupamos por continente y luego sumamos la migración de cada continente en el año 1980

df.groupby("Continente")[1980].sum()

In [None]:
df.groupby("Continente")[[2008, 2009, 2010]].sum()

In [None]:
# Para encontrar los valores máximos de cada continente en el año 1980

df.groupby("Continente")[1980].max()

In [None]:
# .aggregate() toma una lista de funciones agregadas y las aplica a todas las columnas

df.groupby("Continente")[[2010, 2011, 2012]].aggregate([min, max, sum])

In [None]:
df.groupby("Continente")[list(range(1980, 1988))].aggregate([min, max, sum])

In [None]:
# .agg() toma como parametro un diccionario
# Las llaves son los nombres de las columnas
# Los valores son listas de funciones agregadas
# Aquí podemos elegir a que columnas aplicar que funcion

df.groupby("Continente").agg({2010 : ["min","max","sum"],
                              2011 : ["min","max"],
                              2012 : ["sum"]})

In [None]:
df5 = df.groupby("Continente").agg({2010 : ["min","max","sum"],
                                    2011 : ["min","max"],
                                    2012 : ["sum"]})

df5.reset_index()

In [None]:
# Para tener un resultados como el anterior, podemos pasarle un parametro extra a .groupby()

df.groupby("Continente", as_index = False).agg({2010 : ["min","max","sum"],
                                                2011 : ["min","max"],
                                                2012 : ["sum"]})

In [None]:
# Este código elimina los multi-indices

columnas = list()

for i in df5.columns.values:
    print(str(i[0]) + "_" + i[1])

    columnas.append(str(i[0]) + "_" + i[1])
    
df5.columns = columnas

df5.reset_index()

In [None]:
################################################################################################################################