# pandas teoria 2

In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.DataFrame({"Nombre" : ["Gael", "Paola", "Maria", "Josue", "Martha", "Romero", "Sandra"],
                   "Edad" : [27, 28, 29, 28, 30, 30, 28]})

df["Residencia"] = ["Madrid", "Madrid", "Bilbao", "Madrid", "Madrid", "Zaragoza", "?"]

df

In [None]:
df.info()

### Cambiar el tipo de datos

In [None]:
# Modificar el tipo de dato de la columna "edad" a "int8"

df["Edad"] = df["Edad"].astype("int8")

df.dtypes

In [None]:
# Cambiar el tipo de dato de la columna "Nombre" a "category"

df["Nombre"] = df["Nombre"].astype("category")

df.dtypes

In [None]:
# Ahora es tipo "category"

df["Nombre"]

In [None]:
# Esta columna sigue siendo "object"

df["Residencia"]

In [None]:
# Cambiar 2 o más a la vez

df[["Nombre", "Residencia"]] = df[["Nombre", "Residencia"]].astype("category")

df.info()

### Filtrado de Datos

In [None]:
# Filtramos sobre la misma columna

df[(df["Residencia"] == "Madrid") | (df["Residencia"] == "Bilbao")]

In [None]:
# El mismo resultado se puede lograr con: .isin()

df[df["Residencia"].isin(["Madrid", "Bilbao"])]

In [None]:
df[df["Edad"].isin([30, 28])]

In [None]:
# Si quisieramos filtrar por un rango, podemos usar: .between()
# Los dos extremos son incluidos
# Solo se puede usar en columnas númericas

df[(df["Edad"].between(28, 29))]

In [None]:
# Con ~ podemos obtener el resultado opuesto:

df[~(df["Edad"].between(28, 29))]

In [None]:
# Si tenemos más de 1 condición debemos agruparlas con parentesis ()

df[(df["Edad"].isin([30, 28])) & (df["Residencia"] != "Madrid")]

In [None]:
# Con .duplicated() vemos las filas que tengan valores repetidos, no muestra las primera apariciones

df[df["Edad"].duplicated()]

In [None]:
df

### Reemplazar elementos en un DataFrame

In [None]:
# .replace() funciona similar a la función de cadenas de caracteres
# Estos cambios NO son in-place

df["Residencia"].replace("Madrid", "MADRID")

In [None]:
df

In [None]:
# Para hacerlo inplace podemos agregar:

df["Residencia"].replace("Madrid", "MADRID", inplace = True)

In [None]:
df

In [None]:
# Podemos reemplazar "?" por un np.nan
# Esta es otra forma de sobreescribir la columna

df["Residencia"] = df["Residencia"].replace("?",np.nan)

df

In [None]:
# .replace() puede tomar un diccionario como parametro
# El diccionario va a tener llaves y valores
# Lo que significa que cada vez que encuentre una llave en la columna lo va a sustituir por su valor

diccionario = {"Gael" : "Pedro",
               "Paola" : "Andrea"}

df["Nombre"].replace(diccionario)

### Concatenación

### Horizontal

In [None]:
df1 = pd.DataFrame({"Columna_1" : ["A", "B"],
                    "Columna_2" : ["C", "D"]})

df2 = pd.DataFrame({"Columna_3" : ["E", "F"],
                    "Columna_4" : ["G", "H"]})

In [None]:
df1

In [None]:
df2

In [None]:
# Para concatenar horizontalmente hay que usar axis = 1
pd.concat([df1, df2], axis = 1)

In [None]:
# Usando un solo pd.concat() podemos concatenar varios DataFrames a la vez, incluso repetirlos

pd.concat([df1, df2, df2, df2], axis = 1)

### Verticalmente

In [None]:
df1 = pd.DataFrame({"Columna_1" : ["A", "B", "1"],
                    "Columna_2" : ["C", "D", "2"]})

df2 = pd.DataFrame({"Columna_1" : ["E", "F"],
                    "Columna_2" : ["G", "H"]})

# Ambos tienen el mismo nombre en las columnas

In [None]:
df1

In [None]:
df2

In [None]:
# Como tienen el mismo nombre de columnas, pandas los agrupa automaticamente

pd.concat([df1, df2], axis = 0)

In [None]:
df3 = pd.DataFrame({"Columna_1" : ["E", "F"],
                    "Columna_3" : ["G", "H"]})

df3

In [None]:
# En este ejemplo los DataFrames tienen columnas diferentes

pd.concat([df1, df3], axis = 0)

# Por eso, pandas agrupa la columna en comun, y las que sean diferentes las llena con NaN's

In [None]:
# Si nos fijamos, pandas incluso concatena los indices, para evitar este comportamiento podemos agregar otro parametro:

pd.concat([df1, df3], axis = 0, ignore_index = True)

In [None]:
# Otra forma de concatenar verticalmente es usando .append()

df4 = df1.append(df2)

df4

In [None]:
# En el caso de que las columnas no coincidan sucede lo mismo que en pd.concat()

df5 = df1.append(df3)

df5

### Merge

In [None]:
df1 = pd.DataFrame({"Nombre" : ["Gael", "Paola", "Maria", "Josue", "Martha", "Romero", "Sandra"],
                    "Edad" : [27, 28, 29, 28, 30, 30, 28]})
df1

In [None]:
df2 = pd.DataFrame({"Nombre" : ["Gael", "Paola", "Maria", "Josue", "Martha", "Romero", "Sandro"],
                    "Residencia" : ["Madrid", "Madrid", "Bilbao", "Madrid", "Madrid", "Zaragoza", "Sevilla"]})
df2

In [None]:
# pd.merge() Une dos DataFrames que tengan una columna en común:
# Por defecto "how" es "inner"

pd.merge(left = df1, right = df2, left_on = "Nombre", right_on = "Nombre", how = "inner")

In [None]:
pd.merge(left = df1, right = df2, left_on = "Nombre", right_on = "Nombre", how = "outer")

In [None]:
# pd.merge() usando otros parámetros:
# Nota: esto solo funciona si ambos DataFrames tienen la columna con el mismo nombre

pd.merge(left = df1, right = df2, on = "Nombre")