# pandas teoria 2

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({"Nombre" : ["Gael", "Paola", "Maria", "Josue", "Martha", "Romero", "Sandra"],
                   "Edad" : [27, 28, 29, 28, 30, 30, 28]})

df["Residencia"] = ["Madrid", "Madrid", "Bilbao", "Madrid", "Madrid", "Zaragoza", "?"]

df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Nombre      7 non-null      object
 1   Edad        7 non-null      int64 
 2   Residencia  7 non-null      object
dtypes: int64(1), object(2)
memory usage: 296.0+ bytes


### Cambiar el tipo de datos

In [4]:
# Modificar el tipo de dato de la columna "edad" a "int8"

df["Edad"] = df["Edad"].astype("int8")

df.dtypes

Nombre        object
Edad            int8
Residencia    object
dtype: object

In [5]:
# Cambiar el tipo de dato de la columna "Nombre" a "category"

df["Nombre"] = df["Nombre"].astype("category")

df.dtypes

Nombre        category
Edad              int8
Residencia      object
dtype: object

In [6]:
# Ahora es tipo "category"

df["Nombre"]

0      Gael
1     Paola
2     Maria
3     Josue
4    Martha
5    Romero
6    Sandra
Name: Nombre, dtype: category
Categories (7, object): ['Gael', 'Josue', 'Maria', 'Martha', 'Paola', 'Romero', 'Sandra']

In [7]:
# Esta columna sigue siendo "object"

df["Residencia"]

0      Madrid
1      Madrid
2      Bilbao
3      Madrid
4      Madrid
5    Zaragoza
6           ?
Name: Residencia, dtype: object

In [8]:
# Cambiar 2 o más a la vez

df[["Nombre", "Residencia"]] = df[["Nombre", "Residencia"]].astype("category")

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   Nombre      7 non-null      category
 1   Edad        7 non-null      int8    
 2   Residencia  7 non-null      category
dtypes: category(2), int8(1)
memory usage: 709.0 bytes


### Filtrado de Datos

In [9]:
# Filtramos sobre la misma columna

df[(df["Residencia"] == "Madrid") | (df["Residencia"] == "Bilbao")]

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid


In [10]:
# El mismo resultado se puede lograr con: .isin()

df[df["Residencia"].isin(["Madrid", "Bilbao"])]

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid


In [11]:
df[df["Edad"].isin([30, 28])]

Unnamed: 0,Nombre,Edad,Residencia
1,Paola,28,Madrid
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


In [12]:
# Si quisieramos filtrar por un rango, podemos usar: .between()
# Los dos extremos son incluidos
# Solo se puede usar en columnas númericas

df[(df["Edad"].between(28, 29))]

Unnamed: 0,Nombre,Edad,Residencia
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
6,Sandra,28,?


In [13]:
# Con ~ podemos obtener el resultado opuesto:

df[~(df["Edad"].between(28, 29))]

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza


In [14]:
# Si tenemos más de 1 condición debemos agruparlas con parentesis ()

df[(df["Edad"].isin([30, 28])) & (df["Residencia"] != "Madrid")]

Unnamed: 0,Nombre,Edad,Residencia
5,Romero,30,Zaragoza
6,Sandra,28,?


In [15]:
# Con .duplicated() vemos las filas que tengan valores repetidos, no muestra las primera apariciones

df[df["Edad"].duplicated()]

Unnamed: 0,Nombre,Edad,Residencia
3,Josue,28,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


In [16]:
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


### Reemplazar elementos en un DataFrame

In [17]:
# .replace() funciona similar a la función de cadenas de caracteres
# Estos cambios NO son in-place

df["Residencia"].replace("Madrid", "MADRID")

0      MADRID
1      MADRID
2      Bilbao
3      MADRID
4      MADRID
5    Zaragoza
6           ?
Name: Residencia, dtype: category
Categories (4, object): ['?', 'Bilbao', 'MADRID', 'Zaragoza']

In [18]:
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


In [19]:
# Para hacerlo inplace podemos agregar:

df["Residencia"].replace("Madrid", "MADRID", inplace = True)

In [20]:
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,MADRID
1,Paola,28,MADRID
2,Maria,29,Bilbao
3,Josue,28,MADRID
4,Martha,30,MADRID
5,Romero,30,Zaragoza
6,Sandra,28,?


In [21]:
# Podemos reemplazar "?" por un np.nan
# Esta es otra forma de sobreescribir la columna

df["Residencia"] = df["Residencia"].replace("?",np.nan)

df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,MADRID
1,Paola,28,MADRID
2,Maria,29,Bilbao
3,Josue,28,MADRID
4,Martha,30,MADRID
5,Romero,30,Zaragoza
6,Sandra,28,


In [22]:
# .replace() puede tomar un diccionario como parametro
# El diccionario va a tener llaves y valores
# Lo que significa que cada vez que encuentre una llave en la columna lo va a sustituir por su valor

diccionario = {"Gael" : "Pedro",
               "Paola" : "Andrea"}

df["Nombre"].replace(diccionario)

0     Pedro
1    Andrea
2     Maria
3     Josue
4    Martha
5    Romero
6    Sandra
Name: Nombre, dtype: object

### Concatenación

### Horizontal

In [23]:
df1 = pd.DataFrame({"Columna_1" : ["A", "B"],
                    "Columna_2" : ["C", "D"]})

df2 = pd.DataFrame({"Columna_3" : ["E", "F"],
                    "Columna_4" : ["G", "H"]})

In [24]:
df1

Unnamed: 0,Columna_1,Columna_2
0,A,C
1,B,D


In [25]:
df2

Unnamed: 0,Columna_3,Columna_4
0,E,G
1,F,H


In [26]:
# Para concatenar horizontalmente hay que usar axis = 1
pd.concat([df1, df2], axis = 1)

Unnamed: 0,Columna_1,Columna_2,Columna_3,Columna_4
0,A,C,E,G
1,B,D,F,H


In [27]:
# Usando un solo pd.concat() podemos concatenar varios DataFrames a la vez, incluso repetirlos

pd.concat([df1, df2, df2, df2], axis = 1)

Unnamed: 0,Columna_1,Columna_2,Columna_3,Columna_4,Columna_3.1,Columna_4.1,Columna_3.2,Columna_4.2
0,A,C,E,G,E,G,E,G
1,B,D,F,H,F,H,F,H


### Verticalmente

In [28]:
df1 = pd.DataFrame({"Columna_1" : ["A", "B", "1"],
                    "Columna_2" : ["C", "D", "2"]})

df2 = pd.DataFrame({"Columna_1" : ["E", "F"],
                    "Columna_2" : ["G", "H"]})

# Ambos tienen el mismo nombre en las columnas

In [29]:
df1

Unnamed: 0,Columna_1,Columna_2
0,A,C
1,B,D
2,1,2


In [30]:
df2

Unnamed: 0,Columna_1,Columna_2
0,E,G
1,F,H


In [32]:
# Como tienen el mismo nombre de columnas, pandas los agrupa automaticamente

pd.concat([df1, df2], axis = 0)

Unnamed: 0,Columna_1,Columna_2
0,A,C
1,B,D
2,1,2
0,E,G
1,F,H


In [33]:
df3 = pd.DataFrame({"Columna_1" : ["E", "F"],
                    "Columna_3" : ["G", "H"]})

df3

Unnamed: 0,Columna_1,Columna_3
0,E,G
1,F,H


In [34]:
# En este ejemplo los DataFrames tienen columnas diferentes

pd.concat([df1, df3], axis = 0)

# Por eso, pandas agrupa la columna en comun, y las que sean diferentes las llena con NaN's

Unnamed: 0,Columna_1,Columna_2,Columna_3
0,A,C,
1,B,D,
2,1,2,
0,E,,G
1,F,,H


In [35]:
# Si nos fijamos, pandas incluso concatena los indices, para evitar este comportamiento podemos agregar otro parametro:

pd.concat([df1, df3], axis = 0, ignore_index = True)

Unnamed: 0,Columna_1,Columna_2,Columna_3
0,A,C,
1,B,D,
2,1,2,
3,E,,G
4,F,,H


In [36]:
# Otra forma de concatenar verticalmente es usando .append()

df4 = df1.append(df2)

df4

Unnamed: 0,Columna_1,Columna_2
0,A,C
1,B,D
2,1,2
0,E,G
1,F,H


In [37]:
# En el caso de que las columnas no coincidan sucede lo mismo que en pd.concat()

df5 = df1.append(df3)

df5

Unnamed: 0,Columna_1,Columna_2,Columna_3
0,A,C,
1,B,D,
2,1,2,
0,E,,G
1,F,,H


### Merge

In [38]:
df1 = pd.DataFrame({"Nombre" : ["Gael", "Paola", "Maria", "Josue", "Martha", "Romero", "Sandra"],
                    "Edad" : [27, 28, 29, 28, 30, 30, 28]})
df1

Unnamed: 0,Nombre,Edad
0,Gael,27
1,Paola,28
2,Maria,29
3,Josue,28
4,Martha,30
5,Romero,30
6,Sandra,28


In [39]:
df2 = pd.DataFrame({"Nombre" : ["Gael", "Paola", "Maria", "Josue", "Martha", "Romero", "Sandro"],
                    "Residencia" : ["Madrid", "Madrid", "Bilbao", "Madrid", "Madrid", "Zaragoza", "Sevilla"]})
df2

Unnamed: 0,Nombre,Residencia
0,Gael,Madrid
1,Paola,Madrid
2,Maria,Bilbao
3,Josue,Madrid
4,Martha,Madrid
5,Romero,Zaragoza
6,Sandro,Sevilla


In [40]:
# pd.merge() Une dos DataFrames que tengan una columna en común:
# Por defecto "how" es "inner"

pd.merge(left = df1, right = df2, left_on = "Nombre", right_on = "Nombre", how = "inner")

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza


In [41]:
pd.merge(left = df1, right = df2, left_on = "Nombre", right_on = "Nombre", how = "outer")

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27.0,Madrid
1,Paola,28.0,Madrid
2,Maria,29.0,Bilbao
3,Josue,28.0,Madrid
4,Martha,30.0,Madrid
5,Romero,30.0,Zaragoza
6,Sandra,28.0,
7,Sandro,,Sevilla


In [42]:
# pd.merge() usando otros parámetros:
# Nota: esto solo funciona si ambos DataFrames tienen la columna con el mismo nombre

pd.merge(left = df1, right = df2, on = "Nombre")

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
