## pandas 2

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({"Nombre" : ["Gael", "Paola", "Maria", "Josue", "Martha", "Romero", "Sandra"],
                   "Edad" : [27, 28, 29, 28, 30, 30, 28]})

df["Residencia"] = ["Madrid", "Madrid", "Bilbao", "Madrid", "Madrid", "Zaragoza", "?"]

df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Nombre      7 non-null      object
 1   Edad        7 non-null      int64 
 2   Residencia  7 non-null      object
dtypes: int64(1), object(2)
memory usage: 296.0+ bytes


### Cambiar el tipo de datos

In [6]:
# Modificar el tipo de dato de la columna "edad" a "int8"

df["Edad"] = df["Edad"].astype("int8")

df.dtypes

Nombre        object
Edad            int8
Residencia    object
dtype: object

In [7]:
# Cambiar el tipo de dato de la columna "Nombre" a "category"

df["Nombre"] = df["Nombre"].astype("category")

df.dtypes

Nombre        category
Edad              int8
Residencia      object
dtype: object

In [8]:
# Ahora es tipo "category"

df["Nombre"]

0      Gael
1     Paola
2     Maria
3     Josue
4    Martha
5    Romero
6    Sandra
Name: Nombre, dtype: category
Categories (7, object): ['Gael', 'Josue', 'Maria', 'Martha', 'Paola', 'Romero', 'Sandra']

In [9]:
# Esta columna sigue siendo "object"

df["Residencia"]

0      Madrid
1      Madrid
2      Bilbao
3      Madrid
4      Madrid
5    Zaragoza
6           ?
Name: Residencia, dtype: object

In [10]:
# Cambiar 2 o más a la vez

df[["Nombre", "Residencia"]] = df[["Nombre", "Residencia"]].astype("category")

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   Nombre      7 non-null      category
 1   Edad        7 non-null      int8    
 2   Residencia  7 non-null      category
dtypes: category(2), int8(1)
memory usage: 709.0 bytes


### Filtrado de Datos

In [12]:
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


In [19]:
# Filtramos sobre la misma columna
# (or) solo una de ellas
df[(df["Residencia"] == "Madrid") | (df["Residencia"] == "Bilbao")] 

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid


In [18]:
# (and) ambas condiciones tiene que cumplirse
df[(df["Edad"]>=29) & (df["Residencia"] == "Madrid")] 

Unnamed: 0,Nombre,Edad,Residencia
4,Martha,30,Madrid


In [22]:
# El mismo resultado se puede lograr con: .isin()

df[df["Residencia"].isin(["Madrid", "Bilbao"]) | (df["Edad"].isin([30, 28]))]

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


In [21]:
df[df["Edad"].isin([30, 28])]

Unnamed: 0,Nombre,Edad,Residencia
1,Paola,28,Madrid
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


In [30]:
dictio = {'Nombre': list(np.random.choice(["Gael", "Paola", "Maria", "Josue", "Martha", "Romero", "Sandra"], size=1000)),
 'Edad': list(np.random.randint(15, 65, size=1000)),
 'Residencia': list(np.random.choice(["Madrid", 'Coruña', "Barcelona", "Bilbao", "Valencia", "Sevilla", np.nan], size=1000))
}

df1 = pd.DataFrame(dictio)
df1

Unnamed: 0,Nombre,Edad,Residencia
0,Josue,21,Coruña
1,Gael,63,Madrid
2,Paola,56,Bilbao
3,Paola,64,Bilbao
4,Romero,57,
...,...,...,...
995,Martha,34,Madrid
996,Martha,42,Barcelona
997,Sandra,63,Sevilla
998,Maria,22,Valencia


In [31]:
df1.Residencia.value_counts()

Sevilla      157
Valencia     149
Coruña       146
Madrid       145
Barcelona    136
nan          134
Bilbao       133
Name: Residencia, dtype: int64

In [34]:
df1.Nombre.value_counts()

Sandra    169
Romero    156
Josue     148
Paola     141
Gael      138
Maria     132
Martha    116
Name: Nombre, dtype: int64

In [35]:
# Si quisieramos filtrar por un rango, podemos usar: .between()
# Los dos extremos son incluidos
# Solo se puede usar en columnas númericas

df1[(df1["Edad"].between(28, 30))]

Unnamed: 0,Nombre,Edad,Residencia
41,Maria,28,Sevilla
62,Gael,30,Madrid
87,Josue,28,Barcelona
89,Josue,30,Valencia
92,Romero,28,Barcelona
...,...,...,...
941,Romero,29,Sevilla
942,Paola,28,Madrid
944,Gael,30,
961,Martha,28,Sevilla


In [38]:
# Con ~ podemos obtener el resultado opuesto:

df1[~(df1["Edad"].between(25, 39))]

Unnamed: 0,Nombre,Edad,Residencia
0,Josue,21,Coruña
1,Gael,63,Madrid
2,Paola,56,Bilbao
3,Paola,64,Bilbao
4,Romero,57,
...,...,...,...
994,Romero,49,Valencia
996,Martha,42,Barcelona
997,Sandra,63,Sevilla
998,Maria,22,Valencia


In [43]:
# Si tenemos más de 1 condición debemos agruparlas con parentesis ()

df1[(df1["Edad"].isin([30, 28])) & (df1["Residencia"] != "Madrid")]

Unnamed: 0,Nombre,Edad,Residencia
41,Maria,28,Sevilla
87,Josue,28,Barcelona
89,Josue,30,Valencia
92,Romero,28,Barcelona
113,Sandra,30,Coruña
179,Paola,30,Barcelona
195,Sandra,30,Barcelona
196,Maria,28,Barcelona
207,Sandra,28,Bilbao
209,Josue,30,Valencia


In [45]:
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


In [44]:
# Con .duplicated() vemos las filas que tengan valores repetidos, no muestra las primera apariciones

df[df["Edad"].duplicated()]

Unnamed: 0,Nombre,Edad,Residencia
3,Josue,28,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


In [47]:
df1[df1.duplicated()]

Unnamed: 0,Nombre,Edad,Residencia
30,Josue,64,Bilbao
45,Josue,21,Coruña
85,Martha,27,Sevilla
101,Maria,17,
132,Romero,24,Madrid
...,...,...,...
979,Maria,62,Valencia
984,Gael,25,Sevilla
991,Maria,47,Sevilla
994,Romero,49,Valencia


In [53]:
%%time
df1[(df1.Nombre == 'Josue') & (df1.Edad == 64) & (df1.Residencia == 'Bilbao')]

Wall time: 2 ms


Unnamed: 0,Nombre,Edad,Residencia
7,Josue,64,Bilbao
30,Josue,64,Bilbao
442,Josue,64,Bilbao


In [54]:
%%time
df1[(df1.Nombre.isin(['Josue'])) & (df1.Edad.isin([64])) & (df1.Residencia.isin(['Bilbao']))]

Wall time: 1.01 ms


Unnamed: 0,Nombre,Edad,Residencia
7,Josue,64,Bilbao
30,Josue,64,Bilbao
442,Josue,64,Bilbao


In [48]:
df1_sin_duplicados = df1.drop_duplicates()
df1_sin_duplicados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 827 entries, 0 to 998
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Nombre      827 non-null    object
 1   Edad        827 non-null    int32 
 2   Residencia  827 non-null    object
dtypes: int32(1), object(2)
memory usage: 22.6+ KB


In [49]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Nombre      1000 non-null   object
 1   Edad        1000 non-null   int32 
 2   Residencia  1000 non-null   object
dtypes: int32(1), object(2)
memory usage: 19.7+ KB


### Reemplazar elementos en un DataFrame

In [55]:
# .replace() funciona similar a la función de cadenas de caracteres
# Estos cambios NO son in-place

df["Residencia"].replace("Madrid", "MADRID")

0      MADRID
1      MADRID
2      Bilbao
3      MADRID
4      MADRID
5    Zaragoza
6           ?
Name: Residencia, dtype: category
Categories (4, object): ['?', 'Bilbao', 'MADRID', 'Zaragoza']

In [56]:
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


In [57]:
# Para hacerlo inplace podemos agregar:

df["Residencia"].replace("Madrid", "MADRID", inplace = True)

In [58]:
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,MADRID
1,Paola,28,MADRID
2,Maria,29,Bilbao
3,Josue,28,MADRID
4,Martha,30,MADRID
5,Romero,30,Zaragoza
6,Sandra,28,?


In [59]:
# Podemos reemplazar "?" por un np.nan
# Esta es otra forma de sobreescribir la columna

df["Residencia"] = df["Residencia"].replace("?", np.nan)

df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,MADRID
1,Paola,28,MADRID
2,Maria,29,Bilbao
3,Josue,28,MADRID
4,Martha,30,MADRID
5,Romero,30,Zaragoza
6,Sandra,28,


In [60]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   Nombre      7 non-null      category
 1   Edad        7 non-null      int8    
 2   Residencia  6 non-null      category
dtypes: category(2), int8(1)
memory usage: 637.0 bytes


In [63]:
# .replace() puede tomar un diccionario como parametro
# El diccionario va a tener llaves y valores
# Lo que significa que cada vez que encuentre una llave en la columna lo va a sustituir por su valor

diccionario = {"Gael" : "Pedro",
               "Paola" : "Andrea"}

df["Nombre"].replace(diccionario, inplace=True)

In [62]:
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,MADRID
1,Paola,28,MADRID
2,Maria,29,Bilbao
3,Josue,28,MADRID
4,Martha,30,MADRID
5,Romero,30,Zaragoza
6,Sandra,28,


In [64]:
df

Unnamed: 0,Nombre,Edad,Residencia
0,Pedro,27,MADRID
1,Andrea,28,MADRID
2,Maria,29,Bilbao
3,Josue,28,MADRID
4,Martha,30,MADRID
5,Romero,30,Zaragoza
6,Sandra,28,


In [65]:
df.Nombre = df.Nombre.apply(lambda x: 'Mateo' if x == 'Pedro' else x) 
df

Unnamed: 0,Nombre,Edad,Residencia
0,Mateo,27,MADRID
1,Andrea,28,MADRID
2,Maria,29,Bilbao
3,Josue,28,MADRID
4,Martha,30,MADRID
5,Romero,30,Zaragoza
6,Sandra,28,


### Concatenación

### Horizontal

In [66]:
df1 = pd.DataFrame({"Columna_1" : ["A", "B"],
                    "Columna_2" : ["C", "D"]})

df2 = pd.DataFrame({"Columna_3" : ["E", "F", "G"],
                    "Columna_4" : ["G", "H", "I"]})

In [67]:
df1

Unnamed: 0,Columna_1,Columna_2
0,A,C
1,B,D


In [68]:
df2

Unnamed: 0,Columna_3,Columna_4
0,E,G
1,F,H
2,G,I


In [69]:
# Para concatenar horizontalmente hay que usar axis = 1
pd.concat([df1, df2], axis = 1)

Unnamed: 0,Columna_1,Columna_2,Columna_3,Columna_4
0,A,C,E,G
1,B,D,F,H
2,,,G,I


In [70]:
# Usando un solo pd.concat() podemos concatenar varios DataFrames a la vez, incluso repetirlos

pd.concat([df1, df2, df2, df2], axis = 1)

Unnamed: 0,Columna_1,Columna_2,Columna_3,Columna_4,Columna_3.1,Columna_4.1,Columna_3.2,Columna_4.2
0,A,C,E,G,E,G,E,G
1,B,D,F,H,F,H,F,H
2,,,G,I,G,I,G,I


### Vertical

In [71]:
df1 = pd.DataFrame({"Columna_1" : ["A", "B", "1"],
                    "Columna_2" : ["C", "D", "2"]})

df2 = pd.DataFrame({"Columna_1" : ["E", "F"],
                    "Columna_2" : ["G", "H"]})

# Ambos tienen el mismo nombre en las columnas

In [72]:
df1

Unnamed: 0,Columna_1,Columna_2
0,A,C
1,B,D
2,1,2


In [73]:
df2

Unnamed: 0,Columna_1,Columna_2
0,E,G
1,F,H


In [74]:
# Como tienen el mismo nombre de columnas, pandas los agrupa automaticamente

pd.concat([df1, df2], axis = 0)

Unnamed: 0,Columna_1,Columna_2
0,A,C
1,B,D
2,1,2
0,E,G
1,F,H


In [75]:
df3 = pd.DataFrame({"Columna_1" : ["E", "F"],
                    "Columna_3" : ["G", "H"]})

df3

Unnamed: 0,Columna_1,Columna_3
0,E,G
1,F,H


In [76]:
# En este ejemplo los DataFrames tienen columnas diferentes

pd.concat([df1, df3], axis = 0)

# Por eso, pandas agrupa la columna en comun, y las que sean diferentes las llena con NaN's

Unnamed: 0,Columna_1,Columna_2,Columna_3
0,A,C,
1,B,D,
2,1,2,
0,E,,G
1,F,,H


In [77]:
# Si nos fijamos, pandas incluso concatena los indices, para evitar este comportamiento podemos agregar otro parametro:

pd.concat([df1, df3], axis = 0, ignore_index = True)

Unnamed: 0,Columna_1,Columna_2,Columna_3
0,A,C,
1,B,D,
2,1,2,
3,E,,G
4,F,,H


In [81]:
# esto es para evitar los mensajes de alerta
import warnings
warnings.filterwarnings("ignore")

In [80]:
# Otra forma de concatenar verticalmente es usando .append()

df4 = df1.append(df2)

df4

Unnamed: 0,Columna_1,Columna_2
0,A,C
1,B,D
2,1,2
0,E,G
1,F,H


In [82]:
# En el caso de que las columnas no coincidan sucede lo mismo que en pd.concat()

df5 = df1.append(df3)

df5

Unnamed: 0,Columna_1,Columna_2,Columna_3
0,A,C,
1,B,D,
2,1,2,
0,E,,G
1,F,,H


### pd.merge()

In [83]:
df1 = pd.DataFrame({"Nombre" : ["Gael", "Paola", "Maria", "Josue", "Martha", "Romero", "Sandra"],
                    "Edad" : [27, 28, 29, 28, 30, 30, 28]})
df1

Unnamed: 0,Nombre,Edad
0,Gael,27
1,Paola,28
2,Maria,29
3,Josue,28
4,Martha,30
5,Romero,30
6,Sandra,28


In [84]:
df2 = pd.DataFrame({"Nombre" : ["Gael", "Paola", "Maria", "Josue", "Martha", "Romero", "Sandro"],
                    "Residencia" : ["Madrid", "Madrid", "Bilbao", "Madrid", "Madrid", "Zaragoza", "Sevilla"]})
df2

Unnamed: 0,Nombre,Residencia
0,Gael,Madrid
1,Paola,Madrid
2,Maria,Bilbao
3,Josue,Madrid
4,Martha,Madrid
5,Romero,Zaragoza
6,Sandro,Sevilla


In [85]:
# pd.merge() Une dos DataFrames que tengan una columna en común:
# Por defecto "how" es "inner"

pd.merge(left = df1, right = df2, left_on = "Nombre", right_on = "Nombre", how = "inner")

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza


In [86]:
pd.merge(left = df1, right = df2, left_on = "Nombre", right_on = "Nombre", how = "outer")

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27.0,Madrid
1,Paola,28.0,Madrid
2,Maria,29.0,Bilbao
3,Josue,28.0,Madrid
4,Martha,30.0,Madrid
5,Romero,30.0,Zaragoza
6,Sandra,28.0,
7,Sandro,,Sevilla


In [87]:
# pd.merge() usando otros parámetros:
# Nota: esto solo funciona si ambos DataFrames tienen la columna con el mismo nombre

pd.merge(left = df1, right = df2, on = "Nombre")

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza


In [88]:
pd.merge(left = df1, right = df2, left_on = "Nombre", right_on = "Nombre", how = "left")

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,


In [89]:
pd.merge(left = df1, right = df2, left_on = "Nombre", right_on = "Nombre", how = "right")

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27.0,Madrid
1,Paola,28.0,Madrid
2,Maria,29.0,Bilbao
3,Josue,28.0,Madrid
4,Martha,30.0,Madrid
5,Romero,30.0,Zaragoza
6,Sandro,,Sevilla


In [92]:
df2

Unnamed: 0,Nombre,Residencia
0,Gael,Madrid
1,Paola,Madrid
2,Maria,Bilbao
3,Josue,Madrid
4,Martha,Madrid
5,Romero,Zaragoza
6,Sandro,Sevilla


In [93]:
df1

Unnamed: 0,Nombre,Edad
0,Gael,27
1,Paola,28
2,Maria,29
3,Josue,28
4,Martha,30
5,Romero,30
6,Sandra,28


In [None]:
################################################################################################################################