In [77]:
import pandas as pd
import numpy as np
df = pd.DataFrame({"Nombre":["Gael","Paola","Maria","Josue","Martha","Romero","Sandra"], "Edad":[27,28,29,28,30,30,28]})
df["Residencia"] = ["Madrid","Madrid","Bilbao","Madrid","Madrid","Zaragoza", "?"]
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


## Cambiar el tipo de datos

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
Nombre        7 non-null object
Edad          7 non-null int64
Residencia    6 non-null object
dtypes: int64(1), object(2)
memory usage: 296.0+ bytes


In [28]:
#Modificar el tipo de dato de la columna

df["Edad"] = df["Edad"].astype("int8")
df.dtypes

Nombre        object
Edad            int8
Residencia    object
dtype: object

In [29]:
df["Nombre"] = df["Nombre"].astype("category")
df.dtypes

Nombre        category
Edad              int8
Residencia      object
dtype: object

In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
Nombre        7 non-null category
Edad          7 non-null int8
Residencia    6 non-null object
dtypes: category(1), int8(1), object(1)
memory usage: 574.0+ bytes


In [31]:
df[["Nombre","Residencia"]] = df[["Nombre","Residencia"]].astype("category")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
Nombre        7 non-null category
Edad          7 non-null int8
Residencia    6 non-null category
dtypes: category(2), int8(1)
memory usage: 629.0 bytes


In [32]:
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,


## Filtrado de datos

In [36]:
#isin() 
df[df["Residencia"]=="Madrid"] #Para seleccionar solo una categoria de la columna Residencia
df[df["Residencia"].isin(["Madrid","Bilbao"])] #Selecciono Madrid y Bilbao
df[df["Residencia"].isin(["Madrid","Bilbao","Zaragoza"])] #Seleccionar Madrid, Bilbao, Zaragoza

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
3,Josue,28,Madrid
4,Martha,30,Madrid


In [38]:
df[df["Edad"].isin([30,28])]

Unnamed: 0,Nombre,Edad,Residencia
1,Paola,28,Madrid
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,


In [39]:
#between para elegir filas entre 29 y 30 años
df[df["Edad"].between(28,30)]

Unnamed: 0,Nombre,Edad,Residencia
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,


In [41]:
#between y virgulilla para elegir elementos que no esten entre 29 y 30
df[~df["Edad"].between(28,29)] #Tenemos el filtro lo ponemos entre parentesis y anteriormente se pone la virgulilla

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza


In [42]:
#virgulilla para elegir los elementos que no sean madrid
df[~(df["Residencia"]=="Madrid")]

Unnamed: 0,Nombre,Edad,Residencia
2,Maria,29,Bilbao
5,Romero,30,Zaragoza
6,Sandra,28,


In [43]:
df[df["Residencia"]!="Madrid"]

Unnamed: 0,Nombre,Edad,Residencia
2,Maria,29,Bilbao
5,Romero,30,Zaragoza


In [48]:
df[~(df["Edad"]<28)]

Unnamed: 0,Nombre,Edad,Residencia
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,


In [14]:
df[(df["Edad"].isin([30,28])) & (df["Nombre"]=="Paola")]

Unnamed: 0,Nombre,Edad,Residencia
1,Paola,28,Madrid


In [50]:
df[(df["Edad"].isin([30,28])) & ~(df["Residencia"]=="Madrid")]

Unnamed: 0,Nombre,Edad,Residencia
5,Romero,30,Zaragoza
6,Sandra,28,


In [53]:
df[df["Residencia"].duplicated()]

Unnamed: 0,Nombre,Edad,Residencia
1,Paola,28,Madrid
3,Josue,28,Madrid
4,Martha,30,Madrid
6,Sandra,28,Zaragoza


## Remplazar elementos en un dataframe

In [58]:
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,?


In [62]:
99

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,3.14159


In [79]:
df["Residencia"] = df["Residencia"].replace("?","Sevilla")
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,Sevilla


## Funciones:  map, apply  y applymap

In [74]:
def mayusculas(x):
    return x.upper()

In [72]:
mayusculas("Hola mundo")

'HOLA MUNDO'

In [76]:
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,3.14159


In [80]:
#map #MAP me va a servir para aplicar una función a cada uno de los elementos en la columna 
#map solo opera sobre columnas. 

df["Residencia"] = df["Residencia"].map(lambda x:x.upper())
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,MADRID
1,Paola,28,MADRID
2,Maria,29,BILBAO
3,Josue,28,MADRID
4,Martha,30,MADRID
5,Romero,30,ZARAGOZA
6,Sandra,28,SEVILLA


In [83]:
df["Residencia"] = df["Residencia"].str.lower()
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,5.196152,madrid
1,Paola,5.291503,madrid
2,Maria,5.385165,bilbao
3,Josue,5.291503,madrid
4,Martha,5.477226,madrid
5,Romero,5.477226,zaragoza
6,Sandra,5.291503,sevilla


In [82]:
df["Edad"] = df["Edad"].map(lambda x:np.sqrt(x))
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,5.196152,MADRID
1,Paola,5.291503,MADRID
2,Maria,5.385165,BILBAO
3,Josue,5.291503,MADRID
4,Martha,5.477226,MADRID
5,Romero,5.477226,ZARAGOZA
6,Sandra,5.291503,SEVILLA


In [85]:
df[["Nombre","Residencia"]] = df[["Nombre","Residencia"]].apply(lambda x:x+"!!!")
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael!!!,5.196152,madrid!!!
1,Paola!!!,5.291503,madrid!!!
2,Maria!!!,5.385165,bilbao!!!
3,Josue!!!,5.291503,madrid!!!
4,Martha!!!,5.477226,madrid!!!
5,Romero!!!,5.477226,zaragoza!!!
6,Sandra!!!,5.291503,sevilla!!!


In [89]:
#apply
df[["Nombre","Residencia"]] = df[["Nombre","Residencia"]].apply(lambda x:x.astype("str"))
df

Unnamed: 0,Nombre,Edad,Residencia
0,Gael!!!,5.196152,madrid!!!
1,Paola!!!,5.291503,madrid!!!
2,Maria!!!,5.385165,bilbao!!!
3,Josue!!!,5.291503,madrid!!!
4,Martha!!!,5.477226,madrid!!!
5,Romero!!!,5.477226,zaragoza!!!
6,Sandra!!!,5.291503,sevilla!!!


In [90]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
Nombre        7 non-null object
Edad          7 non-null float64
Residencia    7 non-null object
dtypes: float64(1), object(2)
memory usage: 296.0+ bytes


In [91]:
#applymap #Funciona para dataframes a cada elemento
df[["Nombre","Residencia"]] = df[["Nombre","Residencia"]].applymap(lambda x:x.upper())
df

Unnamed: 0,Nombre,Edad,Residencia
0,GAEL!!!,5.196152,MADRID!!!
1,PAOLA!!!,5.291503,MADRID!!!
2,MARIA!!!,5.385165,BILBAO!!!
3,JOSUE!!!,5.291503,MADRID!!!
4,MARTHA!!!,5.477226,MADRID!!!
5,ROMERO!!!,5.477226,ZARAGOZA!!!
6,SANDRA!!!,5.291503,SEVILLA!!!


In [151]:
#applymap no funciona para Series
df["Residencia"] = df["Residencia"].applymap(lambda x:x.upper())
df

AttributeError: 'Series' object has no attribute 'applymap'

# Concatenación

## Concatenar horizontalmente

In [93]:
df1 = pd.DataFrame({"Columna_1": ["A","B"],"Colomuna_2":["C","D"]})
df1

Unnamed: 0,Columna_1,Colomuna_2
0,A,C
1,B,D


In [94]:
df2 = pd.DataFrame({"Columna_3": ["E","F"],"Colomuna_4":["G","H"]})
df2

Unnamed: 0,Columna_3,Colomuna_4
0,E,G
1,F,H


In [96]:
#Concatenar horizontalmente 
pd.concat([df1,df2,df2,df2], axis=1)

Unnamed: 0,Columna_1,Colomuna_2,Columna_3,Colomuna_4,Columna_3.1,Colomuna_4.1,Columna_3.2,Colomuna_4.2
0,A,C,E,G,E,G,E,G
1,B,D,F,H,F,H,F,H


In [196]:
#Concatenar
pd.concat([df1,df2], sort=False)

Unnamed: 0,Columna_1,Colomuna_2,Columna_3,Colomuna_4
0,A,C,,
1,B,D,,
0,,,E,G
1,,,F,H


## Concatenar verticalmente

In [107]:
df1 = pd.DataFrame({"Columna_1": ["A","B",1],"Colomuna_2":["C","D","2"]})
df1

Unnamed: 0,Columna_1,Colomuna_2
0,A,C
1,B,D
2,1,2


In [108]:
df2 = pd.DataFrame({"Columna_1": ["E","F"],"Colomuna_2":["G","H"]})
df2

Unnamed: 0,Columna_1,Colomuna_2
0,E,G
1,F,H


In [109]:
#Concatenar verticalmente 
pd.concat([df1,df2], axis=0)

Unnamed: 0,Columna_1,Colomuna_2
0,A,C
1,B,D
2,1,2
0,E,G
1,F,H


In [101]:
df1 = pd.DataFrame({"Columna_1": ["A","B",1],"Colomuna_2":["C","D","2"]})
df1

Unnamed: 0,Columna_1,Colomuna_2
0,A,C
1,B,D
2,1,2


In [104]:
df2 = pd.DataFrame({"Columna_1": ["E","F"],"Colomuna_2":["G","H"],"Columna_30":[5,6]})
df2

Unnamed: 0,Columna_1,Colomuna_2,Columna_30
0,E,G,5
1,F,H,6


In [106]:
#Concatenar verticalmente 
pd.concat([df1,df2], axis=0, sort=False)

Unnamed: 0,Columna_1,Colomuna_2,Columna_30
0,A,C,
1,B,D,
2,1,2,
0,E,G,5.0
1,F,H,6.0


In [110]:
#Concatenar verticalmente 
df1.append(df2)

Unnamed: 0,Columna_1,Colomuna_2
0,A,C
1,B,D
2,1,2
0,E,G
1,F,H


In [111]:
#Concatenar verticalmente 
df1.append([df2,df2], ignore_index=True)

Unnamed: 0,Columna_1,Colomuna_2
0,A,C
1,B,D
2,1,2
3,E,G
4,F,H
5,E,G
6,F,H


## Merge

In [112]:
df1 = pd.DataFrame({"Nombre":["Gael","Paola","Maria","Josue","Martha","Romero","Sandra"], "Edad":[27,28,29,28,30,30,28]})
df1

Unnamed: 0,Nombre,Edad
0,Gael,27
1,Paola,28
2,Maria,29
3,Josue,28
4,Martha,30
5,Romero,30
6,Sandra,28


In [118]:
df2 = pd.DataFrame({"Nombre":["Gael","Paola","Maria","Josue","Martha","Romero","Sandra"], "Residencia":["Madrid","Madrid","Bilbao","Madrid","Madrid","Zaragoza","Sevilla"]})
df2

Unnamed: 0,Nombre,Residencia
0,Gael,Madrid
1,Paola,Madrid
2,Maria,Bilbao
3,Josue,Madrid
4,Martha,Madrid
5,Romero,Zaragoza
6,Sandra,Sevilla


In [114]:
#Ejemplo1
pd.merge(left=df1, right=df2, on = "Nombre")

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,Sevilla


In [119]:
#Ejemplo1.1
pd.merge(df1,df2,on="Nombre")

Unnamed: 0,Nombre,Edad,Residencia
0,Gael,27,Madrid
1,Paola,28,Madrid
2,Maria,29,Bilbao
3,Josue,28,Madrid
4,Martha,30,Madrid
5,Romero,30,Zaragoza
6,Sandra,28,Sevilla


In [116]:
df2 = pd.DataFrame({"NOMBRE":["Gael","Paola","Maria","Josue","Martha","Romero","Sandra"], "Residencia":["Madrid","Madrid","Bilbao","Madrid","Madrid","Zaragoza","Sevilla"]})
df2

Unnamed: 0,NOMBRE,Residencia
0,Gael,Madrid
1,Paola,Madrid
2,Maria,Bilbao
3,Josue,Madrid
4,Martha,Madrid
5,Romero,Zaragoza
6,Sandra,Sevilla


In [117]:
#Ejemplo2
pd.merge(left=df1, right=df2, left_on = "Nombre", right_on="NOMBRE", how="right")

Unnamed: 0,Nombre,Edad,NOMBRE,Residencia
0,Gael,27,Gael,Madrid
1,Paola,28,Paola,Madrid
2,Maria,29,Maria,Bilbao
3,Josue,28,Josue,Madrid
4,Martha,30,Martha,Madrid
5,Romero,30,Romero,Zaragoza
6,Sandra,28,Sandra,Sevilla
