In [2]:
import pandas as pd

In [3]:
#Leyendo los datos desde un archivo Excel.
pd.read_excel("xl/course_participants.xlsx")

Unnamed: 0,user_id,name,age,country,score,continent
0,1001,Mark,55,Italy,4.5,Europe
1,1000,John,33,USA,6.7,America
2,1002,Tim,41,USA,3.9,America
3,1003,Jenny,12,Germany,9.0,Europe


In [3]:
#Construyendo el DataFrame desde cero.
#Primero se crean los datos en una lista anidada.
data = [["Mark", 55, "Italy", 4.5, "Europe"], 
        ["John", 33, "USA", 6.7, "America"], 
        ["Tim", 41, "USA", 3.9, "America"], 
        ["Jenny", 12, "Germany", 9.0, "Europe"]]

data

[['Mark', 55, 'Italy', 4.5, 'Europe'],
 ['John', 33, 'USA', 6.7, 'America'],
 ['Tim', 41, 'USA', 3.9, 'America'],
 ['Jenny', 12, 'Germany', 9.0, 'Europe']]

In [4]:
#Luego se crea el DataFrame con data, las etiquetas de las columnas 
# (una lista de nombres) y el índice (una lista de índices). Los índices no
# tienen nombre, pero se les puede asignar uno más adelante.
df = pd.DataFrame(data = data, 
                  columns = ["nombre", "edad", "pais", "puntaje", "continente"], 
                  index = [1001, 1000, 1002, 1003])
df

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55,Italy,4.5,Europe
1000,John,33,USA,6.7,America
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 1001 to 1003
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   nombre      4 non-null      object 
 1   edad        4 non-null      int64  
 2   pais        4 non-null      object 
 3   puntaje     4 non-null      float64
 4   continente  4 non-null      object 
dtypes: float64(1), int64(1), object(3)
memory usage: 192.0+ bytes


### Índices
Las etiquetas de las filas de un DataFrame son llamados **índices**. Si no se asigna un índice significativo, Pandas automáticamente lo creará cuando se construye el DataFrame. Este será un índice entero iniciando en 0.

In [8]:
#Los índices se pueden accesar así.
df.index

Int64Index([1001, 1000, 1002, 1003], dtype='int64')

In [9]:
#Tiene sentido asignarle un nombre a los índices.
df.index.name = "user_id"
df

Unnamed: 0_level_0,nombre,edad,pais,puntaje,continente
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1001,Mark,55,Italy,4.5,Europe
1000,John,33,USA,6.7,America
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


In [11]:
#A diferencia de una clave primaria de una base de datos, un índice de un 
# DataFrame puede tener duplicados.
#Si se desea convertir un índice en una columna regular se usa reset_index().
#En este caso Pandas asigna automáticamente un índice con un número 0.
df.reset_index()

Unnamed: 0,user_id,nombre,edad,pais,puntaje,continente
0,1001,Mark,55,Italy,4.5,Europe
1,1000,John,33,USA,6.7,America
2,1002,Tim,41,USA,3.9,America
3,1003,Jenny,12,Germany,9.0,Europe


In [13]:
#Se puede establecer un nuevo índice a partir de las columnas regulares con 
# set_index("nombre_columna")
df.reset_index().set_index("nombre")

Unnamed: 0_level_0,user_id,edad,pais,puntaje,continente
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Mark,1001,55,Italy,4.5,Europe
John,1000,33,USA,6.7,America
Tim,1002,41,USA,3.9,America
Jenny,1003,12,Germany,9.0,Europe


In [15]:
#Se puede cambiar el índice.
df.reindex([999, 1000, 1001, 1004]) #Se presenta un alineamiento de datos.
#Si no existe un índice para una fila, esa fila mostrará NaN.

Unnamed: 0_level_0,nombre,edad,pais,puntaje,continente
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
999,,,,,
1000,John,33.0,USA,6.7,America
1001,Mark,55.0,Italy,4.5,Europe
1004,,,,,


In [16]:
#Ordenando por índice.
df.sort_index()

Unnamed: 0_level_0,nombre,edad,pais,puntaje,continente
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1000,John,33,USA,6.7,America
1001,Mark,55,Italy,4.5,Europe
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


In [19]:
#Ordenando por valores de una o varias columnas.
df.sort_values(["continente", "edad"])

Unnamed: 0_level_0,nombre,edad,pais,puntaje,continente
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1000,John,33,USA,6.7,America
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe
1001,Mark,55,Italy,4.5,Europe


### Columnas


In [20]:
#Para obtener información de las columnas de un DataFrame se corre lo siguiente:
df.columns

Index(['nombre', 'edad', 'pais', 'puntaje', 'continente'], dtype='object')

In [5]:
#Aunque Pandas le puede asignar números a las columnas esto no es buena idea,
# ya que las columnas representan variables y se deberían nombrar en consecuencia.
#A la lista de los nombres de las columnas se les puede asignar un nombre.
df.columns.name = "propiedades"
df

propiedades,nombre,edad,pais,puntaje,continente
1001,Mark,55,Italy,4.5,Europe
1000,John,33,USA,6.7,America
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


In [24]:
#Las columnas se pueden renombrar con un diccionario.
df.rename(columns={"nombre": "PrimerNombre", "edad": "Edad"})

propiedades,PrimerNombre,Edad,pais,puntaje,continente
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1001,Mark,55,Italy,4.5,Europe
1000,John,33,USA,6.7,America
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


In [25]:
#Borrar columnas e índices.
df.drop(columns=["nombre", "pais"], index=[1000, 1003])

propiedades,edad,puntaje,continente
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1001,55,4.5,Europe
1002,41,3.9,America


In [26]:
#Los índices y las columnas son representados ambos por un objeto índice.
# Por eso se pueden intercambiar o transponer.
df.T

user_id,1001,1000,1002,1003
propiedades,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
nombre,Mark,John,Tim,Jenny
edad,55,33,41,12
pais,Italy,USA,USA,Germany
puntaje,4.5,6.7,3.9,9.0
continente,Europe,America,America,Europe


In [28]:
#Se puede reordenar el orden de las columnas de un DataFrame.
df.loc[:, ["continente", "pais", "nombre", "edad", "puntaje"]]

propiedades,continente,pais,nombre,edad,puntaje
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1001,Europe,Italy,Mark,55,4.5
1000,America,USA,John,33,6.7
1002,America,USA,Tim,41,3.9
1003,Europe,Germany,Jenny,12,9.0


## Manipulación de datos
Normalmente los conjuntos de datos se deben limpiar y organizar antes de usarlos.

### Seleccionando los datos
Inicialmente vamos a accesar los datos por etiquetas y por posición antes de mirar otros métodos, incluyendo la indexación booleana y la selección de datos usando un Índice Múltiple.

#### Seleccionando por etiqueta
La forma más común de tener acceso a los datos de DataFrame es refiriendose a sus etiquetas. Se usa el atributo **loc**, el cual significa **localización**, para especificar cuáles filas y cuáles columnas se quieren recuperar.

In [4]:
df.loc[1001, "nombre"]

'Mark'

In [6]:
#Si se selecciona con un escalar, ya sea en una fila o una columna, se retorna una Series.
df.loc[[1001, 1002], "edad"]

1001    55
1002    41
Name: edad, dtype: int64

In [8]:
type(df.loc[[1001, 1002], "edad"])

pandas.core.series.Series

In [7]:
#Si se seleccionan múltiples filas o columnas se retorna un DataFrame.
df.loc[:1002, ["nombre", "pais"]]

Unnamed: 0,nombre,pais
1001,Mark,Italy
1000,John,USA
1002,Tim,USA


In [9]:
type(df.loc[:1002, ["nombre", "pais"]])

pandas.core.frame.DataFrame

In [11]:
#Atajo para selección de columnas.
df["pais"] #Retorna una Series.

1001      Italy
1000        USA
1002        USA
1003    Germany
Name: pais, dtype: object

In [13]:
df[["nombre", "pais"]] #Retorna un DataFrame.

Unnamed: 0,nombre,pais
1001,Mark,Italy
1000,John,USA
1002,Tim,USA
1003,Jenny,Germany


#### Selección por posición

In [5]:
#La selección de un conjunto de DataFrame también por la localización numérica
# con iloc, la cual quiere decir "localización entera".
df.iloc[0, 0] #Produce un escalar.

'Mark'

In [6]:
df.iloc[:, 2] #Produce una Series.

1001      Italy
1000        USA
1002        USA
1003    Germany
Name: pais, dtype: object

In [7]:
df.iloc[:, [2]] #Produce un DataFrame.

Unnamed: 0,pais
1001,Italy
1000,USA
1002,USA
1003,Germany


In [8]:
type(df.iloc[:, [2]])

pandas.core.frame.DataFrame

#### Selección por indexación booleana
La indexacción booleana se refiere a seleccionar un conjunto de un DataFrame con la ayuda de una Series o un DataFrame cuyos datos consisten de únicamente valores de **True** o **False**.
Las "Series Booleanas" son usadas para seleccionar **columnas y filas específicas** de un DataFrame, mientras que los "DataFrames Booleanos" son usados para seleccionar **valores específicos** a través de todo un DataFrame.
Lo más común es usar la indexación booleana para filtrar las filas de un DataFrame. Piense de esto como si fuese un Autofiltro de Excel. Un ejemplo, podría ser filtrar el DataFrame para que muestre solamente las personas quienes viven en Estados Unidos y tienen edades mayores a 40 años:   

In [9]:
tf = (df["edad"] > 40) & (df["pais"] == "USA")
tf

1001    False
1000    False
1002     True
1003    False
dtype: bool

In [10]:
df.loc[tf, :]

Unnamed: 0,nombre,edad,pais,puntaje,continente
1002,Tim,41,USA,3.9,America


In [11]:
df.loc[df.index > 1001, :]

Unnamed: 0,nombre,edad,pais,puntaje,continente
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


In [12]:
df.loc[df["pais"].isin(["Italy", "Germany"])]

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55,Italy,4.5,Europe
1003,Jenny,12,Germany,9.0,Europe


In [14]:
#Estos valores pueden ser los volúmenes de lluvia anuales en milímetros.
rainfall = pd.DataFrame(data={"City 1": [300.1, 100.2], 
                              "City 2": [400.3, 300.4], 
                              "City 3": [1000.5, 1100.6]})
rainfall

Unnamed: 0,City 1,City 2,City 3
0,300.1,400.3,1000.5
1,100.2,300.4,1100.6


In [14]:
rainfall < 400

Unnamed: 0,City 1,City 2,City 3
0,True,False,False
1,True,True,False


In [15]:
rainfall[rainfall > 400]

Unnamed: 0,City 1,City 2,City 3
0,,400.3,1000.5
1,,,1100.6


#### Seleccionando con múltiples índices
Una selección con índice múltiple requiere estar ordenada. 

In [18]:
df_multi = df.reset_index().set_index(["continente", "pais"])
df_multi = df_multi.sort_index()
df_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,index,nombre,edad,puntaje
continente,pais,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
America,USA,1000,John,33,6.7
America,USA,1002,Tim,41,3.9
Europe,Germany,1003,Jenny,12,9.0
Europe,Italy,1001,Mark,55,4.5


In [20]:
df_multi.loc["Europe", :]

Unnamed: 0_level_0,index,nombre,edad,puntaje
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Germany,1003,Jenny,12,9.0
Italy,1001,Mark,55,4.5


In [22]:
#Aplicando índices múltiples:
df_multi.loc[("Europe", "Italy"), :]

Unnamed: 0_level_0,Unnamed: 1_level_0,index,nombre,edad,puntaje
continente,pais,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Europe,Italy,1001,Mark,55,4.5


In [23]:
#Se puede resetear selectivamente parte de un índice múltiple. Cero es la 
# primera columna.
df_multi.reset_index(level=0)

Unnamed: 0_level_0,continente,index,nombre,edad,puntaje
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
USA,America,1000,John,33,6.7
USA,America,1002,Tim,41,3.9
Germany,Europe,1003,Jenny,12,9.0
Italy,Europe,1001,Mark,55,4.5


### Ajustando los datos
La forma más fácil de cambiar los datos de un DataFrame es asignándole valores a ciertos elementos usando los atributos **loc** o **iloc**.

#### Ajustando los datos por etiquetas o por posición
Cuando se asignan valores a un DataFrame por medio de los atributos **loc** o **iloc** se cambian los valores originales del DataFrame. Por ello, usaremos una copia de df con el nombre df2.

In [26]:
#Se copia primero el DataFrame para no tocar los datos originales.
df2 = df.copy()
df2 

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55,Italy,4.5,Europe
1000,John,33,USA,6.7,America
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


In [27]:
df2.loc[1000, "nombre"] = "JHON"
df2

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55,Italy,4.5,Europe
1000,JHON,33,USA,6.7,America
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


In [29]:
df2.loc[[1000, 1001], "puntaje"] = [3, 4] #iloc funciona en igual forma.
df2

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55,Italy,4.0,Europe
1000,JHON,33,USA,3.0,America
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


#### Ajustando los datos con indexación booleana
Supongamos que deseamos volver anónimos todos los nombres de las personas quienes son menores de 20 años o de USA.

In [31]:
tf = (df2["edad"] < 20) | (df2["pais"] == "USA")
df2.loc[tf, "nombre"] = "xxx"
df2

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55,Italy,4.0,Europe
1000,xxx,33,USA,3.0,America
1002,xxx,41,USA,3.9,America
1003,xxx,12,Germany,9.0,Europe


In [32]:
#Se copia primero el DataFrame para no tocar los datos originales.
rainfall2 = rainfall.copy()
rainfall2

Unnamed: 0,City 1,City 2,City 3
0,300.1,400.3,1000.5
1,100.2,300.4,1100.6


In [33]:
#Se ajusta el valor a cero si los valores están por debajo de 400.
rainfall2[rainfall2 < 400] = 0
rainfall2

Unnamed: 0,City 1,City 2,City 3
0,0.0,400.3,1000.5
1,0.0,0.0,1100.6


#### Ajustando los datos mediante el reemplazo de valores

In [34]:
df2.replace("USA", "U.S.") #Reemplaza en todo el DataFrame.

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55,Italy,4.0,Europe
1000,xxx,33,U.S.,3.0,America
1002,xxx,41,U.S.,3.9,America
1003,xxx,12,Germany,9.0,Europe


In [35]:
df2.replace({"pais": {"USA": "U.S."}}) #Reemplza en solo la columna de pais.

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55,Italy,4.0,Europe
1000,xxx,33,U.S.,3.0,America
1002,xxx,41,U.S.,3.9,America
1003,xxx,12,Germany,9.0,Europe


#### Ajustando los datos adiconando una columna
Se pueden asignar los datos de la nueva columna con escalares o con listas.

In [37]:
df2.loc[:, "descuento"] = 0

In [38]:
df2

Unnamed: 0,nombre,edad,pais,puntaje,continente,descuento
1001,Mark,55,Italy,4.0,Europe,0
1000,xxx,33,USA,3.0,America,0
1002,xxx,41,USA,3.9,America,0
1003,xxx,12,Germany,9.0,Europe,0


In [39]:
df2.loc[:, "precio"] = [49.9, 48.5, 50.1, 39.3]

In [40]:
df2

Unnamed: 0,nombre,edad,pais,puntaje,continente,descuento,precio
1001,Mark,55,Italy,4.0,Europe,0,49.9
1000,xxx,33,USA,3.0,America,0,48.5
1002,xxx,41,USA,3.9,America,0,50.1
1003,xxx,12,Germany,9.0,Europe,0,39.3


In [41]:
df2 = df.copy() #Empezamos con una copia fresca.
df2.loc[:, "fecha_nacimiento"] = 2022 - df2["edad"]
df2

Unnamed: 0,nombre,edad,pais,puntaje,continente,fecha_nacimiento
1001,Mark,55,Italy,4.5,Europe,1967
1000,John,33,USA,6.7,America,1989
1002,Tim,41,USA,3.9,America,1981
1003,Jenny,12,Germany,9.0,Europe,2010


### Datos perdidos
Los datos perdidos pueden ser un problema, ya que tienen el potencial de sesgar los resultados de análisis de datos, por esto haciendo sus conclusiones menos robustas. Pandas utiliza el NumPy **np.nan** para los datos perdidos, desplegado como NaN. **NaN** es el estándar de punto flotante para "No es un Número". Para las estampillas de tiempo se usa en vez **pd.NaT** y para textos perdidos pandas usa **None**.

In [42]:
df2 = df.copy()
df2.loc[1000, "puntaje"] = None
df2.loc[1003, :] = None
df2

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55.0,Italy,4.5,Europe
1000,John,33.0,USA,,America
1002,Tim,41.0,USA,3.9,America
1003,,,,,


In [43]:
#Para remover filas con datos perdidos.
df2.dropna()

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55.0,Italy,4.5,Europe
1002,Tim,41.0,USA,3.9,America


In [44]:
df2.dropna(how="all")

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55.0,Italy,4.5,Europe
1000,John,33.0,USA,,America
1002,Tim,41.0,USA,3.9,America


In [45]:
#Para obtener un DataFrame booleano, dependiendo si hay NaN.
df2.isna() 

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,False,False,False,False,False
1000,False,False,False,True,False
1002,False,False,False,False,False
1003,True,True,True,True,True


In [46]:
#Para llenar valores perdidos se usa "fillna()".
df2.fillna({"puntaje": df2["puntaje"].mean()})

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55.0,Italy,4.5,Europe
1000,John,33.0,USA,4.2,America
1002,Tim,41.0,USA,3.9,America
1003,,,,4.2,


### Datos duplicados


In [47]:
df.drop_duplicates(["pais", "continente"])

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55,Italy,4.5,Europe
1000,John,33,USA,6.7,America
1003,Jenny,12,Germany,9.0,Europe


In [6]:
#Para encontrar si una columna tiene duplicados:
df["pais"].is_unique #Indica si todos los valores de una columna son únicos.

False

In [8]:
df["pais"].unique() #Lista los valores únicos de una columna.

array(['Italy', 'USA', 'Germany'], dtype=object)

In [11]:
df["pais"].duplicated(keep=False)

1001    False
1000     True
1002     True
1003    False
Name: pais, dtype: bool

In [13]:
#Para obtener todas las filas donde "pais" está duplicado, se usa keep= False.
df.loc[df["pais"].duplicated(keep=False), :]

propiedades,nombre,edad,pais,puntaje,continente
1000,John,33,USA,6.7,America
1002,Tim,41,USA,3.9,America


### Operaciones aritméticas
Como los arreglos de NumPy, los DataFrames y las Series hacen uso  de la vectorización.
Para añadir un número a cada valor del DataFrame "rainfall" se hace lo siguiente:

In [16]:
rainfall + 100

Unnamed: 0,City 1,City 2,City 3
0,400.1,500.3,1100.5
1,200.2,400.4,1200.6


In [17]:
#El poder de pandas está en el mecanismo de "alineamiento de datos".
#Construiremos un nuevo DataFrame de rainfall.
mas_rainfall = pd.DataFrame(data=[[100, 200], [300, 400]], 
                            index=[1, 2], 
                            columns=["City 1", "City 4"])
mas_rainfall

Unnamed: 0,City 1,City 4
1,100,200
2,300,400


In [18]:
rainfall + mas_rainfall #El alineamiento de datos se hace por el índice.
#Los campos que tienen valores en ambos DataFrames se suman.
#Mientras que los campos que no tienen valores en ambos DataFrames, muestran NaN.

Unnamed: 0,City 1,City 2,City 3,City 4
0,,,,
1,200.2,,,
2,,,,


In [19]:
#Se puede obtener que los campos que no tienen valores se asuman como cero.
rainfall.add(mas_rainfall, fill_value=0)
#Esto aplica para otras operaciones como: mult, div, pow y sub.

Unnamed: 0,City 1,City 2,City 3,City 4
0,300.1,400.3,1000.5,
1,200.2,300.4,1100.6,200.0
2,300.0,,,400.0


In [21]:
#Cuando se tiene un DataFrame y una Series en los cálculos, la Series es
# difundida (broadcast) a lo largo del índice.
#Por ejemplo, una Series tomada de una fila:
rainfall.loc[1, :]

City 1     100.2
City 2     300.4
City 3    1100.6
Name: 1, dtype: float64

In [22]:
rainfall

Unnamed: 0,City 1,City 2,City 3
0,300.1,400.3,1000.5
1,100.2,300.4,1100.6


In [23]:
rainfall + rainfall.loc[1, :]

Unnamed: 0,City 1,City 2,City 3
0,400.3,700.7,2101.1
1,200.4,600.8,2201.2


In [24]:
#Una Series tomada de una columna.
rainfall.loc[:, "City 2"]

0    400.3
1    300.4
Name: City 2, dtype: float64

In [25]:
rainfall.add(rainfall.loc[:, "City 2"], axis = 0)

Unnamed: 0,City 1,City 2,City 3
0,700.4,800.6,1400.8
1,400.6,600.8,1401.0


### Trabajando con columnas de texto
Las columnas con texto o con tipos mezclados son del tipo **objeto**.
Para realizar operaciones sobre columnas con cadenas de texto, se usa el atributo **str** que da acceso a los métodos de cadena de Python.

In [26]:
#Crearemos un nuevo DataFrame
usuarios = pd.DataFrame(data=[" mArk ", "JOHN  ", "Tim", " jenny"], 
                        columns=["nombre"])
usuarios

Unnamed: 0,nombre
0,mArk
1,JOHN
2,Tim
3,jenny


In [32]:
usuarios_limpios = usuarios.loc[:, "nombre"].str.strip().str.capitalize()
#str.strip() elimina espacios en blanco; str.capitalize() pone la primera letra
# en mayúscula y las demás letras en minúscula.
usuarios_limpios

0     Mark
1     John
2      Tim
3    Jenny
Name: nombre, dtype: object

In [33]:
usuarios_limpios.str.startswith("J")

0    False
1     True
2    False
3     True
Name: nombre, dtype: bool

### Aplicando una función
Los DataFrames ofrecen el método **applymap**, el cual aplicará una función a cada elemento individual, algo que es útil si no hay disponible una función **ufuncs** de NumPy.
Por ejemplo, no hay funciones **ufuncs** para formateo de cadenas, así que podemos formatear cada elemento de un DataFrame de la siguiente forma: 

In [34]:
rainfall

Unnamed: 0,City 1,City 2,City 3
0,300.1,400.3,1000.5
1,100.2,300.4,1100.6


In [42]:
def formatea_cadena(x):
    return f"{x:,.2f}"

In [43]:
#Note que la función se pasa sin llamarla.
# Es decir, se escribe formateo_cadena y no formateo_cadena().
rainfall.applymap(formatea_cadena)

Unnamed: 0,City 1,City 2,City 3
0,300.1,400.3,1000.5
1,100.2,300.4,1100.6
