# Trabajar con DataFrames

Vamos a comenzar el día conociendo un poco más cómo trabajar con **dataframes** en Pandas.

Muchas de las cosas que veremos en esta lección te van a resultar familiares porque son similares al trabajo que hemos hecho con las **series**, solo que esta vez las aplicaremos trabajando con el dataframe completo.

Para eso he creado este dataframe de *nombres*, *edades* y *ciudades*.

In [1]:
import pandas as pd

In [2]:
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'Sara'],
    'Edad': [25, 30, 22, 27],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Bilbao']
}

df = pd.DataFrame(data)

In [3]:
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,25,Madrid
1,Luis,30,Barcelona
2,Carlos,22,Valencia
3,Sara,27,Bilbao


Lo primero que voy a hacer es **agregar una nueva columna** a mi dataframe:

In [4]:
df['Salario'] = [30000, 45000, 38000, 32000]
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,25,Madrid,30000
1,Luis,30,Barcelona,45000
2,Carlos,22,Valencia,38000
3,Sara,27,Bilbao,32000


Si quiero **modificar el contenido de toda una columna**, lo hago de un modo muy parecido a cuando lo hicimos trabajando con series:

In [5]:
df['Salario'] = df['Salario'] + 2000
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,25,Madrid,32000
1,Luis,30,Barcelona,47000
2,Carlos,22,Valencia,40000
3,Sara,27,Bilbao,34000


Si quiero **seleccionar una columna** en particular, y **almacenarla en una variable**, para trabajar con ella por separado, lo hago de esta manera:

In [6]:
nombres = df['Nombre']
nombres

0       Ana
1      Luis
2    Carlos
3      Sara
Name: Nombre, dtype: object

Y de esta manera ahora puedo aplicar a la serie *nombres* todo lo que aprendimos a hacer ayer con las series.

En los dataframes también puedo aplicar los **métodos de filtrado** para ver solamente las filas que cumplen una condición específica:

In [7]:
mayores_25 = df[df['Edad'] > 25]
mayores_25

Unnamed: 0,Nombre,Edad,Ciudad,Salario
1,Luis,30,Barcelona,47000
3,Sara,27,Bilbao,34000


Por si esto te ha resultado confuso, voy a hacer lo mismo, pero esta vez con **variables** para que se vea más claro.

In [8]:
edades = df['Edad']
edades

0    25
1    30
2    22
3    27
Name: Edad, dtype: int64

In [9]:
mayores_25 = df[edades > 25]
mayores_25

Unnamed: 0,Nombre,Edad,Ciudad,Salario
1,Luis,30,Barcelona,47000
3,Sara,27,Bilbao,34000


Y a los fines de preservar la claridad conceptual, veamos con qué **tipos de datos** estamos trabajando aquí:

In [10]:
type(df)

pandas.core.frame.DataFrame

In [11]:
type(edades)

pandas.core.series.Series

In [12]:
type(mayores_25)

pandas.core.frame.DataFrame