# Ejemplo práctico para Pandas con DataFrames

## 1. Inspección Inicial

In [21]:
#Importar las liberías
import pandas as pd

In [22]:
#Crear un Data Frame a partir de un diccionario
data = {
    'Nombre' : ['Ana', 'Luis', 'Carlos', 'Lucia', 'Marta', 'Jorge', 'Sofia'],
    'Edad' : [23, 35, 45, 25, 30, 28, 32],
    'Ciudad' : ['CDMX', 'Guadalajara', 'Monterrey', 'CDMX', 'Puebla', 'CDMX', 'Guadalajara'],
    'Salario' : [12000, 15000, 18000, 12500, 14000, 13000, 15500],
    'Departamento' : ['Ventas', 'Marketing', 'Ventas', 'TI', 'TI', 'Marketing', 'Ventas']
}

In [23]:
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
0,Ana,23,CDMX,12000,Ventas
1,Luis,35,Guadalajara,15000,Marketing
2,Carlos,45,Monterrey,18000,Ventas
3,Lucia,25,CDMX,12500,TI
4,Marta,30,Puebla,14000,TI
5,Jorge,28,CDMX,13000,Marketing
6,Sofia,32,Guadalajara,15500,Ventas


## 2. Estructura y Resumen de DataFrame

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Nombre        7 non-null      object
 1   Edad          7 non-null      int64 
 2   Ciudad        7 non-null      object
 3   Salario       7 non-null      int64 
 4   Departamento  7 non-null      object
dtypes: int64(2), object(3)
memory usage: 412.0+ bytes


In [25]:
df.describe()

Unnamed: 0,Edad,Salario
count,7.0,7.0
mean,31.142857,14285.714286
std,7.335498,2078.804602
min,23.0,12000.0
25%,26.5,12750.0
50%,30.0,14000.0
75%,33.5,15250.0
max,45.0,18000.0


In [26]:
#Muestra el tamaño del DataFrame
df.shape

(7, 5)

In [27]:
#Número de filas
df.shape[0]

7

In [28]:
#Número de columnas
df.shape[1]

5

In [29]:
#Muestra los tipos de datos de las columnas
df.dtypes

Nombre          object
Edad             int64
Ciudad          object
Salario          int64
Departamento    object
dtype: object

In [30]:
#Muestra el nombre de las columnas que hay
df.columns

Index(['Nombre', 'Edad', 'Ciudad', 'Salario', 'Departamento'], dtype='object')

In [31]:
#Muestra los índices, dónde inicia, dónde termina y de cuánto en cuánto
df.index

RangeIndex(start=0, stop=7, step=1)

## 3. Selección de Columnas y Filas (Segmentación)

In [32]:
#Selecciona una sola columna del DataFrame como una serie
df['Edad']

0    23
1    35
2    45
3    25
4    30
5    28
6    32
Name: Edad, dtype: int64

In [33]:
type(df['Edad'])

pandas.core.series.Series

In [34]:
df[['Edad']]

Unnamed: 0,Edad
0,23
1,35
2,45
3,25
4,30
5,28
6,32


In [35]:
df[['Nombre', 'Salario', 'Departamento']]

Unnamed: 0,Nombre,Salario,Departamento
0,Ana,12000,Ventas
1,Luis,15000,Marketing
2,Carlos,18000,Ventas
3,Lucia,12500,TI
4,Marta,14000,TI
5,Jorge,13000,Marketing
6,Sofia,15500,Ventas


## 4. Filtrado de Filas

In [37]:
#Filtrar todas las filas que la ciudad sea CDMX
df[['Ciudad']]

Unnamed: 0,Ciudad
0,CDMX
1,Guadalajara
2,Monterrey
3,CDMX
4,Puebla
5,CDMX
6,Guadalajara


In [40]:
df['Ciudad'] == 'CDMX'

0     True
1    False
2    False
3     True
4    False
5     True
6    False
Name: Ciudad, dtype: bool

In [41]:
df[df['Ciudad'] == 'CDMX']

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing


In [42]:
df[df['Ciudad'] == 'CDMX'][['Nombre', 'Ciudad', 'Salario']]

Unnamed: 0,Nombre,Ciudad,Salario
0,Ana,CDMX,12000
3,Lucia,CDMX,12500
5,Jorge,CDMX,13000


In [43]:
df_cdmx = df[df['Ciudad'] == 'CDMX']

In [44]:
df_cdmx[['Nombre', 'Ciudad', 'Salario']]

Unnamed: 0,Nombre,Ciudad,Salario
0,Ana,CDMX,12000
3,Lucia,CDMX,12500
5,Jorge,CDMX,13000


In [51]:
#Seleccionar todas las filas de la ciudad de México y del departamento de TI
(df['Ciudad'] == 'CDMX') & (df['Departamento'] == 'TI')

0    False
1    False
2    False
3     True
4    False
5    False
6    False
dtype: bool

In [52]:
df[(df['Ciudad'] == 'CDMX') & (df['Departamento'] == 'TI')]

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
3,Lucia,25,CDMX,12500,TI


In [54]:
#Mostrar todas las filas de la CDMZ o del departamento de TI
df[(df['Ciudad'] == 'CDMX') | (df['Departamento'] == 'TI')]

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
4,Marta,30,Puebla,14000,TI
5,Jorge,28,CDMX,13000,Marketing


## 5. Ordenar filas

In [57]:
df.sort_values('Edad')

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing
4,Marta,30,Puebla,14000,TI
6,Sofia,32,Guadalajara,15500,Ventas
1,Luis,35,Guadalajara,15000,Marketing
2,Carlos,45,Monterrey,18000,Ventas


In [58]:
df.sort_values(by='Salario')

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing
4,Marta,30,Puebla,14000,TI
1,Luis,35,Guadalajara,15000,Marketing
6,Sofia,32,Guadalajara,15500,Ventas
2,Carlos,45,Monterrey,18000,Ventas


In [None]:
#Ordena de forma descendente al negar el ascending
df.sort_values(by='Salario', ascending = False)

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
2,Carlos,45,Monterrey,18000,Ventas
6,Sofia,32,Guadalajara,15500,Ventas
1,Luis,35,Guadalajara,15000,Marketing
4,Marta,30,Puebla,14000,TI
5,Jorge,28,CDMX,13000,Marketing
3,Lucia,25,CDMX,12500,TI
0,Ana,23,CDMX,12000,Ventas


In [62]:
#Ordenar por salario y ciudad
df.sort_values(by=['Ciudad', 'Salario'])

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing
1,Luis,35,Guadalajara,15000,Marketing
6,Sofia,32,Guadalajara,15500,Ventas
2,Carlos,45,Monterrey,18000,Ventas
4,Marta,30,Puebla,14000,TI


In [61]:
df.sort_values(['Ciudad', 'Salario'])

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing
1,Luis,35,Guadalajara,15000,Marketing
6,Sofia,32,Guadalajara,15500,Ventas
2,Carlos,45,Monterrey,18000,Ventas
4,Marta,30,Puebla,14000,TI


In [63]:
df.sort_values(by=['Ciudad', 'Salario'], ascending = [True, True])

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing
1,Luis,35,Guadalajara,15000,Marketing
6,Sofia,32,Guadalajara,15500,Ventas
2,Carlos,45,Monterrey,18000,Ventas
4,Marta,30,Puebla,14000,TI


In [64]:
df.sort_values(by=['Ciudad', 'Salario'], ascending = [True, False])

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
5,Jorge,28,CDMX,13000,Marketing
3,Lucia,25,CDMX,12500,TI
0,Ana,23,CDMX,12000,Ventas
6,Sofia,32,Guadalajara,15500,Ventas
1,Luis,35,Guadalajara,15000,Marketing
2,Carlos,45,Monterrey,18000,Ventas
4,Marta,30,Puebla,14000,TI


In [65]:
df.sort_values(by=['Ciudad', 'Salario'], ascending = [False, True])

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
4,Marta,30,Puebla,14000,TI
2,Carlos,45,Monterrey,18000,Ventas
1,Luis,35,Guadalajara,15000,Marketing
6,Sofia,32,Guadalajara,15500,Ventas
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing


In [66]:
df.sort_values(by=['Ciudad', 'Salario'], ascending = [False, False])

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
4,Marta,30,Puebla,14000,TI
2,Carlos,45,Monterrey,18000,Ventas
6,Sofia,32,Guadalajara,15500,Ventas
1,Luis,35,Guadalajara,15000,Marketing
5,Jorge,28,CDMX,13000,Marketing
3,Lucia,25,CDMX,12500,TI
0,Ana,23,CDMX,12000,Ventas


In [67]:
df[(df['Ciudad'] == 'CDMX') | (df['Departamento'] == 'TI')].sort_values(by = ['Edad', 'Salario'], ascending = [True, False])

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing
4,Marta,30,Puebla,14000,TI


## 6. Crear nuevas columnas

In [68]:
df['Salario_Anual'] = df['Salario'] * 12

In [69]:
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento,Salario_Anual
0,Ana,23,CDMX,12000,Ventas,144000
1,Luis,35,Guadalajara,15000,Marketing,180000
2,Carlos,45,Monterrey,18000,Ventas,216000
3,Lucia,25,CDMX,12500,TI,150000
4,Marta,30,Puebla,14000,TI,168000
5,Jorge,28,CDMX,13000,Marketing,156000
6,Sofia,32,Guadalajara,15500,Ventas,186000
