# Ejemplo practico para pandas con DataFrames

## 1. Inspeccion inicial del DataFrame


In [10]:
# Importacion de librerias
import pandas as pd

In [11]:
# Crear un DataFrame apartir de un diccionario

data = {
    'nombre': ['Ana', 'Luis', 'Carlos', 'Lucia', 'Martha', 'Jorge', 'Sofia'],
    'edad': [23,35,45,25,30,28,32],
    'ciudad': ['CDMX', 'Guadalajara', 'Monterrey','CDMX', 'Puebla', 'CDMX', 'Guadalajara'],
    'salario': [12000, 15000, 18000, 12500, 14000, 13000, 15500],
    'departamento': ['Ventas', 'Marketing', 'Ventas', 'TI', 'TI', 'Marketing', 'Ventas']
}

In [12]:
df = pd.DataFrame(data)
df

Unnamed: 0,nombre,edad,ciudad,salario,departamento
0,Ana,23,CDMX,12000,Ventas
1,Luis,35,Guadalajara,15000,Marketing
2,Carlos,45,Monterrey,18000,Ventas
3,Lucia,25,CDMX,12500,TI
4,Martha,30,Puebla,14000,TI
5,Jorge,28,CDMX,13000,Marketing
6,Sofia,32,Guadalajara,15500,Ventas


## 2. Estructura y resumen del DataFrame

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   nombre        7 non-null      object
 1   edad          7 non-null      int64 
 2   ciudad        7 non-null      object
 3   salario       7 non-null      int64 
 4   departamento  7 non-null      object
dtypes: int64(2), object(3)
memory usage: 408.0+ bytes


In [15]:
df.describe()

Unnamed: 0,edad,salario
count,7.0,7.0
mean,31.142857,14285.714286
std,7.335498,2078.804602
min,23.0,12000.0
25%,26.5,12750.0
50%,30.0,14000.0
75%,33.5,15250.0
max,45.0,18000.0


In [17]:
df.shape[0] #Numero de filas

7

In [19]:
#Numero de columnas
df.shape[1]

5

In [21]:
#Muestra los tipos de datos de las columnas
df.dtypes

nombre          object
edad             int64
ciudad          object
salario          int64
departamento    object
dtype: object

In [22]:
#Columnas
df.columns

Index(['nombre', 'edad', 'ciudad', 'salario', 'departamento'], dtype='object')

In [24]:
#Los indices
df.index

RangeIndex(start=0, stop=7, step=1)

## 3. Seleccion de columnas y filas

In [25]:
# Selecciona una sola columna como una serie 
df['edad']

0    23
1    35
2    45
3    25
4    30
5    28
6    32
Name: edad, dtype: int64

In [26]:
type(df['edad'])

pandas.core.series.Series

In [28]:
df[['edad']]

Unnamed: 0,edad
0,23
1,35
2,45
3,25
4,30
5,28
6,32


In [29]:
type(df[['edad']])

pandas.core.frame.DataFrame

In [32]:
df[['nombre', 'salario', 'departamento']]

Unnamed: 0,nombre,salario,departamento
0,Ana,12000,Ventas
1,Luis,15000,Marketing
2,Carlos,18000,Ventas
3,Lucia,12500,TI
4,Martha,14000,TI
5,Jorge,13000,Marketing
6,Sofia,15500,Ventas


## 4. Filtrado de filas

In [39]:
# Filtrar todas las filas que la ciudad sea cdmx
df[df['ciudad']=='CDMX']

Unnamed: 0,nombre,edad,ciudad,salario,departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing


In [41]:
df[df['ciudad']=='CDMX'][['nombre', 'ciudad', 'salario']]

Unnamed: 0,nombre,ciudad,salario
0,Ana,CDMX,12000
3,Lucia,CDMX,12500
5,Jorge,CDMX,13000


In [42]:
df_cdmx = df[df['ciudad']=='CDMX']

In [43]:
df_cdmx[['nombre', 'ciudad', 'salario']]

Unnamed: 0,nombre,ciudad,salario
0,Ana,CDMX,12000
3,Lucia,CDMX,12500
5,Jorge,CDMX,13000


In [47]:
# Mostrar todas las filas de las ciudad de mexico y del departamento de TI

df[(df['ciudad']=='CDMX') & (df['departamento']=='TI')]

Unnamed: 0,nombre,edad,ciudad,salario,departamento
3,Lucia,25,CDMX,12500,TI


In [48]:
# Mostrar todas las filas de las ciudad de mexico o del departamento de TI

df[(df['ciudad']=='CDMX') | (df['departamento']=='TI')]

Unnamed: 0,nombre,edad,ciudad,salario,departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
4,Martha,30,Puebla,14000,TI
5,Jorge,28,CDMX,13000,Marketing


## 5. Ordenar filas

In [None]:
# Ordena por salario de forma ascendente 
df.sort_values(by='salario', ascending=True)

Unnamed: 0,nombre,edad,ciudad,salario,departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing
4,Martha,30,Puebla,14000,TI
1,Luis,35,Guadalajara,15000,Marketing
6,Sofia,32,Guadalajara,15500,Ventas
2,Carlos,45,Monterrey,18000,Ventas


In [53]:
# Ordena por salario de forma descendente 
df.sort_values(by='salario', ascending=False)

Unnamed: 0,nombre,edad,ciudad,salario,departamento
2,Carlos,45,Monterrey,18000,Ventas
6,Sofia,32,Guadalajara,15500,Ventas
1,Luis,35,Guadalajara,15000,Marketing
4,Martha,30,Puebla,14000,TI
5,Jorge,28,CDMX,13000,Marketing
3,Lucia,25,CDMX,12500,TI
0,Ana,23,CDMX,12000,Ventas


In [55]:
#Ordenar por salario y ciudad

df.sort_values(by=['ciudad', 'salario'])

Unnamed: 0,nombre,edad,ciudad,salario,departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing
1,Luis,35,Guadalajara,15000,Marketing
6,Sofia,32,Guadalajara,15500,Ventas
2,Carlos,45,Monterrey,18000,Ventas
4,Martha,30,Puebla,14000,TI


In [56]:
#Ordenar por salario y ciudad

df.sort_values(by=['ciudad', 'salario'], ascending=[True, True])

Unnamed: 0,nombre,edad,ciudad,salario,departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing
1,Luis,35,Guadalajara,15000,Marketing
6,Sofia,32,Guadalajara,15500,Ventas
2,Carlos,45,Monterrey,18000,Ventas
4,Martha,30,Puebla,14000,TI


In [57]:
#Ordenar por salario y ciudad

df.sort_values(by=['ciudad', 'salario'], ascending=[True, False])

Unnamed: 0,nombre,edad,ciudad,salario,departamento
5,Jorge,28,CDMX,13000,Marketing
3,Lucia,25,CDMX,12500,TI
0,Ana,23,CDMX,12000,Ventas
6,Sofia,32,Guadalajara,15500,Ventas
1,Luis,35,Guadalajara,15000,Marketing
2,Carlos,45,Monterrey,18000,Ventas
4,Martha,30,Puebla,14000,TI


In [58]:
#Ordenar por salario y ciudad

df.sort_values(by=['ciudad', 'salario'], ascending=[False, True])

Unnamed: 0,nombre,edad,ciudad,salario,departamento
4,Martha,30,Puebla,14000,TI
2,Carlos,45,Monterrey,18000,Ventas
1,Luis,35,Guadalajara,15000,Marketing
6,Sofia,32,Guadalajara,15500,Ventas
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing


In [60]:
df[(df['ciudad']=='CDMX') | (df['departamento']=='TI')].sort_values(by=['edad','departamento'], ascending=[True, False])

Unnamed: 0,nombre,edad,ciudad,salario,departamento
0,Ana,23,CDMX,12000,Ventas
3,Lucia,25,CDMX,12500,TI
5,Jorge,28,CDMX,13000,Marketing
4,Martha,30,Puebla,14000,TI


## 6. Crear nuevas columnas 

In [61]:
df['salarioanual'] = df['salario'] *12

In [62]:
df

Unnamed: 0,nombre,edad,ciudad,salario,departamento,salarioanual
0,Ana,23,CDMX,12000,Ventas,144000
1,Luis,35,Guadalajara,15000,Marketing,180000
2,Carlos,45,Monterrey,18000,Ventas,216000
3,Lucia,25,CDMX,12500,TI,150000
4,Martha,30,Puebla,14000,TI,168000
5,Jorge,28,CDMX,13000,Marketing,156000
6,Sofia,32,Guadalajara,15500,Ventas,186000
