# Ejemplo practico  para pandas con dataframes 

## 1. Inspeccion inicial del dataframe 

In [1]:
# importacion de librerias 
import pandas as pd

In [2]:
# crear un dataframe apartir de un diccionario 
data = {
    'Nombre': ['Ana','Luis','Carlos','Lusia','Martha','Jorge','Sofia'],
    'Edad':[23,35,45,25,30,28,32],
    'Cuidad': ['CDMX','Guadalajara', 'Puebla', 'CDMX', 'Guadalajara', 'Monterrey', 'Puebla'],
    'Salaria':[12000,15000,18000,12500,14000,13000,15500],
    'Departamento':['Ventas','Marketing','Ventas','TI','TI','Marketing','Ventas']
}

In [3]:
df = pd.DataFrame(data)

In [4]:
df

Unnamed: 0,Nombre,Edad,Cuidad,Salaria,Departamento
0,Ana,23,CDMX,12000,Ventas
1,Luis,35,Guadalajara,15000,Marketing
2,Carlos,45,Puebla,18000,Ventas
3,Lusia,25,CDMX,12500,TI
4,Martha,30,Guadalajara,14000,TI
5,Jorge,28,Monterrey,13000,Marketing
6,Sofia,32,Puebla,15500,Ventas


## 2. Estructura y resumen de dataframe

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Nombre        7 non-null      object
 1   Edad          7 non-null      int64 
 2   Cuidad        7 non-null      object
 3   Salaria       7 non-null      int64 
 4   Departamento  7 non-null      object
dtypes: int64(2), object(3)
memory usage: 412.0+ bytes


In [6]:
df.describe()

Unnamed: 0,Edad,Salaria
count,7.0,7.0
mean,31.142857,14285.714286
std,7.335498,2078.804602
min,23.0,12000.0
25%,26.5,12750.0
50%,30.0,14000.0
75%,33.5,15250.0
max,45.0,18000.0


In [8]:
# muestra el tamano del dataframe 
df.shape

(7, 5)

In [9]:
len(df)

7

In [10]:
# numero de filas 
df.shape[0]

7

In [11]:
# el numero de columnas 
df.shape[1]

5

In [12]:
# muestra los tipos de datos de las columnas 
df.dtypes

Nombre          object
Edad             int64
Cuidad          object
Salaria          int64
Departamento    object
dtype: object

In [None]:
# muestra el nombre de las columnas 
df.columns

Index(['Nombre', 'Edad', 'Cuidad', 'Salaria', 'Departamento'], dtype='object')

In [14]:
# muestra los indices
df.index

RangeIndex(start=0, stop=7, step=1)

## 3. Seleccion de columnas y filas 

In [17]:
    # selecciona una sola columna del dataframe como una serie 
df ['Edad']

0    23
1    35
2    45
3    25
4    30
5    28
6    32
Name: Edad, dtype: int64

In [18]:
type(df ['Edad'])

pandas.core.series.Series

In [19]:
df[['Edad']]

Unnamed: 0,Edad
0,23
1,35
2,45
3,25
4,30
5,28
6,32


In [20]:
type(df[['Edad']])

pandas.core.frame.DataFrame

In [23]:
df[['Nombre','Salaria','Departamento']]

Unnamed: 0,Nombre,Salaria,Departamento
0,Ana,12000,Ventas
1,Luis,15000,Marketing
2,Carlos,18000,Ventas
3,Lusia,12500,TI
4,Martha,14000,TI
5,Jorge,13000,Marketing
6,Sofia,15500,Ventas


## 4. Filtrado de filas 

In [25]:
# filtar todas las filas que la ciudad sea CDMX
df ['Cuidad']=='CDMX'

0     True
1    False
2    False
3     True
4    False
5    False
6    False
Name: Cuidad, dtype: bool

In [29]:
df[df ['Cuidad']=='CDMX'] 

Unnamed: 0,Nombre,Edad,Cuidad,Salaria,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lusia,25,CDMX,12500,TI


In [33]:
df[df['Cuidad'] == 'CDMX'] [['Nombre','Salaria','Departamento']]

Unnamed: 0,Nombre,Salaria,Departamento
0,Ana,12000,Ventas
3,Lusia,12500,TI


In [34]:
df_cdmx = df[df['Cuidad'] == 'CDMX']

In [35]:
df_cdmx[['Nombre','Cuidad','Salaria']]

Unnamed: 0,Nombre,Cuidad,Salaria
0,Ana,CDMX,12000
3,Lusia,CDMX,12500


In [39]:
# mostrar todas las filas de la cuidad de mexico y del departamento de TI 
df[(df['Cuidad']=='CDMX') & (df['Departamento']== 'TI')]


Unnamed: 0,Nombre,Edad,Cuidad,Salaria,Departamento
3,Lusia,25,CDMX,12500,TI


In [40]:
df[(df['Cuidad']=='CDMX') | (df['Departamento']== 'TI')]


Unnamed: 0,Nombre,Edad,Cuidad,Salaria,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lusia,25,CDMX,12500,TI
4,Martha,30,Guadalajara,14000,TI


## 5. Ordenar filas 

In [44]:
# ordena por salario de forma ascendente
df.sort_values(by='Salaria', ascending=True)

Unnamed: 0,Nombre,Edad,Cuidad,Salaria,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lusia,25,CDMX,12500,TI
5,Jorge,28,Monterrey,13000,Marketing
4,Martha,30,Guadalajara,14000,TI
1,Luis,35,Guadalajara,15000,Marketing
6,Sofia,32,Puebla,15500,Ventas
2,Carlos,45,Puebla,18000,Ventas


In [45]:
# ordena por salario de forma descendente
df.sort_values(by='Salaria', ascending=False)

Unnamed: 0,Nombre,Edad,Cuidad,Salaria,Departamento
2,Carlos,45,Puebla,18000,Ventas
6,Sofia,32,Puebla,15500,Ventas
1,Luis,35,Guadalajara,15000,Marketing
4,Martha,30,Guadalajara,14000,TI
5,Jorge,28,Monterrey,13000,Marketing
3,Lusia,25,CDMX,12500,TI
0,Ana,23,CDMX,12000,Ventas


In [46]:
# ordenar por el salaria y la cuidad 
df.sort_values(by=['Cuidad', 'Salaria'])

Unnamed: 0,Nombre,Edad,Cuidad,Salaria,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lusia,25,CDMX,12500,TI
4,Martha,30,Guadalajara,14000,TI
1,Luis,35,Guadalajara,15000,Marketing
5,Jorge,28,Monterrey,13000,Marketing
6,Sofia,32,Puebla,15500,Ventas
2,Carlos,45,Puebla,18000,Ventas


In [50]:
# ordenar por el salaria y la cuidad 
df.sort_values(by=['Cuidad', 'Salaria'], ascending=[True,True])

Unnamed: 0,Nombre,Edad,Cuidad,Salaria,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lusia,25,CDMX,12500,TI
4,Martha,30,Guadalajara,14000,TI
1,Luis,35,Guadalajara,15000,Marketing
5,Jorge,28,Monterrey,13000,Marketing
6,Sofia,32,Puebla,15500,Ventas
2,Carlos,45,Puebla,18000,Ventas


In [49]:
# ordenar por el salaria y la cuidad 
df.sort_values(by=['Cuidad', 'Salaria'], ascending=[True,False])

Unnamed: 0,Nombre,Edad,Cuidad,Salaria,Departamento
3,Lusia,25,CDMX,12500,TI
0,Ana,23,CDMX,12000,Ventas
1,Luis,35,Guadalajara,15000,Marketing
4,Martha,30,Guadalajara,14000,TI
5,Jorge,28,Monterrey,13000,Marketing
2,Carlos,45,Puebla,18000,Ventas
6,Sofia,32,Puebla,15500,Ventas


In [51]:
# ordenar por el salaria y la cuidad 
df.sort_values(by=['Cuidad', 'Salaria'], ascending=[False,False])

Unnamed: 0,Nombre,Edad,Cuidad,Salaria,Departamento
2,Carlos,45,Puebla,18000,Ventas
6,Sofia,32,Puebla,15500,Ventas
5,Jorge,28,Monterrey,13000,Marketing
1,Luis,35,Guadalajara,15000,Marketing
4,Martha,30,Guadalajara,14000,TI
3,Lusia,25,CDMX,12500,TI
0,Ana,23,CDMX,12000,Ventas


In [52]:
df[(df['Cuidad']=='CDMX') | (df['Departamento']== 'TI')].sort_values(by=['Edad','Departamento'], ascending=[True,False])


Unnamed: 0,Nombre,Edad,Cuidad,Salaria,Departamento
0,Ana,23,CDMX,12000,Ventas
3,Lusia,25,CDMX,12500,TI
4,Martha,30,Guadalajara,14000,TI


## 6. Crear nuevas columnas 

In [53]:
df['SalarioAnual'] = df['Salaria'] * 12 

In [54]:
df

Unnamed: 0,Nombre,Edad,Cuidad,Salaria,Departamento,SalarioAnual
0,Ana,23,CDMX,12000,Ventas,144000
1,Luis,35,Guadalajara,15000,Marketing,180000
2,Carlos,45,Puebla,18000,Ventas,216000
3,Lusia,25,CDMX,12500,TI,150000
4,Martha,30,Guadalajara,14000,TI,168000
5,Jorge,28,Monterrey,13000,Marketing,156000
6,Sofia,32,Puebla,15500,Ventas,186000
