#### Datos Rectangular

![Datos Rectangulares](https://aprendeconalf.es/docencia/python/manual/img/pandas-dataframe.png)

### DataFrames

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame([
    pd.Series({'Nombre':'María','Edad':18}),
    pd.Series({'Nombre':'Carmen','Edad':22})
])
df

Unnamed: 0,Nombre,Edad
0,María,18
1,Carmen,22


In [None]:
df = pd.DataFrame({
    'Nombre':['María','Luis','Carmen',
              'Antonio','Pablo','Lorenzo'],
    'Edad':[18,22,20,21,42,35],
    'Grado':['Economía','Medicina','Arquitectura',
             'Economía','Estadística','Ing.Sistemas'],
    'Correo':['maria@gmail.com','luis@yahoo.es',
              'carmen@gmail.com','antonio@gmail.com',
              'kl@gmail.com','lore@gmail.com'],
    'Fecha':['2016-09-16','2017-01-20',
             '2015-04-20','2018-02-27',
             '2020-03-11','2021-01-28'],
    'Peso':[78,65,98,69,80,63],
    'Altura':[1.56,1.86,1.58,1.67,1.73,1.8]
})
df

Unnamed: 0,Nombre,Edad,Grado,Correo,Fecha,Peso,Altura
0,María,18,Economía,maria@gmail.com,2016-09-16,78,1.56
1,Luis,22,Medicina,luis@yahoo.es,2017-01-20,65,1.86
2,Carmen,20,Arquitectura,carmen@gmail.com,2015-04-20,98,1.58
3,Antonio,21,Economía,antonio@gmail.com,2018-02-27,69,1.67
4,Pablo,42,Estadística,kl@gmail.com,2020-03-11,80,1.73
5,Lorenzo,35,Ing.Sistemas,lore@gmail.com,2021-01-28,63,1.8


### Métodos básicos

In [None]:
df.shape

(6, 7)

In [None]:
df.tail(2)

Unnamed: 0,Nombre,Edad,Grado,Correo,Fecha,Peso,Altura
4,Pablo,42,Estadística,kl@gmail.com,2020-03-11,80,1.73
5,Lorenzo,35,Ing.Sistemas,lore@gmail.com,2021-01-28,63,1.8


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  4 non-null      object
 1   Edad    4 non-null      int64 
 2   Grado   4 non-null      object
 3   Correo  4 non-null      object
 4   Fecha   4 non-null      object
dtypes: int64(1), object(4)
memory usage: 288.0+ bytes


In [None]:
df.shape

(4, 4)

In [None]:
df.describe()

Unnamed: 0,Edad,Peso,Altura
count,6.0,6.0,6.0
mean,26.333333,75.5,1.7
std,9.770705,12.973049,0.119499
min,18.0,63.0,1.56
25%,20.25,66.0,1.6025
50%,21.5,73.5,1.7
75%,31.75,79.5,1.7825
max,42.0,98.0,1.86


In [None]:
df.values

array([['María', 18, 'Economía', 'maria@gmail.com', '2016-09-16', 78,
        1.56],
       ['Luis', 22, 'Medicina', 'luis@yahoo.es', '2017-01-20', 65, 1.86],
       ['Carmen', 20, 'Arquitectura', 'carmen@gmail.com', '2015-04-20',
        98, 1.58],
       ['Antonio', 21, 'Economía', 'antonio@gmail.com', '2018-02-27', 69,
        1.67],
       ['Pablo', 42, 'Estadística', 'kl@gmail.com', '2020-03-11', 80,
        1.73],
       ['Lorenzo', 35, 'Ing.Sistemas', 'lore@gmail.com', '2021-01-28',
        63, 1.8]], dtype=object)

In [None]:
list(df.columns)

['Nombre', 'Edad', 'Grado', 'Correo', 'Fecha', 'Peso', 'Altura']

In [None]:
df.index

RangeIndex(start=0, stop=6, step=1)

In [None]:
df.sort_values("Peso",ascending=False)

Unnamed: 0,Nombre,Edad,Grado,Correo,Fecha,Peso,Altura
2,Carmen,20,Arquitectura,carmen@gmail.com,2015-04-20,98,1.58
4,Pablo,42,Estadística,kl@gmail.com,2020-03-11,80,1.73
0,María,18,Economía,maria@gmail.com,2016-09-16,78,1.56
3,Antonio,21,Economía,antonio@gmail.com,2018-02-27,69,1.67
1,Luis,22,Medicina,luis@yahoo.es,2017-01-20,65,1.86
5,Lorenzo,35,Ing.Sistemas,lore@gmail.com,2021-01-28,63,1.8


### "Subsetting" de un Dataframe

In [None]:
df.columns

Index(['Nombre', 'Edad', 'Grado', 'Correo'], dtype='object')

In [None]:
df[['Nombre','Edad']]

Unnamed: 0,Nombre,Edad
0,María,18
1,Luis,22
2,Carmen,20
3,Antonio,21


In [None]:
cols_a_extraer = ['Grado','Nombre']
df[cols_a_extraer]

Unnamed: 0,Grado,Nombre
0,Economía,María
1,Medicina,Luis
2,Arquitectura,Carmen
3,Economía,Antonio


In [None]:
df.filter(cols_a_extraer)

Unnamed: 0,Grado,Nombre
0,Economía,María
1,Medicina,Luis
2,Arquitectura,Carmen
3,Economía,Antonio
4,Estadística,Pablo
5,Ing.Sistemas,Lorenzo


In [None]:
df['Edad']>18

0    False
1     True
2     True
3     True
Name: Edad, dtype: bool

In [None]:
df[df['Edad']>18]

Unnamed: 0,Nombre,Edad,Grado,Correo
1,Luis,22,Medicina,luis@yahoo.es
2,Carmen,20,Arquitectura,carmen@gmail.com
3,Antonio,21,Economía,antonio@gmail.com


In [None]:
df[df['Nombre']=='Luis']

Unnamed: 0,Nombre,Edad,Grado,Correo
1,Luis,22,Medicina,luis@yahoo.es


In [None]:
df[df['Fecha']> "2017-05-01"]

Unnamed: 0,Nombre,Edad,Grado,Correo,Fecha
3,Antonio,21,Economía,antonio@gmail.com,2018-02-27


In [None]:
df

Unnamed: 0,Nombre,Edad,Grado,Correo,Fecha
0,María,18,Economía,maria@gmail.com,2016-09-16
1,Luis,22,Medicina,luis@yahoo.es,2017-01-20
2,Carmen,20,Arquitectura,carmen@gmail.com,2015-04-20
3,Antonio,21,Economía,antonio@gmail.com,2018-02-27
4,Pablo,42,Estadística,kl@gmail.com,2020-03-11
5,Lorenzo,35,Ing.Sistemas,lore@gmail.com,2021-01-28


In [None]:
es_economia = df['Grado'] == 'Economía'
no_es_milenial_x = df['Edad'] < 27

In [None]:
df[es_economia & no_es_milenial_x]

Unnamed: 0,Nombre,Edad,Grado,Correo,Fecha
0,María,18,Economía,maria@gmail.com,2016-09-16
3,Antonio,21,Economía,antonio@gmail.com,2018-02-27


In [None]:
df[(df['Grado'] == 'Economía') & (df['Edad'] < 27)]

Unnamed: 0,Nombre,Edad,Grado,Correo,Fecha
0,María,18,Economía,maria@gmail.com,2016-09-16
3,Antonio,21,Economía,antonio@gmail.com,2018-02-27


In [None]:
df['Edad'].isin([18,21])

0     True
1    False
2    False
3     True
4    False
5    False
Name: Edad, dtype: bool

In [None]:
df.query("Edad.isin([18,21])")

### Agregando Columnas

In [None]:
df['imc' ] = df['Peso'] / df['Altura'] ** 2

In [None]:
df

Unnamed: 0,Nombre,Edad,Grado,Correo,Fecha,Peso,Altura,imc
0,María,18,Economía,maria@gmail.com,2016-09-16,78,1.56,32.051282
1,Luis,22,Medicina,luis@yahoo.es,2017-01-20,65,1.86,18.788299
2,Carmen,20,Arquitectura,carmen@gmail.com,2015-04-20,98,1.58,39.256529
3,Antonio,21,Economía,antonio@gmail.com,2018-02-27,69,1.67,24.740937
4,Pablo,42,Estadística,kl@gmail.com,2020-03-11,80,1.73,26.729927
5,Lorenzo,35,Ing.Sistemas,lore@gmail.com,2021-01-28,63,1.8,19.444444


In [None]:
df.assign(imc_1 = df.Peso/df.Altura **2)

Unnamed: 0,Nombre,Edad,Grado,Correo,Fecha,Peso,Altura,imc,imc_1
0,María,18,Economía,maria@gmail.com,2016-09-16,78,1.56,32.051282,32.051282
1,Luis,22,Medicina,luis@yahoo.es,2017-01-20,65,1.86,18.788299,18.788299
2,Carmen,20,Arquitectura,carmen@gmail.com,2015-04-20,98,1.58,39.256529,39.256529
3,Antonio,21,Economía,antonio@gmail.com,2018-02-27,69,1.67,24.740937,24.740937
4,Pablo,42,Estadística,kl@gmail.com,2020-03-11,80,1.73,26.729927,26.729927
5,Lorenzo,35,Ing.Sistemas,lore@gmail.com,2021-01-28,63,1.8,19.444444,19.444444


In [None]:
df.assign(imc_otro = lambda x: x.Peso / x.Altura ** 2)

Unnamed: 0,Nombre,Edad,Grado,Correo,Fecha,Peso,Altura,imc,imc_otro
0,María,18,Economía,maria@gmail.com,2016-09-16,78,1.56,32.051282,32.051282
1,Luis,22,Medicina,luis@yahoo.es,2017-01-20,65,1.86,18.788299,18.788299
2,Carmen,20,Arquitectura,carmen@gmail.com,2015-04-20,98,1.58,39.256529,39.256529
3,Antonio,21,Economía,antonio@gmail.com,2018-02-27,69,1.67,24.740937,24.740937
4,Pablo,42,Estadística,kl@gmail.com,2020-03-11,80,1.73,26.729927,26.729927
5,Lorenzo,35,Ing.Sistemas,lore@gmail.com,2021-01-28,63,1.8,19.444444,19.444444


In [None]:
df['altura_2'] = df['Altura'] **2

In [None]:
df['imc_2'] = df['Peso']/df['altura_2']

In [None]:
(
    df
    .assign(
        altura_2 = lambda x: x.Altura ** 2,
        peso_2 = lambda x: x.Peso ** 2)
    .assign(imc_2 = lambda x: x.Peso / x.altura_2)
)

Unnamed: 0,Nombre,Edad,Grado,Correo,Fecha,Peso,Altura,imc,altura_2,imc_2,peso_2
0,María,18,Economía,maria@gmail.com,2016-09-16,78,1.56,32.051282,2.4336,32.051282,6084
1,Luis,22,Medicina,luis@yahoo.es,2017-01-20,65,1.86,18.788299,3.4596,18.788299,4225
2,Carmen,20,Arquitectura,carmen@gmail.com,2015-04-20,98,1.58,39.256529,2.4964,39.256529,9604
3,Antonio,21,Economía,antonio@gmail.com,2018-02-27,69,1.67,24.740937,2.7889,24.740937,4761
4,Pablo,42,Estadística,kl@gmail.com,2020-03-11,80,1.73,26.729927,2.9929,26.729927,6400
5,Lorenzo,35,Ing.Sistemas,lore@gmail.com,2021-01-28,63,1.8,19.444444,3.24,19.444444,3969


### Resumiendo datos

In [None]:
df['Edad'].mean()

26.333333333333332

In [None]:
df.Edad.min()

18

In [None]:
df.mean(numeric_only=True)

Edad        26.333333
Peso        75.500000
Altura       1.700000
imc         26.835237
altura_2     2.901900
imc_2       26.835237
dtype: float64

In [None]:
def percentil_50(columna):
  return columna.quantile(0.5)

In [None]:
df['Edad'].median()

21.5

In [None]:
df['Edad'].agg(percentil_50)

21.5

In [None]:
df['Edad'].agg(lambda x: x.median())

21.5

In [None]:
def elevar_media(columna):
  return (columna**2).mean()

In [None]:
df['Edad'].agg([elevar_media,percentil_50])

elevar_media    773.0
percentil_50     21.5
Name: Edad, dtype: float64

In [None]:
df[['Peso']].assign(peso_acum = lambda x: x.Peso.cumsum())#.cumsum()

Unnamed: 0,Peso,peso_acum
0,78,78
1,65,143
2,98,241
3,69,310
4,80,390
5,63,453


In [None]:
(
    df[['Peso']]
    .eval("""
    Peso_2 = Peso/20**2
    Peso_3 = Peso +1
    """)
)

Unnamed: 0,Peso,Peso_2,Peso_3
0,78,0.195,79.0
1,65,0.1625,66.0
2,98,0.245,99.0
3,69,0.1725,70.0
4,80,0.2,81.0
5,63,0.1575,64.0


### Conteos

In [None]:
import pandas as pd

data = {
    'Nombre': ['Alice', None, 'Charlie', 'David', 'Eve', 'Frank', 'Grace', 'Hank', 'Ivy', 'Jack', 'Alice', 'Bob'],
    'Edad': [25, 30, 22, 35, 28, 40, 27, 32, 26, 29, None, 30],
    'Salario': [None, 60000, 55000, 70000, 65000, 75000, 60000, 72000, 59000, 68000, 50000, 60000],
    'Fecha de Ingreso': pd.date_range(start='2023-01-01', periods=12, freq='D'),
    'Departamento': pd.Categorical(['Ventas', 'TI', 'Recursos Humanos', 'Ventas', 'TI',
                                   'Recursos Humanos', 'Ventas', 'TI', 'Recursos Humanos', 'Ventas',
                                   'Ventas', 'TI']),
    'Información Adicional': [{'Hobbies': 'Senderismo', 'Ciudad': 'Nueva York'},
                             {'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'},
                             {'Hobbies': 'Música', 'Ciudad': 'Chicago'},
                             {'Hobbies': 'Fotografía', 'Ciudad': 'San Francisco'},
                             {'Hobbies': 'Deportes', 'Ciudad': 'Miami'},
                             {'Hobbies': 'Lectura', 'Ciudad': 'Seattle'},
                             {'Hobbies': 'Jardinería', 'Ciudad': 'Dallas'},
                             {'Hobbies': 'Cocina', 'Ciudad': 'Houston'},
                             {'Hobbies': 'Viajes', 'Ciudad': 'Boston'},
                             {'Hobbies': 'Buceo', 'Ciudad': 'Denver'},
                             {'Hobbies': 'Senderismo', 'Ciudad': 'Nueva York'},
                             {'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}]
}

df_raw = pd.DataFrame(data)
df_raw


Unnamed: 0,Nombre,Edad,Salario,Fecha de Ingreso,Departamento,Información Adicional
0,Alice,25.0,,2023-01-01,Ventas,"{'Hobbies': 'Senderismo', 'Ciudad': 'Nueva York'}"
1,,30.0,60000.0,2023-01-02,TI,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"
2,Charlie,22.0,55000.0,2023-01-03,Recursos Humanos,"{'Hobbies': 'Música', 'Ciudad': 'Chicago'}"
3,David,35.0,70000.0,2023-01-04,Ventas,"{'Hobbies': 'Fotografía', 'Ciudad': 'San Franc..."
4,Eve,28.0,65000.0,2023-01-05,TI,"{'Hobbies': 'Deportes', 'Ciudad': 'Miami'}"
5,Frank,40.0,75000.0,2023-01-06,Recursos Humanos,"{'Hobbies': 'Lectura', 'Ciudad': 'Seattle'}"
6,Grace,27.0,60000.0,2023-01-07,Ventas,"{'Hobbies': 'Jardinería', 'Ciudad': 'Dallas'}"
7,Hank,32.0,72000.0,2023-01-08,TI,"{'Hobbies': 'Cocina', 'Ciudad': 'Houston'}"
8,Ivy,26.0,59000.0,2023-01-09,Recursos Humanos,"{'Hobbies': 'Viajes', 'Ciudad': 'Boston'}"
9,Jack,29.0,68000.0,2023-01-10,Ventas,"{'Hobbies': 'Buceo', 'Ciudad': 'Denver'}"


In [None]:
(
    df_raw
    .reset_index()
    .dropna(subset=['Nombre','Edad','Salario'])
    .reset_index(drop=True)
)


Unnamed: 0,index,Nombre,Edad,Salario,Fecha de Ingreso,Departamento,Información Adicional
0,2,Charlie,22.0,55000.0,2023-01-03,Recursos Humanos,"{'Hobbies': 'Música', 'Ciudad': 'Chicago'}"
1,3,David,35.0,70000.0,2023-01-04,Ventas,"{'Hobbies': 'Fotografía', 'Ciudad': 'San Franc..."
2,4,Eve,28.0,65000.0,2023-01-05,TI,"{'Hobbies': 'Deportes', 'Ciudad': 'Miami'}"
3,5,Frank,40.0,75000.0,2023-01-06,Recursos Humanos,"{'Hobbies': 'Lectura', 'Ciudad': 'Seattle'}"
4,6,Grace,27.0,60000.0,2023-01-07,Ventas,"{'Hobbies': 'Jardinería', 'Ciudad': 'Dallas'}"
5,7,Hank,32.0,72000.0,2023-01-08,TI,"{'Hobbies': 'Cocina', 'Ciudad': 'Houston'}"
6,8,Ivy,26.0,59000.0,2023-01-09,Recursos Humanos,"{'Hobbies': 'Viajes', 'Ciudad': 'Boston'}"
7,9,Jack,29.0,68000.0,2023-01-10,Ventas,"{'Hobbies': 'Buceo', 'Ciudad': 'Denver'}"
8,11,Bob,30.0,60000.0,2023-01-12,TI,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"


In [None]:
df_raw.Departamento = df_raw.Departamento.astype(str)

In [None]:
type(df_raw[['Información Adicional']].iloc[0,0])

dict

In [None]:
df_raw

Unnamed: 0,Nombre,Edad,Salario,Fecha de Ingreso,Departamento,Información Adicional
0,Alice,25,50000,2023-01-01,Ventas,"{'Hobbies': 'Senderismo', 'Ciudad': 'Nueva York'}"
1,Bob,30,60000,2023-01-02,TI,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"
2,Charlie,22,55000,2023-01-03,Recursos Humanos,"{'Hobbies': 'Música', 'Ciudad': 'Chicago'}"
3,David,35,70000,2023-01-04,Ventas,"{'Hobbies': 'Fotografía', 'Ciudad': 'San Franc..."
4,Eve,28,65000,2023-01-05,TI,"{'Hobbies': 'Deportes', 'Ciudad': 'Miami'}"
5,Frank,40,75000,2023-01-06,Recursos Humanos,"{'Hobbies': 'Lectura', 'Ciudad': 'Seattle'}"
6,Grace,27,60000,2023-01-07,Ventas,"{'Hobbies': 'Jardinería', 'Ciudad': 'Dallas'}"
7,Hank,32,72000,2023-01-08,TI,"{'Hobbies': 'Cocina', 'Ciudad': 'Houston'}"
8,Ivy,26,59000,2023-01-09,Recursos Humanos,"{'Hobbies': 'Viajes', 'Ciudad': 'Boston'}"
9,Jack,29,68000,2023-01-10,Ventas,"{'Hobbies': 'Buceo', 'Ciudad': 'Denver'}"


In [None]:
df_raw.drop(columns=['Fecha de Ingreso'],inplace=True)

In [None]:
df_raw.loc[0,"Departamento"] = "TI"

In [None]:
df_raw.drop_duplicates(subset=['ID'])

Unnamed: 0,Nombre,Edad,Salario,Departamento
0,Alice,25,50000,TI
1,Bob,30,60000,TI
2,Charlie,22,55000,Recursos Humanos
3,David,35,70000,Ventas
4,Eve,28,65000,TI
5,Frank,40,75000,Recursos Humanos
6,Grace,27,60000,Ventas
7,Hank,32,72000,TI
8,Ivy,26,59000,Recursos Humanos
9,Jack,29,68000,Ventas


In [None]:
df

Unnamed: 0,Nombre,Edad,Grado,Correo,Fecha,Peso,Altura,imc,altura_2,imc_2
0,María,18,Economía,maria@gmail.com,2016-09-16,78,1.56,32.051282,2.4336,32.051282
1,Luis,22,Medicina,luis@yahoo.es,2017-01-20,65,1.86,18.788299,3.4596,18.788299
2,Carmen,20,Arquitectura,carmen@gmail.com,2015-04-20,98,1.58,39.256529,2.4964,39.256529
3,Antonio,21,Economía,antonio@gmail.com,2018-02-27,69,1.67,24.740937,2.7889,24.740937
4,Pablo,42,Estadística,kl@gmail.com,2020-03-11,80,1.73,26.729927,2.9929,26.729927
5,Lorenzo,35,Ing.Sistemas,lore@gmail.com,2021-01-28,63,1.8,19.444444,3.24,19.444444


### Slicing e Indexación de datos

In [None]:
df.columns

Index(['Nombre', 'Edad', 'Salario', 'Fecha de Ingreso', 'Departamento',
       'Información Adicional'],
      dtype='object')

In [None]:
df.index

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype='int64')

In [None]:
df_ind = df.set_index("Nombre")

In [None]:
df_ind.head()

Unnamed: 0_level_0,Edad,Salario,Fecha de Ingreso,Departamento,Información Adicional
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Alice,25,50000,2023-01-01,Ventas,"{'Hobbies': 'Senderismo', 'Ciudad': 'Nueva York'}"
Bob,30,60000,2023-01-02,TI,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"
Charlie,22,55000,2023-01-03,Recursos Humanos,"{'Hobbies': 'Música', 'Ciudad': 'Chicago'}"
David,35,70000,2023-01-04,Ventas,"{'Hobbies': 'Fotografía', 'Ciudad': 'San Franc..."
Eve,28,65000,2023-01-05,TI,"{'Hobbies': 'Deportes', 'Ciudad': 'Miami'}"


In [None]:
df.reset_index().head()

Unnamed: 0,index,Nombre,Edad,Salario,Fecha de Ingreso,Departamento,Información Adicional
0,0,Alice,25,50000,2023-01-01,Ventas,"{'Hobbies': 'Senderismo', 'Ciudad': 'Nueva York'}"
1,1,Bob,30,60000,2023-01-02,TI,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"
2,2,Charlie,22,55000,2023-01-03,Recursos Humanos,"{'Hobbies': 'Música', 'Ciudad': 'Chicago'}"
3,3,David,35,70000,2023-01-04,Ventas,"{'Hobbies': 'Fotografía', 'Ciudad': 'San Franc..."
4,4,Eve,28,65000,2023-01-05,TI,"{'Hobbies': 'Deportes', 'Ciudad': 'Miami'}"


In [None]:
df_ind.reset_index(drop=True).head()

Unnamed: 0,Edad,Salario,Fecha de Ingreso,Departamento,Información Adicional
0,25,50000,2023-01-01,Ventas,"{'Hobbies': 'Senderismo', 'Ciudad': 'Nueva York'}"
1,30,60000,2023-01-02,TI,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"
2,22,55000,2023-01-03,Recursos Humanos,"{'Hobbies': 'Música', 'Ciudad': 'Chicago'}"
3,35,70000,2023-01-04,Ventas,"{'Hobbies': 'Fotografía', 'Ciudad': 'San Franc..."
4,28,65000,2023-01-05,TI,"{'Hobbies': 'Deportes', 'Ciudad': 'Miami'}"


In [None]:
df[df.Nombre.isin(['Bob','Eve'])]

Unnamed: 0,Nombre,Edad,Salario,Fecha de Ingreso,Departamento,Información Adicional
1,Bob,30,60000,2023-01-02,TI,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"
4,Eve,28,65000,2023-01-05,TI,"{'Hobbies': 'Deportes', 'Ciudad': 'Miami'}"


In [None]:
df_ind.loc[['Bob','Eve']]

Unnamed: 0_level_0,Edad,Salario,Fecha de Ingreso,Departamento,Información Adicional
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bob,30,60000,2023-01-02,TI,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"
Eve,28,65000,2023-01-05,TI,"{'Hobbies': 'Deportes', 'Ciudad': 'Miami'}"


In [None]:
df_raw.set_index("Nombre").loc['Bob']

Unnamed: 0_level_0,Edad,Salario,Fecha de Ingreso,Departamento,Información Adicional
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bob,30,60000,2023-01-02,TI,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"
Bob,30,60000,2023-01-12,TI,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"


In [None]:
df_raw[(df_raw.Departamento=='TI') & (df_raw.Edad<30)]

Unnamed: 0,Nombre,Edad,Salario,Fecha de Ingreso,Departamento,Información Adicional
4,Eve,28.0,65000.0,2023-01-05,TI,"{'Hobbies': 'Deportes', 'Ciudad': 'Miami'}"


In [None]:
df_raw.query("Departamento=='TI' and Edad<30")

Unnamed: 0,Nombre,Edad,Salario,Fecha de Ingreso,Departamento,Información Adicional
4,Eve,28.0,65000.0,2023-01-05,TI,"{'Hobbies': 'Deportes', 'Ciudad': 'Miami'}"


In [None]:
(
    df_raw
    .set_index(['Departamento','Nombre'])
    .loc[[
        ('TI','Bob'),
        ('TI','Eve'),
    ]]
 )

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Salario,Fecha de Ingreso,Información Adicional
Departamento,Nombre,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
TI,Bob,30,60000,2023-01-02,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"
TI,Bob,30,60000,2023-01-12,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"
TI,Eve,28,65000,2023-01-05,"{'Hobbies': 'Deportes', 'Ciudad': 'Miami'}"


In [None]:
df_raw.set_index(['Departamento','Nombre']).sort_index()

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Salario,Fecha de Ingreso,Información Adicional
Departamento,Nombre,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Recursos Humanos,Charlie,22,55000,2023-01-03,"{'Hobbies': 'Música', 'Ciudad': 'Chicago'}"
Recursos Humanos,Frank,40,75000,2023-01-06,"{'Hobbies': 'Lectura', 'Ciudad': 'Seattle'}"
Recursos Humanos,Ivy,26,59000,2023-01-09,"{'Hobbies': 'Viajes', 'Ciudad': 'Boston'}"
TI,Bob,30,60000,2023-01-02,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"
TI,Bob,30,60000,2023-01-12,"{'Hobbies': 'Pintura', 'Ciudad': 'Los Ángeles'}"
TI,Eve,28,65000,2023-01-05,"{'Hobbies': 'Deportes', 'Ciudad': 'Miami'}"
TI,Hank,32,72000,2023-01-08,"{'Hobbies': 'Cocina', 'Ciudad': 'Houston'}"
Ventas,Alice,25,50000,2023-01-01,"{'Hobbies': 'Senderismo', 'Ciudad': 'Nueva York'}"
Ventas,Alice,25,50000,2023-01-11,"{'Hobbies': 'Senderismo', 'Ciudad': 'Nueva York'}"
Ventas,David,35,70000,2023-01-04,"{'Hobbies': 'Fotografía', 'Ciudad': 'San Franc..."


### Lectura

In [None]:
#pd.read_html("https://es.wikipedia.org/wiki/Departamentos_del_Per%C3%BA")[0]

### Creando y visualizando datos