In [72]:
import numpy as np
import pandas as pd
from pandas import Series
from pandas import DataFrame


def encabezado(titulo):
  print()
  print("-" * 50)
  print("[" + titulo + "]")
  print("-" * 50)


estados = ["Jalisco"]*4 + ["Colima"]*4
años = [2000, 2005, 2010, 2020]*2
poblaciones = [6.32, 6.75, 7.35, 8.34] + [0.54, 0.57, 0.65, 0.73]

data = {"estado": estados, "año": años, "población": poblaciones}
df1 = DataFrame(data)
df1

Unnamed: 0,estado,año,población
0,Jalisco,2000,6.32
1,Jalisco,2005,6.75
2,Jalisco,2010,7.35
3,Jalisco,2020,8.34
4,Colima,2000,0.54
5,Colima,2005,0.57
6,Colima,2010,0.65
7,Colima,2020,0.73


Un DataFrame puede sacar información desde diferentes fuentes:
* Diccionario de listas del mismo tipo
* Arreglo bidimensional de datos
* Diccionario de Series
* DataFrame
* Archivos con información tabular

In [73]:
## Revisar si se contruyó bien el DataFram una vez generado

# Ver los primeros datos de la tabla
display(df1.head())

# Ver los ultimos datos de la table
display(df1.tail())

Unnamed: 0,estado,año,población
0,Jalisco,2000,6.32
1,Jalisco,2005,6.75
2,Jalisco,2010,7.35
3,Jalisco,2020,8.34
4,Colima,2000,0.54


Unnamed: 0,estado,año,población
3,Jalisco,2020,8.34
4,Colima,2000,0.54
5,Colima,2005,0.57
6,Colima,2010,0.65
7,Colima,2020,0.73


### Generar DataFrame a partir de otro

In [74]:
# Cambiar el orden de las columnas a año, estado, población
df2 = DataFrame(df1, columns=["año", "estado", "población"])
df2

Unnamed: 0,año,estado,población
0,2000,Jalisco,6.32
1,2005,Jalisco,6.75
2,2010,Jalisco,7.35
3,2020,Jalisco,8.34
4,2000,Colima,0.54
5,2005,Colima,0.57
6,2010,Colima,0.65
7,2020,Colima,0.73


In [75]:
## ¿Qué pasa si agrego una columna que no está en el DataFrame original?
## Cambio de indices
df2 = DataFrame(data, columns=["año", "estado", "población", "deuda"], index=list("abcdefgh"))
df2

Unnamed: 0,año,estado,población,deuda
a,2000,Jalisco,6.32,
b,2005,Jalisco,6.75,
c,2010,Jalisco,7.35,
d,2020,Jalisco,8.34,
e,2000,Colima,0.54,
f,2005,Colima,0.57,
g,2010,Colima,0.65,
h,2020,Colima,0.73,


Obtención de datos de un DataFrame

In [76]:
## Obtención de una columna como un diccionario
display(df2["estado"])
# al extraer una columna se conserva el índice

a    Jalisco
b    Jalisco
c    Jalisco
d    Jalisco
e     Colima
f     Colima
g     Colima
h     Colima
Name: estado, dtype: object

In [77]:
## Obtención de una columna como objeto
df2.año

a    2000
b    2005
c    2010
d    2020
e    2000
f    2005
g    2010
h    2020
Name: año, dtype: int64

In [78]:
## Obtención de una fila
df2.loc["e"]

año            2000
estado       Colima
población      0.54
deuda           NaN
Name: e, dtype: object

### Modificar valores de un DataFrame

In [79]:
## Asignar un valor a toda la columna
df2["deuda"] = 100
df2

Unnamed: 0,año,estado,población,deuda
a,2000,Jalisco,6.32,100
b,2005,Jalisco,6.75,100
c,2010,Jalisco,7.35,100
d,2020,Jalisco,8.34,100
e,2000,Colima,0.54,100
f,2005,Colima,0.57,100
g,2010,Colima,0.65,100
h,2020,Colima,0.73,100


In [80]:
import numpy as np
## Asignar una serie de números a una columna

deudas = np.arange(0,800,100)
df2["deuda"] = deudas
df2

Unnamed: 0,año,estado,población,deuda
a,2000,Jalisco,6.32,0
b,2005,Jalisco,6.75,100
c,2010,Jalisco,7.35,200
d,2020,Jalisco,8.34,300
e,2000,Colima,0.54,400
f,2005,Colima,0.57,500
g,2010,Colima,0.65,600
h,2020,Colima,0.73,700


In [81]:
deudas2 = Series([5,10], index=["b","f"])
df2["deuda"] = deudas2
df2

Unnamed: 0,año,estado,población,deuda
a,2000,Jalisco,6.32,
b,2005,Jalisco,6.75,5.0
c,2010,Jalisco,7.35,
d,2020,Jalisco,8.34,
e,2000,Colima,0.54,
f,2005,Colima,0.57,10.0
g,2010,Colima,0.65,
h,2020,Colima,0.73,


In [82]:
## Generar una columna calculada
df2["local"] = df2["estado"] == "Jalisco"
df2

Unnamed: 0,año,estado,población,deuda,local
a,2000,Jalisco,6.32,,True
b,2005,Jalisco,6.75,5.0,True
c,2010,Jalisco,7.35,,True
d,2020,Jalisco,8.34,,True
e,2000,Colima,0.54,,False
f,2005,Colima,0.57,10.0,False
g,2010,Colima,0.65,,False
h,2020,Colima,0.73,,False


In [83]:
## Remover columna que ya no es útil
del df2["local"]
df2

Unnamed: 0,año,estado,población,deuda
a,2000,Jalisco,6.32,
b,2005,Jalisco,6.75,5.0
c,2010,Jalisco,7.35,
d,2020,Jalisco,8.34,
e,2000,Colima,0.54,
f,2005,Colima,0.57,10.0
g,2010,Colima,0.65,
h,2020,Colima,0.73,


In [84]:
## Generar un DataFrame a partir de un diccionario de diccionarios
pob = {
        "Jalisco": {2000:6.32, 2020:8.35},
        "Colima": {2000:0.54, 2020:0.73}
    }
df3 = DataFrame(pob)
df3

Unnamed: 0,Jalisco,Colima
2000,6.32,0.54
2020,8.35,0.73


In [85]:
## Intercambiar filas por columnas
df3.T # Transponer el DataFrame

Unnamed: 0,2000,2020
Jalisco,6.32,8.35
Colima,0.54,0.73


In [86]:
## Generar un DataFrame a partir de un arreglo bidimensional
numeros = np.arange(16).reshape(4,4)
df4 = DataFrame(numeros, index=list("abcd"), columns=["México", "USA", "Belice", "Guatemala"])
df4

Unnamed: 0,México,USA,Belice,Guatemala
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


### ILOC y LOC
Remueve la ambigüedad de los indices al separar la funcionalidad de los indices númericos de los personalizados

In [87]:
# Obtiene una fila usando loc
df4.loc["b"]

México       4
USA          5
Belice       6
Guatemala    7
Name: b, dtype: int32

In [88]:
# Obtener un valor especifico de la tabla [fila, columna]
encabezado("Valor específico")
display(df4.loc["b", "USA"])

# Obtener toda la columna Belice
encabezado("Columna Belice")
display(df4.loc[:,"Belice"])

encabezado("Fila A")
display(df4.loc["a", :])



--------------------------------------------------
[Valor específico]
--------------------------------------------------


5


--------------------------------------------------
[Columna Belice]
--------------------------------------------------


a     2
b     6
c    10
d    14
Name: Belice, dtype: int32


--------------------------------------------------
[Fila A]
--------------------------------------------------


México       0
USA          1
Belice       2
Guatemala    3
Name: a, dtype: int32

In [89]:
encabezado("Slice")
display(df4.loc["b":"d", "México":"Belice"]) #Incluye el último elemento
encabezado("Filtrado")
display(df4.loc[["b","a","d"], ["Guatemala", "Belice"]])


--------------------------------------------------
[Slice]
--------------------------------------------------


Unnamed: 0,México,USA,Belice
b,4,5,6
c,8,9,10
d,12,13,14



--------------------------------------------------
[Filtrado]
--------------------------------------------------


Unnamed: 0,Guatemala,Belice
b,7,6
a,3,2
d,15,14


#### ILOC

In [90]:
df4

Unnamed: 0,México,USA,Belice,Guatemala
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


In [91]:
# Obtiene una fila utilizando ILOC
df4.iloc[1]

México       4
USA          5
Belice       6
Guatemala    7
Name: b, dtype: int32

In [92]:
# Obtener un valor especifico de la tabla [fila, columna]
encabezado("Valor específico")
display(df4.iloc[2, 2])

# Obtener toda la columna Belice
encabezado("Columna Belice")
display(df4.iloc[:, 2])

encabezado("Fila A")
display(df4.iloc[0, :])



--------------------------------------------------
[Valor específico]
--------------------------------------------------


10


--------------------------------------------------
[Columna Belice]
--------------------------------------------------


a     2
b     6
c    10
d    14
Name: Belice, dtype: int32


--------------------------------------------------
[Fila A]
--------------------------------------------------


México       0
USA          1
Belice       2
Guatemala    3
Name: a, dtype: int32

In [94]:
encabezado("Slice")
display(df4.iloc[1:4, :2])  # Incluye el último elemento
encabezado("Filtrado")
display(df4.iloc[[1, 0, 3], [3, 2]])


--------------------------------------------------
[Slice]
--------------------------------------------------


Unnamed: 0,México,USA
b,4,5
c,8,9
d,12,13



--------------------------------------------------
[Filtrado]
--------------------------------------------------


Unnamed: 0,Guatemala,Belice
b,7,6
a,3,2
d,15,14


# Estructura tipo índice

In [97]:
display(df4.columns)
display(df4.index)

Index(['México', 'USA', 'Belice', 'Guatemala'], dtype='object')

Index(['a', 'b', 'c', 'd'], dtype='object')

In [98]:
s1 = Series([1.5, -2.7, 3.8, 0.4], index=df4.columns)
s1

México       1.5
USA         -2.7
Belice       3.8
Guatemala    0.4
dtype: float64

In [99]:
indice = s1.index

display("Jalisco" in indice)
display("Belice" in indice)

False

True

In [102]:
indice1 = pd.Index(np.arange(0,10))
indice2 = pd.Index(np.arange(0,20,2))
display(indice1)
display(indice2)


Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype='int64')

Int64Index([0, 2, 4, 6, 8, 10, 12, 14, 16, 18], dtype='int64')

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 14, 16, 18], dtype='int64')

In [105]:
# Unión
indice1.union(indice2)

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 14, 16, 18], dtype='int64')

In [103]:
# Intersección
indice1.intersection(indice2)

Int64Index([0, 2, 4, 6, 8], dtype='int64')

In [104]:
# Diferencia
indice1.difference(indice2)

Int64Index([1, 3, 5, 7, 9], dtype='int64')

In [106]:
indice3 = pd.Index(["abc", "abc", "def", "def"])
indice3

Index(['abc', 'abc', 'def', 'def'], dtype='object')

In [109]:
df1 = DataFrame(data, index=frame["estado"])
df1.loc["Jalisco"]

Unnamed: 0_level_0,estado,año,población
estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jalisco,Jalisco,2000,6.32
Jalisco,Jalisco,2005,6.75
Jalisco,Jalisco,2010,7.35
Jalisco,Jalisco,2020,8.34


In [110]:
## Eliminar un cierto indice de fila
df1.drop("Jalisco")

Unnamed: 0_level_0,estado,año,población
estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Colima,Colima,2000,0.54
Colima,Colima,2005,0.57
Colima,Colima,2010,0.65
Colima,Colima,2020,0.73


In [112]:
# Agregar valor al índice
indice4 = indice3.insert(7, "ghi")
display(indice3)
display(indice4)

Index(['abc', 'abc', 'def', 'def'], dtype='object')

Index(['abc', 'abc', 'def', 'def', 'ghi'], dtype='object')