In [1]:
import pandas as pd
import numpy as np

In [8]:
nombre_paises = ["China", "India", "Estados Unidos", "Indonesia", "Pakistán",
                 "Brasil", "Nigeria", "Bangladesh", "Rusia", "México"]

encabezado = ["poblacion", "porcentaje"]

datos = [[1439, 18.47],
        [1380, 17.70],
        [331, 4.25],
        [273, 3.51], 
        [220, 2.83],
        [212, 2.73], 
        [206, 2.64],
        [164, 2.11],
        [145, 1.87],
        [128, 1.65]]

In [13]:
paises = pd.DataFrame(datos, index=nombre_paises, columns = encabezado)

In [14]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439,18.47
India,1380,17.7
Estados Unidos,331,4.25
Indonesia,273,3.51
Pakistán,220,2.83
Brasil,212,2.73
Nigeria,206,2.64
Bangladesh,164,2.11
Rusia,145,1.87
México,128,1.65


In [31]:
datos_d = dict(zip(nombre_paises, datos))

In [32]:
paises = pd.DataFrame(datos_d, index = encabezado)

In [33]:
paises

Unnamed: 0,China,India,Estados Unidos,Indonesia,Pakistán,Brasil,Nigeria,Bangladesh,Rusia,México
poblacion,1439.0,1380.0,331.0,273.0,220.0,212.0,206.0,164.0,145.0,128.0
porcentaje,18.47,17.7,4.25,3.51,2.83,2.73,2.64,2.11,1.87,1.65


In [34]:
paises = paises.transpose()
paises['poblacion'] = paises['poblacion'].astype('i2')

In [35]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439,18.47
India,1380,17.7
Estados Unidos,331,4.25
Indonesia,273,3.51
Pakistán,220,2.83
Brasil,212,2.73
Nigeria,206,2.64
Bangladesh,164,2.11
Rusia,145,1.87
México,128,1.65


In [37]:
paises.T

Unnamed: 0,China,India,Estados Unidos,Indonesia,Pakistán,Brasil,Nigeria,Bangladesh,Rusia,México
poblacion,1439.0,1380.0,331.0,273.0,220.0,212.0,206.0,164.0,145.0,128.0
porcentaje,18.47,17.7,4.25,3.51,2.83,2.73,2.64,2.11,1.87,1.65


In [38]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439,18.47
India,1380,17.7
Estados Unidos,331,4.25
Indonesia,273,3.51
Pakistán,220,2.83
Brasil,212,2.73
Nigeria,206,2.64
Bangladesh,164,2.11
Rusia,145,1.87
México,128,1.65


## Atributos básicos de un Dataframe

In [42]:
print(paises.dtypes)

poblacion       int16
porcentaje    float64
dtype: object


In [43]:
paises.values, paises.size

(array([[1439.  ,   18.47],
        [1380.  ,   17.7 ],
        [ 331.  ,    4.25],
        [ 273.  ,    3.51],
        [ 220.  ,    2.83],
        [ 212.  ,    2.73],
        [ 206.  ,    2.64],
        [ 164.  ,    2.11],
        [ 145.  ,    1.87],
        [ 128.  ,    1.65]]),
 20)

In [44]:
paises.index, paises.columns

(Index(['China', 'India', 'Estados Unidos', 'Indonesia', 'Pakistán', 'Brasil',
        'Nigeria', 'Bangladesh', 'Rusia', 'México'],
       dtype='object'),
 Index(['poblacion', 'porcentaje'], dtype='object'))

In [45]:
l = list(paises.index)

In [53]:
for a, b in zip(list(paises.index), paises.values):
    print(a, b)

China [1439.     18.47]
India [1380.    17.7]
Estados Unidos [331.     4.25]
Indonesia [273.     3.51]
Pakistán [220.     2.83]
Brasil [212.     2.73]
Nigeria [206.     2.64]
Bangladesh [164.     2.11]
Rusia [145.     1.87]
México [128.     1.65]


## Acceso a los elementos de una DataFrame

In [54]:
paises.poblacion

China             1439
India             1380
Estados Unidos     331
Indonesia          273
Pakistán           220
Brasil             212
Nigeria            206
Bangladesh         164
Rusia              145
México             128
Name: poblacion, dtype: int16

In [55]:
paises.porcentaje

China             18.47
India             17.70
Estados Unidos     4.25
Indonesia          3.51
Pakistán           2.83
Brasil             2.73
Nigeria            2.64
Bangladesh         2.11
Rusia              1.87
México             1.65
Name: porcentaje, dtype: float64

In [59]:
paises['poblacion']

China             1439
India             1380
Estados Unidos     331
Indonesia          273
Pakistán           220
Brasil             212
Nigeria            206
Bangladesh         164
Rusia              145
México             128
Name: poblacion, dtype: int16

In [60]:
paises[['poblacion', 'porcentaje']]

Unnamed: 0,poblacion,porcentaje
China,1439,18.47
India,1380,17.7
Estados Unidos,331,4.25
Indonesia,273,3.51
Pakistán,220,2.83
Brasil,212,2.73
Nigeria,206,2.64
Bangladesh,164,2.11
Rusia,145,1.87
México,128,1.65


In [61]:
paises['poblacion'][0]

1439

In [62]:
paises['poblacion'][0:3]

China             1439
India             1380
Estados Unidos     331
Name: poblacion, dtype: int16

In [64]:
paises.iloc[0]  # se indica el índice

poblacion     1439.00
porcentaje      18.47
Name: China, dtype: float64

In [65]:
paises.loc['China']  # Se indica por el índice

poblacion     1439.00
porcentaje      18.47
Name: China, dtype: float64

## Métodos comunes de DataFrames

In [66]:
paises['porcentaje'] = paises['porcentaje'].astype('f2')

In [70]:
paises.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, China to México
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   poblacion   10 non-null     int16  
 1   porcentaje  10 non-null     float16
dtypes: float16(1), int16(1)
memory usage: 420.0+ bytes


In [72]:
paises.head()

Unnamed: 0,poblacion,porcentaje
China,1439,18.46875
India,1380,17.703125
Estados Unidos,331,4.25
Indonesia,273,3.509766
Pakistán,220,2.830078


In [73]:
paises.tail()

Unnamed: 0,poblacion,porcentaje
Brasil,212,2.730469
Nigeria,206,2.640625
Bangladesh,164,2.109375
Rusia,145,1.870117
México,128,1.650391


In [79]:
paises.sort_values(by=['poblacion', 'porcentaje'], ascending=True)

Unnamed: 0,poblacion,porcentaje
México,128,1.650391
Rusia,145,1.870117
Bangladesh,164,2.109375
Nigeria,206,2.640625
Brasil,212,2.730469
Pakistán,220,2.830078
Indonesia,273,3.509766
Estados Unidos,331,4.25
India,1380,17.703125
China,1439,18.46875


In [82]:
paises.sort_index(ascending=True)

Unnamed: 0,poblacion,porcentaje
Bangladesh,164,2.109375
Brasil,212,2.730469
China,1439,18.46875
Estados Unidos,331,4.25
India,1380,17.703125
Indonesia,273,3.509766
México,128,1.650391
Nigeria,206,2.640625
Pakistán,220,2.830078
Rusia,145,1.870117


In [84]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439,18.46875
India,1380,17.703125
Estados Unidos,331,4.25
Indonesia,273,3.509766
Pakistán,220,2.830078
Brasil,212,2.730469
Nigeria,206,2.640625
Bangladesh,164,2.109375
Rusia,145,1.870117
México,128,1.650391


## Agregar y quitar renglones y columnas

In [94]:
tasa_fertilidad = [1.7, 2.2, 1.8, 2.3, 3.6, 1.7, 5.4, 2.1, 1.8, 2.1]
paises['tasa de fertilidad'] = tasa_fertilidad

In [95]:
 paises

Unnamed: 0,poblacion,porcentaje,tasa de fertilidad
China,1439,18.46875,1.7
India,1380,17.703125,2.2
Estados Unidos,331,4.25,1.8
Indonesia,273,3.509766,2.3
Pakistán,220,2.830078,3.6
Brasil,212,2.730469,1.7
Nigeria,206,2.640625,5.4
Bangladesh,164,2.109375,2.1
Rusia,145,1.870117,1.8
México,128,1.650391,2.1


In [91]:
paises.pop('tasa de fertilidad')  # La quita del DF para ser procesada

China             1.7
India             2.2
Estados Unidos    1.8
Indonesia         2.3
Pakistán          3.6
Brasil            1.7
Nigeria           5.4
Bangladesh        2.1
Rusia             1.8
México            2.1
Name: tasa de fertilidad, dtype: float64

In [93]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439,18.46875
India,1380,17.703125
Estados Unidos,331,4.25
Indonesia,273,3.509766
Pakistán,220,2.830078
Brasil,212,2.730469
Nigeria,206,2.640625
Bangladesh,164,2.109375
Rusia,145,1.870117
México,128,1.650391
