In [1]:
import pandas as pd
import numpy as np

In [2]:
nombre_paises = ["China", "India", "Estados Unidos", "Indonesia", "Pakistán",
                 "Brasil", "Nigeria", "Bangladesh", "Rusia", "México"]

encabezado = ["poblacion", "porcentaje"]

datos = [[1439, 18.47],
        [1380, 17.70],
        [331, 4.25],
        [273, 3.51], 
        [220, 2.83],
        [212, 2.73], 
        [206, 2.64],
        [164, 2.11],
        [145, 1.87],
        [128, 1.65]]

In [3]:
paises = pd.DataFrame(datos, index=nombre_paises, columns = encabezado)

In [4]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439,18.47
India,1380,17.7
Estados Unidos,331,4.25
Indonesia,273,3.51
Pakistán,220,2.83
Brasil,212,2.73
Nigeria,206,2.64
Bangladesh,164,2.11
Rusia,145,1.87
México,128,1.65


In [5]:
datos_d = dict(zip(nombre_paises, datos))

In [6]:
paises = pd.DataFrame(datos_d, index = encabezado)

In [7]:
paises

Unnamed: 0,China,India,Estados Unidos,Indonesia,Pakistán,Brasil,Nigeria,Bangladesh,Rusia,México
poblacion,1439.0,1380.0,331.0,273.0,220.0,212.0,206.0,164.0,145.0,128.0
porcentaje,18.47,17.7,4.25,3.51,2.83,2.73,2.64,2.11,1.87,1.65


In [8]:
paises = paises.transpose()
paises['poblacion'] = paises['poblacion'].astype('i2')

In [9]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439,18.47
India,1380,17.7
Estados Unidos,331,4.25
Indonesia,273,3.51
Pakistán,220,2.83
Brasil,212,2.73
Nigeria,206,2.64
Bangladesh,164,2.11
Rusia,145,1.87
México,128,1.65


In [10]:
paises.T

Unnamed: 0,China,India,Estados Unidos,Indonesia,Pakistán,Brasil,Nigeria,Bangladesh,Rusia,México
poblacion,1439.0,1380.0,331.0,273.0,220.0,212.0,206.0,164.0,145.0,128.0
porcentaje,18.47,17.7,4.25,3.51,2.83,2.73,2.64,2.11,1.87,1.65


In [11]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439,18.47
India,1380,17.7
Estados Unidos,331,4.25
Indonesia,273,3.51
Pakistán,220,2.83
Brasil,212,2.73
Nigeria,206,2.64
Bangladesh,164,2.11
Rusia,145,1.87
México,128,1.65


## Atributos básicos de un Dataframe

In [12]:
print(paises.dtypes)

poblacion       int16
porcentaje    float64
dtype: object


In [13]:
paises.values, paises.size

(array([[1439.  ,   18.47],
        [1380.  ,   17.7 ],
        [ 331.  ,    4.25],
        [ 273.  ,    3.51],
        [ 220.  ,    2.83],
        [ 212.  ,    2.73],
        [ 206.  ,    2.64],
        [ 164.  ,    2.11],
        [ 145.  ,    1.87],
        [ 128.  ,    1.65]]),
 20)

In [14]:
paises.index, paises.columns

(Index(['China', 'India', 'Estados Unidos', 'Indonesia', 'Pakistán', 'Brasil',
        'Nigeria', 'Bangladesh', 'Rusia', 'México'],
       dtype='object'),
 Index(['poblacion', 'porcentaje'], dtype='object'))

In [15]:
l = list(paises.index)

In [16]:
for a, b in zip(list(paises.index), paises.values):
    print(a, b)

China [1439.     18.47]
India [1380.    17.7]
Estados Unidos [331.     4.25]
Indonesia [273.     3.51]
Pakistán [220.     2.83]
Brasil [212.     2.73]
Nigeria [206.     2.64]
Bangladesh [164.     2.11]
Rusia [145.     1.87]
México [128.     1.65]


## Acceso a los elementos de una DataFrame

In [17]:
paises.poblacion

China             1439
India             1380
Estados Unidos     331
Indonesia          273
Pakistán           220
Brasil             212
Nigeria            206
Bangladesh         164
Rusia              145
México             128
Name: poblacion, dtype: int16

In [18]:
paises.porcentaje

China             18.47
India             17.70
Estados Unidos     4.25
Indonesia          3.51
Pakistán           2.83
Brasil             2.73
Nigeria            2.64
Bangladesh         2.11
Rusia              1.87
México             1.65
Name: porcentaje, dtype: float64

In [19]:
paises['poblacion']

China             1439
India             1380
Estados Unidos     331
Indonesia          273
Pakistán           220
Brasil             212
Nigeria            206
Bangladesh         164
Rusia              145
México             128
Name: poblacion, dtype: int16

In [20]:
paises[['poblacion', 'porcentaje']]

Unnamed: 0,poblacion,porcentaje
China,1439,18.47
India,1380,17.7
Estados Unidos,331,4.25
Indonesia,273,3.51
Pakistán,220,2.83
Brasil,212,2.73
Nigeria,206,2.64
Bangladesh,164,2.11
Rusia,145,1.87
México,128,1.65


In [21]:
paises['poblacion'][0]

1439

In [22]:
paises['poblacion'][0:3]

China             1439
India             1380
Estados Unidos     331
Name: poblacion, dtype: int16

In [23]:
paises.iloc[0]  # se indica el índice

poblacion     1439.00
porcentaje      18.47
Name: China, dtype: float64

In [24]:
paises.loc['China']  # Se indica por el índice

poblacion     1439.00
porcentaje      18.47
Name: China, dtype: float64

## Métodos comunes de DataFrames

In [25]:
paises['porcentaje'] = paises['porcentaje'].astype('f2')

In [26]:
paises.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, China to México
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   poblacion   10 non-null     int16  
 1   porcentaje  10 non-null     float16
dtypes: float16(1), int16(1)
memory usage: 420.0+ bytes


In [27]:
paises.head()

Unnamed: 0,poblacion,porcentaje
China,1439,18.46875
India,1380,17.703125
Estados Unidos,331,4.25
Indonesia,273,3.509766
Pakistán,220,2.830078


In [28]:
paises.tail()

Unnamed: 0,poblacion,porcentaje
Brasil,212,2.730469
Nigeria,206,2.640625
Bangladesh,164,2.109375
Rusia,145,1.870117
México,128,1.650391


In [29]:
paises.sort_values(by=['poblacion', 'porcentaje'], ascending=True)

Unnamed: 0,poblacion,porcentaje
México,128,1.650391
Rusia,145,1.870117
Bangladesh,164,2.109375
Nigeria,206,2.640625
Brasil,212,2.730469
Pakistán,220,2.830078
Indonesia,273,3.509766
Estados Unidos,331,4.25
India,1380,17.703125
China,1439,18.46875


In [30]:
paises.sort_index(ascending=True)

Unnamed: 0,poblacion,porcentaje
Bangladesh,164,2.109375
Brasil,212,2.730469
China,1439,18.46875
Estados Unidos,331,4.25
India,1380,17.703125
Indonesia,273,3.509766
México,128,1.650391
Nigeria,206,2.640625
Pakistán,220,2.830078
Rusia,145,1.870117


In [31]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439,18.46875
India,1380,17.703125
Estados Unidos,331,4.25
Indonesia,273,3.509766
Pakistán,220,2.830078
Brasil,212,2.730469
Nigeria,206,2.640625
Bangladesh,164,2.109375
Rusia,145,1.870117
México,128,1.650391


## Agregar y quitar renglones y columnas

In [41]:
tasa_fertilidad = [1.7, 2.2, 1.8, 2.3, 3.6, 1.7, 5.4, 2.1, 1.8, 2.1]
paises['tasa de fertilidad'] = tasa_fertilidad

In [37]:
 paises

Unnamed: 0,poblacion,porcentaje,tasa de fertilidad
China,1439,18.46875,1.7
India,1380,17.703125,2.2
Estados Unidos,331,4.25,1.8
Indonesia,273,3.509766,2.3
Pakistán,220,2.830078,3.6
Brasil,212,2.730469,1.7
Nigeria,206,2.640625,5.4
Bangladesh,164,2.109375,2.1
Rusia,145,1.870117,1.8
México,128,1.650391,2.1


In [34]:
paises.pop('tasa de fertilidad')  # La quita del DF como una serie para ser procesada aparte.

China             1.7
India             2.2
Estados Unidos    1.8
Indonesia         2.3
Pakistán          3.6
Brasil            1.7
Nigeria           5.4
Bangladesh        2.1
Rusia             1.8
México            2.1
Name: tasa de fertilidad, dtype: float64

In [38]:
paises

Unnamed: 0,poblacion,porcentaje,tasa de fertilidad
China,1439,18.46875,1.7
India,1380,17.703125,2.2
Estados Unidos,331,4.25,1.8
Indonesia,273,3.509766,2.3
Pakistán,220,2.830078,3.6
Brasil,212,2.730469,1.7
Nigeria,206,2.640625,5.4
Bangladesh,164,2.109375,2.1
Rusia,145,1.870117,1.8
México,128,1.650391,2.1


In [39]:
del paises['tasa de fertilidad']

In [40]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439,18.46875
India,1380,17.703125
Estados Unidos,331,4.25
Indonesia,273,3.509766
Pakistán,220,2.830078
Brasil,212,2.730469
Nigeria,206,2.640625
Bangladesh,164,2.109375
Rusia,145,1.870117
México,128,1.650391


In [43]:
paises.drop('tasa de fertilidad', axis=1, inplace=True)

In [44]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439,18.46875
India,1380,17.703125
Estados Unidos,331,4.25
Indonesia,273,3.509766
Pakistán,220,2.830078
Brasil,212,2.730469
Nigeria,206,2.640625
Bangladesh,164,2.109375
Rusia,145,1.870117
México,128,1.650391


In [48]:
# Agregar renglones
renglon = pd.Series(name='Japón', data=[126, 1.62], index=['poblacion', 'porcentaje']).astype('f2')

In [49]:
renglon

poblacion     126.000000
porcentaje      1.620117
Name: Japón, dtype: float16

In [52]:
paises = paises.append(renglon)

In [53]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439.0,18.46875
India,1380.0,17.703125
Estados Unidos,331.0,4.25
Indonesia,273.0,3.509766
Pakistán,220.0,2.830078
Brasil,212.0,2.730469
Nigeria,206.0,2.640625
Bangladesh,164.0,2.109375
Rusia,145.0,1.870117
México,128.0,1.650391


In [54]:
# Eliminar renglones
paises.drop(['Bangladesh', 'Japón'], axis = 0)

Unnamed: 0,poblacion,porcentaje
China,1439.0,18.46875
India,1380.0,17.703125
Estados Unidos,331.0,4.25
Indonesia,273.0,3.509766
Pakistán,220.0,2.830078
Brasil,212.0,2.730469
Nigeria,206.0,2.640625
Rusia,145.0,1.870117
México,128.0,1.650391


In [55]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439.0,18.46875
India,1380.0,17.703125
Estados Unidos,331.0,4.25
Indonesia,273.0,3.509766
Pakistán,220.0,2.830078
Brasil,212.0,2.730469
Nigeria,206.0,2.640625
Bangladesh,164.0,2.109375
Rusia,145.0,1.870117
México,128.0,1.650391


In [56]:
paises.drop(['Japón'], axis=0, inplace=True)

In [57]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439.0,18.46875
India,1380.0,17.703125
Estados Unidos,331.0,4.25
Indonesia,273.0,3.509766
Pakistán,220.0,2.830078
Brasil,212.0,2.730469
Nigeria,206.0,2.640625
Bangladesh,164.0,2.109375
Rusia,145.0,1.870117
México,128.0,1.650391


In [63]:
paises.info

<bound method DataFrame.info of                 poblacion  porcentaje
China              1439.0   18.468750
India              1380.0   17.703125
Estados Unidos      331.0    4.250000
Indonesia           273.0    3.509766
Pakistán            220.0    2.830078
Brasil              212.0    2.730469
Nigeria             206.0    2.640625
Bangladesh          164.0    2.109375
Rusia               145.0    1.870117
México              128.0    1.650391>

In [64]:
paises.shape

(10, 2)

## Funciones de estadística y agregación básicas

In [65]:
paises.describe()

Unnamed: 0,poblacion,porcentaje
count,10.0,10.0
mean,449.799988,5.773438
std,509.476379,6.535156
min,128.0,1.650391
25%,174.5,2.242188
50%,216.0,2.780273
75%,316.5,4.064941
max,1439.0,18.46875


In [66]:
paises.mean()

poblacion     449.799988
porcentaje      5.773438
dtype: float32

In [67]:
paises.median()

poblacion     216.00000
porcentaje      2.78125
dtype: float32

In [68]:
paises.std()

poblacion     509.476379
porcentaje      6.535156
dtype: float32

In [71]:
paises.min()

poblacion     128.000000
porcentaje      1.650391
dtype: float32

In [72]:
paises.max()

poblacion     1439.00000
porcentaje      18.46875
dtype: float32

In [73]:
paises.sum()

poblacion     4498.00
porcentaje      57.75
dtype: float32

In [74]:
paises.cumsum()

Unnamed: 0,poblacion,porcentaje
China,1439.0,18.46875
India,2819.0,36.1875
Estados Unidos,3150.0,40.4375
Indonesia,3423.0,43.9375
Pakistán,3643.0,46.78125
Brasil,3855.0,49.5
Nigeria,4061.0,52.125
Bangladesh,4225.0,54.25
Rusia,4370.0,56.125
México,4498.0,57.78125


In [75]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439.0,18.46875
India,1380.0,17.703125
Estados Unidos,331.0,4.25
Indonesia,273.0,3.509766
Pakistán,220.0,2.830078
Brasil,212.0,2.730469
Nigeria,206.0,2.640625
Bangladesh,164.0,2.109375
Rusia,145.0,1.870117
México,128.0,1.650391


In [78]:
paises.boxplot()

<AxesSubplot:>