# Creación y manipulación de datos

In [1]:
import pandas as pd

## 1. Creación de un DataFrame

Podemos crear un DataFrame a partir de datos separados. Creamos tres listas, dos de ellas para la 
descrpción (Líneas y columnas) y la otra para los datos, como una lista de listas

In [2]:
nombre_paises = ["China", "India", "Estados Unidos", "Indonesia", "Pakistán",
                 "Brasil", "Nigeria", "Bangladesh", "Rusia", "México"]

encabezado = ["poblacion", "porcentaje"]

datos = [[1439, 18.47],
        [1380, 17.70],
        [331, 4.25],
        [273, 3.51], 
        [220, 2.83],
        [212, 2.73], 
        [206, 2.64],
        [164, 2.11],
        [145, 1.87],
        [128, 1.65]]

paises = pd.DataFrame(datos, index=nombre_paises, columns=encabezado)
paises;

Es posible construir un DataFrame también con un diccionario

In [3]:
datos = {"China": [1439, 18.47],
         "India": [1380, 17.70],
         "Estados Unidos": [331, 4.25],
         "Indonesia": [273, 3.51], 
         "Pakistán": [220, 2.83],
         "Brasil": [212, 2.73], 
         "Nigeria": [206, 2.64],
         "Bangladesh": [164, 2.11],
         "Rusia": [145, 1.87],
         "México": [128, 1.65]}

paises = pd.DataFrame(datos, index=encabezado)
paises = paises.T 
paises

Unnamed: 0,poblacion,porcentaje
China,1439.0,18.47
India,1380.0,17.7
Estados Unidos,331.0,4.25
Indonesia,273.0,3.51
Pakistán,220.0,2.83
Brasil,212.0,2.73
Nigeria,206.0,2.64
Bangladesh,164.0,2.11
Rusia,145.0,1.87
México,128.0,1.65


El comando dtypes nos da información acerca de la naturaleza de los datos

In [4]:
paises.dtypes

poblacion     float64
porcentaje    float64
dtype: object

Podemos acceder a los valores del diccionario y ver el tamaño del arreglo (20 en este caso)

In [5]:
paises.values, paises.size

(array([[1439.  ,   18.47],
        [1380.  ,   17.7 ],
        [ 331.  ,    4.25],
        [ 273.  ,    3.51],
        [ 220.  ,    2.83],
        [ 212.  ,    2.73],
        [ 206.  ,    2.64],
        [ 164.  ,    2.11],
        [ 145.  ,    1.87],
        [ 128.  ,    1.65]]),
 20)

Podemos acceder a los valores de los encabezados, por índices y columnas

In [6]:
paises.index, paises.columns

(Index(['China', 'India', 'Estados Unidos', 'Indonesia', 'Pakistán', 'Brasil',
        'Nigeria', 'Bangladesh', 'Rusia', 'México'],
       dtype='object'),
 Index(['poblacion', 'porcentaje'], dtype='object'))

## 2. Acceso a los elementos de un DataFrame

Se puede acceder a todos los datos de un índice

In [7]:
paises.poblacion

China             1439.0
India             1380.0
Estados Unidos     331.0
Indonesia          273.0
Pakistán           220.0
Brasil             212.0
Nigeria            206.0
Bangladesh         164.0
Rusia              145.0
México             128.0
Name: poblacion, dtype: float64

Se puede acceder también como los elementos de un array

In [8]:
paises["poblacion"], paises[["poblacion", "porcentaje"]]

(China             1439.0
 India             1380.0
 Estados Unidos     331.0
 Indonesia          273.0
 Pakistán           220.0
 Brasil             212.0
 Nigeria            206.0
 Bangladesh         164.0
 Rusia              145.0
 México             128.0
 Name: poblacion, dtype: float64,
                 poblacion  porcentaje
 China              1439.0       18.47
 India              1380.0       17.70
 Estados Unidos      331.0        4.25
 Indonesia           273.0        3.51
 Pakistán            220.0        2.83
 Brasil              212.0        2.73
 Nigeria             206.0        2.64
 Bangladesh          164.0        2.11
 Rusia               145.0        1.87
 México              128.0        1.65)

Se puede acceder a uno o varios elementos de los datos como índices de una matriz $M[i][j]$, 
inlcuso a un rango de valores con los comandos $M[i][j:k]$

In [9]:
paises["poblacion"][0], paises.poblacion[0], paises["poblacion"][2:4]

(1439.0,
 1439.0,
 Estados Unidos    331.0
 Indonesia         273.0
 Name: poblacion, dtype: float64)

Podemos acceder a toda una línea, ya sea indicando su índice o su nombre

In [10]:
paises.iloc[0], paises.loc["China"]

(poblacion     1439.00
 porcentaje      18.47
 Name: China, dtype: float64,
 poblacion     1439.00
 porcentaje      18.47
 Name: China, dtype: float64)

Podemos acceder a varias líneas

In [11]:
paises.iloc[2:5]

Unnamed: 0,poblacion,porcentaje
Estados Unidos,331.0,4.25
Indonesia,273.0,3.51
Pakistán,220.0,2.83


Podemos cambiar la naturaleza de los datos de una columna, con el comando .info() podemos ver la información de los datos

In [12]:
paises["poblacion"] = paises["poblacion"].astype("int")

In [13]:
paises.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, China to México
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   poblacion   10 non-null     int32  
 1   porcentaje  10 non-null     float64
dtypes: float64(1), int32(1)
memory usage: 500.0+ bytes


Con los comandos .head() y .tail() se puede observar la cabeza y la cola de los datos. head(n) y .tail(n) muestra n valores

In [14]:
paises.head()

Unnamed: 0,poblacion,porcentaje
China,1439,18.47
India,1380,17.7
Estados Unidos,331,4.25
Indonesia,273,3.51
Pakistán,220,2.83


## 3. Editar datos
Podemos ordenar, borrar y cambiar datos

Ordenar por nombre (índice)

In [15]:
paises.sort_index()

Unnamed: 0,poblacion,porcentaje
Bangladesh,164,2.11
Brasil,212,2.73
China,1439,18.47
Estados Unidos,331,4.25
India,1380,17.7
Indonesia,273,3.51
México,128,1.65
Nigeria,206,2.64
Pakistán,220,2.83
Rusia,145,1.87


Ordenar por una columna en particular

In [16]:
paises.sort_values(by=["porcentaje"], ascending=True)

Unnamed: 0,poblacion,porcentaje
México,128,1.65
Rusia,145,1.87
Bangladesh,164,2.11
Nigeria,206,2.64
Brasil,212,2.73
Pakistán,220,2.83
Indonesia,273,3.51
Estados Unidos,331,4.25
India,1380,17.7
China,1439,18.47


Podemos agregar una columna nueva

In [17]:
tasa_fertilidad = [1.7, 2.2, 1.8, 2.3, 3.6, 1.7, 5.4, 2.1, 1.8, 2.1]
paises["tasa_fertilidad"] = tasa_fertilidad
paises

Unnamed: 0,poblacion,porcentaje,tasa_fertilidad
China,1439,18.47,1.7
India,1380,17.7,2.2
Estados Unidos,331,4.25,1.8
Indonesia,273,3.51,2.3
Pakistán,220,2.83,3.6
Brasil,212,2.73,1.7
Nigeria,206,2.64,5.4
Bangladesh,164,2.11,2.1
Rusia,145,1.87,1.8
México,128,1.65,2.1


El comando pop() corta una columna del DataFrame. Tambien se puede borrar con del o drop.

In [18]:
#paises.pop("tasa_fertilidad") 
#del paises["tasa_fertilidad"]
#paises.drop(["tasa_fertilidad"], axis=1)

In [19]:
paises

Unnamed: 0,poblacion,porcentaje,tasa_fertilidad
China,1439,18.47,1.7
India,1380,17.7,2.2
Estados Unidos,331,4.25,1.8
Indonesia,273,3.51,2.3
Pakistán,220,2.83,3.6
Brasil,212,2.73,1.7
Nigeria,206,2.64,5.4
Bangladesh,164,2.11,2.1
Rusia,145,1.87,1.8
México,128,1.65,2.1


Podemos agregar ahora una línea adicional de datos construyéndola como una serie. pd.Series indicando nombre, datos e índices.

In [23]:
renglon = pd.Series(name="Japón", data=[126, 1.62], index=["poblacion", "porcentaje"])
renglon
paises = paises.append(renglon)
paises

  paises = paises.append(renglon)


Unnamed: 0,poblacion,porcentaje,tasa_fertilidad
China,1439.0,18.47,1.7
India,1380.0,17.7,2.2
Estados Unidos,331.0,4.25,1.8
Indonesia,273.0,3.51,2.3
Pakistán,220.0,2.83,3.6
Brasil,212.0,2.73,1.7
Nigeria,206.0,2.64,5.4
Bangladesh,164.0,2.11,2.1
Rusia,145.0,1.87,1.8
México,128.0,1.65,2.1


In [138]:
paises

Unnamed: 0,poblacion,porcentaje,tasa_fertilidad
China,1439.0,18.47,1.7
India,1380.0,17.7,2.2
Estados Unidos,331.0,4.25,1.8
Indonesia,273.0,3.51,2.3
Pakistán,220.0,2.83,3.6
Brasil,212.0,2.73,1.7
Nigeria,206.0,2.64,5.4
Bangladesh,164.0,2.11,2.1
Rusia,145.0,1.87,1.8
México,128.0,1.65,2.1


Podemos eliminar filas por el nombre de la fila o por el índice de la fila, incluso eliminar varias con 
el comando $[i:j]$

In [139]:
#paises.drop(["Bangladesh", "Nigeria"], axis=0, inplace=True)
#paises.drop(["Japón"], axis=0, inplace=True)
paises.drop(paises.index[1:2], inplace=True)

In [140]:
paises

Unnamed: 0,poblacion,porcentaje,tasa_fertilidad
China,1439.0,18.47,1.7
Estados Unidos,331.0,4.25,1.8
Indonesia,273.0,3.51,2.3
Pakistán,220.0,2.83,3.6
Brasil,212.0,2.73,1.7
Nigeria,206.0,2.64,5.4
Bangladesh,164.0,2.11,2.1
Rusia,145.0,1.87,1.8
México,128.0,1.65,2.1


Obtenemos información estadística acerca de los datos

In [141]:
paises.describe()

Unnamed: 0,poblacion,porcentaje,tasa_fertilidad
count,9.0,9.0,9.0
mean,346.444444,4.451111,2.5
std,414.530189,5.318774,1.236932
min,128.0,1.65,1.7
25%,164.0,2.11,1.8
50%,212.0,2.73,2.1
75%,273.0,3.51,2.3
max,1439.0,18.47,5.4


In [142]:
paises.min()

poblacion          128.00
porcentaje           1.65
tasa_fertilidad      1.70
dtype: float64