# Creación y Manipulación de DataFrames

### Creación de un DataFrame

Importamos nuestro pandas

In [1]:
import pandas as pd

Imagenemos que tenemos los siguientes datos

Nota:
    
    *Cada elemento de un data frame es una serie*

In [9]:
nombre_paises = ["China", "India", "Estados Unidos", "Indonesia", "Paskitán", "Brasil",
                "Nigeria", "Bangladesh", "Rusia", "México"]

encabezado = ["poblacion", "porcentaje"]

datos = [[1439, 18.47], 
         [1380 ,17.70], 
         [331, 4.25], 
         [273, 3.51], 
         [220, 2.83],
         [212, 2.73], 
         [206, 2.64], 
         [164, 2.11], 
         [145, 1.87], 
         [128, 1.65]]

# Creamos el data frame
# esta manera solo lista los valores
# paises = pd.DataFrame(datos)

# de esta forma le pone más contexto
paises = pd.DataFrame(datos, index=nombre_paises, columns=encabezado)
paises


Unnamed: 0,poblacion,porcentaje
China,1439,18.47
India,1380,17.7
Estados Unidos,331,4.25
Indonesia,273,3.51
Paskitán,220,2.83
Brasil,212,2.73
Nigeria,206,2.64
Bangladesh,164,2.11
Rusia,145,1.87
México,128,1.65


### Transformar un diccionario a DataFrame

In [71]:
# Imaginemos que tenemos este diccionario

diccionario = {
    "China": [1439, 18.47],
    "India": [1380, 17.70],
    "Estados Unidos": [331, 4.25],
    "Indonesia": [273, 3.51],
    "Paskitán": [220, 2.83],
    "Brasil": [212, 2.73],
    "Nigeria": [206, 2.64],
    "Bangladesh": [164, 2.11],
    "Rusia": [145, 1.87],
    "México": [128, 1.65]
}

# Esto hará que este transpuesto, tenemos que establecer los indices
# ya que por default empezarán con 0 o 1.
paises = pd.DataFrame(diccionario, index=encabezado)

# transponer el dataframe
paises = paises.transpose()
paises

Unnamed: 0,poblacion,porcentaje
China,1439.0,18.47
India,1380.0,17.7
Estados Unidos,331.0,4.25
Indonesia,273.0,3.51
Paskitán,220.0,2.83
Brasil,212.0,2.73
Nigeria,206.0,2.64
Bangladesh,164.0,2.11
Rusia,145.0,1.87
México,128.0,1.65


### Métodos de un DataFrame

In [15]:
# Imprimir el tipo de datos de nuestro dataFrame
paises.dtypes

poblacion     float64
porcentaje    float64
dtype: object

In [16]:
paises.values, paises.size

(array([[1439.  ,   18.47],
        [1380.  ,   17.7 ],
        [ 331.  ,    4.25],
        [ 273.  ,    3.51],
        [ 220.  ,    2.83],
        [ 212.  ,    2.73],
        [ 206.  ,    2.64],
        [ 164.  ,    2.11],
        [ 145.  ,    1.87],
        [ 128.  ,    1.65]]),
 20)

In [17]:
paises.index, paises.columns

(Index(['China', 'India', 'Estados Unidos', 'Indonesia', 'Paskitán', 'Brasil',
        'Nigeria', 'Bangladesh', 'Rusia', 'México'],
       dtype='object'),
 Index(['poblacion', 'porcentaje'], dtype='object'))

### Acceder a un elemento del DataFrame

In [18]:
# Podemos acceder a todos los valores de una columna
# recordemos que también se imprimira su index
paises.poblacion

China             1439.0
India             1380.0
Estados Unidos     331.0
Indonesia          273.0
Paskitán           220.0
Brasil             212.0
Nigeria            206.0
Bangladesh         164.0
Rusia              145.0
México             128.0
Name: poblacion, dtype: float64

In [19]:
# También esto funciona
paises["poblacion"]

China             1439.0
India             1380.0
Estados Unidos     331.0
Indonesia          273.0
Paskitán           220.0
Brasil             212.0
Nigeria            206.0
Bangladesh         164.0
Rusia              145.0
México             128.0
Name: poblacion, dtype: float64

In [22]:
# También podríamos imprimer una serie de columnas que nosotros queramos
paises[["poblacion", "porcentaje"]]

Unnamed: 0,poblacion,porcentaje
China,1439.0,18.47
India,1380.0,17.7
Estados Unidos,331.0,4.25
Indonesia,273.0,3.51
Paskitán,220.0,2.83
Brasil,212.0,2.73
Nigeria,206.0,2.64
Bangladesh,164.0,2.11
Rusia,145.0,1.87
México,128.0,1.65


***NOTA***
* iloc signicia i de entero y loc para la locación
* También podieramos usar paises.loc["China"]

In [35]:
# Así accedemos a un elmento espefico
#paises["poblacion"][1]

# por nuevas versiones de pandas, debemos usar para que no marque error
#paises["poblacion"].iloc[1] 
#paises.poblacion[0] # también marca error
#paises.poblacion.iloc[0] # así ya no
paises["poblacion"][0:3]

China             1439.0
India             1380.0
Estados Unidos     331.0
Name: poblacion, dtype: float64

### Métodos básicos comunes de DataFrames

In [36]:
# Así cambiamos el tipo de dato de una columna
paises["poblacion"] = paises["poblacion"].astype("int")

In [38]:
# Así mostramos la descripción de la tabla
paises.info()
# podemos ver como ya cambió el tipo de dato a int32

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, China to México
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   poblacion   10 non-null     int32  
 1   porcentaje  10 non-null     float64
dtypes: float64(1), int32(1)
memory usage: 500.0+ bytes


In [41]:
# traernos los primeros 5 y los ultimos 5 por default
# aunque también podemos especificar
paises.head(3), paises.tail(2)

(                poblacion  porcentaje
 China                1439       18.47
 India                1380       17.70
 Estados Unidos        331        4.25,
         poblacion  porcentaje
 Rusia         145        1.87
 México        128        1.65)

In [43]:
# Podemos ordenar, pero aquí tenemos que espeficar
# creo que toma de menor a mayor por default
paises.sort_values(by=["poblacion"], ascending=False)

Unnamed: 0,poblacion,porcentaje
China,1439,18.47
India,1380,17.7
Estados Unidos,331,4.25
Indonesia,273,3.51
Paskitán,220,2.83
Brasil,212,2.73
Nigeria,206,2.64
Bangladesh,164,2.11
Rusia,145,1.87
México,128,1.65


In [44]:
# Si no nos interesara esto, podriamos ordenar por nuestro index
# es este caso los ordenara por orden alfabetico
paises.sort_index()

Unnamed: 0,poblacion,porcentaje
Bangladesh,164,2.11
Brasil,212,2.73
China,1439,18.47
Estados Unidos,331,4.25
India,1380,17.7
Indonesia,273,3.51
México,128,1.65
Nigeria,206,2.64
Paskitán,220,2.83
Rusia,145,1.87


### Agregar y borrar Renglones y Columnas

In [59]:
# tasa defertilidad por pais
tasa_fertalidad = [1.7, 2.2, 1.8, 2.3, 3.6, 1.7, 5.4, 2.1, 1.8, 2.1]

# agregariamos estos valores como si se tratara de un diccionario
paises["tasa_fertalidad"] = tasa_fertalidad
paises

Unnamed: 0,poblacion,porcentaje,tasa_fertalidad
China,1439,18.47,1.7
India,1380,17.7,2.2
Estados Unidos,331,4.25,1.8
Indonesia,273,3.51,2.3
Paskitán,220,2.83,3.6
Brasil,212,2.73,1.7
Nigeria,206,2.64,5.4
Bangladesh,164,2.11,2.1
Rusia,145,1.87,1.8
México,128,1.65,2.1


In [50]:
# Así podemos eliminar una columna, y te muestra la columna que borro
paises.pop("tasa_fertalidad")

China             1.7
India             2.2
Estados Unidos    1.8
Indonesia         2.3
Paskitán          3.6
Brasil            1.7
Nigeria           5.4
Bangladesh        2.1
Rusia             1.8
México            2.1
Name: tasa_fertalidad, dtype: float64

In [55]:
# hace un borrado pero no muestra lo que borro como el anterior
del paises["tasa_fertalidad"]

In [70]:
paises

Unnamed: 0,poblacion,porcentaje
China,1439.0,18.47
India,1380.0,17.7
Estados Unidos,331.0,4.25
Indonesia,273.0,3.51
Paskitán,220.0,2.83
Brasil,212.0,2.73
Nigeria,206.0,2.64
Rusia,145.0,1.87
México,128.0,1.65


In [61]:
# por ultimo, este borra como tazas y columnas
# axis 1 es una columna, axis = 0 es un renglon
# por si solo, no la modifica, tenemos que activar que la modifica
paises.drop("tasa_fertalidad", axis = 1, inplace=True)

In [68]:
# agregar un valor
# como los data frames están hechos de series, tenemos que dar de alta una
renglon = pd.Series(name="Japón", data=[126,1.62], index=["poblacion", "porcentaje"])

#paises.append(renglon) # esto ya esta desactualizado

# aquí convertimos la serie a dataframe de una fila, y lo concatemos con paises
paises = pd.concat([paises, renglon.to_frame().T])
paises

Unnamed: 0,poblacion,porcentaje
China,1439.0,18.47
India,1380.0,17.7
Estados Unidos,331.0,4.25
Indonesia,273.0,3.51
Paskitán,220.0,2.83
Brasil,212.0,2.73
Nigeria,206.0,2.64
Bangladesh,164.0,2.11
Rusia,145.0,1.87
México,128.0,1.65


In [69]:
# Ahora hagamos que borre varios datos por fila
paises.drop(["Japón", "Bangladesh"], axis = 0, inplace=True)

### Funcionesde Estadísitica y de agregación básica

In [73]:
# igual que las series podemos pedir un pequeño resumen
paises.describe(), paises.min()

(         poblacion  porcentaje
 count    10.000000   10.000000
 mean    449.800000    5.776000
 std     509.476376    6.534478
 min     128.000000    1.650000
 25%     174.500000    2.242500
 50%     216.000000    2.780000
 75%     316.500000    4.065000
 max    1439.000000   18.470000,
 poblacion     128.00
 porcentaje      1.65
 dtype: float64)

In [75]:
# podemos pedir acumulativos
# se va sumando el porcentaje y la poblacion
paises.cumsum()

Unnamed: 0,poblacion,porcentaje
China,1439.0,18.47
India,2819.0,36.17
Estados Unidos,3150.0,40.42
Indonesia,3423.0,43.93
Paskitán,3643.0,46.76
Brasil,3855.0,49.49
Nigeria,4061.0,52.13
Bangladesh,4225.0,54.24
Rusia,4370.0,56.11
México,4498.0,57.76
