## Dataframes
Un __[DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)__ es un arreglo bi-dimensional que 
- permite asignar nombres a las columnas
- está formado por una secuencia de Series que comparten el mismo índice.

In [77]:
import numpy as np
import pandas as pd

In [78]:
poblacion_dict = {'Chuquisaca': 626000, 
                    'La Paz': 26448193,
                    'Cochabamba': 2883000,
                    'Oruro': 538000,
                    'Potosí': 887000,
                    'Tarija': 563000,
                    'Santa Cruz': 3225000,
                    'Beni': 468000,
                    'Pando': 144000,
                  }
poblacion = pd.Series(poblacion_dict)
poblacion

Chuquisaca      626000
La Paz        26448193
Cochabamba     2883000
Oruro           538000
Potosí          887000
Tarija          563000
Santa Cruz     3225000
Beni            468000
Pando           144000
dtype: int64

In [79]:
extension_dict = {'Chuquisaca': 51514, 
                    'La Paz': 133985,
                    'Cochabamba': 55631,
                    'Oruro': 55588,
                    'Potosí': 117218,
                    'Tarija': 37623,
                    'Santa Cruz': 370621,
#                    'Pando': 63287,
                    'Beni': 213564
                  }
extension = pd.Series(extension_dict)
extension

Chuquisaca     51514
La Paz        133985
Cochabamba     55631
Oruro          55588
Potosí        117218
Tarija         37623
Santa Cruz    370621
Beni          213564
dtype: int64

In [80]:
poblacion

Chuquisaca      626000
La Paz        26448193
Cochabamba     2883000
Oruro           538000
Potosí          887000
Tarija          563000
Santa Cruz     3225000
Beni            468000
Pando           144000
dtype: int64

# Creación

In [81]:
#Creación a partir de dos Series - idealmente, ambas series deberían indices con los mismos valores
datos_bolivia = pd.DataFrame({'poblacion':poblacion, 'extension':extension})
datos_bolivia

Unnamed: 0,poblacion,extension
Beni,468000,213564.0
Chuquisaca,626000,51514.0
Cochabamba,2883000,55631.0
La Paz,26448193,133985.0
Oruro,538000,55588.0
Pando,144000,
Potosí,887000,117218.0
Santa Cruz,3225000,370621.0
Tarija,563000,37623.0


In [82]:
#Tanto las filas como las columnas tiene asociado un índice
# datos_bolivia.index
datos_bolivia.columns

Index(['poblacion', 'extension'], dtype='object')

In [83]:
datos_bolivia.dtypes

poblacion      int64
extension    float64
dtype: object

In [84]:
#Un dataframe es MUY SIMILAR a un diccionario de Series (columnas)
# print(datos_bolivia['extension'])
# print(datos_bolivia.get('poblaciones'))
# print(datos_bolivia['poblaciones'])  # KeyError
# print(datos_bolivia.pop('extension'))
# datos_bolivia.poblacion #no recomendable, pero posible 
datos_bolivia

Unnamed: 0,poblacion,extension
Beni,468000,213564.0
Chuquisaca,626000,51514.0
Cochabamba,2883000,55631.0
La Paz,26448193,133985.0
Oruro,538000,55588.0
Pando,144000,
Potosí,887000,117218.0
Santa Cruz,3225000,370621.0
Tarija,563000,37623.0


In [85]:
print(list(zip([626000, 26448193,2883000,538000, 887000, 563000,3225000, 468000,144000], 
                                       [51514, 133985,55631,55588,117218,37623,370621,213564, 63287])))


[(626000, 51514), (26448193, 133985), (2883000, 55631), (538000, 55588), (887000, 117218), (563000, 37623), (3225000, 370621), (468000, 213564), (144000, 63287)]


In [86]:
#Otros ejemplos de creación de DataFrame
#1 lista de tuplas/filas
#Esto no funciona porque pandas entiende que son dos filas con 9 columnas
#datos_bolivia = pd.DataFrame(data=[[626000, 26448193,2883000,538000, 887000, 563000,3225000, 468000,144000],
#                                  [51514, 133985,55631,55588,117218,37623,370621,213564, 63287]]
#                           ,columns=['poblacion', 'extension'])
datos_bolivia = pd.DataFrame(data=zip([626000, 26448193,2883000,538000, 887000, 563000,3225000, 468000,144000], 
                                       [51514, 133985,55631,55588,117218,37623,370621,213564, 63287])
                             ,columns=['poblacion', 'extension'])
#Si no se provee un index se crea uno como un secuencia de números
datos_bolivia

Unnamed: 0,poblacion,extension
0,626000,51514
1,26448193,133985
2,2883000,55631
3,538000,55588
4,887000,117218
5,563000,37623
6,3225000,370621
7,468000,213564
8,144000,63287


In [87]:
np.random.rand(4,2)

array([[0.29722154, 0.07047396],
       [0.38064645, 0.7881576 ],
       [0.8769571 , 0.60956523],
       [0.41805261, 0.9944173 ]])

In [88]:
#2 A partir de una matriz
data = pd.DataFrame(columns=['a','b'], data=np.random.rand(4,2))
data

Unnamed: 0,a,b
0,0.120343,0.239957
1,0.695333,0.829197
2,0.791535,0.329169
3,0.27738,0.28738


In [89]:
#3 Lista de diccionarios (las claves son los nombres de las columnas)
#Cada elemento de la lista representa un fila
data = pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])
data

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [90]:
account_info = pd.DataFrame(
    {
        "name": ["Bob", "Mary", "Mita"],
        "account": [123846, 123972, 347209],
        "balance": [123, 3972, 7209],
    }
)
account_info

Unnamed: 0,name,account,balance
0,Bob,123846,123
1,Mary,123972,3972
2,Mita,347209,7209


In [91]:
#Aspectos generales de DataFrame
# print(datos_bolivia.shape)
# print(datos_bolivia.head(5))   #Similar LIMIT/TOP en SQL 
# print(datos_bolivia.tail(5))
# print(datos_bolivia.size)
# print(datos_bolivia.info())
datos_bolivia.describe()

Unnamed: 0,poblacion,extension
count,9.0,9.0
mean,3975799.0,122114.555556
std,8499862.0,108807.815653
min,144000.0,37623.0
25%,538000.0,55588.0
50%,626000.0,63287.0
75%,2883000.0,133985.0
max,26448190.0,370621.0


# Consulta y manipulación de datos

__[Writing advanced SQL queries in pandas](https://towardsdatascience.com/writing-advanced-sql-queries-in-pandas-1dc494a17afe)__

In [92]:
datos_bolivia = pd.DataFrame(data={'poblacion':poblacion, 'extension':extension})
datos_bolivia

Unnamed: 0,poblacion,extension
Beni,468000,213564.0
Chuquisaca,626000,51514.0
Cochabamba,2883000,55631.0
La Paz,26448193,133985.0
Oruro,538000,55588.0
Pando,144000,
Potosí,887000,117218.0
Santa Cruz,3225000,370621.0
Tarija,563000,37623.0


In [93]:
#DataFrame como diccionario de Series (columnas) para extraer y modificar datos
#Similar a SELECT
# datos_bolivia['poblacion']
# datos_bolivia[['poblacion','extension']]
# datos_bolivia[['poblacion']]
datos_bolivia


Unnamed: 0,poblacion,extension
Beni,468000,213564.0
Chuquisaca,626000,51514.0
Cochabamba,2883000,55631.0
La Paz,26448193,133985.0
Oruro,538000,55588.0
Pando,144000,
Potosí,887000,117218.0
Santa Cruz,3225000,370621.0
Tarija,563000,37623.0


In [94]:
# Division entre series
datos_bolivia['poblacion'] / datos_bolivia['extension']

Beni            2.191381
Chuquisaca     12.152036
Cochabamba     51.823624
La Paz        197.396671
Oruro           9.678348
Pando                NaN
Potosí          7.567097
Santa Cruz      8.701612
Tarija         14.964251
dtype: float64

In [95]:
#Creación de nuevas columnas
datos_bolivia['constante'] = 1
datos_bolivia['densidad'] = datos_bolivia['poblacion'] / datos_bolivia['extension']
datos_bolivia

Unnamed: 0,poblacion,extension,constante,densidad
Beni,468000,213564.0,1,2.191381
Chuquisaca,626000,51514.0,1,12.152036
Cochabamba,2883000,55631.0,1,51.823624
La Paz,26448193,133985.0,1,197.396671
Oruro,538000,55588.0,1,9.678348
Pando,144000,,1,
Potosí,887000,117218.0,1,7.567097
Santa Cruz,3225000,370621.0,1,8.701612
Tarija,563000,37623.0,1,14.964251


In [96]:
datos_bolivia['capital'] =  pd.Series({'Chuquisaca': 'Sucre', 
                    'La Paz': 'La Paz',
                    'Cochabamba': 'Cochabamba',
                    'Oruro': 'Oruro',
                    'Potosí': 'Potosí',
                    'Tarija': 'Tarija',
                    'Santa Cruz': 'Santa Cruz',
                   'Pando': 'Cobija',
                    'Beni': 'Trinidad'
                  })
datos_bolivia

Unnamed: 0,poblacion,extension,constante,densidad,capital
Beni,468000,213564.0,1,2.191381,Trinidad
Chuquisaca,626000,51514.0,1,12.152036,Sucre
Cochabamba,2883000,55631.0,1,51.823624,Cochabamba
La Paz,26448193,133985.0,1,197.396671,La Paz
Oruro,538000,55588.0,1,9.678348,Oruro
Pando,144000,,1,,Cobija
Potosí,887000,117218.0,1,7.567097,Potosí
Santa Cruz,3225000,370621.0,1,8.701612,Santa Cruz
Tarija,563000,37623.0,1,14.964251,Tarija


In [97]:

# datos_bolivia['capitalx'] =  pd.Series({'C': 'Sucre', 
#                     'L': 'La Paz',
#                     'Co': 'Cochabamba',
#                     'O': 'Oruro',
#                     'P': 'Potosí',
#                     'T': 'Tarija',
#                     'S': 'Santa Cruz',
#                    'P': 'Cobija',
#                     'B': 'Trinidad'
#                   })
# datos_bolivia

## DataFrame como arreglo bidimensional (matriz) - loc, iloc

- __[loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html)__
- __[iloc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)__ 

**loc** soporta índices, slicing, **la selección de filas se realiza empleando una Serie de valores booleanos**; **iloc** emplea únicamente indices numéricos)

### iloc

In [98]:
datos_bolivia

Unnamed: 0,poblacion,extension,constante,densidad,capital
Beni,468000,213564.0,1,2.191381,Trinidad
Chuquisaca,626000,51514.0,1,12.152036,Sucre
Cochabamba,2883000,55631.0,1,51.823624,Cochabamba
La Paz,26448193,133985.0,1,197.396671,La Paz
Oruro,538000,55588.0,1,9.678348,Oruro
Pando,144000,,1,,Cobija
Potosí,887000,117218.0,1,7.567097,Potosí
Santa Cruz,3225000,370621.0,1,8.701612,Santa Cruz
Tarija,563000,37623.0,1,14.964251,Tarija


In [99]:
#dataFrame.iloc[fila,columna]
print(datos_bolivia.iloc[0])
print("==================================")
print(datos_bolivia.iloc[0:2])
print("==================================")
print(datos_bolivia.iloc[0,2])
print("==================================")
print(datos_bolivia.iloc[0,0:2])
print("==================================")
print(datos_bolivia.iloc[0,[0,3]])
print("==================================")
print(datos_bolivia.iloc[0,0])

poblacion      468000
extension    213564.0
constante           1
densidad     2.191381
capital      Trinidad
Name: Beni, dtype: object
            poblacion  extension  constante   densidad   capital
Beni           468000   213564.0          1   2.191381  Trinidad
Chuquisaca     626000    51514.0          1  12.152036     Sucre
1
poblacion      468000
extension    213564.0
Name: Beni, dtype: object
poblacion      468000
densidad     2.191381
Name: Beni, dtype: object
468000


In [100]:
datos_bolivia.iloc[[0],[0,3]]

Unnamed: 0,poblacion,densidad
Beni,468000,2.191381


In [101]:
datos_bolivia.iloc[[0],[0]]

Unnamed: 0,poblacion
Beni,468000


In [102]:
datos_bolivia.iloc[0,0]

468000

In [103]:
datos_bolivia

Unnamed: 0,poblacion,extension,constante,densidad,capital
Beni,468000,213564.0,1,2.191381,Trinidad
Chuquisaca,626000,51514.0,1,12.152036,Sucre
Cochabamba,2883000,55631.0,1,51.823624,Cochabamba
La Paz,26448193,133985.0,1,197.396671,La Paz
Oruro,538000,55588.0,1,9.678348,Oruro
Pando,144000,,1,,Cobija
Potosí,887000,117218.0,1,7.567097,Potosí
Santa Cruz,3225000,370621.0,1,8.701612,Santa Cruz
Tarija,563000,37623.0,1,14.964251,Tarija


### loc

In [104]:
datos_bolivia.columns

Index(['poblacion', 'extension', 'constante', 'densidad', 'capital'], dtype='object')

In [105]:
datos_bolivia.index

Index(['Beni', 'Chuquisaca', 'Cochabamba', 'La Paz', 'Oruro', 'Pando',
       'Potosí', 'Santa Cruz', 'Tarija'],
      dtype='object')

In [106]:
#El primer índice hace referencia a la fila, similar a SELECT
print(datos_bolivia.loc['Beni':'Cochabamba'])
print(type(datos_bolivia.loc['Beni':'Cochabamba']))
print("==================================")
print(datos_bolivia.loc['Beni'])
print(type(datos_bolivia.loc['Beni']))
print("==================================")
print(datos_bolivia.loc[['Beni']])
print(type(datos_bolivia.loc[['Beni']]))
print("==================================")
print("loc['Beni'] no es lo mismo que loc[['Beni']], cuál es la diferencia?")
print("==================================")
print(datos_bolivia.loc[['Beni'], ['poblacion','capital']])
print(type(datos_bolivia.loc[['Beni'], ['poblacion','capital']]))
print("==================================")
print(datos_bolivia.loc['Beni', ['poblacion','capital']])
print("==================================")
print(datos_bolivia.loc['Beni', 'poblacion', 'capital'])

            poblacion  extension  constante   densidad     capital
Beni           468000   213564.0          1   2.191381    Trinidad
Chuquisaca     626000    51514.0          1  12.152036       Sucre
Cochabamba    2883000    55631.0          1  51.823624  Cochabamba
<class 'pandas.core.frame.DataFrame'>
poblacion      468000
extension    213564.0
constante           1
densidad     2.191381
capital      Trinidad
Name: Beni, dtype: object
<class 'pandas.core.series.Series'>
      poblacion  extension  constante  densidad   capital
Beni     468000   213564.0          1  2.191381  Trinidad
<class 'pandas.core.frame.DataFrame'>
loc['Beni'] no es lo mismo que loc[['Beni']], cuál es la diferencia?
      poblacion   capital
Beni     468000  Trinidad
<class 'pandas.core.frame.DataFrame'>
poblacion      468000
capital      Trinidad
Name: Beni, dtype: object


IndexingError: Too many indexers

In [107]:
datos_bolivia

Unnamed: 0,poblacion,extension,constante,densidad,capital
Beni,468000,213564.0,1,2.191381,Trinidad
Chuquisaca,626000,51514.0,1,12.152036,Sucre
Cochabamba,2883000,55631.0,1,51.823624,Cochabamba
La Paz,26448193,133985.0,1,197.396671,La Paz
Oruro,538000,55588.0,1,9.678348,Oruro
Pando,144000,,1,,Cobija
Potosí,887000,117218.0,1,7.567097,Potosí
Santa Cruz,3225000,370621.0,1,8.701612,Santa Cruz
Tarija,563000,37623.0,1,14.964251,Tarija


In [108]:
#Cual sería el resultado de las siguiente expresiones?
#print(datos_bolivia.loc[['Beni', 'Oruro']])
#print(type(datos_bolivia.loc[['Beni', 'Oruro']]))
#print("===========================")
#print(datos_bolivia.loc['Beni':'Oruro'])
#print(datos_bolivia.loc['Beni':'Oruro','poblacion','extension'])
#print(datos_bolivia.loc['Beni':'Oruro',['poblacion','extension']])

In [109]:
datos_bolivia

Unnamed: 0,poblacion,extension,constante,densidad,capital
Beni,468000,213564.0,1,2.191381,Trinidad
Chuquisaca,626000,51514.0,1,12.152036,Sucre
Cochabamba,2883000,55631.0,1,51.823624,Cochabamba
La Paz,26448193,133985.0,1,197.396671,La Paz
Oruro,538000,55588.0,1,9.678348,Oruro
Pando,144000,,1,,Cobija
Potosí,887000,117218.0,1,7.567097,Potosí
Santa Cruz,3225000,370621.0,1,8.701612,Santa Cruz
Tarija,563000,37623.0,1,14.964251,Tarija


In [110]:
#Cual sería el resultado de las siguiente expresiones?
print(datos_bolivia.loc['Beni']['poblacion'])
#print(datos_bolivia.loc['Beni']['poblacion']['extension'])
print(datos_bolivia.loc['Beni','poblacion'])
#datos_bolivia.loc[['Beni'],['poblacion','extension']]

468000
468000


**El momento que hacemos referencia a una lista de filas, el resultado es un dataframe aunque la lista tenga un solo elemento**

In [111]:
datos_bolivia.loc['Beni']

poblacion      468000
extension    213564.0
constante           1
densidad     2.191381
capital      Trinidad
Name: Beni, dtype: object

In [112]:
datos_bolivia.loc[['Beni']]

Unnamed: 0,poblacion,extension,constante,densidad,capital
Beni,468000,213564.0,1,2.191381,Trinidad


In [113]:
datos_bolivia.loc['Beni',['poblacion','extension']]

poblacion      468000
extension    213564.0
Name: Beni, dtype: object

In [114]:
datos_bolivia.loc[['Beni'],['poblacion','extension']]

Unnamed: 0,poblacion,extension
Beni,468000,213564.0


## Selección de filas con series booleanas (masking)

In [115]:
datos_bolivia

Unnamed: 0,poblacion,extension,constante,densidad,capital
Beni,468000,213564.0,1,2.191381,Trinidad
Chuquisaca,626000,51514.0,1,12.152036,Sucre
Cochabamba,2883000,55631.0,1,51.823624,Cochabamba
La Paz,26448193,133985.0,1,197.396671,La Paz
Oruro,538000,55588.0,1,9.678348,Oruro
Pando,144000,,1,,Cobija
Potosí,887000,117218.0,1,7.567097,Potosí
Santa Cruz,3225000,370621.0,1,8.701612,Santa Cruz
Tarija,563000,37623.0,1,14.964251,Tarija


In [116]:
#Selección de filas (serie)
# datos_bolivia['poblacion'] > 2000000
datos_bolivia['extension'].isnull()

Beni          False
Chuquisaca    False
Cochabamba    False
La Paz        False
Oruro         False
Pando          True
Potosí        False
Santa Cruz    False
Tarija        False
Name: extension, dtype: bool

In [117]:
(datos_bolivia['poblacion'] > 2000000) & (datos_bolivia['extension']> 60000.0)

Beni          False
Chuquisaca    False
Cochabamba    False
La Paz         True
Oruro         False
Pando         False
Potosí        False
Santa Cruz     True
Tarija        False
dtype: bool

In [118]:
datos_bolivia

Unnamed: 0,poblacion,extension,constante,densidad,capital
Beni,468000,213564.0,1,2.191381,Trinidad
Chuquisaca,626000,51514.0,1,12.152036,Sucre
Cochabamba,2883000,55631.0,1,51.823624,Cochabamba
La Paz,26448193,133985.0,1,197.396671,La Paz
Oruro,538000,55588.0,1,9.678348,Oruro
Pando,144000,,1,,Cobija
Potosí,887000,117218.0,1,7.567097,Potosí
Santa Cruz,3225000,370621.0,1,8.701612,Santa Cruz
Tarija,563000,37623.0,1,14.964251,Tarija


In [119]:
#& y | en lugar de and y or (not ~)
#https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#boolean-indexing
datos_bolivia.loc[(datos_bolivia['poblacion'] > 2000000) & (datos_bolivia['extension']> 60000.0), ['capital'] ]
#datos_bolivia.loc[ ['La Paz', 'Santa Cruz'] ]
# datos_bolivia.loc[[True, True, True, False, False, False, True, True, True]]
#datos_bolivia.loc[[True, True, True, False, False, False, True, True, True],['poblacion', 'capital']]
#datos_bolivia.loc[[True, True, True, False, False, False]]

Unnamed: 0,capital
La Paz,La Paz
Santa Cruz,Santa Cruz


In [120]:
#datos_bolivia.loc[:,['poblacion','densidad']]
datos_bolivia.loc[datos_bolivia['poblacion'] > 2000000,['poblacion','densidad']]

Unnamed: 0,poblacion,densidad
Cochabamba,2883000,51.823624
La Paz,26448193,197.396671
Santa Cruz,3225000,8.701612


In [121]:
sin_extension_y_poblacion_reducida = (datos_bolivia['extension'].isnull()) & (datos_bolivia['poblacion'] < 200000)
# print(type(sin_extension_y_poblacion_reducida))
sin_extension_y_poblacion_reducida

Beni          False
Chuquisaca    False
Cochabamba    False
La Paz        False
Oruro         False
Pando          True
Potosí        False
Santa Cruz    False
Tarija        False
dtype: bool

In [122]:
datos_bolivia.loc[sin_extension_y_poblacion_reducida]

Unnamed: 0,poblacion,extension,constante,densidad,capital
Pando,144000,,1,,Cobija


## Selección de filas con el método __[DataFrame.query()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html)__, similar a WHERE


- __[Pandas Query: the easiest way to filter data](https://medium.com/gustavorsantos/pandas-query-the-easiest-way-to-filter-data-39e0163ef35a)__
- __[Filtering DataFrames with the .query() Method in Pandas](https://sparrow.dev/pandas-query/)__
- __[Pandas check if column is null with query function](https://stackoverflow.com/questions/46021195/pandas-check-if-column-is-null-with-query-function/46021212)__

A few other things to be aware of:

- You can’t reference columns if they share a name with Python keywords.
- You can use backticks, e.g. ```hello world``` to reference a columns that aren’t valid Python variables.
- The result is a new DataFrame, unless you pass ```inplace=True```, in which case it modifies the existing DataFrame.
- Performance of ```.query()``` will often be better than complex masking operations (such as ```df[(df.region == "APAC") & (df.revenue < 300)]```), because ```.query()``` doesn’t create intermediate objects, leaving everything in C.

In [123]:
datos_bolivia.query('poblacion > 2000000 and extension > 60000')

Unnamed: 0,poblacion,extension,constante,densidad,capital
La Paz,26448193,133985.0,1,197.396671,La Paz
Santa Cruz,3225000,370621.0,1,8.701612,Santa Cruz


In [124]:
#It interprets the expression as a Python expression instead of a pandas expression (numexpr).
datos_bolivia.query('extension.isnull() and poblacion < 200000')
# datos_bolivia.query('extension.isnull() and poblacion < 200000', engine='python')

Unnamed: 0,poblacion,extension,constante,densidad,capital
Pando,144000,,1,,Cobija


## Ordenamiento de datos - similar a ORDER BY

In [125]:
#https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html
#https://datatofish.com/sort-pandas-dataframe/
#datos_bolivia.sort_values(by=['poblacion'], ascending=True)
#datos_bolivia.sort_values(by=['poblacion'], ascending=False)
#datos_bolivia.sort_values(by=['extension'])
datos_bolivia.sort_values(by=['extension'], na_position='first')

Unnamed: 0,poblacion,extension,constante,densidad,capital
Pando,144000,,1,,Cobija
Tarija,563000,37623.0,1,14.964251,Tarija
Chuquisaca,626000,51514.0,1,12.152036,Sucre
Oruro,538000,55588.0,1,9.678348,Oruro
Cochabamba,2883000,55631.0,1,51.823624,Cochabamba
Potosí,887000,117218.0,1,7.567097,Potosí
La Paz,26448193,133985.0,1,197.396671,La Paz
Beni,468000,213564.0,1,2.191381,Trinidad
Santa Cruz,3225000,370621.0,1,8.701612,Santa Cruz


# Modificación de datos

In [126]:
datos_bolivia

Unnamed: 0,poblacion,extension,constante,densidad,capital
Beni,468000,213564.0,1,2.191381,Trinidad
Chuquisaca,626000,51514.0,1,12.152036,Sucre
Cochabamba,2883000,55631.0,1,51.823624,Cochabamba
La Paz,26448193,133985.0,1,197.396671,La Paz
Oruro,538000,55588.0,1,9.678348,Oruro
Pando,144000,,1,,Cobija
Potosí,887000,117218.0,1,7.567097,Potosí
Santa Cruz,3225000,370621.0,1,8.701612,Santa Cruz
Tarija,563000,37623.0,1,14.964251,Tarija


In [127]:
datos_bolivia.drop(columns=['constante'])

Unnamed: 0,poblacion,extension,densidad,capital
Beni,468000,213564.0,2.191381,Trinidad
Chuquisaca,626000,51514.0,12.152036,Sucre
Cochabamba,2883000,55631.0,51.823624,Cochabamba
La Paz,26448193,133985.0,197.396671,La Paz
Oruro,538000,55588.0,9.678348,Oruro
Pando,144000,,,Cobija
Potosí,887000,117218.0,7.567097,Potosí
Santa Cruz,3225000,370621.0,8.701612,Santa Cruz
Tarija,563000,37623.0,14.964251,Tarija


In [128]:
datos_bolivia.drop(columns=['constante'], inplace=True)

In [129]:
datos_bolivia

Unnamed: 0,poblacion,extension,densidad,capital
Beni,468000,213564.0,2.191381,Trinidad
Chuquisaca,626000,51514.0,12.152036,Sucre
Cochabamba,2883000,55631.0,51.823624,Cochabamba
La Paz,26448193,133985.0,197.396671,La Paz
Oruro,538000,55588.0,9.678348,Oruro
Pando,144000,,,Cobija
Potosí,887000,117218.0,7.567097,Potosí
Santa Cruz,3225000,370621.0,8.701612,Santa Cruz
Tarija,563000,37623.0,14.964251,Tarija


In [130]:
#Eliminar datos faltantes (también es posible trata de "calcularlos" en lugar de eliminarlos)
#https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html
datos_bolivia.dropna(how='any')

Unnamed: 0,poblacion,extension,densidad,capital
Beni,468000,213564.0,2.191381,Trinidad
Chuquisaca,626000,51514.0,12.152036,Sucre
Cochabamba,2883000,55631.0,51.823624,Cochabamba
La Paz,26448193,133985.0,197.396671,La Paz
Oruro,538000,55588.0,9.678348,Oruro
Potosí,887000,117218.0,7.567097,Potosí
Santa Cruz,3225000,370621.0,8.701612,Santa Cruz
Tarija,563000,37623.0,14.964251,Tarija


In [131]:
datos_bolivia.loc['Pando', 'extension'] = 63827

In [132]:
datos_bolivia

Unnamed: 0,poblacion,extension,densidad,capital
Beni,468000,213564.0,2.191381,Trinidad
Chuquisaca,626000,51514.0,12.152036,Sucre
Cochabamba,2883000,55631.0,51.823624,Cochabamba
La Paz,26448193,133985.0,197.396671,La Paz
Oruro,538000,55588.0,9.678348,Oruro
Pando,144000,63827.0,,Cobija
Potosí,887000,117218.0,7.567097,Potosí
Santa Cruz,3225000,370621.0,8.701612,Santa Cruz
Tarija,563000,37623.0,14.964251,Tarija


In [133]:
datos_bolivia.loc['Pando', 'densidad'] = datos_bolivia.loc['Pando', 'poblacion'] / datos_bolivia.loc['Pando', 'extension']
datos_bolivia

Unnamed: 0,poblacion,extension,densidad,capital
Beni,468000,213564.0,2.191381,Trinidad
Chuquisaca,626000,51514.0,12.152036,Sucre
Cochabamba,2883000,55631.0,51.823624,Cochabamba
La Paz,26448193,133985.0,197.396671,La Paz
Oruro,538000,55588.0,9.678348,Oruro
Pando,144000,63827.0,2.256099,Cobija
Potosí,887000,117218.0,7.567097,Potosí
Santa Cruz,3225000,370621.0,8.701612,Santa Cruz
Tarija,563000,37623.0,14.964251,Tarija


## DataFrame|Series.apply
Permite __[aplicar](https://thispointer.com/pandas-apply-apply-a-function-to-each-row-column-in-dataframe/)__ una función a los valores de una Series ó a las columnas (axis=0) o filas (axis=1) de un dataFrame

In [134]:
def eco(item):
    print(f"item type : {type(item)}\n value :\n {item}\n")

In [135]:
datos_bolivia['capital']

Beni            Trinidad
Chuquisaca         Sucre
Cochabamba    Cochabamba
La Paz            La Paz
Oruro              Oruro
Pando             Cobija
Potosí            Potosí
Santa Cruz    Santa Cruz
Tarija            Tarija
Name: capital, dtype: object

In [136]:
#Por qué se muestra un Serie el final?
otra_serie = datos_bolivia['capital'].apply(eco)

item type : <class 'str'>
 value :
 Trinidad

item type : <class 'str'>
 value :
 Sucre

item type : <class 'str'>
 value :
 Cochabamba

item type : <class 'str'>
 value :
 La Paz

item type : <class 'str'>
 value :
 Oruro

item type : <class 'str'>
 value :
 Cobija

item type : <class 'str'>
 value :
 Potosí

item type : <class 'str'>
 value :
 Santa Cruz

item type : <class 'str'>
 value :
 Tarija



In [137]:
otra_serie

Beni          None
Chuquisaca    None
Cochabamba    None
La Paz        None
Oruro         None
Pando         None
Potosí        None
Santa Cruz    None
Tarija        None
Name: capital, dtype: object

In [138]:
#R: porque el resultado de aplicar una función a una Serie es otra serie, pero 
#como la función eco no retorna un valor tenemos una Serie con valores None

In [139]:
datos_bolivia

Unnamed: 0,poblacion,extension,densidad,capital
Beni,468000,213564.0,2.191381,Trinidad
Chuquisaca,626000,51514.0,12.152036,Sucre
Cochabamba,2883000,55631.0,51.823624,Cochabamba
La Paz,26448193,133985.0,197.396671,La Paz
Oruro,538000,55588.0,9.678348,Oruro
Pando,144000,63827.0,2.256099,Cobija
Potosí,887000,117218.0,7.567097,Potosí
Santa Cruz,3225000,370621.0,8.701612,Santa Cruz
Tarija,563000,37623.0,14.964251,Tarija


In [140]:
#axis{0 or 'index', 1 or 'columns'}, default 0
datos_bolivia.apply(eco, axis='columns')

item type : <class 'pandas.core.series.Series'>
 value :
 poblacion      468000
extension    213564.0
densidad     2.191381
capital      Trinidad
Name: Beni, dtype: object

item type : <class 'pandas.core.series.Series'>
 value :
 poblacion       626000
extension      51514.0
densidad     12.152036
capital          Sucre
Name: Chuquisaca, dtype: object

item type : <class 'pandas.core.series.Series'>
 value :
 poblacion       2883000
extension       55631.0
densidad      51.823624
capital      Cochabamba
Name: Cochabamba, dtype: object

item type : <class 'pandas.core.series.Series'>
 value :
 poblacion      26448193
extension      133985.0
densidad     197.396671
capital          La Paz
Name: La Paz, dtype: object

item type : <class 'pandas.core.series.Series'>
 value :
 poblacion      538000
extension     55588.0
densidad     9.678348
capital         Oruro
Name: Oruro, dtype: object

item type : <class 'pandas.core.series.Series'>
 value :
 poblacion      144000
extension     63827.

Beni          None
Chuquisaca    None
Cochabamba    None
La Paz        None
Oruro         None
Pando         None
Potosí        None
Santa Cruz    None
Tarija        None
dtype: object

In [141]:
def zona(fila):
    zonaPorDepto = {
        'Chuquisaca':'Valle',
        'Cochabamba':'Valle',
        'Tarija':'Valle',
        'La Paz':'Altiplano',
        'Oruro':'Altiplano',
        'Potosí':'Altiplano',
        'Santa Cruz':'Llanos',
        'Beni':'Llanos',
        'Pando':'Llanos',        
    }
    return zonaPorDepto[fila.name]
datos_bolivia.apply(zona, axis=1)

Beni             Llanos
Chuquisaca        Valle
Cochabamba        Valle
La Paz        Altiplano
Oruro         Altiplano
Pando            Llanos
Potosí        Altiplano
Santa Cruz       Llanos
Tarija            Valle
dtype: object

In [142]:
datos_bolivia['zona'] = datos_bolivia.apply(zona, axis='columns')
datos_bolivia

Unnamed: 0,poblacion,extension,densidad,capital,zona
Beni,468000,213564.0,2.191381,Trinidad,Llanos
Chuquisaca,626000,51514.0,12.152036,Sucre,Valle
Cochabamba,2883000,55631.0,51.823624,Cochabamba,Valle
La Paz,26448193,133985.0,197.396671,La Paz,Altiplano
Oruro,538000,55588.0,9.678348,Oruro,Altiplano
Pando,144000,63827.0,2.256099,Cobija,Llanos
Potosí,887000,117218.0,7.567097,Potosí,Altiplano
Santa Cruz,3225000,370621.0,8.701612,Santa Cruz,Llanos
Tarija,563000,37623.0,14.964251,Tarija,Valle


## Otras modificaciones

- [Procesamiento de cadenas](https://pandas.pydata.org/docs/user_guide/text.html#method-summary)

In [145]:
#Operaciones con cadenas
#https://pandas.pydata.org/docs/user_guide/text.html#string-methods
datos_bolivia['capital'].str.upper()

Beni            TRINIDAD
Chuquisaca         SUCRE
Cochabamba    COCHABAMBA
La Paz            LA PAZ
Oruro              ORURO
Pando             COBIJA
Potosí            POTOSÍ
Santa Cruz    SANTA CRUZ
Tarija            TARIJA
Name: capital, dtype: object

In [147]:
datos_bolivia['capital'].str.split(pat=' ',n=1)

Beni             [Trinidad]
Chuquisaca          [Sucre]
Cochabamba     [Cochabamba]
La Paz            [La, Paz]
Oruro               [Oruro]
Pando              [Cobija]
Potosí             [Potosí]
Santa Cruz    [Santa, Cruz]
Tarija             [Tarija]
Name: capital, dtype: object

In [148]:
ejemplo_split = datos_bolivia['capital'].str.split(pat=' ',n=1,expand=True)
ejemplo_split

Unnamed: 0,0,1
Beni,Trinidad,
Chuquisaca,Sucre,
Cochabamba,Cochabamba,
La Paz,La,Paz
Oruro,Oruro,
Pando,Cobija,
Potosí,Potosí,
Santa Cruz,Santa,Cruz
Tarija,Tarija,


In [149]:
#renombrar columnas
ejemplo_split.rename(columns={0:'primera',1:'segunda'},inplace=True)
ejemplo_split

Unnamed: 0,primera,segunda
Beni,Trinidad,
Chuquisaca,Sucre,
Cochabamba,Cochabamba,
La Paz,La,Paz
Oruro,Oruro,
Pando,Cobija,
Potosí,Potosí,
Santa Cruz,Santa,Cruz
Tarija,Tarija,


## Encoding
[Conversión](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.astype.html) de valores numéricos y nominales en categorías y luego las categorías en valores numéricos.
Necesario cuando el algoritmo de aprendizaje automático no es capaz de trabajar con valores nominales o contínuos



In [150]:
datos_bolivia.dtypes

poblacion      int64
extension    float64
densidad     float64
capital       object
zona          object
dtype: object

In [151]:
datos_bolivia['zona'].dtype

dtype('O')

In [152]:
#datos_bolivia['zona'].astype('category')
datos_bolivia['zona'].astype('category').cat.codes

Beni          1
Chuquisaca    2
Cochabamba    2
La Paz        0
Oruro         0
Pando         1
Potosí        0
Santa Cruz    1
Tarija        2
dtype: int8

In [153]:
datos_bolivia

Unnamed: 0,poblacion,extension,densidad,capital,zona
Beni,468000,213564.0,2.191381,Trinidad,Llanos
Chuquisaca,626000,51514.0,12.152036,Sucre,Valle
Cochabamba,2883000,55631.0,51.823624,Cochabamba,Valle
La Paz,26448193,133985.0,197.396671,La Paz,Altiplano
Oruro,538000,55588.0,9.678348,Oruro,Altiplano
Pando,144000,63827.0,2.256099,Cobija,Llanos
Potosí,887000,117218.0,7.567097,Potosí,Altiplano
Santa Cruz,3225000,370621.0,8.701612,Santa Cruz,Llanos
Tarija,563000,37623.0,14.964251,Tarija,Valle


In [154]:
#One hot encoding
pd.get_dummies(datos_bolivia,columns=['zona'])

Unnamed: 0,poblacion,extension,densidad,capital,zona_Altiplano,zona_Llanos,zona_Valle
Beni,468000,213564.0,2.191381,Trinidad,0,1,0
Chuquisaca,626000,51514.0,12.152036,Sucre,0,0,1
Cochabamba,2883000,55631.0,51.823624,Cochabamba,0,0,1
La Paz,26448193,133985.0,197.396671,La Paz,1,0,0
Oruro,538000,55588.0,9.678348,Oruro,1,0,0
Pando,144000,63827.0,2.256099,Cobija,0,1,0
Potosí,887000,117218.0,7.567097,Potosí,1,0,0
Santa Cruz,3225000,370621.0,8.701612,Santa Cruz,0,1,0
Tarija,563000,37623.0,14.964251,Tarija,0,0,1


In [155]:
# datos_bolivia.describe()
datos_bolivia.describe(include='all')

Unnamed: 0,poblacion,extension,densidad,capital,zona
count,9.0,9.0,9.0,9,9
unique,,,,9,3
top,,,,Trinidad,Llanos
freq,,,,1,3
mean,3975799.0,122174.555556,34.081235,,
std,8499862.0,108771.464214,63.053054,,
min,144000.0,37623.0,2.191381,,
25%,538000.0,55588.0,7.567097,,
50%,626000.0,63827.0,9.678348,,
75%,2883000.0,133985.0,14.964251,,


# Ejercicios

- Convertir el indice de las filas en una serie de datos (columna 'departamento')
- Reinicie el indice a valores numéricos
- Obtenga la lista de departamentos en los hay el nombre del departamento NO es igual al nombre de su capital
- Obtenga los 3 departementos con menor población


Otros ejercicios

__[Ejercicios](https://www.w3resource.com/python-exercises/pandas/index-dataframe.php)__



## Referencias
Acceso irrestricto a **towardsdatascience.com** requiere pagar una subscripción.

- __[Python For Data Science - Cheat Sheet Pandas](https://datacamp-community-prod.s3.amazonaws.com/9f0f2ae1-8bd8-4302-a67b-e17f3059d9e8)__
- __[Reindexing in Pandas DataFrame](https://www.geeksforgeeks.org/reindexing-in-pandas-dataframe/)__
- __[10 Python Pandas tricks that make your work more efficient - Part 1](https://towardsdatascience.com/10-python-pandas-tricks-that-make-your-work-more-efficient-2e8e483808ba)__
- __[10 Python Pandas tricks that make your work more efficient - Part 2](https://towardsdatascience.com/10-pandas-tricks-to-make-my-data-analyzing-process-more-efficient-part-2-b72ea43a0bb5)__
- __[Overview of Pandas Data Types](https://pbpython.com/pandas_dtypes.html)__