## PANDAS

In [1]:
import pandas as pd
import numpy as np

### 1. Creacion y manipulacion de Series 

#### Creacion de Series

In [2]:
indice =['Juan', 'Maria', 'Francisco', 'Pedro', 'Luis']
datos_lista = np.random.randint(20,40, size =(5))

In [3]:
## Creando la serie
edades =  pd.Series(datos_lista, indice)
edades

Juan         33
Maria        33
Francisco    28
Pedro        37
Luis         35
dtype: int32

In [4]:
## Diccionario
datos_diccionario = {'Juan':31, 'Maria':22, 'Francisco':36, 'Pedro':29, 'Luis':24}
edades_dic = pd.Series(datos_diccionario)

#### Atributos y acceso a los elementos de una series

In [5]:
edades.dtype, edades.size, edades.index, edades.values

(dtype('int32'),
 5,
 Index(['Juan', 'Maria', 'Francisco', 'Pedro', 'Luis'], dtype='object'),
 array([33, 33, 28, 37, 35]))

In [6]:
for elemento in edades:
    print(elemento)

33
33
28
37
35


In [7]:
for elemento in edades.index:
    print(elemento)

Juan
Maria
Francisco
Pedro
Luis


In [8]:
for elemento in edades.values:
    print(elemento)

33
33
28
37
35


In [9]:
edades.values

array([33, 33, 28, 37, 35])

In [10]:
# consultar una edad
edades['Juan']

33

In [11]:
## Puedo pasar una lista de las personas que quiero conocer la edad
edades[['Juan', 'Maria', 'Luis']]

Juan     33
Maria    33
Luis     35
dtype: int32

In [12]:
## Consulta con posicion
edades[0], edades[0:3], edades[[2,4]]

(33,
 Juan         33
 Maria        33
 Francisco    28
 dtype: int32,
 Francisco    28
 Luis         35
 dtype: int32)

#### Metodos basicos comunes 

#### __Cambiar tipo de datos__

In [13]:
edades.astype('i2')

Juan         33
Maria        33
Francisco    28
Pedro        37
Luis         35
dtype: int16

In [14]:
## Conteo de datos 
edades.value_counts()

33    2
28    1
37    1
35    1
Name: count, dtype: int64

In [15]:
# ordenar los datos por valores
edades.sort_values()

Francisco    28
Juan         33
Maria        33
Luis         35
Pedro        37
dtype: int32

In [16]:
# ordenar los datos por index
edades.sort_index(inplace=True)

#### Operaciones vectoriales aritmeticas

In [17]:
edades + 1 # son muy eficientes, es mejor utilizar numpy
edades / 1 # son muy eficientes, es mejor utilizar numpy
edades * 1 # son muy eficientes, es mejor utilizar numpy

Francisco    28
Juan         33
Luis         35
Maria        33
Pedro        37
dtype: int32

In [18]:
## Entre series 
edades+edades

Francisco    56
Juan         66
Luis         70
Maria        66
Pedro        74
dtype: int32

#### Funciones de estadistica y agregacion basicas 

In [19]:
edades

Francisco    28
Juan         33
Luis         35
Maria        33
Pedro        37
dtype: int32

In [20]:
edades.max(), edades.argmax(), edades.min(), edades.argmin(), edades.sum()

(37, 4, 28, 0, 166)

In [21]:
print(edades.mode(),' moda\n') # dato que más se repite
print(edades.median(),', mediana\n') # dato del medio 
print(edades.mean(),', promedio \n') # promedio
print(edades.std(), ', std\n') # dispersion de los datos
print(edades.count(), 'count')

0    33
dtype: int32  moda

33.0 , mediana

33.2 , promedio 

3.3466401061363023 , std

5 count


In [22]:
edades.describe() # operaciones estadistica y quartiles

count     5.00000
mean     33.20000
std       3.34664
min      28.00000
25%      33.00000
50%      33.00000
75%      35.00000
max      37.00000
dtype: float64

In [23]:
edades.quantile(0.25)

33.0

### 2. Data Frames

#### Creacion del dataFrame

In [24]:
nombre_paises= ['Argentina','Bolivia','Colombia','Ecuador','Chile', 'Peru', 'Venenzuela', 'Uruguay','Brasil']

encabezado = ['poblacion', 'porcentaje']

datos_poblacion = np.random.randint(120,1400, size=(9))
datos_porcentaje = np.random.uniform(1.1,18.5, size=(9))

datos = np.stack((datos_poblacion, datos_porcentaje), axis=1)
datos

array([[ 290.        ,   17.09585091],
       [ 149.        ,    7.13488199],
       [ 757.        ,   10.94349553],
       [ 298.        ,    9.74248569],
       [ 622.        ,   13.14665714],
       [1205.        ,    3.97153882],
       [ 858.        ,   11.0180456 ],
       [ 849.        ,   15.50761835],
       [ 483.        ,    5.32258295]])

In [25]:
nombre_paises

['Argentina',
 'Bolivia',
 'Colombia',
 'Ecuador',
 'Chile',
 'Peru',
 'Venenzuela',
 'Uruguay',
 'Brasil']

In [26]:
data = pd.DataFrame(datos, columns=encabezado, index=nombre_paises)
data

Unnamed: 0,poblacion,porcentaje
Argentina,290.0,17.095851
Bolivia,149.0,7.134882
Colombia,757.0,10.943496
Ecuador,298.0,9.742486
Chile,622.0,13.146657
Peru,1205.0,3.971539
Venenzuela,858.0,11.018046
Uruguay,849.0,15.507618
Brasil,483.0,5.322583


In [27]:
diccionario_datos = {'Argentina':[1392, 3.48904991],
                      'Bolivia':[ 586,10.53898724],
                      'Colombia':[ 686,10.00989397],
                      'Ecuador':[ 212,17.87305881],
                      'Chile':[ 984,18.16843738],
                      'Peru':[1247,17.47538144],
                      'Venenzuela':[1148, 4.57475614],
                      'Uruguay':[1268,12.69308122],
                      'Brasil':[1207, 8.17267596]}

In [28]:
data_paises = pd.DataFrame(diccionario_datos, index=encabezado).transpose()
data_paises

Unnamed: 0,poblacion,porcentaje
Argentina,1392.0,3.48905
Bolivia,586.0,10.538987
Colombia,686.0,10.009894
Ecuador,212.0,17.873059
Chile,984.0,18.168437
Peru,1247.0,17.475381
Venenzuela,1148.0,4.574756
Uruguay,1268.0,12.693081
Brasil,1207.0,8.172676


#### Atributos de un DataFrame

In [29]:
data_paises.dtypes

poblacion     float64
porcentaje    float64
dtype: object

In [30]:
data_paises.values, data_paises.size

(array([[1392.        ,    3.48904991],
        [ 586.        ,   10.53898724],
        [ 686.        ,   10.00989397],
        [ 212.        ,   17.87305881],
        [ 984.        ,   18.16843738],
        [1247.        ,   17.47538144],
        [1148.        ,    4.57475614],
        [1268.        ,   12.69308122],
        [1207.        ,    8.17267596]]),
 18)

In [31]:
data_paises.index, data_paises.columns

(Index(['Argentina', 'Bolivia', 'Colombia', 'Ecuador', 'Chile', 'Peru',
        'Venenzuela', 'Uruguay', 'Brasil'],
       dtype='object'),
 Index(['poblacion', 'porcentaje'], dtype='object'))

#### Acceso a los elementos 

In [32]:
data_paises.poblacion

Argentina     1392.0
Bolivia        586.0
Colombia       686.0
Ecuador        212.0
Chile          984.0
Peru          1247.0
Venenzuela    1148.0
Uruguay       1268.0
Brasil        1207.0
Name: poblacion, dtype: float64

In [33]:
data_paises['poblacion']
data_paises.poblacion

Argentina     1392.0
Bolivia        586.0
Colombia       686.0
Ecuador        212.0
Chile          984.0
Peru          1247.0
Venenzuela    1148.0
Uruguay       1268.0
Brasil        1207.0
Name: poblacion, dtype: float64

In [34]:
data_paises[['poblacion', 'porcentaje']], data_paises['porcentaje']

(            poblacion  porcentaje
 Argentina      1392.0    3.489050
 Bolivia         586.0   10.538987
 Colombia        686.0   10.009894
 Ecuador         212.0   17.873059
 Chile           984.0   18.168437
 Peru           1247.0   17.475381
 Venenzuela     1148.0    4.574756
 Uruguay        1268.0   12.693081
 Brasil         1207.0    8.172676,
 Argentina      3.489050
 Bolivia       10.538987
 Colombia      10.009894
 Ecuador       17.873059
 Chile         18.168437
 Peru          17.475381
 Venenzuela     4.574756
 Uruguay       12.693081
 Brasil         8.172676
 Name: porcentaje, dtype: float64)

In [35]:
data_paises['poblacion'][0], data_paises.poblacion[0], data_paises['poblacion'][0:3]

(1392.0,
 1392.0,
 Argentina    1392.0
 Bolivia       586.0
 Colombia      686.0
 Name: poblacion, dtype: float64)

#### Iloc, Loc

In [36]:
data_paises.iloc[0], data_paises.loc['Colombia']

(poblacion     1392.00000
 porcentaje       3.48905
 Name: Argentina, dtype: float64,
 poblacion     686.000000
 porcentaje     10.009894
 Name: Colombia, dtype: float64)

#### Metodos basicos comunes de DataFrames

In [37]:
## Cambiar tipo de datos 
data_paises['poblacion'] = data_paises['poblacion'].astype('int')

In [38]:
data_paises.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, Argentina to Brasil
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   poblacion   9 non-null      int32  
 1   porcentaje  9 non-null      float64
dtypes: float64(1), int32(1)
memory usage: 480.0+ bytes


In [39]:
data_paises.sort_values(by = ['porcentaje'], ascending=False)

Unnamed: 0,poblacion,porcentaje
Chile,984,18.168437
Ecuador,212,17.873059
Peru,1247,17.475381
Uruguay,1268,12.693081
Bolivia,586,10.538987
Colombia,686,10.009894
Brasil,1207,8.172676
Venenzuela,1148,4.574756
Argentina,1392,3.48905


#### Agregar y borrar reglones y columnas

#### __Columnas__

In [40]:
tasa_fertilidad = np.random.uniform(1.1,5.5, size=(9))

In [41]:
## Agregar columnas
data_paises['tasa_fertilidad'] = tasa_fertilidad

In [42]:
data_paises

Unnamed: 0,poblacion,porcentaje,tasa_fertilidad
Argentina,1392,3.48905,5.463993
Bolivia,586,10.538987,1.875991
Colombia,686,10.009894,2.828785
Ecuador,212,17.873059,4.484072
Chile,984,18.168437,2.246752
Peru,1247,17.475381,5.339201
Venenzuela,1148,4.574756,5.013184
Uruguay,1268,12.693081,4.165762
Brasil,1207,8.172676,5.251323


In [43]:
## Eliminar columnas
#data_paises.pop('tasa_fertilidad') ## con pop se quita para procesarla por eso la retorna

In [44]:
#del data_paises['tasa_fertilidad']

In [45]:
## drop borra reglones y columnas
#data_paises.drop('tasa_fertilidad', axis=1, inplace=True) # axis = 1: columna, axis=0: fila

#### __Filas__

In [46]:
## Mexico, 126, 1.62
fila_mexico = pd.Series(name='Mexico', data=[126,1.62,1.2], index=['poblacion', 'porcentaje', 'tasa_fertilidad'])
fila_mexico

poblacion          126.00
porcentaje           1.62
tasa_fertilidad      1.20
Name: Mexico, dtype: float64

In [47]:
#ata_paises.loc[len(data_paises)]=fila_mexico

In [48]:
## agregar fila
# paises =  pd.concat([paises, renglon.to_frame().T])
data_paises =  pd.concat([data_paises, fila_mexico.to_frame().T])

In [49]:
data_paises

Unnamed: 0,poblacion,porcentaje,tasa_fertilidad
Argentina,1392.0,3.48905,5.463993
Bolivia,586.0,10.538987,1.875991
Colombia,686.0,10.009894,2.828785
Ecuador,212.0,17.873059,4.484072
Chile,984.0,18.168437,2.246752
Peru,1247.0,17.475381,5.339201
Venenzuela,1148.0,4.574756,5.013184
Uruguay,1268.0,12.693081,4.165762
Brasil,1207.0,8.172676,5.251323
Mexico,126.0,1.62,1.2


In [50]:
## Borrar
data_paises.drop(['Peru', 'Argentina'], axis=0) #, inplace= True)

Unnamed: 0,poblacion,porcentaje,tasa_fertilidad
Bolivia,586.0,10.538987,1.875991
Colombia,686.0,10.009894,2.828785
Ecuador,212.0,17.873059,4.484072
Chile,984.0,18.168437,2.246752
Venenzuela,1148.0,4.574756,5.013184
Uruguay,1268.0,12.693081,4.165762
Brasil,1207.0,8.172676,5.251323
Mexico,126.0,1.62,1.2


#### Funciones de estadistica y agregacion basicas 
Los mismos que en series 

In [51]:
data_paises.describe()

Unnamed: 0,poblacion,porcentaje,tasa_fertilidad
count,10.0,10.0,10.0
mean,885.6,10.461532,3.786906
std,456.489552,6.104572,1.603255
min,126.0,1.62,1.2
25%,611.0,5.474236,2.39226
50%,1066.0,10.274441,4.324917
75%,1237.0,16.279806,5.191788
max,1392.0,18.168437,5.463993


#### Cargar datos
##### Archivo CSV
__pd.read_csv('direccion', index_col = num_columna, usecols=[0,1,4], nrows = 3, skiprows = numero de filas a quitar arriba,  skipfooter = 1, engine = 'python' )__
* index_col: set como index alguna de las columnas
* usecols: carga solo las columnas que le especifique
* nrows:  carga solo las filas que se especifiquen
* header: encabezado (__None__ si no hay)
* names: si hay encabezados se pasa la lista con los nombre 
* skiprows: Para quitar elementos basura por arriba del doc y por debajo
* skipfooter: quitar los filas abajo que no quiero cargar (para quitar la advertencia de ejecucion en C se agrega engine = 'python')

##### Archivo Excel
__pd.read_excel('direccion', index_col = 0, skiprows = 1, sheet_name = None)__

* sheet_name: cargar todas las pestañas del archivo excel, se crean un diccionario con la informacion de cada hoja. Con __None__ se cargan todas las hojas. Para cargar una especifica le paso el nombre de la hoja 

## Filtros Pandas

In [9]:
import pandas as pd
import os

In [6]:
datos_paises = {'pais': ['Estados Unidos', 'China', 'Brasil', 'India', 'Mexico', 'Colombia'],
         'km2': [9833517,9600000,8515767,3287263,1964375,1141748]}
paises =  pd.DataFrame(datos_paises)

#### Filtrado más básico

In [7]:
## MEdiante datos booleanos
filtro = [True,False,False, False, False,True]
paises[filtro]

# filtro = ['Estados Unidos', 'Colombia']

Unnamed: 0,pais,km2
0,Estados Unidos,9833517
5,Colombia,1141748


#### Crear un filtro para paises con superficie mayor a 3287263 km2

In [8]:
filtro_km = paises['km2']>3287263 ## Retorna numpy array booleano
paises[filtro]

## Esta instruccion funciona igual que arriba
paises[paises['km2']>3287263]


Unnamed: 0,pais,km2
0,Estados Unidos,9833517
1,China,9600000
2,Brasil,8515767


### Cargar datos de csv paises

In [13]:
ruta_paises =  r'C:\Users\USUARIO\Documents\Python Scripts\ML\Scripts\DATA_TOOLS\PANDAS\datos_paises.csv'
ruta_paises = ruta_paises.replace(os.sep,'/')

paises_file = pd.read_csv(ruta_paises, index_col=0)

In [14]:
paises_file

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
China,Asia,9600000.0,1409517
India,Asia,3287263.0,1339180
United States of America,America,9833517.0,324460
Indonesia,Asia,1910931.0,263991
Brazil,America,8515767.0,209288
...,...,...,...
Saint Helena,Africa,308.0,4
Falkland Islands (Malvinas),America,12173.0,3
Niue,Oceania,260.0,2
Holy See,Europa,1.0,1


##### Seleccion paises de extension pequeña menores a 50 km2


In [16]:
paises_file[paises_file['km2']<50]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"China, Macao SAR",Asia,30.0,623
Sint Maarten (Dutch part),America,34.0,40
Monaco,Europa,2.0,39
Gibraltar,Europa,6.0,35
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Nauru,Oceania,21.0,11
Tuvalu,Oceania,26.0,11
Holy See,Europa,1.0,1
Tokelau,Oceania,12.0,1


#### Seleccion de paises pequeños pero altemaneto poblados menor a 50km2 y poblacion mayor a 500

In [17]:
paises_file[(paises_file['km2']<50)&(paises_file['poblacion_miles']>500)]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"China, Macao SAR",Asia,30.0,623


#### Seleccion de paises pequeños o poco poblados; menor a 5 km2 o poblacion menor a 5

In [18]:
paises_file[(paises_file['km2']<5) | (paises_file['poblacion_miles']<5)]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Monaco,Europa,2.0,39
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Saint Helena,Africa,308.0,4
Falkland Islands (Malvinas),America,12173.0,3
Niue,Oceania,260.0,2
Holy See,Europa,1.0,1
Tokelau,Oceania,12.0,1


#### Seleccion de paises pequeños, poco poblados y europeos; menor a 50 km2 o poblacion menor a 50

In [19]:
paises_file[(paises_file['continente']=='Europa') & ((paises_file['km2']<50) | (paises_file['poblacion_miles']<50))]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Faroe Islands,Europa,1393.0,49
Monaco,Europa,2.0,39
Liechtenstein,Europa,160.0,38
Gibraltar,Europa,6.0,35
San Marino,Europa,61.0,33
Holy See,Europa,1.0,1


#### Seleccion de paises pequeños, poco poblados y no europeos; menor a 50 km2 o poblacion menor a 50

In [24]:
paises_file[~(paises_file['continente']=='Europa') & (paises_file['km2']<50) & (paises_file['poblacion_miles']<50)]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Sint Maarten (Dutch part),America,34.0,40
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Nauru,Oceania,21.0,11
Tuvalu,Oceania,26.0,11
Tokelau,Oceania,12.0,1
