# Dataframes

In [2]:
import numpy as np
import pandas as pd

La mayoría del tiempo se trabaja con data frames creados en fuentes externas e importados en csv. Para esta ocasión crearemos uno de manera manual.

In [3]:
df= pd.DataFrame({
    'Población': [
        35.467,
        63.951,
        80.94,
        60.665,
        127.061,
        64.511,
        318.523],
    'PBI': [
        1785387,
        2833687,
        3874437,
        2167744,
        4602367,
        2950039,
        17348075
    ],
    'Superficie': [
        9984670,
        640679,
        357114,
        301336,
        377930,
        242495,
        9525067
    ],
    'IDH': [
        0.913,
        0.888,
        0.916,
        0.873,
        0.891,
        0.907,
        0.915
    ],
    'Continente': [
        'America',
        'Europe',
        'Europe',
        'Europe',
        'Asia',
        'Europe',
        'America'
    ]
})

In [4]:
df

Unnamed: 0,Población,PBI,Superficie,IDH,Continente
0,35.467,1785387,9984670,0.913,America
1,63.951,2833687,640679,0.888,Europe
2,80.94,3874437,357114,0.916,Europe
3,60.665,2167744,301336,0.873,Europe
4,127.061,4602367,377930,0.891,Asia
5,64.511,2950039,242495,0.907,Europe
6,318.523,17348075,9525067,0.915,America


In [5]:
df.index = [
    'Canada',
    'Francia',
    'Alemania',
    'Italia',
    'Japón',
    'Reino Unido',
    'Estados Unidos',
]

In [6]:
df

Unnamed: 0,Población,PBI,Superficie,IDH,Continente
Canada,35.467,1785387,9984670,0.913,America
Francia,63.951,2833687,640679,0.888,Europe
Alemania,80.94,3874437,357114,0.916,Europe
Italia,60.665,2167744,301336,0.873,Europe
Japón,127.061,4602367,377930,0.891,Asia
Reino Unido,64.511,2950039,242495,0.907,Europe
Estados Unidos,318.523,17348075,9525067,0.915,America


In [7]:
df.columns

Index(['Población', 'PBI', 'Superficie', 'IDH', 'Continente'], dtype='object')

In [8]:
df.index

Index(['Canada', 'Francia', 'Alemania', 'Italia', 'Japón', 'Reino Unido',
       'Estados Unidos'],
      dtype='object')

In [9]:
df.info() # devuelve información rápida sobre el df como los tipos y los no nulos para identificación.

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, Canada to Estados Unidos
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Población   7 non-null      float64
 1   PBI         7 non-null      int64  
 2   Superficie  7 non-null      int64  
 3   IDH         7 non-null      float64
 4   Continente  7 non-null      object 
dtypes: float64(2), int64(2), object(1)
memory usage: 336.0+ bytes


In [10]:
df.size

35

In [11]:
df.shape # identifica las dos dimensiones del dataframe. un array bidimensional es un dataframe en python.

(7, 5)

In [12]:
df.describe() # medidas descriptivas

Unnamed: 0,Población,PBI,Superficie,IDH
count,7.0,7.0,7.0,7.0
mean,107.302571,5080248.0,3061327.0,0.900429
std,97.24997,5494020.0,4576187.0,0.016592
min,35.467,1785387.0,242495.0,0.873
25%,62.308,2500716.0,329225.0,0.8895
50%,64.511,2950039.0,377930.0,0.907
75%,104.0005,4238402.0,5082873.0,0.914
max,318.523,17348080.0,9984670.0,0.916


In [13]:
df.dtypes

Población     float64
PBI             int64
Superficie      int64
IDH           float64
Continente     object
dtype: object

In [14]:
df.dtypes.value_counts()

float64    2
int64      2
object     1
dtype: int64

# Indexado, Selección y Truncado

Las columnas individuales del dataframe pueden ser seleccionadas con indexado regular. Cada columna se representa como una <code>Serie</code>.

In [15]:
df['Población']

Canada             35.467
Francia            63.951
Alemania           80.940
Italia             60.665
Japón             127.061
Reino Unido        64.511
Estados Unidos    318.523
Name: Población, dtype: float64

In [16]:
df.loc['Canada'] # localiza por nombre de índice

Población      35.467
PBI           1785387
Superficie    9984670
IDH             0.913
Continente    America
Name: Canada, dtype: object

In [17]:
df.iloc[-1] # localiza por índice o ubicación de fila, en este caso, la última

Población      318.523
PBI           17348075
Superficie     9525067
IDH              0.915
Continente     America
Name: Estados Unidos, dtype: object

In [18]:
df['Población']

Canada             35.467
Francia            63.951
Alemania           80.940
Italia             60.665
Japón             127.061
Reino Unido        64.511
Estados Unidos    318.523
Name: Población, dtype: float64

In [19]:
df.iloc[[0,1,-1]] # selecciona puntualmente por índice

Unnamed: 0,Población,PBI,Superficie,IDH,Continente
Canada,35.467,1785387,9984670,0.913,America
Francia,63.951,2833687,640679,0.888,Europe
Estados Unidos,318.523,17348075,9525067,0.915,America


In [20]:
df.iloc[1:3] # selecciona por secuencia entre índice

Unnamed: 0,Población,PBI,Superficie,IDH,Continente
Francia,63.951,2833687,640679,0.888,Europe
Alemania,80.94,3874437,357114,0.916,Europe


In [21]:
df.iloc[1:3,3] # Agrega selección de columna, en este caso IDH.

Francia     0.888
Alemania    0.916
Name: IDH, dtype: float64

# Selección condicional con booleanos

In [22]:
df['Población'] > 70 # devuelve true o false si la población es mayor a 70.

Canada            False
Francia           False
Alemania           True
Italia            False
Japón              True
Reino Unido       False
Estados Unidos     True
Name: Población, dtype: bool

In [23]:
df.loc[df['Población'] > 70] # aplicamos el booleano para que seleccione los valores de población mayores a 70

Unnamed: 0,Población,PBI,Superficie,IDH,Continente
Alemania,80.94,3874437,357114,0.916,Europe
Japón,127.061,4602367,377930,0.891,Asia
Estados Unidos,318.523,17348075,9525067,0.915,America


# Dejar datos afuera

Opuesto a seleccionar, podemos hacer "dropping", que sería dejar afuera valores que no nos interesan.

In [24]:
df.drop('Canada')

Unnamed: 0,Población,PBI,Superficie,IDH,Continente
Francia,63.951,2833687,640679,0.888,Europe
Alemania,80.94,3874437,357114,0.916,Europe
Italia,60.665,2167744,301336,0.873,Europe
Japón,127.061,4602367,377930,0.891,Asia
Reino Unido,64.511,2950039,242495,0.907,Europe
Estados Unidos,318.523,17348075,9525067,0.915,America


In [25]:
df.drop(['Canada','Japón'])

Unnamed: 0,Población,PBI,Superficie,IDH,Continente
Francia,63.951,2833687,640679,0.888,Europe
Alemania,80.94,3874437,357114,0.916,Europe
Italia,60.665,2167744,301336,0.873,Europe
Reino Unido,64.511,2950039,242495,0.907,Europe
Estados Unidos,318.523,17348075,9525067,0.915,America


In [26]:
df.drop(columns=['Población','IDH'])

Unnamed: 0,PBI,Superficie,Continente
Canada,1785387,9984670,America
Francia,2833687,640679,Europe
Alemania,3874437,357114,Europe
Italia,2167744,301336,Europe
Japón,4602367,377930,Asia
Reino Unido,2950039,242495,Europe
Estados Unidos,17348075,9525067,America


# Operaciones

In [28]:
df[['Población', 'PBI']]

Unnamed: 0,Población,PBI
Canada,35.467,1785387
Francia,63.951,2833687
Alemania,80.94,3874437
Italia,60.665,2167744
Japón,127.061,4602367
Reino Unido,64.511,2950039
Estados Unidos,318.523,17348075


Las operaciones con series funcionan a nivel columna, mostrando las filas hacia abajo, lo cual puede ser contraintuitivo.

In [29]:
crisis = pd.Series([-1_000_000, -0.3], index=['PBI','IDH'])
crisis

PBI   -1000000.0
IDH         -0.3
dtype: float64

Alineación entre índices.

In [32]:
df[['PBI','IDH']]

Unnamed: 0,PBI,IDH
Canada,1785387,0.913
Francia,2833687,0.888
Alemania,3874437,0.916
Italia,2167744,0.873
Japón,4602367,0.891
Reino Unido,2950039,0.907
Estados Unidos,17348075,0.915


In [33]:
df[['PBI','IDH']] + crisis #esta operación le resta los números que asignamos a la serie llamada 'crisis' al dataframe original en cada índice que aparece.

Unnamed: 0,PBI,IDH
Canada,785387.0,0.613
Francia,1833687.0,0.588
Alemania,2874437.0,0.616
Italia,1167744.0,0.573
Japón,3602367.0,0.591
Reino Unido,1950039.0,0.607
Estados Unidos,16348075.0,0.615


# Modificar dataframes

Se pueden modificar valores o columnas de manera intuitiva sin problemas.

## Nueva columna

En el comando de abajo se crea una serie que "matchea" por índice en una nueva columna.

In [34]:
idiomas = pd.Series(
    ['Francés',
     'Alemán',
     'Italiano'],
    index=['Francia',
           'Alemania',
           'Italia'],
    name='Idioma'
)

En este punto le pasamos la columna idioma al dataframe original, alojando el dataframe nuevo en una nueva variable llamada 'idiomas'.

In [35]:
df['Idioma'] = idiomas

In [36]:
df

Unnamed: 0,Población,PBI,Superficie,IDH,Continente,Idioma
Canada,35.467,1785387,9984670,0.913,America,
Francia,63.951,2833687,640679,0.888,Europe,Francés
Alemania,80.94,3874437,357114,0.916,Europe,Alemán
Italia,60.665,2167744,301336,0.873,Europe,Italiano
Japón,127.061,4602367,377930,0.891,Asia,
Reino Unido,64.511,2950039,242495,0.907,Europe,
Estados Unidos,318.523,17348075,9525067,0.915,America,


## Reemplazando valores por columna

In [37]:
df['Idioma'] = 'Inglés'

In [38]:
df

Unnamed: 0,Población,PBI,Superficie,IDH,Continente,Idioma
Canada,35.467,1785387,9984670,0.913,America,Inglés
Francia,63.951,2833687,640679,0.888,Europe,Inglés
Alemania,80.94,3874437,357114,0.916,Europe,Inglés
Italia,60.665,2167744,301336,0.873,Europe,Inglés
Japón,127.061,4602367,377930,0.891,Asia,Inglés
Reino Unido,64.511,2950039,242495,0.907,Europe,Inglés
Estados Unidos,318.523,17348075,9525067,0.915,America,Inglés


Todas los valores en la columna 'idioma' se cambiaron a inglés.

## Función <code>.rename</code>

In [39]:
df.rename(
    columns={
        'IDH': 'Índice de Desarrollo Humano',
        'Consumo anual de pororó':'CAP'
    }, index={
        'Estados Unidos':'EE.UU',
        'Reino Unido': 'RU',
        'Argentina': 'AR'
    }
)

Unnamed: 0,Población,PBI,Superficie,Índice de Desarrollo Humano,Continente,Idioma
Canada,35.467,1785387,9984670,0.913,America,Inglés
Francia,63.951,2833687,640679,0.888,Europe,Inglés
Alemania,80.94,3874437,357114,0.916,Europe,Inglés
Italia,60.665,2167744,301336,0.873,Europe,Inglés
Japón,127.061,4602367,377930,0.891,Asia,Inglés
RU,64.511,2950039,242495,0.907,Europe,Inglés
EE.UU,318.523,17348075,9525067,0.915,America,Inglés


## Ejercicio

In [40]:
certificates_earned = pd.DataFrame({
    'Certificates': [8, 2, 5, 6],
    'Time (in months)': [16, 5, 9, 12]
})

In [41]:
certificates_earned

Unnamed: 0,Certificates,Time (in months)
0,8,16
1,2,5
2,5,9
3,6,12


In [42]:
names = ['Tom', 'Kris', 'Ahmad', 'Beau']

In [43]:
certificates_earned.index = names

In [44]:
certificates_earned

Unnamed: 0,Certificates,Time (in months)
Tom,8,16
Kris,2,5
Ahmad,5,9
Beau,6,12


In [45]:
longest_streak = pd.Series([13, 11, 9, 7], index=names)

In [46]:
certificates_earned['Longest streak'] = longest_streak

In [48]:
print(certificates_earned)

       Certificates  Time (in months)  Longest streak
Tom               8                16              13
Kris              2                 5              11
Ahmad             5                 9               9
Beau              6                12               7
