#### Objetos Series y Dataframes

In [2]:
import pandas as pd
import numpy as np

## Series
Un objeto Series de Pandas es muy similar a un elemento ndarray de NumPy: una matriz unidimensional de datos indexados. Puede crear un objeto Series simple a partir de una matriz de datos de la siguiente manera:

In [4]:
array=np.array([1,2,3,-4,0.54,364,0.42])
print(array)
Series_example = pd.Series(array)
print(Series_example)

[  1.     2.     3.    -4.     0.54 364.     0.42]
0      1.00
1      2.00
2      3.00
3     -4.00
4      0.54
5    364.00
6      0.42
dtype: float64


Series ajusta automáticamente una secuencia de valores y una de índices. Se trata de dos objetos independientes dentro del objeto Series, a los que puede acceder con los atributos values y index.

In [12]:
Series_example.values
Series_example.index
Series_example[1]
Series_example[0:4]

0    1.0
1    2.0
2    3.0
3   -4.0
dtype: float64

Establecer el indice en un objeto Serie

In [16]:
Series_example2 = pd.Series(array, index=['a', 'b', 'c', 'd','e','f','g'])
Series_example2

a      1.00
b      2.00
c      3.00
d     -4.00
e      0.54
f    364.00
g      0.42
dtype: float64

In [20]:
Serie2=Series_example2['a':'d']
Series_example2


a      1.00
b      2.00
c      3.00
d     -4.00
e      0.54
f    364.00
g      0.42
dtype: float64

# Construir un objero Series desde un diccionario de Python

In [37]:
population_dict = { 'France': 65429495,
                    'Russia': 143910127,
                    'Germany': 82408706,
                    'Japan': 126922333 }
population = pd.Series(population_dict)
population

France      65429495
Russia     143910127
Germany     82408706
Japan      126922333
dtype: int64

In [38]:
population['México']=2345
population

France      65429495
Russia     143910127
Germany     82408706
Japan      126922333
México          2345
dtype: int64

Series alinea automáticamente datos indexados de manera diferente en operaciones aritméticas:

In [39]:
pop2 = pd.Series({'Spain': 46432074, 'France': 102321, 'Albania': 50532})
population + pop2


Albania           NaN
France     65531816.0
Germany           NaN
Japan             NaN
México            NaN
Russia            NaN
Spain             NaN
dtype: float64

Pandas no trata los valores que faltan como 0, sino como NaN.

# Objeto DataFrame
Un objeto DataFrame representa una tabla de datos rectangular y contiene una colección ordenada de columnas con etiqueta DataFrame tiene un índice de fila y de columna. Puede considerarlo como un diccionario de objetos Series

In [3]:
import pandas as pd
area_dict = {'Albania': 28748,
             'France': 643801,
             'Germany': 357386,
             'Japan': 377972,
             'Russia': 17125200}
area = pd.Series(area_dict)
population_dict = { 'France': 65429495,
                    'Germany': 82408706,
                    'Russia': 143910127,
                    'Japan': 126922333 }
population = pd.Series(population_dict)
population['Albania']=23456

print(area)
print(population)

Albania       28748
France       643801
Germany      357386
Japan        377972
Russia     17125200
dtype: int64
France      65429495
Germany     82408706
Russia     143910127
Japan      126922333
Albania        23456
dtype: int64


In [8]:
df=pd.DataFrame({'Area':area, 'Population':population})
df['Capital']=['Tirana', 'Paris', 'Berlin', 'Tokyo', 'Moscow']
df

Unnamed: 0,Area,Population,Capital
Albania,28748,23456,Tirana
France,643801,65429495,Paris
Germany,357386,82408706,Berlin
Japan,377972,126922333,Tokyo
Russia,17125200,143910127,Moscow


Puede cambiar el orden de las columnas

In [21]:
df=df[['Population','Capital','Area']]
df

Unnamed: 0,Population,Capital,Area
Albania,23456,Tirana,28748
France,65429495,Paris,643801
Germany,82408706,Berlin,357386
Japan,126922333,Tokyo,377972
Russia,143910127,Moscow,17125200


Generar nuevas columnas de datos a partir de otros datos en el data frame

In [23]:
df['Population Density']=df['Population']/df['Area']
df

Unnamed: 0,Population,Capital,Area,Population Density
Albania,23456,Tirana,28748,0.815918
France,65429495,Paris,643801,101.629999
Germany,82408706,Berlin,357386,230.587393
Japan,126922333,Tokyo,377972,335.798242
Russia,143910127,Moscow,17125200,8.403413


In [24]:
df['Area'] #PAra acceder a los valores de una columnas
df.loc['Japan'] #Para acceder a los valores de una fila
"""Tenga en cuenta que lo que devuelve el método .loc es un objeto indexado por sí mismo, y puede acceder 
a los elementos que contiene mediante una sintaxis de índice conocida:"""

'Tenga en cuenta que lo que devuelve el método .loc es un objeto indexado por sí mismo, y puede acceder \na los elementos que contiene mediante una sintaxis de índice conocida:'

In [25]:
df.loc['Japan']['Area']

377972

# Asignar una columna al df sin valores

In [26]:
import numpy as np
df['Debt-to-GDP Ratio'] = np.nan
df

Unnamed: 0,Population,Capital,Area,Population Density,Debt-to-GDP Ratio
Albania,23456,Tirana,28748,0.815918,
France,65429495,Paris,643801,101.629999,
Germany,82408706,Berlin,357386,230.587393,
Japan,126922333,Tokyo,377972,335.798242,
Russia,143910127,Moscow,17125200,8.403413,


También puede agregar columnas a un objeto DataFrame que no tenga el mismo número de filas que DataFrame:

In [27]:
debt = pd.Series([0.19, 2.36], index=['Russia', 'Japan'])
df['Debt-to-GDP Ratio'] = debt
df

Unnamed: 0,Population,Capital,Area,Population Density,Debt-to-GDP Ratio
Albania,23456,Tirana,28748,0.815918,
France,65429495,Paris,643801,101.629999,
Germany,82408706,Berlin,357386,230.587393,
Japan,126922333,Tokyo,377972,335.798242,2.36
Russia,143910127,Moscow,17125200,8.403413,0.19


# Eliminar columnas
con el metodo del

In [28]:
del df['Debt-to-GDP Ratio']


In [30]:
# La traspuesta de un df
df.T

Unnamed: 0,Albania,France,Germany,Japan,Russia
Population,23456,65429495,82408706,126922333,143910127
Capital,Tirana,Paris,Berlin,Tokyo,Moscow
Area,28748,643801,357386,377972,17125200
Population Density,0.815918,101.629999,230.587393,335.798242,8.403413


# Crear dataFrame desde una matriz bidimensional de numpy

In [31]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['random', 'example'],
             index=['a', 'b', 'c'])

Unnamed: 0,random,example
a,0.140228,0.215777
b,0.464517,0.123013
c,0.502159,0.826968
