## Creando tus propios datos

### Crear una Serie

En pandas, una serie es un contenedor unidimensional (es decir, Python Iterable), similar a la lista integrada de Python. Es el tipo de datos que representa cada columna del DataFrame. Cada valor en una columna de DataFrame debe almacenarse como el mismo `dtype`.

Dado que un DataFrame puede considerarse como un diccionario de objetos Serie, donde cada clave es el nombre de la columna y el valor es la Serie, podemos concluir que una Serie es muy similar a una lista de Python, excepto que cada elemento debe ser del mismo `dtype`.

La forma más sencilla de crear una serie es pasar una lista de Python. Si pasamos una lista de tipos mixtos, se utilizará la representación más común de ambos. Normalmente el `dtype` será `object`.

In [3]:
import pandas as pd

In [2]:
s = pd.Series(['peru', 24])
print(s)

0    peru
1      24
dtype: object


Observe que el "número de fila" se muestra a la izquierda de la Serie. En realidad, este es el índice de la serie. Es similar al nombre de fila y al índice de fila de DataFrames.

In [3]:
s = pd.Series(
    data = ['Jorge', 'Zevallos'],
    index = ['Nombre', 'Apellido']
)
print(s)

Nombre         Jorge
Apellido    Zevallos
dtype: object


### Crear un DataFrame

Un DataFrame puede considerarse como un diccionario de objetos de serie. Es por eso que los diccionarios son la forma más común de crear un DataFrame. La clave representa el nombre de la columna y los valores son el contenido de la columna.

In [4]:
soccer_players = pd.DataFrame(
    {
        "Name": ['Lionel Messi', 'Paolo Guerrero'],
        "Nacionalidad": ['Argentino', 'Peruano'],
        "Dorsal": [10, 9]
    }
)

print(soccer_players)

             Name Nacionalidad  Dorsal
0    Lionel Messi    Argentino      10
1  Paolo Guerrero      Peruano       9


Podemos usar el parámetro de columnas o especificar el orden de las columnas. Si queremos usar la columna de nombre para el índice de fila, podemos usar el parámetro de índice.

In [36]:
soccer_players = pd.DataFrame(
data ={
        "Name": ['Lionel Messi', 'Paolo Guerrero', 'Luis Suarez'],
        "Nacionalidad": ['Argentino', 'Peruano', 'Uruguayo'],
        "Dorsal": [10, 9, 9]
},
index =["A", "B", "C"],
)
print(soccer_players)

             Name Nacionalidad  Dorsal
A    Lionel Messi    Argentino      10
B  Paolo Guerrero      Peruano       9
C     Luis Suarez     Uruguayo       9


In [14]:
scientists = pd.DataFrame(
data ={
"Occupation": ["Chemist", "Statistician"],
"Born": ["1920-07-25", "1876-06-13"],
"Died": ["1958-04-16", "1937-10-16"],
"Age": [37, 61],
},
index =["Rosaline Franklin", "William Gosset"],
columns =["Occupation", "Born", "Age", "Died"],
)
print(scientists)

                     Occupation        Born  Age        Died
Rosaline Franklin       Chemist  1920-07-25   37  1958-04-16
William Gosset     Statistician  1876-06-13   61  1937-10-16


## Las Series

Hemos visto cómo el método de corte (slicing) afecta el tipo de resultado. Si usamos `.loc[]` para crear un subconjunto de la primera fila de un DataFrame, obtendremos un objeto Serie.

In [17]:
first_row = scientists.loc['William Gosset']
print(type(first_row))

<class 'pandas.core.series.Series'>


In [18]:
print(first_row)

Occupation    Statistician
Born            1876-06-13
Age                     61
Died            1937-10-16
Name: William Gosset, dtype: object


In [22]:
first_row = soccer_players.loc['A']
print(first_row)

Name            Lionel Messi
Nacionalidad       Argentino
Dorsal                    10
Name: A, dtype: object


Cuando se imprime una serie (es decir, la representación de cadena), el index (keys) se imprime como la primera "columna" y los valores se imprimen como la segunda "columna".

Hay muchos atributos y métodos asociados con un objeto Serie. Dos ejemplos de atributos son `.index` y `.values`.

In [23]:
print(first_row.index)

Index(['Name', 'Nacionalidad', 'Dorsal'], dtype='object')


In [29]:
print(first_row.values)
print(first_row.keys())
print(first_row.dtype)
print(first_row.shape)
print(first_row.size)

['Lionel Messi' 'Argentino' 10]
Index(['Name', 'Nacionalidad', 'Dorsal'], dtype='object')
object
(3,)
3


In [30]:
print(first_row.keys()[0])

Name


#### La serie es similar a ndarray

La estructura de datos de Pandas conocida como Serie es muy similar a `numpy.ndarray`. A su vez, muchos métodos y funciones que operan en un ndarray también operarán en una Serie. A veces se puede hacer referencia a una serie como “vector”.

###### Métodos en series

In [31]:
dorsales = soccer_players['Dorsal']
print(dorsales)

A    10
B     9
Name: Dorsal, dtype: int64


In [34]:
print(dorsales.mean())
print(dorsales.min())
print(dorsales.max())
print(dorsales.std())

9.5
9
10
0.7071067811865476


#### Subconjunto booleano: serie

In [4]:
scientists = pd.read_csv('./pandas_for_everyone-master/data/scientists.csv')
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [5]:
ages = scientists['Age']
print(ages)

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64


In [43]:
# Estadisticas basicas
ages.describe()

count     8.000000
mean     59.125000
std      18.325918
min      37.000000
25%      44.000000
50%      58.500000
75%      68.750000
max      90.000000
Name: Age, dtype: float64

In [44]:
ages.mean()

59.125

Edades superiores a la media

In [45]:
ages[ages > ages.mean()]

1    61
2    90
3    66
7    77
Name: Age, dtype: int64

In [46]:
ages > ages.mean()

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool

In [47]:
print(type(ages > ages.mean()))

<class 'pandas.core.series.Series'>


Esta declaración devuelve una serie con un `dtype` de `bool`. En otras palabras, no sólo podemos subconjuntos de valores usando etiquetas e índices, sino también proporcionar un vector de valores booleanos.

Si quisiéramos, podríamos proporcionar manualmente un vector de booleanos para subconjuntos de nuestros datos.

In [48]:
manual_bool_values = [
True, # 0
True, # 1
False, # 2
False, # 3
True, # 4
True, # 5
False, # 6
True, # 7
]
print(ages[manual_bool_values])

0    37
1    61
4    56
5    45
7    77
Name: Age, dtype: int64


#### Las operaciones se alinean y vectorizan automáticamente (difusión)
Si está familiarizado con la programación, le resultará extraño que `edades > edades.mean()` devuelva un vector sin ningún bucle for. Muchos de los métodos que funcionan en Series (y también en DataFrames) están "vectorizados", lo que significa que funcionan en todo el vector simultáneamente. Este enfoque hace que el código sea más fácil de leer y, por lo general, hay optimizaciones disponibles para agilizar los cálculos.

##### Vectores de la misma longitud

Si realiza una operación entre dos vectores de la misma longitud, el vector resultante será un cálculo elemento por elemento de los vectores.

In [6]:
print(ages + ages)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


In [7]:
print(ages * ages)

0    1369
1    3721
2    8100
3    4356
4    3136
5    2025
6    1681
7    5929
Name: Age, dtype: int64


##### Vectores con números enteros (escalares)
Cuando realiza una operación en un vector usando un escalar, el escalar se reciclará en todos los elementos del vector.

In [8]:
print(ages + 100)

0    137
1    161
2    190
3    166
4    156
5    145
6    141
7    177
Name: Age, dtype: int64


In [9]:
print(ages * 2)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


###### Vectores con diferentes longitudes

Cuando trabajas con vectores de diferentes longitudes, el comportamiento dependerá del `type()` de los vectores. Con una Serie, los vectores realizarán una operación que coincida con el índice. El resto del vector resultante se completará con un valor "faltante", denominado NaN, que significa "no es un número".

Este tipo de comportamiento, que se denomina "broadcasting", difiere según el lenguaje. La transmisión ("broadcasting" en Pandas se refiere a cómo se calculan las operaciones entre matrices con diferentes formas.

In [11]:
print(ages + pd.Series([1,2,3,4]))

0    38.0
1    63.0
2    93.0
3    70.0
4     NaN
5     NaN
6     NaN
7     NaN
dtype: float64


Con otros tipos la forma (shapes) deben coincidir:

In [12]:
import numpy as np
# Genera error
print(ages + np.array([1,100]))

ValueError: operands could not be broadcast together with shapes (8,) (2,) 

##### Vectores con etiquetas de índice comunes (alineación automática)

Lo conveniente de Pandas es que la alineación de datos casi siempre es automática. Si es posible, las cosas siempre se alinearán con la etiqueta de índice cuando se realicen acciones.

In [13]:
print(ages)

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64


In [15]:
rev_ages = ages.sort_index(ascending=False)
rev_ages

7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64

Si realizamos una operación usando ages y rev_ages, aún se realizará elemento por elemento, pero los vectores se alinearán primero antes de realizar la operación.

In [16]:
print(ages*2)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


In [18]:
print(ages + rev_ages)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


### El DataFrame

El DataFrame es el objeto Pandas más común. Se puede considerar como la forma en que Python almacena datos similares a hojas de cálculo. Muchas de las características de la estructura de datos de la Serie se trasladan al DataFrame.

#### Partes de un DataFrame

Hay 3 partes principales en un objeto Pandas DataFrame: .index, .columns y .values. Estos se refieren al nombre de la fila, los nombres de las columnas y los valores de los datos, respectivamente.

In [19]:
scientists.index

RangeIndex(start=0, stop=8, step=1)

In [20]:
scientists.columns

Index(['Name', 'Born', 'Died', 'Age', 'Occupation'], dtype='object')

In [21]:
scientists.values

array([['Rosaline Franklin', '1920-07-25', '1958-04-16', 37, 'Chemist'],
       ['William Gosset', '1876-06-13', '1937-10-16', 61, 'Statistician'],
       ['Florence Nightingale', '1820-05-12', '1910-08-13', 90, 'Nurse'],
       ['Marie Curie', '1867-11-07', '1934-07-04', 66, 'Chemist'],
       ['Rachel Carson', '1907-05-27', '1964-04-14', 56, 'Biologist'],
       ['John Snow', '1813-03-15', '1858-06-16', 45, 'Physician'],
       ['Alan Turing', '1912-06-23', '1954-06-07', 41,
        'Computer Scientist'],
       ['Johann Gauss', '1777-04-30', '1855-02-23', 77, 'Mathematician']],
      dtype=object)

Los .values son útiles cuando no desea toda la información de la etiqueta del índice de fila y realmente solo desea la representación básica de `numpy` de los datos.

#### Subconjunto booleano: DataFrames

Así como pudimos crear un subconjunto de una serie con un vector booleano, también podemos crear un subconjunto de un DataFrame con un bool.

In [22]:
scientists.loc[scientists['Age']>scientists['Age'].mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [24]:
scientists[['Age', 'Name']]

Unnamed: 0,Age,Name
0,37,Rosaline Franklin
1,61,William Gosset
2,90,Florence Nightingale
3,66,Marie Curie
4,56,Rachel Carson
5,45,John Snow
6,41,Alan Turing
7,77,Johann Gauss


In [25]:
scientists['Age']

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64

In [36]:
scientists.loc[(scientists['Name'] == 'William Gosset') | (scientists['Age'] > 70) ]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


#### Las operaciones se alinean y vectorizan automáticamente (Broadcasting 'transmisión')

Pandas admite la transmisión porque los objetos Series y DataFrame se crean sobre la biblioteca numpy. La transmisión describe lo que sucede al realizar operaciones entre objetos similares a matrices. Estos comportamientos dependen del tipo de objeto, su longitud y las etiquetas asociadas con el objeto.

In [37]:
first_half = scientists[:4]
second_half = scientists[4:]

print(first_half)
print(second_half)

                   Name        Born        Died  Age    Occupation
0     Rosaline Franklin  1920-07-25  1958-04-16   37       Chemist
1        William Gosset  1876-06-13  1937-10-16   61  Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90         Nurse
3           Marie Curie  1867-11-07  1934-07-04   66       Chemist
            Name        Born        Died  Age          Occupation
4  Rachel Carson  1907-05-27  1964-04-14   56           Biologist
5      John Snow  1813-03-15  1858-06-16   45           Physician
6    Alan Turing  1912-06-23  1954-06-07   41  Computer Scientist
7   Johann Gauss  1777-04-30  1855-02-23   77       Mathematician


Cuando realizamos una acción en un dataframe con un escalar, intentará aplicar la operación en cada celda del dataframe. En este ejemplo, los números se multiplicarán por 2 y las cadenas se duplicarán (este es el comportamiento normal de Python con las cadenas).

In [38]:
print(scientists * 2)

                                       Name                  Born  \
0        Rosaline FranklinRosaline Franklin  1920-07-251920-07-25   
1              William GossetWilliam Gosset  1876-06-131876-06-13   
2  Florence NightingaleFlorence Nightingale  1820-05-121820-05-12   
3                    Marie CurieMarie Curie  1867-11-071867-11-07   
4                Rachel CarsonRachel Carson  1907-05-271907-05-27   
5                        John SnowJohn Snow  1813-03-151813-03-15   
6                    Alan TuringAlan Turing  1912-06-231912-06-23   
7                  Johann GaussJohann Gauss  1777-04-301777-04-30   

                   Died  Age                            Occupation  
0  1958-04-161958-04-16   74                        ChemistChemist  
1  1937-10-161937-10-16  122              StatisticianStatistician  
2  1910-08-131910-08-13  180                            NurseNurse  
3  1934-07-041934-07-04  132                        ChemistChemist  
4  1964-04-141964-04-14  112     

### Haciendo cambios a Series y DataFrames

El tipo de las columnas Born y Died es objeto, lo que significa que son cadenas o una secuencia de caracteres.

In [39]:
print(scientists.dtypes)

Name          object
Born          object
Died          object
Age            int64
Occupation    object
dtype: object


Podemos convertir las cadenas a un tipo `datetime` adecuado para poder realizar operaciones comunes de fecha y hora (por ejemplo, tomar diferencias entre fechas o calcular la edad de una persona). Puede proporcionar su propio formato si tiene una fecha que tiene un formato específico. Puede encontrar una lista de variables de formato en la documentación del módulo `datetime` de Python. El formato de nuestra fecha es “YYYY-MM-DD”, por lo que podemos usar el formato %Y-%m-%d.

In [40]:
born_datetime = pd.to_datetime(scientists['Born'], format='%Y-%m-%d')
born_datetime

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]

In [41]:
died_datetime = pd.to_datetime(scientists['Died'], format='%Y-%m-%d')
died_datetime

0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]

Si quisiéramos, podríamos crear un nuevo conjunto de columnas que contengan las representaciones de fecha y hora de las fechas del objeto (cadena).

In [45]:
scientists['born_dt'], scientists['died_dt'] = [born_datetime, died_datetime]
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23


In [48]:
print(scientists.shape)
print(scientists.dtypes)

(8, 7)
Name                  object
Born                  object
Died                  object
Age                    int64
Occupation            object
born_dt       datetime64[ns]
died_dt       datetime64[ns]
dtype: object


#### Cambiar directamente una columna
También podemos asignar un nuevo valor directamente a la columna existente.

In [50]:
# el frac=1 le dice a los pandas que seleccionen aleatoriamente el 100% de los valores
# random_state hace que la aleatorización sea la misma cada vez
scientists['Age'] = scientists["Age"].sample(frac=1, random_state=42)

Para fragmentos de código largos, podemos envolver el código entre paréntesis ( ) para dividir el código en varias líneas.

In [52]:
scientists['Age'] = (
    scientists["Age"]
    .sample(frac=1, random_state=42)
)
scientists['Age']

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64

Si observa, intentamos mezclar aleatoriamente la columna, pero cuando volvimos a asignar los valores al marco de datos, volvió al orden original. Esto se debe a que Pandas intentará unirse automáticamente a los valores .index en muchas operaciones; en este ejemplo, para solucionar este problema, debemos eliminar esa información .index. Una forma de hacerlo es asignar solo los .values de los valores mezclados que no tienen ningún valor .index asociado.

In [55]:
scientists['Age'] = (
    scientists["Age"]
    .sample(frac=1, random_state=42).values
)
scientists['Age']

0   22404 days
1   16529 days
2   13779 days
3   28422 days
4   32964 days
5   20777 days
6   24345 days
7   15324 days
Name: Age, dtype: timedelta64[ns]

Podemos recalcular la edad "real" utilizando la aritmética de fecha y hora.

In [57]:
scientists['age_days'] = scientists['died_dt'] - scientists['born_dt']
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days
0,Rosaline Franklin,1920-07-25,1958-04-16,22404 days,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,16529 days,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,13779 days,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,28422 days,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,32964 days,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,20777 days,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,24345 days,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,15324 days,Mathematician,1777-04-30,1855-02-23,28422 days


Convertir los dias a añoos

In [59]:
scientists['age_years'] = (
    scientists['age_days'].astype('timedelta64[Y]')
)
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days,age_years
0,Rosaline Franklin,1920-07-25,1958-04-16,22404 days,Chemist,1920-07-25,1958-04-16,13779 days,37.0
1,William Gosset,1876-06-13,1937-10-16,16529 days,Statistician,1876-06-13,1937-10-16,22404 days,61.0
2,Florence Nightingale,1820-05-12,1910-08-13,13779 days,Nurse,1820-05-12,1910-08-13,32964 days,90.0
3,Marie Curie,1867-11-07,1934-07-04,28422 days,Chemist,1867-11-07,1934-07-04,24345 days,66.0
4,Rachel Carson,1907-05-27,1964-04-14,32964 days,Biologist,1907-05-27,1964-04-14,20777 days,56.0
5,John Snow,1813-03-15,1858-06-16,20777 days,Physician,1813-03-15,1858-06-16,16529 days,45.0
6,Alan Turing,1912-06-23,1954-06-07,24345 days,Computer Scientist,1912-06-23,1954-06-07,15324 days,41.0
7,Johann Gauss,1777-04-30,1855-02-23,15324 days,Mathematician,1777-04-30,1855-02-23,28422 days,77.0


#### Modificando columnas con `.assign()`
Otra forma de asignar y modificar columnas es con el método `.assign()`. Esto tiene la ventaja de utilizar el encadenamiento de métodos.

En la sintaxis: la nueva columna va a la izquierda del signo igual, el cómo calcular valores a la derecha del signo igual. Si son más columnas, separe las columnas nuevas con una coma.

In [60]:
scientists = scientists.assign(
    age_days_assign = scientists['died_dt'] - scientists['born_dt'],
    age_year_assign = scientists['age_days'].astype('timedelta64[Y]')
)
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days,age_years,age_days_assign,age_year_assign
0,Rosaline Franklin,1920-07-25,1958-04-16,22404 days,Chemist,1920-07-25,1958-04-16,13779 days,37.0,13779 days,37.0
1,William Gosset,1876-06-13,1937-10-16,16529 days,Statistician,1876-06-13,1937-10-16,22404 days,61.0,22404 days,61.0
2,Florence Nightingale,1820-05-12,1910-08-13,13779 days,Nurse,1820-05-12,1910-08-13,32964 days,90.0,32964 days,90.0
3,Marie Curie,1867-11-07,1934-07-04,28422 days,Chemist,1867-11-07,1934-07-04,24345 days,66.0,24345 days,66.0
4,Rachel Carson,1907-05-27,1964-04-14,32964 days,Biologist,1907-05-27,1964-04-14,20777 days,56.0,20777 days,56.0
5,John Snow,1813-03-15,1858-06-16,20777 days,Physician,1813-03-15,1858-06-16,16529 days,45.0,16529 days,45.0
6,Alan Turing,1912-06-23,1954-06-07,24345 days,Computer Scientist,1912-06-23,1954-06-07,15324 days,41.0,15324 days,41.0
7,Johann Gauss,1777-04-30,1855-02-23,15324 days,Mathematician,1777-04-30,1855-02-23,28422 days,77.0,28422 days,77.0


#### Eliminando valores

Para eliminar una columna, podemos seleccionar todas las columnas que queramos usando las técnicas de subconjunto de columnas, o seleccionar columnas para eliminar con el método `.drop()` en nuestro Dataframe

In [61]:
print(scientists.columns)

Index(['Name', 'Born', 'Died', 'Age', 'Occupation', 'born_dt', 'died_dt',
       'age_days', 'age_years', 'age_days_assign', 'age_year_assign'],
      dtype='object')


Se proporciona el argumento axis=1 para eliminarlo en columnas

In [64]:
scientists_dropped = scientists.drop(['Age'], axis='columns')
scientists_dropped.columns

Index(['Name', 'Born', 'Died', 'Occupation', 'born_dt', 'died_dt', 'age_days',
       'age_years', 'age_days_assign', 'age_year_assign'],
      dtype='object')

In [65]:
scientists_dropped = scientists.drop(['Age', 'Born'], axis=1)
scientists_dropped

Unnamed: 0,Name,Died,Occupation,born_dt,died_dt,age_days,age_years,age_days_assign,age_year_assign
0,Rosaline Franklin,1958-04-16,Chemist,1920-07-25,1958-04-16,13779 days,37.0,13779 days,37.0
1,William Gosset,1937-10-16,Statistician,1876-06-13,1937-10-16,22404 days,61.0,22404 days,61.0
2,Florence Nightingale,1910-08-13,Nurse,1820-05-12,1910-08-13,32964 days,90.0,32964 days,90.0
3,Marie Curie,1934-07-04,Chemist,1867-11-07,1934-07-04,24345 days,66.0,24345 days,66.0
4,Rachel Carson,1964-04-14,Biologist,1907-05-27,1964-04-14,20777 days,56.0,20777 days,56.0
5,John Snow,1858-06-16,Physician,1813-03-15,1858-06-16,16529 days,45.0,16529 days,45.0
6,Alan Turing,1954-06-07,Computer Scientist,1912-06-23,1954-06-07,15324 days,41.0,15324 days,41.0
7,Johann Gauss,1855-02-23,Mathematician,1777-04-30,1855-02-23,28422 days,77.0,28422 days,77.0


### Exportando e importando Datos

#### Pickle

Python tiene una forma de conservar datos. Esta es la forma en que Python serializa y guarda datos en formato binario. La lectura de datos de pickle también es compatible con versiones anteriores. Los archivos pickle generalmente se guardan con una extensión de .p, .pkl o .pickle.

La salida de pickle está en formato binario. Si intentas abrirlo en un editor de texto, verás un montón de caracteres confusos.
Si el objeto que está guardando es un paso intermedio en un conjunto de cálculos que desea guardar, o si sabe que sus datos permanecerán en el mundo de Python, guardar objetos en un pickle se optimizará para Python y el espacio de almacenamiento en disco. Sin embargo, este enfoque significa que las personas que no usan Python no podrán leer los datos.

##### Series

In [66]:
names = scientists['Name']
names

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object

In [67]:
names.to_pickle('nombres.pickle')

##### DataFrame

In [70]:
scientists.to_pickle('nombres_df.pickle')

##### Read pickle data

In [71]:
series_pickle = pd.read_pickle('nombres.pickle')
print(series_pickle)

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


In [73]:
df_pickle = pd.read_pickle('nombres_df.pickle')
df_pickle

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days,age_years,age_days_assign,age_year_assign
0,Rosaline Franklin,1920-07-25,1958-04-16,22404 days,Chemist,1920-07-25,1958-04-16,13779 days,37.0,13779 days,37.0
1,William Gosset,1876-06-13,1937-10-16,16529 days,Statistician,1876-06-13,1937-10-16,22404 days,61.0,22404 days,61.0
2,Florence Nightingale,1820-05-12,1910-08-13,13779 days,Nurse,1820-05-12,1910-08-13,32964 days,90.0,32964 days,90.0
3,Marie Curie,1867-11-07,1934-07-04,28422 days,Chemist,1867-11-07,1934-07-04,24345 days,66.0,24345 days,66.0
4,Rachel Carson,1907-05-27,1964-04-14,32964 days,Biologist,1907-05-27,1964-04-14,20777 days,56.0,20777 days,56.0
5,John Snow,1813-03-15,1858-06-16,20777 days,Physician,1813-03-15,1858-06-16,16529 days,45.0,16529 days,45.0
6,Alan Turing,1912-06-23,1954-06-07,24345 days,Computer Scientist,1912-06-23,1954-06-07,15324 days,41.0,15324 days,41.0
7,Johann Gauss,1777-04-30,1855-02-23,15324 days,Mathematician,1777-04-30,1855-02-23,28422 days,77.0,28422 days,77.0


#### CSV

Los valores separados por comas (CSV) son el tipo de almacenamiento de datos más flexible. Para cada fila, la información de la columna está separada por una coma. Sin embargo, la coma no es el único tipo de delimitador. Algunos archivos están delimitados por una tabulación (TSV) o incluso por un punto y coma. La razón principal por la que los CSV son el formato de datos preferido al colaborar y compartir datos es porque cualquier programa puede abrir este tipo de estructura de datos. Incluso se puede abrir en un editor de texto. Sin embargo, el formato de almacenamiento universal tiene un precio. Los archivos CSV suelen ser más lentos y ocupan más espacio en disco en comparación con otros formatos binarios.

Series y DataFrame tienen un método `.to_csv()` para escribir un archivo CSV. La documentación de Series y DataFrame identifica muchas formas diferentes de modificar el archivo CSV resultante. Por ejemplo, si desea guardar un archivo TSV porque hay comas en sus datos, puede cambiar el parámetro `sep`.

De forma predeterminada, el `.index` de un DataFrame se escribe en el archivo CSV. Esto crea un archivo donde la primera columna no tiene nombre y solo contiene los números de fila del marco de datos que se está guardando. Esta columna extraña en el CSV se vuelve problemática cuando intentas volver a leer el CSV en Pandas. Por lo tanto, normalmente colocamos el parámetro index=False al guardar archivos CSV para evitar este problema.

##### Importar CSV

Usa `pd.read_csv()`. ['La documentacion'](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

#### Excel

Excel, es probablemente el tipo de datos más utilizado (o el segundo más utilizado, después de los CSV)

##### Series

La estructura de datos de la Serie no tiene un método `.to_excel()` explícito. Si tiene una serie que necesita exportarse a un archivo de Excel, una opción es convertir la serie en un DataFrame de una columna.
Antes de guardar y leer archivos de Excel, asegúrese de tener instalada la biblioteca `openpyxl`.

In [74]:
# Convertiendo las series a Dataframe

names_df = names.to_frame()
names_df

Unnamed: 0,Name
0,Rosaline Franklin
1,William Gosset
2,Florence Nightingale
3,Marie Curie
4,Rachel Carson
5,John Snow
6,Alan Turing
7,Johann Gauss


In [75]:
names_df.to_excel('names.xls')

  """Entry point for launching an IPython kernel.


ModuleNotFoundError: No module named 'xlwt'

##### DataFrames

En el ejemplo anterior, puede ver cómo exportar un DataFrame a un archivo de Excel. La [documentación](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html) muestra varias formas de ajustar aún más la salida. Por ejemplo, puede enviar datos a una "hoja" específica utilizando el parámetro nombre_hoja.

#### Feather

El formato llamado "pluma" se utiliza para guardar DataFrames en un objeto binario que también se puede cargar en otros lenguajes (por ejemplo, R). El principal beneficio de este enfoque es que es más rápido que escribir y leer un archivo CSV entre idiomas.

Para instalarlo: `pip install pyarrow`.

In [None]:
scientists.to_feather('my_feather_file.feather')

In [None]:
sci_feather = pd.read_feather('my_feather_file.feather')

#### Arrow

Los archivos Feather son parte del proyecto Apache Arrow. Uno de los principales objetivos de Arrow es tener un formato de almacenamiento de memoria para objetos del DataFrame que funcionen en múltiples lenguajes de programación sin tener que convertir tipos para cada uno de ellos.

#### Dictionary

Los objetos Pandas Series y DataFrame también tienen un método `.to_dict()`. Esto convierte el objeto en un objeto de diccionario de Python. Este formato es particularmente útil si tiene un DataFrame o una Serie y desea utilizar los datos de fuera de Pandas.

In [78]:
# Primeras dos filas
sci_sub_dict = scientists.head(2)
sci_sub_dict

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days,age_years,age_days_assign,age_year_assign
0,Rosaline Franklin,1920-07-25,1958-04-16,22404 days,Chemist,1920-07-25,1958-04-16,13779 days,37.0,13779 days,37.0
1,William Gosset,1876-06-13,1937-10-16,16529 days,Statistician,1876-06-13,1937-10-16,22404 days,61.0,22404 days,61.0


In [79]:
sci_dict = sci_sub_dict.to_dict()
sci_dict

{'Name': {0: 'Rosaline Franklin', 1: 'William Gosset'},
 'Born': {0: '1920-07-25', 1: '1876-06-13'},
 'Died': {0: '1958-04-16', 1: '1937-10-16'},
 'Age': {0: Timedelta('22404 days 00:00:00'),
  1: Timedelta('16529 days 00:00:00')},
 'Occupation': {0: 'Chemist', 1: 'Statistician'},
 'born_dt': {0: Timestamp('1920-07-25 00:00:00'),
  1: Timestamp('1876-06-13 00:00:00')},
 'died_dt': {0: Timestamp('1958-04-16 00:00:00'),
  1: Timestamp('1937-10-16 00:00:00')},
 'age_days': {0: Timedelta('13779 days 00:00:00'),
  1: Timedelta('22404 days 00:00:00')},
 'age_years': {0: 37.0, 1: 61.0},
 'age_days_assign': {0: Timedelta('13779 days 00:00:00'),
  1: Timedelta('22404 days 00:00:00')},
 'age_year_assign': {0: 37.0, 1: 61.0}}

Leer el diccinario en pandas:

In [80]:
sci_dict_df = pd.DataFrame.from_dict(sci_dict)
sci_dict_df

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days,age_years,age_days_assign,age_year_assign
0,Rosaline Franklin,1920-07-25,1958-04-16,22404 days,Chemist,1920-07-25,1958-04-16,13779 days,37.0,13779 days,37.0
1,William Gosset,1876-06-13,1937-10-16,16529 days,Statistician,1876-06-13,1937-10-16,22404 days,61.0,22404 days,61.0


**Ojo**:

Debido a que el conjunto de datos de los científicos con el que estamos trabajando incluye fechas y horas, no podemos simplemente copiar y pegar el diccionario como una cadena en la función pd.DataFrame.from_dict(). Obtendrá un NameError: el nombre 'Timedelta' no está definido.
Las fechas y horas se almacenan en un formato diferente al que se imprime en la pantalla. Dependiendo del tipo de dtype almacenado en las columnas, su capacidad de simplemente copiar y pegar la salida .to_dict() puede o no devolver exactamente el mismo marco de datos.
Si necesita una forma de trabajar con fechas, necesitará convertirla a un formato más general y convertir el valor nuevamente a una fecha.

#### JSON

Los datos JSON son otro formato de archivo de texto sin formato común. El beneficio de usar `.to_json()` es que puede convertir fechas y horas para que usted pueda volver a leerlas en Pandas. Al usar `orient='records'` podemos pasar la variable o copiar y pegar desde la salida para cargarla nuevamente en Pandas. La `indent=2` permite que la salida se imprima un poco mejor en la pantalla.

In [81]:
sci_json = sci_sub_dict.to_json(orient='records', indent=2, date_format='iso')
print(sci_json)
# pprint.pprint(sci_json)

[
  {
    "Name":"Rosaline Franklin",
    "Born":"1920-07-25",
    "Died":"1958-04-16",
    "Age":"P22404DT0H0M0S",
    "Occupation":"Chemist",
    "born_dt":"1920-07-25T00:00:00.000Z",
    "died_dt":"1958-04-16T00:00:00.000Z",
    "age_days":"P13779DT0H0M0S",
    "age_years":37.0,
    "age_days_assign":"P13779DT0H0M0S",
    "age_year_assign":37.0
  },
  {
    "Name":"William Gosset",
    "Born":"1876-06-13",
    "Died":"1937-10-16",
    "Age":"P16529DT0H0M0S",
    "Occupation":"Statistician",
    "born_dt":"1876-06-13T00:00:00.000Z",
    "died_dt":"1937-10-16T00:00:00.000Z",
    "age_days":"P22404DT0H0M0S",
    "age_years":61.0,
    "age_days_assign":"P22404DT0H0M0S",
    "age_year_assign":61.0
  }
]


Copiar para recrear el dataframe:

In [84]:
sci_json_df = pd.read_json(
('[\n'
' {\n'
' "Name":"Rosaline Franklin",\n'
' "Born":"1920-07-25",\n'
' "Died":"1958-04-16",\n'
' "Age":61,\n'
' "Occupation":"Chemist",\n'
' "born_dt":"1920-07-25T00:00:00.000Z",\n'
' "died_dt":"1958-04-16T00:00:00.000Z",\n'
' "age_days":"P13779DT0H0M0S",\n'
' "age_years":37.0,\n'
' "age_days_assign":"P13779DT0H0M0S",\n'
' "age_year_assign":37.0\n'
' },\n'
' {\n'
' "Name":"William Gosset",\n'
' "Born":"1876-06-13",\n'
' "Died":"1937-10-16",\n'
' "Age":45,\n'
' "Occupation":"Statistician",\n'
' "born_dt":"1876-06-13T00:00:00.000Z",\n'
' "died_dt":"1937-10-16T00:00:00.000Z",\n'
' "age_days":"P22404DT0H0M0S",\n'
' "age_years":61.0,\n'
' "age_days_assign":"P22404DT0H0M0S",\n'
' "age_year_assign":61.0\n'
' }\n'
']'), orient='records'
)
sci_json_df

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days,age_years,age_days_assign,age_year_assign
0,Rosaline Franklin,1920-07-25,1958-04-16,61,Chemist,1920-07-25T00:00:00.000Z,1958-04-16T00:00:00.000Z,P13779DT0H0M0S,37,P13779DT0H0M0S,37
1,William Gosset,1876-06-13,1937-10-16,45,Statistician,1876-06-13T00:00:00.000Z,1937-10-16T00:00:00.000Z,P22404DT0H0M0S,61,P22404DT0H0M0S,61


In [88]:
sci_json_df.dtypes

Name               object
Born               object
Died               object
Age                 int64
Occupation         object
born_dt            object
died_dt            object
age_days           object
age_years           int64
age_days_assign    object
age_year_assign     int64
dtype: object

¿Observa cómo todas las fechas son diferentes de los valores originales? Esto se debe a que elegimos convertir las fechas al formato de cadena ISO 8601. Si queremos recuperar el objeto de fecha y hora original, debemos convertir esa representación nuevamente en una fecha.