# Pandas

1. `DataFrames` y  `Series`
2. Operaciones básicas

`pandas` es una librería que proporciona herramientas analíticas y estructuras de datos con alto rendimiento y facilidad de uso. En particular, la clase `DataFrame` es útil para representación y manipulación de datos heterogéneos tabulados (hojas de cálculo, tabla SQL, etc.)   

## Características
- Ofrece estructuras de datos flexibles y expresivas diseñadas para trabajar con datos tabulados y etiquetados, esta son: `Series` y  `DataFrame`.
- Posee herramientas robustas de lectura/escritura de datos desde ficheros con formatos conocidos como: CSV, XLS. SQL, HDF5, entre otros.
- Permite filtrar, agregar, o eliminar datos.
- Combina las características de las matrices de alto rendimiento de `numpy` con capacidades de manipulación de datos tabulados.

Para importar los módulos de la librería `pandas`, por convención se utiliza:

In [28]:
import pandas as pd  # 'pd' alias de pandas
import numpy as np

## DataFrames y Series

Las funcionalidades de `pandas` se basan en dos estructuras de datos fundamentales: *Series* y *DataFrames*.

Una `Series` es un objeto que contiene un `array` unidimensional de datos y un `array` de etiquetas, conocido como *índice*. Si no se especifica un índice o etiqueta, este se genera internamente como una secuencia ordenada de números enteros.

```python
s = pd.Series(data, index=index)
```

Un `DataFrame` es una estructura de datos que almacena datos de forma tabular, es decir, ordenada en filas y columnas etiquetadas. Cada fila (`row`) contiene una observación y cada columna (`column`) una variable. Un `DataFrame` acepta datos heterogéneos, es decir, variables pueden ser de distinto tipo (numérico, string, boolean, etc.). Además de contener datos, un `DataFrame` contiene el nombre de las variables y sus tipos, y métodos que permiten acceder y modificar los datos.

```python
s = pd.DataFrame(data, ...)
```

Las `Series` y `DataFrame` permiten representar datos 1D y 2D. Para representar datos con más dimensiones `pandas` posee otras estructuras de datos más complejas (en fase experimental), llamadas `Panel`, `Panel4D`, `PanelND`. Estas estructuras están fuera del alcance de este curso.

---
# Series en Pandas

## Creación de Series


In [29]:
# Crear una Series con índices automáticos a partir de una lista

serie = pd.Series([1979, 1980, 1981, 1982])
serie

0    1979
1    1980
2    1981
3    1982
dtype: int64

Las `Series` poseen dos atributos: `values`  e `index`. El primero es un `numpy array` que almacena los datos, y el segundo es un objeto que contiene los índices.

In [30]:
serie.values

array([1979, 1980, 1981, 1982])

In [31]:
serie.index

RangeIndex(start=0, stop=4, step=1)

Al crear una `Series` se puede definir explícitamente un `array` índice y pasarlo como argumento.

In [32]:
# Crear Series con índices definidos

serie = pd.Series(data=[1979, 1980, 1981, 1982, 1983],
                  index=['carolina', 'carla', 'andrea', 'teresa', 'andrea'])
serie

carolina    1979
carla       1980
andrea      1981
teresa      1982
andrea      1983
dtype: int64

También se pueden crear `Series` a partir de diccionarios, `numpy arrays`, desde ficheros, etc.

In [33]:
# Serie a partir de un numpy array

serie = pd.Series(np.random.randn(10))
serie

0    1.385080
1    1.549450
2   -0.173924
3    2.086001
4    0.316666
5    0.511983
6    0.216676
7   -1.112350
8    0.742579
9    1.762438
dtype: float64

In [34]:
# Serie a partir de un diccionario

dicc = {'cuadrado de {}'.format(i): i * i for i in range(11)}
print(dicc)

{'cuadrado de 1': 1, 'cuadrado de 6': 36, 'cuadrado de 4': 16, 'cuadrado de 7': 49, 'cuadrado de 5': 25, 'cuadrado de 0': 0, 'cuadrado de 9': 81, 'cuadrado de 8': 64, 'cuadrado de 2': 4, 'cuadrado de 3': 9, 'cuadrado de 10': 100}


In [35]:
serie_dicc = pd.Series(dicc)
serie_dicc

cuadrado de 0       0
cuadrado de 1       1
cuadrado de 10    100
cuadrado de 2       4
cuadrado de 3       9
cuadrado de 4      16
cuadrado de 5      25
cuadrado de 6      36
cuadrado de 7      49
cuadrado de 8      64
cuadrado de 9      81
dtype: int64

In [38]:
# Serie a partir de fichero
# Al asignar una columna y el squeeze a True convierte el resultado en Series en lugar de Dataframe

serie_pokemon = pd.read_csv('../data/pokemon.csv',squeeze=True, usecols=['Name'])
serie_pokemon

0                   Bulbasaur
1                     Ivysaur
2                    Venusaur
3               Mega Venusaur
4                  Charmander
5                  Charmeleon
6                   Charizard
7            Mega Charizard X
8            Mega Charizard Y
9                    Squirtle
10                  Wartortle
11                  Blastoise
12             Mega Blastoise
13                   Caterpie
14                    Metapod
15                 Butterfree
16                     Weedle
17                     Kakuna
18                   Beedrill
19              Mega Beedrill
20                     Pidgey
21                  Pidgeotto
22                    Pidgeot
23               Mega Pidgeot
24                    Rattata
25                   Raticate
26                    Spearow
27                     Fearow
28                      Ekans
29                      Arbok
                ...          
770                   Sylveon
771                  Hawlucha
772       

---
## Acceso a datos en Series


El acceso a los datos se puede realizar mediante el índice categórico o el numérico que genera internamente Pandas

In [39]:
# Creamos de nuevo la serie inicial

serie = pd.Series(data=[1979, 1980, 1981, 1982, 1983],
                  index=['carolina', 'carla', 'andrea', 'teresa', 'andrea'])
serie

carolina    1979
carla       1980
andrea      1981
teresa      1982
andrea      1983
dtype: int64

In [40]:
# Indexación mediante etiqueta
print(serie['carla'])

1980


In [41]:
# Indexación mediante índice numérico interno
print(serie[1])

1980


In [42]:
# El índice puede contener valores duplicados
print(serie['andrea'])

andrea    1981
andrea    1983
dtype: int64


Podemos seleccionar varios valores indicando un intervalo de índices

In [43]:
# Recuperamos desde el valor de la posición 1 (el primer elemento tiene un index = 0) hasta el final del índice.
serie[1:]

carla     1980
andrea    1981
teresa    1982
andrea    1983
dtype: int64

In [44]:
# Recuperamos los elementos desde la posición 1 a la 2
serie[1:3]

carla     1980
andrea    1981
dtype: int64

In [45]:
# Podemos usar también índices negativos
serie[-4:-2]

carla     1980
andrea    1981
dtype: int64

---
## Métodos en Series

Para **añadir** nuevos elementos a una Series usamos el método `append`:

In [46]:
s1 = pd.Series(np.arange(10))
s2 = pd.Series(np.arange(10, 21))

s3 = s1.append(s2)
s3

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
0     10
1     11
2     12
3     13
4     14
5     15
6     16
7     17
8     18
9     19
10    20
dtype: int64

In [47]:
# Se mantienen los índices de cada serie
s3[1]

1     1
1    11
dtype: int64

También podemos concatenar series generando un índice nuevo:

In [48]:
s3 = s1.append(s2, ignore_index=True)
s3

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
20    20
dtype: int64

In [49]:
s3[1]

1

In [50]:
max(s1.index)

9

In [51]:
# set_value edita el contenido del índice indicado o añade un nuevo item si no existe el índice
s4 = s1.set_value(5, 100)
s4

  


0      0
1      1
2      2
3      3
4      4
5    100
6      6
7      7
8      8
9      9
dtype: int64

In [52]:
# El méotdo pop devuelve y elimina de la serie original el valor del índice pasado
val_pop = s1.pop(3)
print(val_pop)
print(s1)

3
0      0
1      1
2      2
4      4
5    100
6      6
7      7
8      8
9      9
dtype: int64


In [53]:
# Ordena los valores, por defecto de menos a más.

serie_pokemon.sort_values()

510                 Abomasnow
68                       Abra
392                     Absol
678                  Accelgor
750     Aegislash Blade Forme
751    Aegislash Shield Forme
153                Aerodactyl
332                    Aggron
205                     Aipom
70                   Alakazam
655                 Alomomola
365                   Altaria
768                    Amaura
471                   Ambipom
652                 Amoonguss
195                  Ampharos
379                   Anorith
29                      Arbok
64                   Arcanine
552                    Arceus
627                    Archen
628                  Archeops
182                   Ariados
380                   Armaldo
753                Aromatisse
330                      Aron
156                  Articuno
590                    Audino
769                   Aurorus
789                   Avalugg
                ...          
604                Whirlipede
372                  Whiscash
317       

In [54]:
# Ordenamos de forma descendente

serie_pokemon.sort_values(ascending=False)

794        Zygarde Half Forme
695                  Zweilous
46                      Zubat
631                     Zorua
632                   Zoroark
286                 Zigzagoon
707                    Zekrom
582                 Zebstrika
157                    Zapdos
367                  Zangoose
793                   Yveltal
520                   Yanmega
208                     Yanma
623                    Yamask
792                   Xerneas
192                      Xatu
394                    Wynaut
288                   Wurmple
460      Wormadam Trash Cloak
459      Wormadam Sandy Cloak
458      Wormadam Plant Cloak
209                    Wooper
586                    Woobat
217                 Wobbuffet
301                   Wingull
45                 Wigglytuff
317                   Whismur
372                  Whiscash
604                Whirlipede
607                Whimsicott
                ...          
769                   Aurorus
590                    Audino
156       

In [25]:
# Para que los cambios modifique realmente la serie hay que indicarlo mediante el parámetro inplace
serie_pokemon.sort_values(inplace=True)
serie_pokemon

510                 Abomasnow
68                       Abra
392                     Absol
678                  Accelgor
750     Aegislash Blade Forme
751    Aegislash Shield Forme
153                Aerodactyl
332                    Aggron
205                     Aipom
70                   Alakazam
655                 Alomomola
365                   Altaria
768                    Amaura
471                   Ambipom
652                 Amoonguss
195                  Ampharos
379                   Anorith
29                      Arbok
64                   Arcanine
552                    Arceus
627                    Archen
628                  Archeops
182                   Ariados
380                   Armaldo
753                Aromatisse
330                      Aron
156                  Articuno
590                    Audino
769                   Aurorus
789                   Avalugg
                ...          
604                Whirlipede
372                  Whiscash
317       

In [26]:
# Si queremos ordernar mediante el índice recurrimos a sort_index()

serie_pokemon.sort_index()

0                   Bulbasaur
1                     Ivysaur
2                    Venusaur
3               Mega Venusaur
4                  Charmander
5                  Charmeleon
6                   Charizard
7            Mega Charizard X
8            Mega Charizard Y
9                    Squirtle
10                  Wartortle
11                  Blastoise
12             Mega Blastoise
13                   Caterpie
14                    Metapod
15                 Butterfree
16                     Weedle
17                     Kakuna
18                   Beedrill
19              Mega Beedrill
20                     Pidgey
21                  Pidgeotto
22                    Pidgeot
23               Mega Pidgeot
24                    Rattata
25                   Raticate
26                    Spearow
27                     Fearow
28                      Ekans
29                      Arbok
                ...          
770                   Sylveon
771                  Hawlucha
772       

In [55]:
# Nos devuelve el número de items de cada elemento
serie_pokemon.value_counts()

Noibat                      1
Crawdaunt                   1
Hawlucha                    1
Skiploom                    1
Mega Lucario                1
Mega Pidgeot                1
Glameow                     1
Loudred                     1
Surskit                     1
Marshtomp                   1
Dugtrio                     1
Emboar                      1
Cinccino                    1
Gible                       1
Mega Charizard X            1
Barbaracle                  1
Patrat                      1
Klink                       1
Finneon                     1
Beartic                     1
Wartortle                   1
Goodra                      1
Qwilfish                    1
Porygon2                    1
Flygon                      1
Staravia                    1
Pansage                     1
Jigglypuff                  1
Cubone                      1
Phantump                    1
                           ..
Charizard                   1
Shuckle                     1
Ralts     

In [56]:
# El método apply permite aplicar una función a todos los elementos de la serie.

serie_pokemon.apply(lambda name: str(name)+'_blue')

0                   Bulbasaur_blue
1                     Ivysaur_blue
2                    Venusaur_blue
3               Mega Venusaur_blue
4                  Charmander_blue
5                  Charmeleon_blue
6                   Charizard_blue
7            Mega Charizard X_blue
8            Mega Charizard Y_blue
9                    Squirtle_blue
10                  Wartortle_blue
11                  Blastoise_blue
12             Mega Blastoise_blue
13                   Caterpie_blue
14                    Metapod_blue
15                 Butterfree_blue
16                     Weedle_blue
17                     Kakuna_blue
18                   Beedrill_blue
19              Mega Beedrill_blue
20                     Pidgey_blue
21                  Pidgeotto_blue
22                    Pidgeot_blue
23               Mega Pidgeot_blue
24                    Rattata_blue
25                   Raticate_blue
26                    Spearow_blue
27                     Fearow_blue
28                  

In [29]:
# Para ver información adicional de un método

help(s1.set_value)

Help on method set_value in module pandas.core.series:

set_value(label, value, takeable=False) method of pandas.core.series.Series instance
    Quickly set single value at passed label. If label is not contained, a
    new object is created with the label placed at the end of the result
    index
    
    .. deprecated:: 0.21.0
    
    Please use .at[] or .iat[] accessors.
    
    Parameters
    ----------
    label : object
        Partial indexing with MultiIndex not allowed
    value : object
        Scalar value
    takeable : interpret the index as indexers, default False
    
    Returns
    -------
    series : Series
        If label is contained, will be reference to calling Series,
        otherwise a new object



In [30]:
# Muestra una lista de funciones del objeto Series

dir(serie_dicc)  

['T',
 '_AXIS_ALIASES',
 '_AXIS_IALIASES',
 '_AXIS_LEN',
 '_AXIS_NAMES',
 '_AXIS_NUMBERS',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_AXIS_SLICEMAP',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_prepare__',
 '__array_priority__',
 '__array_wrap__',
 '__bool__',
 '__bytes__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__div__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__long__',
 '__lt__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pow__',
 '__

---
# Dataframes en Pandas

## Creación de Dataframes

A diferencia de `Series`, los `DataFrame` están diseñados para almacenar datos heterogéneos multivariables. Por ejemplo:

In [59]:
# Índice de filas automático

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [60]:
# DataFrame a partir de un diccionario de listas e índice

df = pd.DataFrame({'nombre': ['Pablo', 'Teresa'],
                   'score': [22.2, 33.3]},
                  index=['pacunar', 'tono'])
df

Unnamed: 0,nombre,score
pacunar,Pablo,22.2
tono,Teresa,33.3


In [61]:
# Dataframe a partir fichero

nba = pd.read_csv('../data/nba.csv')
nba

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky
5,Gene Berce,180.0,79.0,Marquette University,1926.0,,
6,Charlie Black,196.0,90.0,University of Kansas,1921.0,Arco,Idaho
7,Nelson Bobb,183.0,77.0,Temple University,1924.0,Philadelphia,Pennsylvania
8,Jake Bornheimer,196.0,90.0,Muhlenberg College,1927.0,New Brunswick,New Jersey
9,Vince Boryla,196.0,95.0,University of Denver,1927.0,East Chicago,Indiana


In [35]:
nba.index

RangeIndex(start=0, stop=3922, step=1)

Se pueden consultar el nombre de las variables usando el atributo `columns`

In [36]:
nba.columns

Index(['Player', 'height', 'weight', 'collage', 'born', 'birth_city',
       'birth_state'],
      dtype='object')

Adicionalemnte `Pandas` permite crear Dataframes a partir de otras fuentes, como son jsons, urls...

---
## Acceso a datos en Dataframes


Se pueden extraer columnas de un `DataFrame` con la etiqueta de la columna (sólo si es un identificador Python válido)  usando notación tipo diccionario o como atributo del objeto. En ambos casos se obtiene un objeto tipo `Series`.

In [63]:
nba['Player']  # tipo diccionario

0             Curly Armstrong
1                Cliff Barker
2               Leo Barnhorst
3                  Ed Bartels
4                 Ralph Beard
5                  Gene Berce
6               Charlie Black
7                 Nelson Bobb
8             Jake Bornheimer
9                Vince Boryla
10                  Don Boven
11              Harry Boykoff
12                Joe Bradley
13                Bob Brannum
14                 Carl Braun
15              Frankie Brian
16           Price Brookfield
17                  Bob Brown
18                 Jim Browne
19                 Walt Budko
20             Jack Burmaster
21               Tommy Byrnes
22               Bill Calhoun
23                Don Carlson
24              Bob Carpenter
25                Jake Carter
26                  Al Cervi*
27                John Chaney
28              Leroy Chollet
29                 Bill Closs
                ...          
3892           Chinanu Onuaku
3893     Georgios Papagiannis
3894      

In [38]:
nba.Player  # tipo atributo

0             Curly Armstrong
1                Cliff Barker
2               Leo Barnhorst
3                  Ed Bartels
4                 Ralph Beard
5                  Gene Berce
6               Charlie Black
7                 Nelson Bobb
8             Jake Bornheimer
9                Vince Boryla
10                  Don Boven
11              Harry Boykoff
12                Joe Bradley
13                Bob Brannum
14                 Carl Braun
15              Frankie Brian
16           Price Brookfield
17                  Bob Brown
18                 Jim Browne
19                 Walt Budko
20             Jack Burmaster
21               Tommy Byrnes
22               Bill Calhoun
23                Don Carlson
24              Bob Carpenter
25                Jake Carter
26                  Al Cervi*
27                John Chaney
28              Leroy Chollet
29                 Bill Closs
                ...          
3892           Chinanu Onuaku
3893     Georgios Papagiannis
3894      

In [39]:
# Mediante la notación de dobles [] obtenemos un Dataframe en lugar de una Serie

nba[['Player']]


Unnamed: 0,Player
0,Curly Armstrong
1,Cliff Barker
2,Leo Barnhorst
3,Ed Bartels
4,Ralph Beard
5,Gene Berce
6,Charlie Black
7,Nelson Bobb
8,Jake Bornheimer
9,Vince Boryla


In [64]:
type(nba.Player), type(nba['Player']), type(nba[['Player']])

(pandas.core.series.Series,
 pandas.core.series.Series,
 pandas.core.frame.DataFrame)

In [65]:
# Podemos recuperar varias columnas a la vez

nba[['Player','height']]

Unnamed: 0,Player,height
0,Curly Armstrong,180.0
1,Cliff Barker,188.0
2,Leo Barnhorst,193.0
3,Ed Bartels,196.0
4,Ralph Beard,178.0
5,Gene Berce,180.0
6,Charlie Black,196.0
7,Nelson Bobb,183.0
8,Jake Bornheimer,196.0
9,Vince Boryla,196.0


Para acceder a las filas, se puede usar el atributo `ix` o la función `iloc`.

In [66]:
# Permite acceder al contenido de un registro mediante la etiqueta del índice

df.loc['tono']

nombre    Teresa
score       33.3
Name: tono, dtype: object

In [43]:
# Permite acceder al contenido de un registro mediante la posición del índice

df.iloc[1]

nombre    Teresa
score       33.3
Name: tono, dtype: object

In [44]:
# Podemos acceder a un valor concreto usando el acceso a datos visto anteriormente en Series

df.iloc[1]['score']

33.3

---
## Métodos en Dataframes


Vemos algunos métodos útiles de la clase Dataframe

In [69]:
import pandas as pd
data = pd.read_csv('../data/baseball.csv', sep=',')
type(data)

pandas.core.frame.DataFrame

In [70]:
# Nos indica el número de columnas y filas del dataframe

data.shape

(100, 23)

In [72]:
data.values

array([[88641, 'womacto01', 2006, ..., 3.0, 0.0, 0.0],
       [88643, 'schilcu01', 2006, ..., 0.0, 0.0, 0.0],
       [88645, 'myersmi01', 2006, ..., 0.0, 0.0, 0.0],
       ...,
       [89530, 'ausmubr01', 2007, ..., 4.0, 1.0, 11.0],
       [89533, 'aloumo01', 2007, ..., 0.0, 3.0, 13.0],
       [89534, 'alomasa02', 2007, ..., 0.0, 0.0, 0.0]], dtype=object)

In [73]:
# Devuelve los n primeros registros (5 por defecto)

data.head()

Unnamed: 0,id,player,year,stint,team,lg,g,ab,r,h,...,rbi,sb,cs,bb,so,ibb,hbp,sh,sf,gidp
0,88641,womacto01,2006,2,CHN,NL,19,50,6,14,...,2.0,1.0,1.0,4,4.0,0.0,0.0,3.0,0.0,0.0
1,88643,schilcu01,2006,1,BOS,AL,31,2,0,1,...,0.0,0.0,0.0,0,1.0,0.0,0.0,0.0,0.0,0.0
2,88645,myersmi01,2006,1,NYA,AL,62,0,0,0,...,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0
3,88649,helliri01,2006,1,MIL,NL,20,3,0,0,...,0.0,0.0,0.0,0,2.0,0.0,0.0,0.0,0.0,0.0
4,88650,johnsra05,2006,1,NYA,AL,33,6,0,1,...,0.0,0.0,0.0,0,4.0,0.0,0.0,0.0,0.0,0.0


In [74]:
# Devuelve los n ultimos registros (5 por defecto)

data.tail(3)

Unnamed: 0,id,player,year,stint,team,lg,g,ab,r,h,...,rbi,sb,cs,bb,so,ibb,hbp,sh,sf,gidp
97,89530,ausmubr01,2007,1,HOU,NL,117,349,38,82,...,25.0,6.0,1.0,37,74.0,3.0,6.0,4.0,1.0,11.0
98,89533,aloumo01,2007,1,NYN,NL,87,328,51,112,...,49.0,3.0,0.0,27,30.0,5.0,2.0,0.0,3.0,13.0
99,89534,alomasa02,2007,1,NYN,NL,8,22,1,3,...,0.0,0.0,0.0,0,3.0,0.0,0.0,0.0,0.0,0.0


In [50]:
# Devuelve un resumen estadístico de las variables

data.describe(include='all')

Unnamed: 0,id,player,year,stint,team,lg,g,ab,r,h,...,rbi,sb,cs,bb,so,ibb,hbp,sh,sf,gidp
count,100.0,100,100.0,100.0,100,100,100.0,100.0,100.0,100.0,...,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0
unique,,82,,,27,2,,,,,...,,,,,,,,,,
top,,wellsda01,,,NYN,NL,,,,,...,,,,,,,,,,
freq,,2,,,12,62,,,,,...,,,,,,,,,,
mean,89352.66,,2006.92,1.13,,,52.38,136.54,18.69,35.82,...,18.47,1.38,0.46,15.49,24.08,1.77,1.12,1.38,1.2,3.54
std,218.910859,,0.27266,0.337998,,,48.031299,181.936853,27.77496,50.221807,...,28.34793,3.694878,1.067613,25.812649,32.804496,5.042957,2.23055,2.919042,2.035046,5.201826
min,88641.0,,2006.0,1.0,,,1.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,89353.5,,2007.0,1.0,,,9.5,2.0,0.0,0.0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
50%,89399.0,,2007.0,1.0,,,33.0,40.5,2.0,8.0,...,2.0,0.0,0.0,1.0,7.0,0.0,0.0,0.0,0.0,1.0
75%,89465.25,,2007.0,1.0,,,83.25,243.75,33.25,62.75,...,27.0,1.0,0.0,19.25,37.25,1.25,1.0,1.0,2.0,6.0


In [51]:
# Devuelve un resumen de la estructura

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 23 columns):
id        100 non-null int64
player    100 non-null object
year      100 non-null int64
stint     100 non-null int64
team      100 non-null object
lg        100 non-null object
g         100 non-null int64
ab        100 non-null int64
r         100 non-null int64
h         100 non-null int64
X2b       100 non-null int64
X3b       100 non-null int64
hr        100 non-null int64
rbi       100 non-null float64
sb        100 non-null float64
cs        100 non-null float64
bb        100 non-null int64
so        100 non-null float64
ibb       100 non-null float64
hbp       100 non-null float64
sh        100 non-null float64
sf        100 non-null float64
gidp      100 non-null float64
dtypes: float64(9), int64(11), object(3)
memory usage: 18.0+ KB


In [52]:
# Devuelve una lista con las etiquetas de las columnas y de las filas

data.axes

[RangeIndex(start=0, stop=100, step=1),
 Index(['id', 'player', 'year', 'stint', 'team', 'lg', 'g', 'ab', 'r', 'h',
        'X2b', 'X3b', 'hr', 'rbi', 'sb', 'cs', 'bb', 'so', 'ibb', 'hbp', 'sh',
        'sf', 'gidp'],
       dtype='object')]

In [76]:
# Devuelve el número de elementos únicos por campo

data.nunique()

id        100
player     82
year        2
stint       2
team       27
lg          2
g          60
ab         63
r          38
h          46
X2b        28
X3b         5
hr         22
rbi        43
sb         12
cs          7
bb         40
so         47
ibb        13
hbp        10
sh         14
sf          9
gidp       17
dtype: int64

In [77]:
data.id.unique()

array([88641, 88643, 88645, 88649, 88650, 88652, 88653, 88662, 89177,
       89178, 89330, 89333, 89334, 89335, 89336, 89337, 89338, 89339,
       89340, 89341, 89343, 89345, 89347, 89348, 89352, 89354, 89355,
       89359, 89360, 89361, 89363, 89365, 89366, 89367, 89368, 89370,
       89371, 89372, 89374, 89375, 89378, 89381, 89382, 89383, 89384,
       89385, 89388, 89389, 89396, 89398, 89400, 89402, 89406, 89410,
       89411, 89412, 89420, 89421, 89425, 89426, 89429, 89430, 89431,
       89438, 89439, 89442, 89445, 89450, 89451, 89452, 89460, 89462,
       89463, 89464, 89465, 89466, 89467, 89468, 89469, 89473, 89474,
       89480, 89481, 89482, 89489, 89493, 89494, 89495, 89497, 89498,
       89499, 89501, 89502, 89521, 89523, 89525, 89526, 89530, 89533,
       89534])

In [79]:
data.id.value_counts(ascending=False)

89343    1
88645    1
89389    1
89396    1
89398    1
89400    1
89402    1
89406    1
88641    1
89410    1
89411    1
89412    1
88649    1
89341    1
88650    1
89420    1
89421    1
89425    1
89426    1
89429    1
88662    1
89431    1
89177    1
89178    1
89388    1
89385    1
89384    1
89383    1
89347    1
89348    1
        ..
89337    1
89338    1
89339    1
89340    1
89495    1
89493    1
89445    1
88643    1
89450    1
89451    1
89452    1
88653    1
89430    1
89460    1
88652    1
89462    1
89463    1
89464    1
89465    1
89466    1
89467    1
89468    1
89469    1
89473    1
89474    1
89480    1
89481    1
89482    1
89489    1
89345    1
Name: id, Length: 100, dtype: int64

# Ejercicios

Considere el siguiente diccionario `data` y lista de `index`

In [54]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

- a. Crea un DataFrame a partir del diccionario y los índices.
- b. Selecciona las columnas `animal`y `age`.
- c. Indique cuantos tipos distintos de animales hay.
- d. Indique cuantos animales hay de cada tipo.
- e. Muestre un resumen estadístico de todas las variables.

##### Solución Ejercicio 1

Crea un DataFrame a partir del diccionario y los índices.

In [55]:
# Respuesta

df = pd.DataFrame(data, index=labels)
df

Unnamed: 0,age,animal,priority,visits
a,2.5,cat,yes,1
b,3.0,cat,yes,3
c,0.5,snake,no,2
d,,dog,yes,3
e,5.0,dog,no,2
f,2.0,cat,no,3
g,4.5,snake,no,1
h,,cat,yes,1
i,7.0,dog,no,2
j,3.0,dog,no,1


Selecciona las columnas `animal`y `age`.


In [56]:
# Respuesta

df[['animal', 'age']]

Unnamed: 0,animal,age
a,cat,2.5
b,cat,3.0
c,snake,0.5
d,dog,
e,dog,5.0
f,cat,2.0
g,snake,4.5
h,cat,
i,dog,7.0
j,dog,3.0


Indique el número de animales distintos.


In [57]:
# Respuesta

df.nunique()['animal']

3

Indique cuantos animales hay de cada tipo.


In [58]:
# Respuesta

df['animal'].value_counts()

cat      4
dog      4
snake    2
Name: animal, dtype: int64

Muestre un resumen estadístico de todas las variables.


In [59]:
# Respuesta

df.describe(include='all')

Unnamed: 0,age,animal,priority,visits
count,8.0,10,10,10.0
unique,,3,2,
top,,cat,no,
freq,,4,6,
mean,3.4375,,,1.9
std,2.007797,,,0.875595
min,0.5,,,1.0
25%,2.375,,,1.0
50%,3.0,,,2.0
75%,4.625,,,2.75
