

# Pandas

1. `DataFrames` y  `Series`
2. Operaciones básicas

`pandas` es una librería que proporciona herramientas analíticas y estructuras de datos con alto rendimiento y facilidad de uso. En particular, la clase `DataFrame` es útil para representación y manipulación de datos heterogéneos tabulados (hojas de cálculo, tabla SQL, etc.)   

## Características
- Ofrece estructuras de datos flexibles y expresivas diseñadas para trabajar con datos tabulados y etiquetados, esta son: `Series` y  `DataFrame`.
- Posee herramientas robustas de lectura/escritura de datos desde ficheros con formatos conocidos como: CSV, XLS. SQL, HDF5, entre otros.
- Permite filtrar, agregar, o eliminar datos.
- Combina las características de las matrices de alto rendimiento de `numpy` con capacidades de manipulación de datos tabulares.

Para importar los módulos de la librería `pandas`, por convención se utiliza:

In [None]:
import pandas as pd # 'pd' como alias
import numpy as np



## DataFrames y Series

Las funcionalidades de `pandas` se basan en dos estructuras de datos fundamentales: *Series* y *DataFrames*.

Una `Series` es un objeto que contiene un `array` unidimensional de datos y un `array` de etiquetas, conocido como *índice*. Si no se especifica un índice o etiqueta, este se genera internamente como una secuencia ordenada de números enteros.

```python
s = pd.Series(data, index=index)
```

Un `DataFrame` es una estructura de datos que almacena datos de forma tabular, es decir, ordenada en filas y columnas etiquetadas. Cada fila (`row`) contiene una observación y cada columna (`column`) una variable. Un `DataFrame` acepta datos heterogéneos, es decir, variables pueden ser de distinto tipo (numérico, string, boolean, etc.). Además de contener datos, un `DataFrame` contiene el nombre de las variables y sus tipos, y métodos que permiten acceder y modificar los datos.

```python
s = pd.DataFrame(data, ...)
```

Las `Series` y `DataFrame` permiten representar datos 1D y 2D. Para representar datos con más dimensiones `pandas` posee otras estructuras de datos más complejas (en fase experimental), llamadas `Panel`, `Panel4D`, `PanelND`. Estas estructuras están fuera del alcance de este curso.



---
# Series en Pandas

## Creación de Series




Crear una Series con índices automáticos a partir de una lista

In [4]:
serie = pd.Series([1979, 1980, 1981, 1982])
serie

0    1979
1    1980
2    1981
3    1982
dtype: int64



Las `Series` poseen dos atributos: `values`  e `index`. El primero es un `numpy array` que almacena los datos, y el segundo es un objeto que contiene los índices.

In [5]:
serie.values

array([1979, 1980, 1981, 1982])

In [6]:
serie.index

RangeIndex(start=0, stop=4, step=1)



Al crear una `Series` se puede definir explícitamente un `array` índice y pasarlo como argumento.



Crear Series con índices definidos

In [7]:
serie = pd.Series(data=[1979, 1980, 1981, 1982, 1983],
                  index=['carolina', 'martha', 'nicky', 'theresa', 'nicky'])
serie

carolina    1979
martha      1980
nicky       1981
theresa     1982
nicky       1983
dtype: int64

In [9]:
serie['theresa']

1982



También se pueden crear `Series` a partir de diccionarios, `numpy arrays`, desde ficheros, etc.



Serie a partir de un numpy array

In [10]:
serie = pd.Series(np.arange(0,20,2))
serie

0     0
1     2
2     4
3     6
4     8
5    10
6    12
7    14
8    16
9    18
dtype: int64



Serie a partir de un diccionario

In [11]:
dicc = {'Luis':24,'Juan':23, 'Maria':25, 'Carlos':30}
print(dicc)

{'Luis': 24, 'Juan': 23, 'Maria': 25, 'Carlos': 30}


In [12]:
dicc['Juan']

23

In [13]:
serie_dicc = pd.Series(dicc)
serie_dicc

Luis      24
Juan      23
Maria     25
Carlos    30
dtype: int64



---
## Acceso a datos en Series




El acceso a los datos se puede realizar mediante el índice categórico o el numérico que genera internamente Pandas



Creamos de nuevo la serie inicial

In [14]:
serie = pd.Series(data=[1979, 1980, 1981, 1982, 1983],
                  index=['carolina', 'martha', 'nicky', 'theresa', 'nicky'])
serie

carolina    1979
martha      1980
nicky       1981
theresa     1982
nicky       1983
dtype: int64



Indexación mediante etiqueta

In [17]:
print(serie['martha'])

1980




Indexación mediante índice numérico interno

In [16]:
print(serie[1])

1980




El índice puede contener valores duplicados

In [18]:
print(serie['nicky'])

nicky    1981
nicky    1983
dtype: int64




Podemos seleccionar varios valores indicando un intervalo de índices



Recuperamos desde el valor de la posición 1 (el primer elemento tiene un index = 0) hasta el final del índice.

In [19]:
serie[1:]

martha     1980
nicky      1981
theresa    1982
nicky      1983
dtype: int64



Recuperamos los elementos desde la posición 1 a la 2

In [20]:
serie

carolina    1979
martha      1980
nicky       1981
theresa     1982
nicky       1983
dtype: int64

In [21]:
serie[1:3]

martha    1980
nicky     1981
dtype: int64



Podemos usar también índices negativos

In [22]:
serie[-4:-2]

martha    1980
nicky     1981
dtype: int64



---
## Métodos en Series



Para **añadir** nuevos elementos a una Series usamos el método `append`:

In [24]:
s1 = pd.Series(np.arange(10))
s2 = pd.Series(np.arange(10, 21))

s3 = s1.append(s2)
s3

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
0     10
1     11
2     12
3     13
4     14
5     15
6     16
7     17
8     18
9     19
10    20
dtype: int64



Se mantienen los índices de cada serie

In [None]:
s3[1]

1     1
1    11
dtype: int32



También podemos concatenar series generando un índice nuevo:

In [25]:
s3 = s1.append(s2, ignore_index=True)
s3

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
20    20
dtype: int64

In [26]:
s3[1]

1



El méotdo pop devuelve y elimina de la serie original el valor del índice pasado

In [29]:
s1

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [31]:
s4 = s1.copy()

s4.pop(3)
print(s4)

0    0
1    1
2    2
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64


In [33]:
serie_pokemon = pd.Series([49,62,82,100,52,64,84,130])
serie_pokemon

0     49
1     62
2     82
3    100
4     52
5     64
6     84
7    130
dtype: int64



Ordena los valores, por defecto de menos a más.

In [34]:
serie_pokemon.sort_values()

0     49
4     52
1     62
5     64
2     82
6     84
3    100
7    130
dtype: int64



Ordenamos de forma descendente

In [35]:
serie_pokemon.sort_values(ascending=False)

7    130
3    100
6     84
2     82
5     64
1     62
4     52
0     49
dtype: int64



Para que los cambios modifique realmente la serie hay que indicarlo mediante el parámetro inplace

In [None]:
serie_pokemon.sort_values(inplace=True)
serie_pokemon

0     49
4     52
1     62
5     64
2     82
6     84
3    100
7    130
dtype: int64



Si queremos ordernar mediante el índice recurrimos a sort_index()

In [38]:
serie_pokemon.sort_index()

0     49
1     62
2     82
3    100
4     52
5     64
6     84
7    130
dtype: int64



El método apply permite aplicar una función a todos los elementos de la serie.

In [44]:
serie_pokemon.apply(lambda x: x*1.20)

0     58.8
1     74.4
2     98.4
3    120.0
4     62.4
5     76.8
6    100.8
7    156.0
dtype: float64



---
# Dataframes en Pandas

## Creación de Dataframes

A diferencia de `Series`, los `DataFrame` están diseñados para almacenar datos heterogéneos multivariables. Por ejemplo:

In [45]:
data = pd.DataFrame([['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
                     [2000, 2001, 2002, 2001, 2002],
                     [1.5, 1.7, 3.6, 2.4, 2.9]])
data

Unnamed: 0,0,1,2,3,4
0,Ohio,Ohio,Ohio,Nevada,Nevada
1,2000,2001,2002,2001,2002
2,1.5,1.7,3.6,2.4,2.9


In [46]:
data = pd.DataFrame(data=[['Ohio',2000,1.5],
                          ['Ohio',2001,1.7],
                          ['Ohio',2002,3.6],
                          ['Nevada',2001,2.4],
                          ['Nevada',2002,2.9]], columns=['state','year','pop'])
data

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


**A partir de un diccionario:**

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [51]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

df = pd.DataFrame(data , index=['Keven','Angel','Nicol', 'Gaby', 'ABC'])
df

Unnamed: 0,state,year,pop
Keven,Ohio,2000,1.5
Angel,Ohio,2001,1.7
Nicol,Ohio,2002,3.6
Gaby,Nevada,2001,2.4
ABC,Nevada,2002,2.9


## Lectura de datos

In [None]:
#path = "C:/Users/HP/Documents/Python_Scripts/QuipuAI/DSF01_Ago19_Py/Clase 4/datasets/"

path = ''

In [67]:
data_csv = pd.read_csv(path+'nba.csv', sep=',')
data_csv.head()

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky


In [63]:
data_txt = pd.read_csv(path+'nba.txt')
data_txt.head()

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky


In [68]:
data_excel = pd.read_excel(path+'nba.xlsx', sheet_name='nba')
data_excel.head()

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky




Se pueden consultar el nombre de las variables usando el atributo `columns`

In [None]:
data = data_csv.copy()

In [71]:
data.columns

Index(['Player', 'height', 'weight', 'collage', 'born', 'birth_city',
       'birth_state'],
      dtype='object')




Adicionalemnte `Pandas` permite crear Dataframes a partir de otras fuentes, como son jsons, urls...

In [72]:
data.index # indice de las filas o registros

RangeIndex(start=0, stop=3922, step=1)



---
## Selección de datos en Dataframes




Se pueden extraer columnas de un `DataFrame` con la etiqueta de la columna (sólo si es un identificador Python válido)  usando notación tipo diccionario o como atributo del objeto. En ambos casos se obtiene un objeto tipo `Series`.

In [76]:
nba = pd.read_csv('nba.csv')
nba.head()

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky


In [77]:
nba['Player']  # dict type

0             Curly Armstrong
1                Cliff Barker
2               Leo Barnhorst
3                  Ed Bartels
4                 Ralph Beard
5                  Gene Berce
6               Charlie Black
7                 Nelson Bobb
8             Jake Bornheimer
9                Vince Boryla
10                  Don Boven
11              Harry Boykoff
12                Joe Bradley
13                Bob Brannum
14                 Carl Braun
15              Frankie Brian
16           Price Brookfield
17                  Bob Brown
18                 Jim Browne
19                 Walt Budko
20             Jack Burmaster
21               Tommy Byrnes
22               Bill Calhoun
23                Don Carlson
24              Bob Carpenter
25                Jake Carter
26                  Al Cervi*
27                John Chaney
28              Leroy Chollet
29                 Bill Closs
                ...          
3892           Chinanu Onuaku
3893     Georgios Papagiannis
3894      

In [78]:
nba.Player  # attribute type

0             Curly Armstrong
1                Cliff Barker
2               Leo Barnhorst
3                  Ed Bartels
4                 Ralph Beard
5                  Gene Berce
6               Charlie Black
7                 Nelson Bobb
8             Jake Bornheimer
9                Vince Boryla
10                  Don Boven
11              Harry Boykoff
12                Joe Bradley
13                Bob Brannum
14                 Carl Braun
15              Frankie Brian
16           Price Brookfield
17                  Bob Brown
18                 Jim Browne
19                 Walt Budko
20             Jack Burmaster
21               Tommy Byrnes
22               Bill Calhoun
23                Don Carlson
24              Bob Carpenter
25                Jake Carter
26                  Al Cervi*
27                John Chaney
28              Leroy Chollet
29                 Bill Closs
                ...          
3892           Chinanu Onuaku
3893     Georgios Papagiannis
3894      

**Y si quiero obtener en vez de una serie, un sub-dataframe??**

Mediante la notación de dobles [] obtenemos un Dataframe en lugar de una Serie

In [79]:
nba[['Player']]

Unnamed: 0,Player
0,Curly Armstrong
1,Cliff Barker
2,Leo Barnhorst
3,Ed Bartels
4,Ralph Beard
5,Gene Berce
6,Charlie Black
7,Nelson Bobb
8,Jake Bornheimer
9,Vince Boryla


In [80]:
type(nba.Player), type(nba['Player']), type(nba[['Player']])

(pandas.core.series.Series,
 pandas.core.series.Series,
 pandas.core.frame.DataFrame)

**Y si quiero obtener varias columnas??**

Podemos recuperar varias columnas a la vez

In [81]:
nba[['Player','height']]

Unnamed: 0,Player,height
0,Curly Armstrong,180.0
1,Cliff Barker,188.0
2,Leo Barnhorst,193.0
3,Ed Bartels,196.0
4,Ralph Beard,178.0
5,Gene Berce,180.0
6,Charlie Black,196.0
7,Nelson Bobb,183.0
8,Jake Bornheimer,196.0
9,Vince Boryla,196.0


### df.loc: Selección por Etiqueta (Label)



Permite acceder al contenido de un registro mediante la etiqueta del índice

In [88]:
nba.loc[0:10,['height']]

Unnamed: 0,height
0,180.0
1,188.0
2,193.0
3,196.0
4,178.0
5,180.0
6,196.0
7,183.0
8,196.0
9,196.0


In [85]:
nba.loc[0:10,['Player','height']]

Unnamed: 0,Player,height
0,Curly Armstrong,180.0
1,Cliff Barker,188.0
2,Leo Barnhorst,193.0
3,Ed Bartels,196.0
4,Ralph Beard,178.0
5,Gene Berce,180.0
6,Charlie Black,196.0
7,Nelson Bobb,183.0
8,Jake Bornheimer,196.0
9,Vince Boryla,196.0


### df.iloc: Selección por Posición



Permite acceder al contenido de un registro mediante la posición del índice

In [87]:
nba.iloc[0:10]

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky
5,Gene Berce,180.0,79.0,Marquette University,1926.0,,
6,Charlie Black,196.0,90.0,University of Kansas,1921.0,Arco,Idaho
7,Nelson Bobb,183.0,77.0,Temple University,1924.0,Philadelphia,Pennsylvania
8,Jake Bornheimer,196.0,90.0,Muhlenberg College,1927.0,New Brunswick,New Jersey
9,Vince Boryla,196.0,95.0,University of Denver,1927.0,East Chicago,Indiana


In [89]:
nba.iloc[0:10,'born']

ValueError: ignored

In [91]:
nba.iloc[0:10,4:7]

Unnamed: 0,born,birth_city,birth_state
0,1918.0,,
1,1921.0,Yorktown,Indiana
2,1924.0,,
3,1925.0,,
4,1927.0,Hardinsburg,Kentucky
5,1926.0,,
6,1921.0,Arco,Idaho
7,1924.0,Philadelphia,Pennsylvania
8,1927.0,New Brunswick,New Jersey
9,1927.0,East Chicago,Indiana


In [92]:
nba

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky
5,Gene Berce,180.0,79.0,Marquette University,1926.0,,
6,Charlie Black,196.0,90.0,University of Kansas,1921.0,Arco,Idaho
7,Nelson Bobb,183.0,77.0,Temple University,1924.0,Philadelphia,Pennsylvania
8,Jake Bornheimer,196.0,90.0,Muhlenberg College,1927.0,New Brunswick,New Jersey
9,Vince Boryla,196.0,95.0,University of Denver,1927.0,East Chicago,Indiana




Podemos acceder a un valor concreto usando el acceso a datos visto anteriormente en Series

In [94]:
nba.iloc[1]['weight']

83.0



---
## Métodos en Dataframes


Vemos algunos métodos útiles de la clase Dataframe

In [96]:
import pandas as pd
data = pd.read_csv('nba.csv')
type(data)

pandas.core.frame.DataFrame



Nos indica el número de columnas y filas del dataframe

In [97]:
data.shape

(3922, 7)

In [98]:
data.values

array([['Curly Armstrong', 180.0, 77.0, ..., 1918.0, nan, nan],
       ['Cliff Barker', 188.0, 83.0, ..., 1921.0, 'Yorktown', 'Indiana'],
       ['Leo Barnhorst', 193.0, 86.0, ..., 1924.0, nan, nan],
       ...,
       ['Stephen Zimmerman', 213.0, 108.0, ..., 1996.0, 'Hendersonville',
        'Tennessee'],
       ['Paul Zipser', 203.0, 97.0, ..., 1994.0, 'Heidelberg', 'Germany'],
       ['Ivica Zubac', 216.0, 120.0, ..., 1997.0, 'Mostar',
        'Bosnia and Herzegovina']], dtype=object)

In [99]:
type(data.values)

numpy.ndarray



Devuelve los n primeros registros (5 por defecto)

In [103]:
data.head(4)

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,




Devuelve los n primeros registros (5 por defecto)

In [102]:
data.tail(10)

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
3912,Denzel Valentine,198.0,96.0,Michigan State University,1993.0,Lansing,Michigan
3913,Fred VanVleet,183.0,88.0,Wichita State University,1994.0,Rockford,Illinois
3914,Taurean Waller-Prince,183.0,88.0,,1994.0,,
3915,Okaro White,203.0,92.0,Florida State University,1992.0,Clearwater,Florida
3916,Isaiah Whitehead,193.0,96.0,Seton Hall University,1995.0,Brooklyn,New York
3917,Troy Williams,198.0,97.0,South Carolina State University,1969.0,Columbia,South Carolina
3918,Kyle Wiltjer,208.0,108.0,Gonzaga University,1992.0,Portland,Oregon
3919,Stephen Zimmerman,213.0,108.0,"University of Nevada, Las Vegas",1996.0,Hendersonville,Tennessee
3920,Paul Zipser,203.0,97.0,,1994.0,Heidelberg,Germany
3921,Ivica Zubac,216.0,120.0,,1997.0,Mostar,Bosnia and Herzegovina


Devuelve el tipo de datos de cada variable

In [104]:
data.dtypes

Player          object
height         float64
weight         float64
collage         object
born           float64
birth_city      object
birth_state     object
dtype: object



Devuelve un resumen estadístico de las variables

In [105]:
data.head()

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky


In [106]:
data.describe(include='all')

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
count,3921,3921.0,3921.0,3573,3921.0,3452,3439
unique,3921,,,422,,1264,128
top,Ed Stokes,,,University of Kentucky,,Chicago,California
freq,1,,,89,,114,344
mean,,198.704922,94.783219,,1962.37975,,
std,,9.269761,12.039515,,20.33491,,
min,,160.0,60.0,,1913.0,,
25%,,190.0,86.0,,1948.0,,
50%,,198.0,95.0,,1964.0,,
75%,,206.0,102.0,,1979.0,,




Devuelve un resumen de la estructura

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3922 entries, 0 to 3921
Data columns (total 7 columns):
Player         3921 non-null object
height         3921 non-null float64
weight         3921 non-null float64
collage        3573 non-null object
born           3921 non-null float64
birth_city     3452 non-null object
birth_state    3439 non-null object
dtypes: float64(3), object(4)
memory usage: 214.6+ KB




Devuelve una lista con las etiquetas de las columnas y de las filas

In [107]:
data.axes

[RangeIndex(start=0, stop=3922, step=1),
 Index(['Player', 'height', 'weight', 'collage', 'born', 'birth_city',
        'birth_state'],
       dtype='object')]



Devuelve el número de elementos únicos por campo

In [108]:
data.nunique()

Player         3921
height           28
weight           76
collage         422
born             84
birth_city     1264
birth_state     128
dtype: int64

In [None]:
data['birth_state'].value_counts() # aplica sobre series

California                          344
New York                            290
Illinois                            209
Pennsylvania                        163
Ohio                                137
Michigan                            131
Texas                               129
Georgia                             118
Louisiana                           101
Florida                              96
North Carolina                       96
New Jersey                           95
Indiana                              94
Kentucky                             82
Mississippi                          77
Alabama                              75
Tennessee                            72
Maryland                             61
Virginia                             61
District of Columbia                 57
Washington                           48
Arkansas                             47
Missouri                             45
Minnesota                            45
Wisconsin                            44


Para complementar: https://github.com/KevenRFC/Term_Deposit_Propensity/blob/master/Evaluation_StaticalForDS_vF01.ipynb



# Ejercicios

Considere el siguiente diccionario `data` y lista de `index`

In [None]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']



- a. Crea un DataFrame a partir del diccionario y los índices.
- b. Selecciona las columnas `animal`y `age`.
- c. Indique cuantos tipos distintos de animales hay.
- d. Indique cuantos animales hay de cada tipo.
- e. Muestre un resumen estadístico de todas las variables.



##### Solución Ejercicio 1



Crea un DataFrame a partir del diccionario y los índices.

In [None]:
# Respuesta aqui



Selecciona las columnas `animal`y `age`.


In [None]:
# Respuesta aqui



Indique el número de animales distintos.


In [None]:
# Respuesta aqui



Indique cuantos animales hay de cada tipo.


In [None]:
# Respuesta aqui



Muestre un resumen estadístico de todas las variables.


In [None]:
# Respuesta aqui