# Data Wrangling 

## Pandas

1. `DataFrames` y  `Series`
2. Operaciones básicas

`pandas` es una librería que proporciona herramientas analíticas y estructuras de datos con alto rendimiento y facilidad de uso. En particular, la clase `DataFrame` es útil para representación y manipulación de datos heterogéneos tabulados (hojas de cálculo, tabla SQL, etc.)   

### Características
- Ofrece estructuras de datos flexibles y expresivas diseñadas para trabajar con datos tabulados y etiquetados, esta son: `Series` y  `DataFrame`.
- Posee herramientas robustas de lectura/escritura de datos desde ficheros con formatos conocidos como: CSV, XLS. SQL, HDF5, entre otros.
- Permite filtrar, agregar, o eliminar datos.
- Combina las características de las matrices de alto rendimiento de `numpy` con capacidades de manipulación de datos tabulados.

Para importar los módulos de la librería `pandas`, por convención se utiliza:

In [11]:
import pandas as pd  # 'pd' alias de pandas
import numpy as np

### DataFrames y Series

Las funcionalidades de `pandas` se basan en dos estructuras de datos fundamentales: *Series* y *DataFrames*.

Una `Series` es un objeto que contiene un `array` unidimensional de datos y un `array` de etiquetas, conocido como *índice*. Si no se especifica un índice o etiqueta, este se genera internamente como una secuencia ordenada de números enteros.

```python
s = pd.Series(data, index=index)
```

Un `DataFrame` es una estructura de datos que almacena datos de forma tabular, es decir, ordenada en filas y columnas etiquetadas. Cada fila (`row`) contiene una observación y cada columna (`column`) una variable. Un `DataFrame` acepta datos heterogéneos, es decir, variables pueden ser de distinto tipo (numérico, string, boolean, etc.). Además de contener datos, un `DataFrame` contiene el nombre de las variables y sus tipos, y métodos que permiten acceder y modificar los datos.

```python
s = pd.DataFrame(data, ...)
```

Las `Series` y `DataFrame` permiten representar datos 1D y 2D. Para representar datos con más dimensiones `pandas` posee otras estructuras de datos más complejas (en fase experimental), llamadas `Panel`, `Panel4D`, `PanelND`. 

---
## Series en Pandas

### Creación de Series


In [2]:
serie = pd.Series([1979, 1980, 1981, 1982])
serie

0    1979
1    1980
2    1981
3    1982
dtype: int64

Las `Series` poseen dos atributos: `values`  e `index`. El primero es un `numpy array` que almacena los datos, y el segundo es un objeto que contiene los índices.

In [3]:
serie.values

array([1979, 1980, 1981, 1982])

In [4]:
serie.index

RangeIndex(start=0, stop=4, step=1)

Al crear una `Series` se puede definir explícitamente un `array` índice y pasarlo como argumento.

In [5]:
serie = pd.Series(data=[1979, 1980, 1981, 1982],
                 index=["carolina", "carla","andrea", "teresa"])
serie

carolina    1979
carla       1980
andrea      1981
teresa      1982
dtype: int64

También se pueden crear `Series` a partir de diccionarios, `numpy arrays`, desde ficheros, etc.

In [6]:
serie = pd.Series(np.random.randn(10))
serie

0   -0.104803
1    0.926513
2    2.543162
3    1.323716
4   -0.589530
5    0.585719
6   -1.435581
7    1.376119
8    0.069777
9   -0.356137
dtype: float64

In [7]:
dicc = {str(i) : i * 2 for i in range(11)}
dicc

{'0': 0,
 '1': 2,
 '2': 4,
 '3': 6,
 '4': 8,
 '5': 10,
 '6': 12,
 '7': 14,
 '8': 16,
 '9': 18,
 '10': 20}

In [8]:
serie = pd.Series(dicc)
serie

0      0
1      2
2      4
3      6
4      8
5     10
6     12
7     14
8     16
9     18
10    20
dtype: int64

In [18]:
serie = pd.read_csv("/home/bigdatafutura/notebooks/sesion 02/files/pokemon.csv",
                    usecols=["name"], squeeze=False)
serie

Unnamed: 0,name
0,Bulbasaur
1,Ivysaur
2,Venusaur
3,Mega Venusaur
4,Charmander
...,...
1023,Zacian Hero of Many Battles
1024,Zamazenta Crowned Shield
1025,Zamazenta Hero of Many Battles
1026,Eternatus


In [19]:
pd.DataFrame.squeeze?

[0;31mSignature:[0m [0mpd[0m[0;34m.[0m[0mDataFrame[0m[0;34m.[0m[0msqueeze[0m[0;34m([0m[0mself[0m[0;34m,[0m [0maxis[0m[0;34m=[0m[0;32mNone[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Squeeze 1 dimensional axis objects into scalars.

Series or DataFrames with a single element are squeezed to a scalar.
DataFrames with a single column or a single row are squeezed to a
Series. Otherwise the object is unchanged.

This method is most useful when you don't know if your
object is a Series or DataFrame, but you do know it has just a single
column. In that case you can safely call `squeeze` to ensure you have a
Series.

Parameters
----------
axis : {0 or 'index', 1 or 'columns', None}, default None
    A specific axis to squeeze. By default, all length-1 axes are
    squeezed.

Returns
-------
DataFrame, Series, or scalar
    The projection after squeezing `axis` or all the axes.

See Also
--------
Series.iloc : Integer-location based indexing for select

---
### Acceso a datos en Series


El acceso a los datos se puede realizar mediante el índice categórico o el numérico que genera internamente Pandas

In [20]:
serie = pd.Series(data=[1979, 1980, 1981, 1982, 1983],
                  index=['carolina', 'carla', 'andrea', 'teresa', 'andrea'])
serie

carolina    1979
carla       1980
andrea      1981
teresa      1982
andrea      1983
dtype: int64

In [21]:
serie["carla"]

1980

In [22]:
serie[1]

1980

In [23]:
serie["andrea"]

andrea    1981
andrea    1983
dtype: int64

In [24]:
serie[1:]

carla     1980
andrea    1981
teresa    1982
andrea    1983
dtype: int64

In [25]:
serie[1:3]

carla     1980
andrea    1981
dtype: int64

---
### Métodos en Series

Para **añadir** nuevos elementos a una Series usamos el método `append`:

In [26]:
s1 = pd.Series(range(0,10))
s2 = pd.Series(range(0, 6))
print(s1, s2)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64 0    0
1    1
2    2
3    3
4    4
5    5
dtype: int64


In [44]:
s1.append(s2)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
0    0
1    1
2    2
3    3
4    4
5    5
dtype: int64

También podemos concatenar series generando un índice nuevo:

In [27]:
s2 = pd.Series(["a", "b","c","d"], index=["a", "b","c","d"])

In [28]:
s3 = s1.append(s2)
s3["a"]

'a'

In [29]:
serie.sort_values()

carolina    1979
carla       1980
andrea      1981
teresa      1982
andrea      1983
dtype: int64

In [30]:
serie.sort_values(ascending=False)

andrea      1983
teresa      1982
andrea      1981
carla       1980
carolina    1979
dtype: int64

In [31]:
serie

carolina    1979
carla       1980
andrea      1981
teresa      1982
andrea      1983
dtype: int64

In [32]:
serie.sort_values(ascending=False, inplace=True)
serie

andrea      1983
teresa      1982
andrea      1981
carla       1980
carolina    1979
dtype: int64

In [33]:
serie.sort_index(ascending=False, inplace=True)

In [34]:
serie

teresa      1982
carolina    1979
carla       1980
andrea      1983
andrea      1981
dtype: int64

In [61]:
serie.value_counts()

1983    1
1982    1
1981    1
1980    1
1979    1
dtype: int64

In [62]:
a = pd.Series([1,1,2,3,3,4])
a.value_counts()

3    2
1    2
4    1
2    1
dtype: int64

In [63]:
type(serie[0])

numpy.int64

In [64]:
serie.apply(lambda name: str(name) + "_concat")

teresa      1982_concat
carolina    1979_concat
carla       1980_concat
andrea      1983_concat
andrea      1981_concat
dtype: object

---
## Dataframes en Pandas

### Creación de Dataframes

A diferencia de `Series`, los `DataFrame` están diseñados para almacenar datos heterogéneos multivariables. Por ejemplo:

In [35]:
import pandas as pd

In [36]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [37]:
df = pd.DataFrame({'nombre': ['Pablo', 'Teresa'],
                   'score': [22.2, 33.3]},
                  index=['alumno1', 'alumno2'])
df

Unnamed: 0,nombre,score
alumno1,Pablo,22.2
alumno2,Teresa,33.3


In [78]:
nba = pd.read_csv("/home/bigdatafutura/notebooks/sesion 02/files/Players.csv")
nba

Unnamed: 0.1,Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky
...,...,...,...,...,...,...,...,...
3917,3917,Troy Williams,198.0,97.0,South Carolina State University,1969.0,Columbia,South Carolina
3918,3918,Kyle Wiltjer,208.0,108.0,Gonzaga University,1992.0,Portland,Oregon
3919,3919,Stephen Zimmerman,213.0,108.0,"University of Nevada, Las Vegas",1996.0,Hendersonville,Tennessee
3920,3920,Paul Zipser,203.0,97.0,,1994.0,Heidelberg,Germany


In [80]:
nba.index

RangeIndex(start=0, stop=3922, step=1)

Se pueden consultar el nombre de las variables usando el atributo `columns`

In [81]:
nba.columns

Index(['Unnamed: 0', 'Player', 'height', 'weight', 'collage', 'born',
       'birth_city', 'birth_state'],
      dtype='object')

Adicionalemnte `Pandas` permite crear Dataframes a partir de otras fuentes, como son jsons, urls...

---
### Acceso a datos en Dataframes


Se pueden extraer columnas de un `DataFrame` con la etiqueta de la columna (sólo si es un identificador Python válido)  usando notación tipo diccionario o como atributo del objeto. En ambos casos se obtiene un objeto tipo `Series`.

In [82]:
nba["Player"]

0         Curly Armstrong
1            Cliff Barker
2           Leo Barnhorst
3              Ed Bartels
4             Ralph Beard
              ...        
3917        Troy Williams
3918         Kyle Wiltjer
3919    Stephen Zimmerman
3920          Paul Zipser
3921          Ivica Zubac
Name: Player, Length: 3922, dtype: object

In [83]:
nba.Player

0         Curly Armstrong
1            Cliff Barker
2           Leo Barnhorst
3              Ed Bartels
4             Ralph Beard
              ...        
3917        Troy Williams
3918         Kyle Wiltjer
3919    Stephen Zimmerman
3920          Paul Zipser
3921          Ivica Zubac
Name: Player, Length: 3922, dtype: object

In [84]:
nba[["Player"]]

Unnamed: 0,Player
0,Curly Armstrong
1,Cliff Barker
2,Leo Barnhorst
3,Ed Bartels
4,Ralph Beard
...,...
3917,Troy Williams
3918,Kyle Wiltjer
3919,Stephen Zimmerman
3920,Paul Zipser


In [85]:
type(nba.Player), type(nba['Player']), type(nba[['Player']])

(pandas.core.series.Series,
 pandas.core.series.Series,
 pandas.core.frame.DataFrame)

In [86]:
nba[["height", "Player"]]

Unnamed: 0,height,Player
0,180.0,Curly Armstrong
1,188.0,Cliff Barker
2,193.0,Leo Barnhorst
3,196.0,Ed Bartels
4,178.0,Ralph Beard
...,...,...
3917,198.0,Troy Williams
3918,208.0,Kyle Wiltjer
3919,213.0,Stephen Zimmerman
3920,203.0,Paul Zipser


Para acceder a las filas, se puede usar el atributo `ix` o la función `iloc`.

<div class="alert alert-info">**Nota**: Consultad http://pandas.pydata.org/pandas-docs/version/0.18.1/indexing.html#different-choices-for-indexing para entender diferencias entre los métodos.</div>

In [87]:
df

Unnamed: 0,nombre,score
alumno1,Pablo,22.2
alumno2,Teresa,33.3


In [88]:
df.loc["alumno1"]

nombre    Pablo
score      22.2
Name: alumno1, dtype: object

In [89]:
df.iloc[0]

nombre    Pablo
score      22.2
Name: alumno1, dtype: object

In [90]:
df.iloc[0]["score"]

22.2

In [91]:
df.ix["alumno3", 0:2]

AttributeError: 'DataFrame' object has no attribute 'ix'

---
### Métodos en Dataframes


Vemos algunos métodos útiles de la clase Dataframe

In [94]:
data = pd.read_csv("/home/bigdatafutura/notebooks/sesion 02/files/Players.csv",
                  sep=",")
data

Unnamed: 0.1,Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky
...,...,...,...,...,...,...,...,...
3917,3917,Troy Williams,198.0,97.0,South Carolina State University,1969.0,Columbia,South Carolina
3918,3918,Kyle Wiltjer,208.0,108.0,Gonzaga University,1992.0,Portland,Oregon
3919,3919,Stephen Zimmerman,213.0,108.0,"University of Nevada, Las Vegas",1996.0,Hendersonville,Tennessee
3920,3920,Paul Zipser,203.0,97.0,,1994.0,Heidelberg,Germany


In [95]:
data.shape

(3922, 8)

In [97]:
data.values

array([[0, 'Curly Armstrong', 180.0, ..., 1918.0, nan, nan],
       [1, 'Cliff Barker', 188.0, ..., 1921.0, 'Yorktown', 'Indiana'],
       [2, 'Leo Barnhorst', 193.0, ..., 1924.0, nan, nan],
       ...,
       [3919, 'Stephen Zimmerman', 213.0, ..., 1996.0, 'Hendersonville',
        'Tennessee'],
       [3920, 'Paul Zipser', 203.0, ..., 1994.0, 'Heidelberg', 'Germany'],
       [3921, 'Ivica Zubac', 216.0, ..., 1997.0, 'Mostar',
        'Bosnia and Herzegovina']], dtype=object)

In [98]:
data.head(2)

Unnamed: 0.1,Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky


In [99]:
data.head(2)

Unnamed: 0.1,Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana


In [100]:
data.tail(3)

Unnamed: 0.1,Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
3917,3917,Troy Williams,198.0,97.0,South Carolina State University,1969.0,Columbia,South Carolina
3918,3918,Kyle Wiltjer,208.0,108.0,Gonzaga University,1992.0,Portland,Oregon
3919,3919,Stephen Zimmerman,213.0,108.0,"University of Nevada, Las Vegas",1996.0,Hendersonville,Tennessee
3920,3920,Paul Zipser,203.0,97.0,,1994.0,Heidelberg,Germany
3921,3921,Ivica Zubac,216.0,120.0,,1997.0,Mostar,Bosnia and Herzegovina


In [101]:
data.tail(2)

Unnamed: 0.1,Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
3920,3920,Paul Zipser,203.0,97.0,,1994.0,Heidelberg,Germany
3921,3921,Ivica Zubac,216.0,120.0,,1997.0,Mostar,Bosnia and Herzegovina


In [102]:
data.describe?

In [103]:
data.describe(include="all")

Unnamed: 0.1,Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
count,3922.0,3921,3921.0,3921.0,3573,3921.0,3452,3439
unique,,3921,,,422,,1264,128
top,,Michael Bradley,,,University of Kentucky,,Chicago,California
freq,,1,,,89,,114,344
mean,1960.5,,198.704922,94.783219,,1962.37975,,
std,1132.328206,,9.269761,12.039515,,20.33491,,
min,0.0,,160.0,60.0,,1913.0,,
25%,980.25,,190.0,86.0,,1948.0,,
50%,1960.5,,198.0,95.0,,1964.0,,
75%,2940.75,,206.0,102.0,,1979.0,,


In [104]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3922 entries, 0 to 3921
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Unnamed: 0   3922 non-null   int64  
 1   Player       3921 non-null   object 
 2   height       3921 non-null   float64
 3   weight       3921 non-null   float64
 4   collage      3573 non-null   object 
 5   born         3921 non-null   float64
 6   birth_city   3452 non-null   object 
 7   birth_state  3439 non-null   object 
dtypes: float64(3), int64(1), object(4)
memory usage: 245.2+ KB


In [105]:
data.axes

[RangeIndex(start=0, stop=3922, step=1),
 Index(['Unnamed: 0', 'Player', 'height', 'weight', 'collage', 'born',
        'birth_city', 'birth_state'],
       dtype='object')]

In [106]:
data.nunique()

Unnamed: 0     3922
Player         3921
height           28
weight           76
collage         422
born             84
birth_city     1264
birth_state     128
dtype: int64

In [107]:
import numpy as np
np.nan

nan

## Ejercicios

Considere el siguiente diccionario `data` y lista de `index`

In [108]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

- a. Crea un DataFrame a partir del diccionario y los índices.
- b. Selecciona las columnas `animal`y `age`.
- c. Indique cuantos tipos distintos de animales hay.
- e. Muestre un resumen estadístico de todas las variables.

### Solución

Crea un DataFrame a partir del diccionario y los índices.

In [109]:
df = pd.DataFrame(data, 
                  labels)
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


Selecciona las columnas `animal`y `age`.


In [110]:
df[["animal","age"]]

Unnamed: 0,animal,age
a,cat,2.5
b,cat,3.0
c,snake,0.5
d,dog,
e,dog,5.0
f,cat,2.0
g,snake,4.5
h,cat,
i,dog,7.0
j,dog,3.0


Indique el número de animales distintos.


In [111]:
df[["animal"]].nunique()


animal    3
dtype: int64

Muestre un resumen estadístico de todas las variables.


In [112]:
df.describe(include = "all")

Unnamed: 0,animal,age,visits,priority
count,10,8.0,10.0,10
unique,3,,,2
top,cat,,,no
freq,4,,,6
mean,,3.4375,1.9,
std,,2.007797,0.875595,
min,,0.5,1.0,
25%,,2.375,1.0,
50%,,3.0,2.0,
75%,,4.625,2.75,
