# Práctica Clase 4

## Biblioteca Pandas


## Introducción

* Las filas y columnas están identificados con etiquetas, además de simples índices enteros
* Es importante entender un poco de las estructuras de Pandas
* Tres estructuras importantes:
    + `Series`
    + `DataFrame`
    + `Index`

In [None]:
import numpy as np
import pandas as pd

## Objetos `Series` en Pandas

* Puede pensarse como una array de una sola dimensión indexado. 
* Puede ser creado desde una lista:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0, 1.3])
data

* Una ``Series`` encapsula tanto una secuencia de valores como una de índices.
* Podemos acceder a ellos con los atributos `values` e `index`

In [None]:
data.values

* Un `index` es un objeto similar a un array.

In [None]:
data.index

* Podemos acceder a una `Series` a través del índice asociado de forma similar a los arrays de Numpy: con los `[]` 


In [None]:
data[1]

In [None]:
data[2:]

### ``Series`` como generalización de un array de  NumPy 

* La diferencia esencial con un array de Numpy es que mientras que el array tiene un índice entero *"implícitamente definido"*, una `Series` de Pandas tiene un índice asociado a los valores *que está definido de forma explícita*
* Este índice explícito le da a una `Series` capacidades adicionales.
* El índice explícito no tiene por qué ser un entero y tampoco todos sus valores tienen que ser necesariamente únicos.

* Pueden ser `strings` 

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

In [None]:
data.index

* Y podemos acceder simplemente:

In [None]:
data['b']

* O puede ser una secuencia no contigua de `int`s

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 1])
data

In [None]:
data[5]

### ``Series`` como un `dict` especializado

* Un `dict` es una estructura que mapea un set de keys arbitrarias a un set de valores de un tipo.
* Puede hacerse, entonces, una analogía entre una `Series` y un `dict`

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)
population

In [None]:
population.values

In [None]:
population.index

* Puede crearse una `Series` a partir de un `dict`: el índice se toma de las keys.
* Así, puede accederse de forma análoga a un `dict`.

In [None]:
population['California']

* A diferencia de un `dict` una `Series` soporta algunas operaciones del estilo de un array, como por ejemplo, slicing:

In [None]:
population['California':'New York']

* Si creamos una `Series` con una lista de strings se respeta el orden de las columnas, mientras que las claves de los `dicts` se ordenan alfabéticamente al crearse la `Series`

In [None]:
states_list = ['Illinois','Texas','New York', 'Florida', 'California']
states_pop = [12882135, 26448193, 19651127, 19552860, 38332521]
states = pd.Series(states_pop, index= states_list)

In [None]:
states['Illinois':'New York']

### Construyendo objetos Series

* Podemos construir `Series` desde cero. La forma general de hacerlo es la siguiente:

```python
>>> pd.Series(data, index=index)
```
* `index` es un argumento opcional y `data` puede ser varias cosas

In [None]:
# Una lista o un array de Numpy
pd.Series([2, 4, 6])

In [None]:
# Un escalar repetido a lo largo de un índice
pd.Series(5, index = [100, 200, 300])

In [None]:
# Un diccionario
pd.Series({2:'a', 1:'b', 3:'c'}) 

In [None]:
# En cada caso, podría usarse el índice explícitamente si lo que se busca es otro resultado
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2]) 

## Objeto `DataFrame`

* Otra estructura fundamental. 
* También puede ser pensada como una generalización de un array de NumPy o como un tipo especial de diccionario.

### `DataFrame` como un array de Numpy

* Un `DataFrame` es un tipo análogo a una `Series` en dos dimensiones y, por lo tanto, puede ser una pensado tanto como una generalización de un array de Numpy o como un conjunto de `Series` alineados. Es decir, que tienen el mismo índice.

* Para demostrar esto generemos una `Serie` con el área de algunos estados:

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': np.nan}
area = pd.Series(area_dict)
area

In [None]:
population

* Ahora, podemos usar un diccionario para construir un objeto bidimensional conteniendo toda la información.

In [None]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Al igual que las ``Series``, un ``DataFrame`` posee un atributo ``index``:

In [None]:
states.index

Además, tiene un atributo ``columns``, que es un objeto ``Index`` conteniendo las etiquetas de columnas:

In [None]:
states.columns

In [None]:
states['population']

In [None]:
states

In [None]:
states['density'] = states['population'] / states['area']
states

### DataFrame como un diccionario especializado

* De forma similar, podemos pensar al `DataFrame` como un diccionario: 
    
    - Un diccionario mapea una key con un valor
    - Un `DataFrame` mapea un nombre de columna con una `Series` de datos.
    
    
* Por ejemplo, pedir el atributo `area` del `DataFrame` `states` devuelve una `Series`. 

In [None]:
states['area']

### Construyendo objetos `DataFrame`

#### Desde una `Series` simple:

In [None]:
pd.DataFrame(population, columns=['population'])

#### Desde una lista de dicts

In [None]:
data = [{'a': i, 'b': 2 * i}
        for i in range(10)]
pd.DataFrame(data)

* Notar que incluso si alguna key está perdida en el diccionario, Pandas llena con `NaN` el valor:

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

#### De un dict de `Series`

In [None]:
pd.DataFrame({'population': population,
              'area': area})

#### Desde un array Numpy de dos dimensiones

In [None]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

## El objeto `Index`

* Un `Index` puede ser pensado como un _array inmutable_  o como un set ordenado
* Para ilustrar las implicancias de este punto pensemos en el siguiente ejemplo en el que construimos un `Index` desde una lista de enteros.
* Los `DataFrames` tienen un `Index` que describe a las filas y otro que describe a las columnas. 
* Al  `Index` de filas se accede con `df.index` y al de columna `df.columns`.

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

### `Index` como una array inmutable

* Podemos indexar y hacer slicing de forma similar a un array

In [None]:
ind[1]

In [None]:
ind[::2]

Los `Index` tienen atributos similares a los arrays de Numpy

In [None]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

Una diferencia entre los ``Index`` y los arrays de NumPy es que los primeros son *inmutables*:

In [None]:
ind[1] = 0

### `Index` como un set ordenado

* Se pueden utilizar operaciones de conjuntos con los ``Index`` siguiendo las convenciones de Python

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [None]:
indA & indB  # intersection

In [None]:
indA | indB  # union

In [None]:
indA ^ indB  # symmetric difference

### Series y DataFrames

In [None]:
import pandas as pd

In [None]:
obj = pd.Series([4, 7, -5, 3])
obj

In [None]:
animales = ['Tortuga', 'Zorro', 'Paloma', 'Elefante']
tipo = ['reptil', 'mamífero', 'ave', 'mamífero']
obj = pd.Series(tipo, index=animales)
obj

DataFrames

In [None]:
d = {'tipo_vivienda': ['casa', 'departamento'], 'm2': [35, 49]}
df = pd.DataFrame(data=d)
df

### Cargando datos

In [None]:
df = pd.read_csv('fifa-statistics.csv')
df

## Selección e Indexing

### loc e iloc

In [None]:
df.loc[0, 'Team']

In [None]:
df.iloc[0, [1]]

In [None]:
df.iloc[2]

## Análisis descriptivo en Pandas

### describe, info y shape

In [None]:
df.describe()

In [None]:
df.info()

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.head(3)

In [None]:
df.tail(4)

### unique y value_counts()

In [None]:
df['Team'].unique()

In [None]:
df.Team.value_counts()

### count, min, max, mean, median, std y corr


In [None]:
df.corr()

## Precentiles

Son una medida usada en estadística que indica el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones. Ahora los Cuantiles son puntos tomados a intervalos regulares de la función de distribución de una variable aleatoria. Los cuantiles podemos usarlos por grupos que dividan la distribución en partes iguales; obteniendo sus hijos, los Percentiles, Deciles y Quartiles.

In [None]:
df['Distance Covered (Kms)'].quantile(0.5) # 10th percentile

In [None]:
df['Distance Covered (Kms)'].median()

### Ordenando datos

In [None]:
df.sort_index()

In [None]:
df.sort_values(["Goal Scored"], ascending=False).head()

### Tablas Dinamicas

In [None]:
import numpy as np

In [None]:
df.pivot_table(index='Team', columns='Round', values='Goal Scored', aggfunc=np.sum)

## Combinando datasets

### concat y append 

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 1, 2, 3])
   

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                    index=[4, 5, 6, 7])


df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11']},
                    index=[8, 9, 10, 11])

frames = [df1, df2, df3]


In [None]:
df3

In [None]:
pd.concat(frames)

In [None]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                     index=[2, 3, 6, 7])
df4

In [None]:
frames = [df1, df2, df3, df4]
pd.concat(frames)

In [None]:
pd.concat([df1, df4], axis=1) # Concatenación horizontal

In [None]:
pd.concat([df1, df4], axis=1, join='inner') # Cambiando la forma de concatenar con join

In [None]:
df1.append(df2) # Append es otra forma de fácilmente concatenerar

### Merge

In [None]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']})


pd.merge(left, right, on='key')

In [None]:
import numpy as np

## Apply y Map

### apply

In [None]:
usuarios_df = pd.DataFrame({'edad': [np.nan, 20, 41, 20],
                            'clics_por_hora': [156, np.nan, 210, 210]})
usuarios_df

In [None]:
import numpy as np
usuarios2 = usuarios_df.apply(np.mean) # Se puede aplicar cualquier función que toma una fila o columna por entrada.

In [None]:
usuarios2

In [None]:
usuarios_df

### applymap

In [None]:
usuarios_df.applymap(lambda x: x/2) # Se aplica elemento a elemento. En las series podemos usar directamente serie.map

## Missing values

### Filtrando valores faltantes

In [None]:
usuarios_df

In [None]:
usuarios_df.isna()

In [None]:
u2 = usuarios_df.dropna()  # Puede borrarse toda fila que contenga un NaN o solamente en las columnas que especificamos

In [None]:
u2

In [None]:
usuarios_df

In [None]:
usuarios_df.dropna(subset=['edad'])

In [None]:
copia_df = usuarios_df

In [None]:
usuarios_df

### Completando valores 

In [None]:
usuarios_df = pd.DataFrame({'edad': [np.nan, 20, 41, 20, 22, 25],
                            'clics_por_hora': [156, np.nan, 210, 210, 100, np.nan],
                            'genero': ['m','f','f','f','m','f']})
usuarios_df

In [None]:
usuarios_df_m = usuarios_df[usuarios_df['genero'] == 'm']

In [None]:
usuarios_df_f = usuarios_df[usuarios_df['genero'] == 'f']

In [None]:
usuarios_df_f['edad'].fillna(usuarios_df_f.edad.mean())

In [None]:
usuarios_df_m['edad'].fillna(usuarios_df_m.edad.mean())

In [None]:
copia_df['edad'].fillna(usuarios_df.edad.mean())

In [None]:
copia_df['edad'].fillna(usuarios_df.edad.mean())

In [None]:
copia_df.fillna(0)

In [None]:
copia_df

In [None]:
copia_df1 = copia_df.fillna(usuarios_df.edad.mean()) # Podemos elegir con qué completar los valores faltantes., inplace=True

In [None]:
copia_df1

In [None]:
copia_df.fillna(usuarios_df.edad.mean(), inplace=True) # Podemos elegir con qué completar los valores faltantes.

In [None]:
copia_df

### Borrando duplicados

In [None]:
usuarios_df = pd.DataFrame({'edad': [np.nan, 20, 41, 20, 20, 41],
                            'clics_por_hora': [156, np.nan, 210, 210, 100, np.nan],
                            'genero': ['m','f','f','f','m','f']})
usuarios_df

In [None]:
usuarios_df.drop_duplicates(subset=['clics_por_hora'], keep='last', inplace=True) # Se puede jugar con el first, last, etc. Y también elegir en qué columnas

In [None]:
usuarios_df

In [None]:
usuarios_df.drop_duplicates(subset=['genero']) # Se puede jugar con el first, last, etc. Y también elegir en qué columnas

In [None]:
import pandas as pd
ejemplo = pd.DataFrame({'campo1': [None, 20, 41, 20], 'campo2': [156, None, 210, 210]})
ejemplo

In [None]:
ejemplo.fillna(ejemplo.campo2.mean(), inplace=True)
ejemplo.fillna(ejemplo.campo1.mode()) #, inplace=True)
ejemplo

In [None]:
print("Hola mundo")