# Biblioteca Pandas

### Series y DataFrames

In [1]:
import pandas as pd

In [2]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
animales = ['Tortuga', 'Zorro', 'Paloma', 'Elefante']
tipo = ['reptil', 'mamífero', 'ave', 'mamífero']
obj = pd.Series(tipo, index=animales)
obj

Tortuga       reptil
Zorro       mamífero
Paloma           ave
Elefante    mamífero
dtype: object

DataFrames

In [4]:
d = {'tipo_vivienda': ['casa', 'departamento'], 'm2': [35, 49]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,tipo_vivienda,m2
0,casa,35
1,departamento,49


### Cargando datos

In [5]:
df = pd.read_csv('fifa-statistics.csv')
df

FileNotFoundError: File b'fifa-statistics.csv' does not exist

In [None]:
pd.read_table('fifa-statistics.csv',sep=',')

## Selección e Indexing

### loc e iloc

In [None]:
df.loc[0, 'Team']

In [None]:
df.iloc[0, [1]]

In [None]:
df.iloc[2]

## Análisis descriptivo en Pandas

### describe, info y shape

In [None]:
df.describe()


In [None]:
df.info()

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.head()

In [None]:
df.tail(4)

### unique y value_counts()

In [None]:
df['Team'].unique()

In [None]:
df.Team.value_counts()

### count, min, max, mean, median, std y corr


In [None]:
df.corr()

### Quantiles

In [None]:
df['Distance Covered (Kms)'].quantile(0.90) # 10th percentile

In [None]:
df['Distance Covered (Kms)'].median()

### Ordenando datos

In [None]:
df.sort_index()

## Combinando datasets

### concat y append 

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 1, 2, 3])
   

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                    index=[4, 5, 6, 7])


df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                    index=[8, 9, 10, 11])
frames = [df1, df2, df3]


In [None]:
df3

In [None]:
pd.concat(frames)

In [None]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                     index=[2, 3, 6, 7])
df4

In [None]:
pd.concat([df1, df4], axis=1) # Concatenación horizontal

In [None]:
pd.concat([df1, df4], axis=1, join='inner') # Cambiando la forma de concatenar con join

In [None]:
df1.append(df2) # Append es otra forma de fácilmente concatenerar

### Merge

In [None]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})


pd.merge(left, right, on='key')

In [None]:
import numpy as np

## apply y map

### apply

In [None]:
usuarios_df = pd.DataFrame({'edad': [np.nan, 20, 41, 20],
                            'clics_por_hora': [156, np.nan, 210, 210]})
usuarios_df

In [None]:
import numpy as np
usuarios_df.apply(np.mean) # Se puede aplicar cualquier función que toma una fila o columna por entrada.

### applymap

In [None]:
usuarios_df.applymap(lambda x: x/2) # Se aplica elemento a elemento. En las series podemos usar directamente serie.map

## Missing values

### Filtrando valores faltantes

In [None]:
usuarios_df

In [None]:
usuarios_df.isna() 

In [None]:
usuarios_df.dropna()  # Puede borrarse toda fila que contenga un NaN o solamente en las columnas que especificamos

In [None]:
usuarios_df.dropna(subset=['edad'])

In [None]:
copia_df = usuarios_df

In [None]:
usuarios_df

### Completando valores 

In [None]:
copia_df['edad'].fillna(usuarios_df.edad.mean())

In [None]:
copia_df.fillna(0)

In [None]:
copia_df

In [None]:

copia_df.fillna(usuarios_df.edad.mean(), inplace=True) # Podemos elegir con qué completar los valores faltantes.

In [None]:
copia_df

### Borrando duplicados

In [None]:
usuarios_df

In [None]:
usuarios_df.drop_duplicates(subset=['edad'], keep='first') # Se puede jugar con el first, last, etc. Y también elegir en qué columnas