# Biblioteca Pandas

### Series y DataFrames

In [1]:
import pandas as pd

In [2]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
animales = ['Tortuga', 'Zorro', 'Paloma', 'Elefante']
tipo = ['reptil', 'mamífero', 'ave', 'mamífero']
obj = pd.Series(tipo, index=animales)
obj

Tortuga       reptil
Zorro       mamífero
Paloma           ave
Elefante    mamífero
dtype: object

DataFrames

In [4]:
d = {'tipo_vivienda': ['casa', 'departamento'], 'm2': [35, 49]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,tipo_vivienda,m2
0,casa,35
1,departamento,49


### Cargando datos

In [5]:
df = pd.read_csv('fifa-statistics.csv')
df

FileNotFoundError: [Errno 2] File b'fifa-statistics.csv' does not exist: b'fifa-statistics.csv'

In [None]:
pd.read_table('fifa-statistics.csv',sep=',')

## Selección e Indexing

### loc e iloc

Para acceder a elementos del DataSet, y podemos acceder a diferentes filas u obtener fragmentos del DataSet.

*iloc* es para enteros.

In [None]:
df.loc[0, 'Team']

In [None]:
df.iloc[0, [1]]

In [None]:
df.iloc[2]

## Análisis descriptivo en Pandas

### describe, info y shape

In [None]:
df.describe()


In [None]:
df.info()

In [6]:
df.shape

(2, 2)

In [7]:
df.columns

Index(['tipo_vivienda', 'm2'], dtype='object')

Head te muestra los datos especificados.

In [8]:
df.head()

Unnamed: 0,tipo_vivienda,m2
0,casa,35
1,departamento,49


In [9]:
df.tail(4)

Unnamed: 0,tipo_vivienda,m2
0,casa,35
1,departamento,49


### unique y value_counts()

Unique nos da los valores unicos del dato especificado.

In [10]:
df['Team'].unique()

KeyError: 'Team'

In [11]:
df.Team.value_counts()

AttributeError: 'DataFrame' object has no attribute 'Team'

### count, min, max, mean, median, std y corr


In [12]:
df.corr()

Unnamed: 0,m2
m2,1.0


### Quantiles

In [None]:
df['Distance Covered (Kms)'].quantile(0.90) # 10th percentile

In [None]:
df['Distance Covered (Kms)'].median()

### Ordenando datos

In [None]:
df.sort_index()

## Combinando datasets

### concat y append 

In [2]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 1, 2, 3])
   

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                    index=[4, 5, 6, 7])


df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                    index=[8, 9, 10, 11])
frames = [df1, df2, df3]


In [5]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [6]:
pd.concat(frames)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [7]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                     index=[2, 3, 6, 7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [9]:
pd.concat([df1, df4], axis=1) # Concatenación horizontal

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [10]:
pd.concat([df1, df4], axis=1, join='inner') # Cambiando la forma de concatenar con join

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [11]:
df1.append(df2) # Append es otra forma de fácilmente concatenerar

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


### Merge

In [12]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})


pd.merge(left, right, on='key')

Unnamed: 0,A,B,key,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C1,D1
2,A2,B2,K2,C2,D2
3,A3,B3,K3,C3,D3


In [14]:
import numpy as np

## apply y map

### apply

In [38]:
usuarios_df = pd.DataFrame({'edad': [np.nan, 20, 41, 20],
                            'clics_por_hora': [156, np.nan, 210, 210]})
usuarios_df

Unnamed: 0,clics_por_hora,edad
0,156.0,
1,,20.0
2,210.0,41.0
3,210.0,20.0


In [18]:
import numpy as np
usuarios_df.apply(np.mean) # Se puede aplicar cualquier función que toma una fila o columna por entrada.

clics_por_hora    192.0
edad               27.0
dtype: float64

### applymap

In [19]:
usuarios_df.applymap(lambda x: x/2) # Se aplica elemento a elemento. En las series podemos usar directamente serie.map

Unnamed: 0,clics_por_hora,edad
0,78.0,
1,,10.0
2,105.0,20.5
3,105.0,10.0


## Missing values

### Filtrando valores faltantes

In [20]:
usuarios_df

Unnamed: 0,clics_por_hora,edad
0,156.0,
1,,20.0
2,210.0,41.0
3,210.0,20.0


In [21]:
usuarios_df.isna() 

Unnamed: 0,clics_por_hora,edad
0,False,True
1,True,False
2,False,False
3,False,False


In [22]:
usuarios_df.dropna()  # Puede borrarse toda fila que contenga un NaN o solamente en las columnas que especificamos

Unnamed: 0,clics_por_hora,edad
2,210.0,41.0
3,210.0,20.0


In [23]:
usuarios_df.dropna(subset=['edad'])

Unnamed: 0,clics_por_hora,edad
1,,20.0
2,210.0,41.0
3,210.0,20.0


In [24]:
copia_df = usuarios_df

In [26]:
usuarios_df

Unnamed: 0,clics_por_hora,edad
0,156.0,
1,,20.0
2,210.0,41.0
3,210.0,20.0


### Completando valores 

In [31]:
copia_df['edad'].fillna(usuarios_df.edad.mean())

0    27.0
1    20.0
2    41.0
3    20.0
Name: edad, dtype: float64

In [32]:
copia_df.fillna(0)

Unnamed: 0,clics_por_hora,edad
0,156.0,0.0
1,0.0,20.0
2,210.0,41.0
3,210.0,20.0


In [33]:
copia_df

Unnamed: 0,clics_por_hora,edad
0,156.0,
1,,20.0
2,210.0,41.0
3,210.0,20.0


In [34]:

copia_df.fillna(usuarios_df.edad.mean(), inplace=True) # Podemos elegir con qué completar los valores faltantes.

In [35]:
copia_df

Unnamed: 0,clics_por_hora,edad
0,156.0,27.0
1,27.0,20.0
2,210.0,41.0
3,210.0,20.0


### Borrando duplicados

In [39]:
usuarios_df

Unnamed: 0,clics_por_hora,edad
0,156.0,
1,,20.0
2,210.0,41.0
3,210.0,20.0


In [41]:
usuarios_df.drop_duplicates(subset=['edad'], keep='first') # Se puede jugar con el first, last, etc. Y también elegir en qué columnas

Unnamed: 0,clics_por_hora,edad
0,156.0,
1,,20.0
2,210.0,41.0
