# Como leer datos
¿*read_csv* o *read_table*? Ambos hacen exactamente lo mismos, por lo que recomendamos utilizar *read_csv* siempre que se quieran leer datos de ficheros de texto delimitados

In [0]:
import pandas as pd

In [0]:
college = pd.read_csv('college.csv')
college.head()


In [0]:
college2 = pd.read_table('college.csv', delimiter=',')
college.equals(college2)


# Seleccionar una columna de datos
Tenemos dos opciones, podemos seleccionar utilizando el **punto** o podemos utilizar los **corchetes**. 

In [0]:
df=pd.read_csv('sample_data/california_housing_train.csv')


In [0]:
df.head()

In [0]:
df['population']

In [0]:
df.population
#esta notación no funciona:
# - Cuando tenemos espacio en los nombres
# - Cuando el nombre de la columna es el mismo que el de un método
# - Cuando queremos utilizar una variable como nombre de columna
# Los corchetes son un superconjunto de la notación del punto asi que USEMOS SIEMPRE LOS CORCHETES

# Selección de celdas específicas
Para seleccionar celdas específicas también tenemos diferentes opciones:


*   el indexador *ix* --> obsoleto no deberíamos de utilizarlo
*   Los indexadores *at* e *iat*
*   Los indexadores *loc* e *iloc*

Los indexadores *at* e *iat* tienen mejor rendimiento que los *loc* e *iloc* pero con una sintaxis un poco más compleja y si realmente tenemos problemas de rendimiento deberíamos de utilizar directamente arrays Numpy para mejorarlo




In [0]:
import numpy as np
a = np.random.rand(10 ** 5, 5)
df1 = pd.DataFrame(a)
row = 50000
col = 3



In [0]:
%timeit df1.iloc[row, col]

In [0]:
%timeit df1.iat[row, col]

In [0]:
%timeit a[row, col]

# Comprobación de nulos o celdas vacías
Para comprobar nulos o celdas vacías también tenemos diferentes opciones que hacen exactamente lo mismo.
*isna* e *isnull* y *notna* y *notnull* 

El resultado será siempreun DataFrame (o Series) de todos los valores booleanos. 

Como existen otros métodos para trabajar con nulos como *dropna* y *fillna* nuestra recomendación es utilizar  *isna*  para estas comprobaciones, y como Pandas nos proporciona un operador de inversión *~* para invertir Dataframes booleanos, podemos evitar el uso de *notna*

In [0]:
college_isna = college.isna()
college_isnull = college.isnull()
college_isna.equals(college_isnull)


In [0]:
df.isna()

# Funciones estándar con el mismo nombre que métodos Pandas
Son sum, min, max, abs

Son dos implementaciones diferentes con diferencias de rendimiento. Las funciones estándar utilizan un buclo Python, mientras que los métodos Pandas están escritos en C e iteran más rápido

*Utilizar siempre que sea posible los métodos Pandas*

In [0]:
import pandas as pd
college = pd.read_csv('college.csv')

In [0]:
ugds = college['UGDS'].dropna()
ugds.head()


In [0]:
%timeit -n 5 max(ugds)

In [0]:
%timeit -n 5 ugds.max()

# Agregaciones groupby
Existen varias posibilidades para realizar agrupaciones en un dataframe, pero la recomendada es:

*df.groupby('columna de agrupación').agg({'columna de agregación': 'función de agregación'})*

Con esta sintáxis podemos resolver escenarios con diferentes funciones sobre diferentes columnas que no sería posible con otras opciones de sintáxis. 

In [0]:
college[['STABBR', 'SATMTMID', 'SATVRMID', 'UGDS']].head()

In [0]:
college.groupby('STABBR').agg({'SATMTMID': 'max'}).head()

In [0]:
college.groupby('STABBR')['SATMTMID'].max().head()


In [0]:
college.groupby('STABBR').agg({'SATMTMID': ['min', 'max'],'SATVRMID': ['min', 'max'],'UGDS': 'mean'}).round(0).head(10)


# Manejando MultiIndex

Habitual con agrupaciones de más de un campo. En este caso tenemos tantos filas como columnas con dos niveles de índice. Trabajar con ellos hace la selección compleja, y limita el posible uso en muchas funciones


In [0]:
agg_dict = {'SATMTMID': ['min', 'max'],'SATVRMID': ['min', 'max'],'UGDS': 'mean'}
df = college.groupby(['STABBR', 'RELAFFIL']).agg(agg_dict)
df.head(10).round(0)



In [0]:
#renombramos las columnas
df.columns = ['min satmtmid', 'max satmtmid', 'min satvrmid', 'max satvrmid', 'mean ugds']
df.head()


In [0]:
#reseteamos el índice, convirtiendo cada nivel del índice en una columna
df.reset_index().head()

# Pivot_Table
Muy similar a group by, pero con un salida más orienta a visualización. es más sencillo comparar resultados entre dos grupos que con la salida del group_by. Utilízala cuando quieras presentar datos, pero sigue utilizando groupby si vas a hacer más análisis, porque serán más sencillos los siguientes procesados que necesites realizar

In [0]:
agg_dict = {'UGDS': 'mean'}
df = college.groupby(['STABBR', 'RELAFFIL']).agg(agg_dict)
df.head(10).round(0)

In [0]:
df.pivot_table(index=['RELAFFIL'], columns='STABBR', values='UGDS', aggfunc='mean').round(0)


Disponemos también de l afunción crosstab, que es un subconjunto de pivot_table, pero con la funcionalidad extra de calcular la frecuencia relativa entre grupos

# Obtener información de nuesto DataFrame


In [0]:
df=pd.read_csv('sample_data/california_housing_train.csv')
df.head()

In [0]:
df.tail()

In [0]:
#información de nuestro dataframe
df.info()

In [0]:
#Estadística básica
df.describe()


In [0]:
df.dtypes

In [0]:
df.shape

In [0]:
df.count()