<a href="https://colab.research.google.com/github/Dr-Carlos-Villasenor/PatternRecognition/blob/main/PR01_01_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Reconocimeinto de Patrones
## Dr. Carlos Vilaseñor
## Biblioteca Pandas

La biblioteca *pandas* es una extensión de *NumPy* y *Matplotlib* útil para la manipulación y análisis de datos en *Python*.

In [1]:
import pandas as pd
import numpy as np

## Objetos principales

Existen dos objetos principales en la biblioteca de *pandas*, el objeto **Series** y el objeto **DataFrame**

### Objeto Series

El objeto Series un arreglo de *NumPy* ndarray unidimensional con etiquetas en el eje, por ejemplo:


In [None]:
s = pd.Series([3, -5, 7, 4], index=['a', 'b', 'c', 'd'])
print(s)
print('acceso a elemento: ', s['a'])

### Objeto DataFrame

El objeto DataFrame es el principal objeto de la biblioteca es un arreglo bidimensional de datos mezclados con encabezado (muy similar a los DataFrame del lenguaje de programación *R*), acontinuación un ejemplo:

In [None]:
data = { 'Nombre':['Carlos', 'Julia','Fabiola', 'Ernesto'],
           'edad':[28,25,56,21],
        'calificación':[100,89,48,75]}
# Es muy común llamar df a nuestro DataFrame
df = pd.DataFrame(data)
print(df)

Para ingresar a cada dato de nuestro DataFrame, lo podemos hacer de las siguientes maneras como si fuera una matriz

In [None]:
print(df.iat[0,0])
print(df.iat[1,2])
print(df.at[2,'Nombre'])

Podemos escribir en el DataFrame con la misma indexación

In [None]:
s['b'] = 5
print('s = \n', s)
df.at[0,'Nombre'] = 'Charlie'
print('df = \n', df)

Tambien podemos eliminar filas de las Series y DataFrames

In [None]:
s.drop(['a'])
print(s)
df.drop('calificación', axis=1)
print(df)
df = df[df.Nombre != 'Charlie']
print(df)

## Exploración de datos

Trabajemos con un DataFrame mayor, para esto podemos leer desde un archivo *CSV*

In [None]:
!wget 'https://raw.githubusercontent.com/Dr-Carlos-Villasenor/PatternRecognition/main/Dataset/countries.csv'
df = pd.read_csv('countries.csv')

Cuando se sabe poco de los datos que estamos leyendo es buena costumbre hacer una exploración de los datos por ejemplo con las siguientes funciones

In [None]:
# Se imprimen los primeros cinco regristros
df.head()

In [None]:
# Se imprimen los últimos cinco registros
df.tail()

In [None]:
# Tamaño del DataFrame
print(df.shape)

In [None]:
# Información del DataFrame
df.info()

In [None]:
# Mostrar columnas
df.columns

In [None]:
# Datos estadísticos de las variables númericas
df.describe()

In [None]:
# Crear una matrix de datos
df.values

In [None]:
# Media de variables númericas
print(df.mean())
print(df.max())

In [None]:
# Renombrar columnas
df = df.rename(columns={'gdpPercap':'gdp'})
df.head()

## Selección, reemplazo, filtrado, ordenación

A continuación se muestran varios metodos de selección de sub DataFrames

In [None]:
# Regresar una columna como Series
s1 = df['country']
s2 = df.country
print(s1)
print(s2)

In [None]:
# Regresar una columna como un DataFrame
df2 = df[['country']]
df2

In [None]:
# Cambiar todos los elementos con cierto valor
df2 = df.replace(1952,'one')
df2.head()

In [None]:
# Filtrado por columna
df[df.country == 'Mexico']

In [None]:
# Filtrado por multiples columnas
df[(df.country == 'Mexico')&(df.year >= 1977)&(df.lifeExp < 70)]

La siguiente notación nos da un warning ya que puede ser ambigua

In [None]:
#Filtrado con reindexado automático
df_mex = df[df.country == 'Mexico'][df.year >= 1977][df.lifeExp < 70]
df_mex

In [None]:
# Reindexar datos
df_mex = df_mex.reset_index()
df_mex = df_mex.drop('index', axis=1)
print(df_mex)

In [None]:
# Ordenar datos por una columna
df_mex.sort_values('gdp')

## Dibujar

In [None]:
# Histograma de todas las variables númericas
df.hist()

In [None]:
# Dibujar solamente con el nombre de las columnas
df[df.country == 'Mexico'].plot(x='year',y='gdp')

En la exploración de datos es de suma importancia las graficas de disperción (scatter graphics), pandas nos permite dibujar todas las posibles graficas de dispersión e histogramas al mismo tiempo con el comando siguiente (está función es de suma importancia en la exploración de los datos):

In [None]:
# Matriz de dispersión
pd.plotting.scatter_matrix(df)

In [None]:
# Grafica de México
pd.plotting.scatter_matrix(df[df.country == 'Mexico'])

## Responder preguntas específicas

In [None]:
# ¿Cuantos y cuales países tienen una esperanza de vida mayor o igual a 80 en el 2002?
paises = list(df[df.year == 2002][df.lifeExp >= 80].country)
print('Número de paises: ', len(paises))
print('Paises: ', paises)

In [None]:
# ¿Pais con el mayor Producto Interno Bruto?
df[df.gdp == max(df.gdp)].country.iat[0]
#print('El pais con mayor PIB es: ', len(paises))

In [None]:
# ¿En qué año México sobrepaso los 70 millones de habitantes?
year = df[df.country == 'Mexico'][df['pop'] > 70000000].sort_values('pop').year.iat[0]
print('En el año de: ',year)