# Pandas 

La biblioteca [pandas](https://pandas.pydata.org/getpandas.html) fue desarrollada por [
Wes McKinney](https://en.wikipedia.org/wiki/Wes_McKinney). La biblioteca de pandas es una biblioteca de código abierto de Python,
especialmente diseñada para el análisis de datos.



# Estructura de Datos en Pandas 

- Series 
- DataFrame
- Panel

## Serie

La serie es una matriz unidimensional, que puede contener cualquier tipo de
datos, tales como enteros, flotantes, cadenas y objetos de Python
también.

In [5]:
import pandas as pd
import numpy as np

In [2]:
pd.Series(np.random.randn(5))

0   -0.015831
1    1.549600
2   -1.138850
3   -0.784640
4   -0.574976
dtype: float64

El parámetro `random.randn` es parte del paquete [numpy](http://www.numpy.org/)

In [3]:
pd.Series(np.random.randn(5), index = ['a', 'b', 'c', 'd', 'e'])

a   -0.962884
b   -0.194571
c   -0.353269
d   -0.227185
e    0.891898
dtype: float64

In [4]:
d = {'A':10, 'B':20, 'C':30}
pd.Series(d)

A    10
B    20
C    30
dtype: int64

## DataFrame

DataFrame es estructura de datos en **2D** con columnas que pueden ser diferentes tipos de datos. Se puede ver como una mesa. Un DataFrame se puede formar a partir de las siguientes estructuras de datos:

- NumPy array
- Lists
- Dicts
- Series
- A 2D NumPy array



In [5]:
#a partir de un dict
d = {'c1': pd.Series (['A', 'B', 'C']),
     'c2': pd.Series ([1, 2., 3, 4])}
df = pd.DataFrame(d)
print(df)

    c1   c2
0    A  1.0
1    B  2.0
2    C  3.0
3  NaN  4.0


In [6]:
#se puede crear usando un dict de listas
d = {'c1': ['A', 'B', 'C', 'D'],
    'c2': [1, 2, 3, 4.]}
df = pd.DataFrame(d)
print(df)

  c1   c2
0  A  1.0
1  B  2.0
2  C  3.0
3  D  4.0


## Panel 

El panel es una información estructura que maneja datos en 3D

In [7]:
d = {'Item1': pd.DataFrame(np.random.randn(4, 3)),
'Item2': pd.DataFrame(np.random.randn(4, 2))}
pd.Panel(d)

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 3 (minor_axis)
Items axis: Item1 to Item2
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 2

# Insertar y Exportar Archivos 

## CSV

Los archivos CSV (del inglés comma-separated values) son un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las que las columnas se separan por comas (o punto y coma en donde la coma es el separador decimal: Chile, Perú, Argentina, España, Brasil...) y las filas por saltos de línea.

In [8]:
d = pd.read_csv('C:/Users/USER/Documents/CursoConPythonPalomino/test.csv')

In [9]:
print(d.head())

   PassengerId  Pclass                                          Name     Sex  \
0          892       3                              Kelly, Mr. James    male   
1          893       3              Wilkes, Mrs. James (Ellen Needs)  female   
2          894       2                     Myles, Mr. Thomas Francis    male   
3          895       3                              Wirz, Mr. Albert    male   
4          896       3  Hirvonen, Mrs. Alexander (Helga E Lindqvist)  female   

    Age  SibSp  Parch   Ticket     Fare Cabin Embarked  
0  34.5      0      0   330911   7.8292   NaN        Q  
1  47.0      1      0   363272   7.0000   NaN        S  
2  62.0      0      0   240276   9.6875   NaN        Q  
3  27.0      0      0   315154   8.6625   NaN        S  
4  22.0      1      1  3101298  12.2875   NaN        S  


In [10]:
#Nombre de variables
d.columns

Index(['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [11]:
d[0:10]['Name']

0                                Kelly, Mr. James
1                Wilkes, Mrs. James (Ellen Needs)
2                       Myles, Mr. Thomas Francis
3                                Wirz, Mr. Albert
4    Hirvonen, Mrs. Alexander (Helga E Lindqvist)
5                      Svensson, Mr. Johan Cervin
6                            Connolly, Miss. Kate
7                    Caldwell, Mr. Albert Francis
8       Abrahim, Mrs. Joseph (Sophie Halaut Easu)
9                         Davies, Mr. John Samuel
Name: Name, dtype: object

## Guardar un CSV

Tal vez quiera guardar su progreso al analizar datos. Quizas tu eres simplemente usando Python para manipular algunos datos para su posterior análisis en otra herramienta. O tal vez tiene alguna otra razón para exportar su marco de datos a un archivo CSV archivo.

In [51]:
nombres = ['Jhuvely','Willy','Alex','Jose','Karen']
notas = [76,95,77,78,99]
notList = list(zip(nombres, notas))
df = pd.DataFrame(data = notList, columns=['nombres','notas'])
df.to_csv('NotasDeEstudiantes.csv',index=False,header=False)

## Cargando datos de archivos de Excel

XLSX son los documentos de salida de hoja de cálculo por defecto de las versiones más recientes de Microsoft Excel.

In [3]:
location = 'C:/Users/USER/Documents/CursoConPythonPalomino/gradedata.xlsx'

In [6]:
dataExc = pd.read_excel(location)

In [7]:
dataExc.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"7379 Highland Rd. , Dublin, GA 31021"
1,Kadeem,Morrison,male,18,4,4,78.2,"8 Bayport St. , Honolulu, HI 96815"
2,Nash,Powell,male,18,5,9,79.3,"Encino, CA 91316, 3 Lilac Street"
3,Noelani,Wagner,female,14,2,7,83.2,"Riverview, FL 33569, 9998 North Smith Dr."
4,Noelani,Cherry,female,18,4,15,87.4,"97 SE. Ocean Street , Bethlehem, PA 18015"


## Guardar datos en archivos Excel

 La función `zip()`en Python 3 y superior devuelve un objeto zip especial, que es esencialmente un generador.

In [29]:
nombres = ['Edwin', 'Jhuvely', 'Karen', 'Jose', 'Willy']
notas = [10, 18, 15, 14, 11]
notNombr = list(zip(nombres, notas))
df = pd.DataFrame(data=notNombr, columns=['nombres', 'notas'])
directorio = pd.ExcelWriter('Estudiantes.xlsx', engine='xlsxwriter')
df.to_excel(directorio, sheet_name='Hoja1')
directorio.save()

## JSON

JSON (JavaScript Object Notation - Notación de Objetos de JavaScript) es un formato ligero de intercambio de datos. Leerlo y escribirlo es simple para humanos, mientras que para las máquinas es simple interpretarlo y generarlo. Está basado en un subconjunto del Lenguaje de Programación JavaScript.

In [80]:
import json

In [82]:
json_data = open('C:/Users/USER/Documents/CursoConPythonPalomino/Student_Weight_Status_Category_Reporting_Results__Beginning_2010.json') 

In [83]:
data = json.load(json_data)

In [91]:
data[0:1]

[{'area_name': 'WYOMING',
  'area_type': 'COUNTY',
  'county': 'WYOMING',
  'grade_category': 'DISTRICT TOTAL',
  'location_code': '000067',
  'obese_1': '252',
  'obese_2': '0.189',
  'overweight_1': '212',
  'overweight_2': '0.159',
  'overweight_or_obese_1': '464',
  'overweight_or_obese_2': '0.347',
  'region': 'WESTERN NEW YORK',
  'school_years': '2012-2014'}]

## txt

In [93]:
dataText = pd.read_table('C:/Users/USER/Documents/CursoConPythonPalomino/string.txt')

In [94]:
dataText.head()

Unnamed: 0,x,y
0,10,34.7081
1,12,34.5034
2,14,36.5656
3,16,38.3125
4,18,42.5441


## URL

In [97]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
irisUrl = pd.read_csv(url)

In [96]:
irisUrl.head()

Unnamed: 0,5.1,3.5,1.4,0.2,Iris-setosa
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa
