# Pandas 

La biblioteca [pandas](https://pandas.pydata.org/getpandas.html) fue desarrollada por [
Wes McKinney](https://en.wikipedia.org/wiki/Wes_McKinney). La biblioteca de pandas es una biblioteca de código abierto de Python,
especialmente diseñada para el análisis de datos.

<center>![](https://static1.squarespace.com/static/5378d8b8e4b078c526a500ea/t/59fb7534e2c483961b0e1263/1509651770341/pandas-logo.png)

# Estructura de Datos en Pandas 

- Series 
- DataFrame
- Panel

## Serie

La serie es una matriz unidimensional, que puede contener cualquier tipo de
datos, tales como enteros, flotantes, cadenas y objetos de Python
también.

In [75]:
import pandas as pd
import numpy as np

In [3]:
pd.Series(np.random.randn(5))

0   -1.168435
1    1.412832
2   -0.528269
3    1.697726
4   -0.945473
dtype: float64

El parámetro `random.randn` es parte del paquete [numpy](http://www.numpy.org/)

In [4]:
pd.Series(np.random.randn(5), index = ['a', 'b', 'c', 'd', 'e'])

a    0.169430
b   -0.784381
c   -0.619009
d   -1.072753
e   -0.214960
dtype: float64

In [5]:
d = {'A':10, 'B':20, 'C':30}
pd.Series(d)

A    10
B    20
C    30
dtype: int64

## DataFrame

DataFrame es estructura de datos en **2D** con columnas que pueden ser diferentes tipos de datos. Se puede ver como una mesa. Un DataFrame se puede formar a partir de las siguientes estructuras de datos:

- NumPy array
- Lists
- Dicts
- Series
- A 2D NumPy array

<center>![](https://www.tutorialspoint.com/python_pandas/images/structure_table.jpg)

In [6]:
#a partir de un dict
d = {'c1': pd.Series (['A', 'B', 'C']),
     'c2': pd.Series ([1, 2., 3, 4])}
df = pd.DataFrame(d)
print(df)

    c1   c2
0    A  1.0
1    B  2.0
2    C  3.0
3  NaN  4.0


In [7]:
#se puede crear usando un dict de listas
d = {'c1': ['A', 'B', 'C', 'D'],
    'c2': [1, 2, 3, 4.]}
df = pd.DataFrame(d)
print(df)

  c1   c2
0  A  1.0
1  B  2.0
2  C  3.0
3  D  4.0


## Panel 

El panel es una información estructura que maneja datos en 3D

In [8]:
d = {'Item1': pd.DataFrame(np.random.randn(4, 3)),
'Item2': pd.DataFrame(np.random.randn(4, 2))}
pd.Panel(d)

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 3 (minor_axis)
Items axis: Item1 to Item2
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 2

# Insertar y Exportar Archivos 

## CSV

In [28]:
d = pd.read_csv('C:/Users/USER/Documents/CursoConPythonPalomino/test.csv')

In [10]:
print(d.head())

   PassengerId  Pclass                                          Name     Sex  \
0          892       3                              Kelly, Mr. James    male   
1          893       3              Wilkes, Mrs. James (Ellen Needs)  female   
2          894       2                     Myles, Mr. Thomas Francis    male   
3          895       3                              Wirz, Mr. Albert    male   
4          896       3  Hirvonen, Mrs. Alexander (Helga E Lindqvist)  female   

    Age  SibSp  Parch   Ticket     Fare Cabin Embarked  
0  34.5      0      0   330911   7.8292   NaN        Q  
1  47.0      1      0   363272   7.0000   NaN        S  
2  62.0      0      0   240276   9.6875   NaN        Q  
3  27.0      0      0   315154   8.6625   NaN        S  
4  22.0      1      1  3101298  12.2875   NaN        S  


In [15]:
#Nombre de variables
d.columns

Index(['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [17]:
d[0:10]['Name']

0                                Kelly, Mr. James
1                Wilkes, Mrs. James (Ellen Needs)
2                       Myles, Mr. Thomas Francis
3                                Wirz, Mr. Albert
4    Hirvonen, Mrs. Alexander (Helga E Lindqvist)
5                      Svensson, Mr. Johan Cervin
6                            Connolly, Miss. Kate
7                    Caldwell, Mr. Albert Francis
8       Abrahim, Mrs. Joseph (Sophie Halaut Easu)
9                         Davies, Mr. John Samuel
Name: Name, dtype: object

## JSON

In [80]:
import json

In [82]:
json_data = open('C:/Users/USER/Documents/CursoConPythonPalomino/Student_Weight_Status_Category_Reporting_Results__Beginning_2010.json') 

In [83]:
data = json.load(json_data)

In [91]:
data[0:1]

[{'area_name': 'WYOMING',
  'area_type': 'COUNTY',
  'county': 'WYOMING',
  'grade_category': 'DISTRICT TOTAL',
  'location_code': '000067',
  'obese_1': '252',
  'obese_2': '0.189',
  'overweight_1': '212',
  'overweight_2': '0.159',
  'overweight_or_obese_1': '464',
  'overweight_or_obese_2': '0.347',
  'region': 'WESTERN NEW YORK',
  'school_years': '2012-2014'}]

## txt

In [93]:
dataText = pd.read_table('C:/Users/USER/Documents/CursoConPythonPalomino/string.txt')

In [94]:
dataText.head()

Unnamed: 0,x,y
0,10,34.7081
1,12,34.5034
2,14,36.5656
3,16,38.3125
4,18,42.5441


## URL

In [97]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
irisUrl = pd.read_csv(url)

In [96]:
irisUrl.head()

Unnamed: 0,5.1,3.5,1.4,0.2,Iris-setosa
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa
